一次微陣列實驗能獲得細胞在某一條件下的全基因組表達數據,包含成千上萬個基因在細胞中的相對或豐度,不同條件(細胞周期的不同階段、藥物作用時間、腫瘤類型、不同病人等)下的全基因組表達數據就構成了一個G×N的數據矩陣M,通常情況下G>>N,其中每一個元素

代表基因 i 在 N 個條件下的表達水平,稱為基因 i 的表達譜,列向量
(8-1)
對基因表達數據進行聚類、分類等數據分析之前,往往需要進行預處理,包括對丟失數據進行填補、清除不完整的數據或合并重復數據等數據清洗,根據分析的目的進行數據過濾,以及針對分析方法選擇合適的數據轉換方法等。
數據清洗是數據分析前必須進行的一項工作,對于基因表達數據,目的是去除表達水平是負值或很小的數據、或者明顯的噪聲數據 ( 單個異常大或小的峰谷信號 ) ,同時處理缺失數據。 DNA 微陣列實驗得到的數據一般是經過歸一化處理的,每個點的信號強度是前景信號減去背景信號,因此有時會出現負值或很小的值,顯然負值是沒有生物學意義的。對于這些數據點,通過數據清洗過程可以置為缺失或賦予統一的數值,例如,對于寡核苷酸芯片數據,可以將低于 100 的數據全部設置為 100 。 DNA 微陣列表達數據由于實驗條件和芯片的因素,檢測得到的信號強度往往與細胞中實際的 mRNA 豐度之間沒有對應關系,因此,通常是采用兩個條件下的信號強度的比值,例如,在 cDNA 微陣列雙色實驗中,zui后得到的往往是 Ratio 值。而寡核苷酸單色實驗的結果是信號強度,然而在處理一組數據時,也往往選擇一個樣本作為對照樣本,將實驗數據轉換成 Ratio 值。在計算 Ratio 值時,如果參考樣本的信號強度很小,就可能得到很大的 Ratio 。如果一個基因譜中僅僅存在單個特別大的 Ratio 值,稱之為異常數據點,這往往是由于噪聲造成的。對于這個異常數據點,必須去除。數據的缺失對于某些后續數據分析方法(例如層次式聚類和 PCA )來說有著非常大的影響,甚至是致命性的,這時必須采取相應的方法。一個簡單方法是直接過濾掉這些存在缺失數據項的行向量或列向量。另一個方法是設定閾值,計算行向量或列向量中的缺失項數目,如果達到該閾值,則將該數據項所在行或列從數據矩陣 M 中刪除;如果沒有達到閾值但存在缺失項,對這些缺失項可以進行插值。以 0 代替缺失項,或用基因表達譜中的平均值或中值進行替代,這些方法都比較簡單,但是否與真實值接近,很難進行評估。較為復雜和可靠的方法是,分析基因表達譜的模式,從中得到相鄰數據點之間的關系,根據這種關系,利用相鄰數據點估算得到缺失值。這種方法類似于 k 近鄰方法,需要有足夠的完整的模式來發現有缺失值的相鄰模式,需要有足夠的值來確定它們的鄰居。
在細胞中,基因表達有時空特異性,在某一條件下,能夠表達的基因占基因總數的少部分,而大多數基因僅維持基礎轉錄或不轉錄,轉錄本豐度很小,因此, DNA 微陣列實驗得到的數據矩陣中存在大量的基因表達譜曲線是平坦的,即基因表達水平變化很小。對于這些基因,往往不是生物學家所關心的,而它們的存在,卻會大大增加數據分析的復雜性,而且會對一些分析方法的結果有干擾。對這些數據進行過濾是非常有必要的。要保留的基因表達譜究竟占總體數據的多少比例?這個問題是與分析目的密切相關的,例如對于分析細胞周期相關的基因表達,保留的基因可能較多;而對于腫瘤特異基因表達譜分析,保留的基因往往較少。過濾基因所采用的標準有:①基因表達譜中zui大值與zui小值的差;②標準差;③均方根;④值大于閾值的數據個數等。根據分析的對象和目的,可以選擇以上一個或多個標準,確定閾值,從而選擇基因表達譜。
基因表達譜數據經過過濾,在進行聚類分析等操作前,往往還需要進行數據轉換。數據轉換是將數據變換為適合數據挖掘的形式,可以根據需要構造出新的數據屬性以幫助理解分析數據的特點,或者將數據規范化,使之落在一個特定的數據區間中。因此,數據轉換包括對數轉換和標準化兩個過程。
許多 DNA 微陣列實驗的結果是測量樣本與對照樣本間信號強度的 Ratio 值,對于 Ratio 值,在大多數情況下是轉換到對數 (log) 空間中進行處理,常用的對數底為 2, e, 10 。考慮時間序列上的基因表達數據,實驗結果是相對于 0 時刻的表達水平。如 圖 8.1 所示,假設在時間點 1 ,基因的表達水平沒有改變,在時間點 2 ,上調 2 倍,而時間點 3 ,下調 2 倍,原始的比率值分別為 1.0 、 2.0 、 0.5 。在大多數應用中,需要把上調 2 倍和下調 2 倍看作是變化的相同幅度,只是方向不同。在 Ratio 空間中,時間點 1 和 2 之間的差異是 +1.0 ,而時間點 1 和 3 之間是 -0.5 ,從數學角度看,上調 2 倍的數值是下調 2 倍的 2 倍。而在 log 空間中,(為了簡化,用 2 為底),這三個數據點分別為 0 、 1.0 、 -1.0 ,上調 2 倍與下調 2 倍是關于 0 對稱的。因此,對數轉換可以使小于 1 的值變大,大于 1 的值變小,從而使它們關于 0 對稱化,這種變換是否反映了一定的生物學意義,能更直觀的了解基因的上調或下調的幅度?尚沒有定論,但是對于大多數基因表達數據分析過程,都是在 log 空間中進行的。
(8-2)
(8-4)
其中,
,而要求數據滿足分布在 [a,b] 區間,則變換如下:
<img alt="基因表達數據的預處理策略" 基因表達數據的預處理策略"="" border="1" height="48" data-cke-saved-src="http://www.bio1000.com/uploads/allimg/120625/144223N48-10.png" src="http://www.bio1000.com/uploads/allimg/120625/144223N48-10.png" width="160" style="vertical-align: middle; border: 0px;"> (8-5)
還有一種數據標準化方法是數據的中心化。對于來自細胞系的大量腫瘤樣本與一個共同的對照樣本比較,每一個基因,相對于對照樣本中那個基因的表達水平,都有一系列的 Ratio 值。因為對照樣本通常對實驗沒有什么幫助,對照樣本中的基因表達量是獨立于分析的。這樣,可以通過調整每一個基因的數值來反映系列觀察值的變化,例如平均值或者中值。這就是平均值 / 中值中心化,中心化可以減少對照樣本的影響。中心化數據同樣可以用于去除某些類型的偏差。例如,許多雙色熒光雜交實驗的結果沒有校正 Ratio 值的系統偏差,它們是由于 RNA 數量差異、標記效率和圖像獲取參數偏差所造成的。這樣的偏差對于所有的基因與一個固定數值的 Ratio 有放大的效應。在 log 空間的平均值和中值中心化有校正這種偏差的效果。數據中心化是基于這樣的一種假設,在特定的實驗中,基因的平均值期望比率是 1.0( 在 log 空間中為 0) 。通常,更多的是使用中值中心化。
目前對數據預處理這種策略的作用還不是很清楚,還沒有人進行系統的研究,提供有說服力的證據來幫助研究人員針對特定的任務選擇特定的數據預處理的策略和方法。在具體應用時,往往是根據分析目的和個人經驗選擇不同的方法。