用于檢測基因表達水平的 DNA 微陣列實驗,應用之一是比較實驗,目的是比較兩個條件下的基因表達差異,從中識別出與條件相關的特異性基因,例如,識別可用于腫瘤分型的特異基因等。為了提高實驗的可靠性,對于同一樣本,往往有兩次或更多次的重復實驗,但是,由于 DNA 微陣列的費用仍然很昂貴,不可能重復足夠多的次數來滿足實驗數據分析的要求,因此需要采用統計方法來分析這些數據。對于這些表達數據的分析,目的就是要識別在兩個條件下有顯著表達差異的基因。何謂顯著表達差異?通常是指一個基因在兩個條件中表達水平的檢測值在排除實驗、檢測等因素外,達到一定的差異,具有統計學意義,同時也具有生物學意義。常用的分析方法有三類,*類稱之為倍數分析,計算每一個基因在兩個條件下的 Ratio 值,若大于給定閾值,則為表達差異顯著的基因;第二類方法采用統計分析中的 t 檢驗和方差分析,計算表達差異的置信度,來分析差異是否具有統計顯著性;第三類是建模的方法,通過確定兩個條件下的模型參數是否相同來判斷表達差異的顯著性,例如貝葉斯方法。
倍數分析
早期基于 cDNA 微陣列技術的比較實驗,用倍數來分析基因表達水平差異,即計算基因在兩個條件下表達水平的 Ratio 值。用
,可表示基因 g 在條件 1 和 2 下的表達水平差異。對于 cDNA 微陣列實驗,是將兩個條件下的樣本混合后與 cDNA 微陣列進行雜交實驗,得到的是成對數據,對每次實驗得到的數據計算
。而對于寡核苷酸芯片,首先分別計算兩個樣本的重復實驗的歸一化表達水平的平均值,然后計算其 Ratio 值。當
<1 或
<1 表示基因在條件 1 是下調的,而
>2 或 <1/2 ,則認為該基因的表達差異是顯著的。然而,對表達數據仔細考察后可以發現,這樣簡單的 2 倍法并不能產生*的結果,因為因子 2 在不同的表達水平上有相當不同的顯著性。對于低表達水平的基因,其信噪比太低,用 2 倍法作為判斷條件太寬松,而對于高表達基因,條件又太苛刻,往往小于 2 就具有生物學意義。在具體應用中,并沒有明確的閾值,往往根據分析的具體要求由數據分析者自行確定。
t 檢驗
于兩個條件下的多次重復實驗,為了判斷基因的表達差異是否具有顯著性,在應用中較多的是采用假設檢驗,包括兩個條件下的 t 檢驗和多個條件下的方差分析( ANOVA ),這里僅僅介紹 t 檢驗,關于 ANOVA 請參考相應的統計分析書籍。
零假設為
。 t 統計量的計算公式如下:
,
為某一條件下的重復實驗次數,Xgij是基因g在第i個條件下第j次重復實驗的表達水平測量值。根據統計量
經常較小,
(8-7)
(8-9)
假設
的值較小,導致
獨立于基因表達水平,在分母上增加 S0 , 增加 S0 后可以降低
大于閾值的基因被認為是表達差異顯著的。
8.3.3 貝葉斯分析
由于 DNA 微陣列數據噪聲大、波動大,而且在大量數據的背后還有很多相關變量不能被觀察到,因此,貝葉斯方法可以用來分析微陣列表達數據。貝葉斯分析可以簡單描述如下:

為真的概率,稱為后驗概率; P(M) 稱為先驗概率,表示在沒有得到任何數據之前所估計的模型 M 為真的概率; P(D|M) 是指似然度,表示從模型 M 得到一個觀測數據集 D 的概率。貝葉斯推斷是通過參數估計和模型選擇來實現任務的,zui常用的方法是zui大后驗概率 (MAP) 估計和zui大似然 (ML) 估計。在用貝葉斯方法分析表達數據時,首先假設在給定條件下,一個基因的表達水平測量值是獨立的,并滿足正態分布。根據經驗,這一假設是合理的,特別是表達水平的對數大致服從對數正態分布。對于重復實驗,也可以引入伽瑪分布、高斯 / 伽瑪混合分布等。一個基因在一種條件下的表達測量值可以用一個正態分布
,似然函數可以由下式給出:
和
的選擇有幾種,一般采用共扼先驗分布。先驗分布的四個超參數構成向量
(8-12)
超參數
可以分別解釋為
分別解釋為
和
(8-13)
其中
和
和<img alt="" "="" align="middle" border="1" height="22" data-cke-saved-src="http://www.bio1000.com/uploads/allimg/120625/145912L15-42.png" src="http://www.bio1000.com/uploads/allimg/120625/145912L15-42.png" width="24" style="vertical-align: middle; border: 0px;"> 。