很明顯,在實(shí)驗中能提供大量信息的某項技術(shù)如雙相電泳,是不適合用常規的統計學(xué)方法來(lái)分析的。如果一定要用常規的統計學(xué)方法,通常含有大量蛋白質(zhì)點(diǎn)的一些 2D 凝膠就沒(méi)有足夠的自由度來(lái)分析。只有在研究蛋白質(zhì)的上調或下調和有足夠的樣品時(shí),才可以運用常規的統計學(xué)方法來(lái)分析。在正常情況下(有限的 2D 凝膠和大量的蛋白質(zhì)點(diǎn)),想要快速找到感興趣的蛋白質(zhì)點(diǎn),一般采用多元分析方法 [ 1,4] 。
因此我們提出了一個(gè)新的涉及工作流程的多元分析方法,即產(chǎn)生假設的(hypothesis generating ) 而不是假設驅使的(hypothesis driven ) 。這樣,我們就能靈活自由地開(kāi)發(fā)數據而不產(chǎn)生偏差,而且最終能運用生物學(xué)知識建立相關(guān)的假設。
產(chǎn)生假設的分析是多元分析背后的整個(gè)概念的一個(gè)自然結果。傳統的統計學(xué)分析往往是先建立一個(gè)假設,然后用實(shí)驗來(lái)證明或推翻這個(gè)假設,也即是我們所謂的演繹分析。相對于傳統的統計學(xué)方法,多元分析是一種歸納分析。因此假設是在一系列的計算實(shí)驗之后建立的。
多元分析以統計學(xué)和數學(xué)方法為基礎,包括一些可視變量的數據分析及一些具有許多重要變化形式的體系研究 [ 5 ] 。
在這里我們介紹主成分分析(principal component analysis,PCA ) 及偏小二乘回歸(partial least squares regression, PLSR ) 。PCA 用以獲得數據總貌以及數據之間的聯(lián)系。PCA 分析可以用來(lái)找出數據庫里的隱藏結構。PCA 提供了低維的數據方案,即將多維導向低維。在此過(guò)程中,有可能找出外在的觀(guān)察結果、相似觀(guān)察結果的歸類(lèi)及其他數據結構的分析。
這項技術(shù)是以主要成分及直角坐標軸的數學(xué)技術(shù)為基礎的。一個(gè)主要成分往往是指一個(gè)潛在的變量。這個(gè)變量不能直接測出但是可以通過(guò)和一套輸入變量線(xiàn)性組合分析出來(lái) [5] 。數據矩陣 X 可以分成結構和誤差兩部分。結構部分包含得分矩陣 T 和轉置加載矩陣 PT,誤差部分記為 E。主成分分析方法的數學(xué)方程式如下:
X= T ·PT + E
PCA 可以將大量的可能有關(guān)聯(lián)的變量轉化為少量沒(méi)有關(guān)聯(lián)的變量或主要成分。與初始變量線(xiàn)性組合的主成分坐標軸可以替換初始坐標軸。
數據的結構是用橫坐標代表樣品,縱坐標代表變量。在本文中,橫坐標代表凝膠,縱坐標代表蛋白點(diǎn)(點(diǎn)的強度)。主成分與樣品間的關(guān)系稱(chēng)為分值,與變量間的關(guān)系稱(chēng)為負載。第一主成分包含數據庫中盡可能多的變量,接下來(lái)的主成分包含盡可能多的剩余變量。
PLS 用來(lái)關(guān)聯(lián)校準數據的 y 矩陣(響應數據,response data) 和定義儀器輸出的 x 矩陣(描述性數據, descriptor data) 。在本文中,y 代表實(shí)驗樣品,x 代表蛋白點(diǎn)。
可以通過(guò)回歸模型(regression modeling) 將兩套數據進(jìn)行關(guān)聯(lián)加以校準。
用多元數據分析 2D 凝膠的主要步驟如下所述。
( 1 ) 確定研究方案后建立蛋白的 2D 凝膠。
( 2 ) 用具備透射模式掃描的掃描儀使凝膠數字化。
( 3 ) 用數據分析軟件分析數字化的 2D 凝膠。
( 4 ) 產(chǎn)生一張蛋白點(diǎn)列表。
( 5 ) 將表格數據輸入到多元分析軟件進(jìn)行分析。
( 6 ) 做出關(guān)于蛋白點(diǎn)數據的 PCA 圖。
( 7 ) 闡述分值及下載策略。
( 8 ) 返回到生物學(xué)問(wèn)題。
( 9 ) 用 PLSR 分析樣品蛋白響應變量。