The Cry of All: 腦造影研究全面崩盤？

2016-07-16

Orz 網摘

網摘

兩週前，PNAS 上的一項研究指出，十五年來將近四萬篇的「功能性磁振造影」(fMRI）相關論文可能都有問題！紅透半邊天的 fMRI 腦造影研究，真的只是一種即將崩盤的「新顱像學」嗎？腦造影研究是否會全面崩盤呢？

簡單快速的答案是，不會。那大家為什麼會喊的如此聳動？原文到底說了什麼？腦造影研究究竟有什麼潛在的問題呢？以下就來幫大家分析一下這其中的眉角。

—
1. 原文說了什麼？
—

PNAS 這篇文章其實出發點很單純，就是想看看 fMRI 真實資料中出現「假陽性結果」的機率（false positive rate）有多高。這裡所謂的「假陽性率」，就是看起來像是「真訊號」、但其實卻是由隨機雜訊所致的「假訊號」。

檢視假陽性率的做法也很簡單，就是使用「不應該出現任何真訊號的資料」，然後分析看看會跑出多少假陽性結果即可。

原文中的其中一項分析，就是使用這種方法。作者先取得 499 人的腦靜息狀態資料（resting-state fMRI data），然後隨機抽出 20 人為一組，接著用三種大家常用的資料分析軟體、以及各種常用且默認的基本預設參數、並把資料當成「任務式資料」（tasked-based fMRI data）來進行分析並統計結果。（每一種軟體和參數組合，都重複抽算 1000 次）。

由於這些 fMRI 資料是「腦靜息狀態資料」，也就是受試者在沒有進行任何任務或認知活動時的腦狀態，理論上來說，上述的分析結果應該只會有 5% 的大腦區域因為隨機雜訊而出現「假陽性結果」。

但是真正的分析結果一出，眾人傻眼，「假陽性結果」的出現機率竟然高達 70%。

—
2. 為什麼這假陽性機率這麼高？
—

關於這一點，基本上是個統計學問題。科學家在測量腦中每一個「體積元素」（voxel，以下簡稱「體素」）是否真的有訊號存在時，必須要把隨機雜訊列入考量。

有時候，「體素」中根本沒有真的訊號，但是因為隨機雜訊很高，因此會出現假陽性訊號，這也就是統計上的第一型錯誤（Type I error）。

由於雜訊無所不在，因此這種錯誤不可避免，唯一可以做的，就是透過一些假設來算出這種錯誤的出現率。比方說，我們可以假設隨機雜訊是常態分佈，然後估算出各種不同隨機雜訊強度的出現機率。

一般來說，超強隨機雜訊的出現機率都很低，因此如果我們觀察到的訊號越強，它是隨機雜訊的機率就越低。大家常常看到 p<0.01 這樣的門檻值，意思就是：這個結果只有小於 1%的可能性是因為隨機雜訊所導致的假陽性結果。如圖（部落格圖三：http://cryofall.blogspot.tw/2016/07/blog-post_15.html），雜訊導致的結果呈現高斯（常態）分佈，雖然有時候會觀察到很強的訊號（綠色部份），但它們仍有可能是隨機雜訊所致。 -- 多重比較問題 -- 好了，上面的方式，就是只有處理單一體素（或單一一項觀察或檢驗）時所用的統計方式。但是當我們必須檢驗好幾次、或同時檢驗好幾個體素時的時候，就又有新的問題出現。比方說，如果我們同時檢驗 10 萬個體素，由於每個體素都有 1%的假陽性機率，結果就是 10 萬個之中大約有 1%的體素會出現假陽性，也就是約 1000 個體素，算是非常大的一個數字！這就是統計上的「多重比較問題」（multiple comparison problem），必須要進行額外的校正才行。校正的方法有很多種，其中一種方法，就是去看看這些 p<0.01 的體素有沒有在空間上相連。這個想法的背後假設是：如果它們真的是隨機的假陽性體素，那麼應該會隨機四散在大腦的三維空間中，相反的，如果它們全都在空間中相連形成聚落（cluster），那麼就比較有可能是真的訊號。但是，就算這些假陽性體素真的是隨機四散，它們仍然有可能恰巧在空間中形成聚落不是嗎？比方說，我在達特茅斯念書時的同班同學班尼特（Craig Bennett），就曾經把死鮭魚放入 fMRI 的機器，然後播放一些圖片給死鮭魚看。當他分析死鮭魚的大腦反應時，竟然發現有些腦區在「播放圖片給死鮭魚看時」比較活躍。部落格圖四：http://cryofall.blogspot.tw/2016/07/blog-post_15.html 很顯然的，因為鮭魚是死的，根本看不到用來刺激大腦的圖片，所以這些活躍的腦區必然只是隨機雜訊所導致的假陽性聚落而已。這項有趣但重要的研究，也讓班尼特拿到了 2012 年的搞笑諾貝爾神經科學獎。好了，既然這種「假陽性聚落」可能會出現在大腦中，我們當然就得再透過一些假設，來估算一下各種不同大小的「假陽性聚落」的隨機出現機率，然後再加設一個門檻值來進行篩選。 -- 關鍵的錯誤 -- 而關鍵的錯誤，就是出現在「到底該用怎樣的假設」來估算各種不同大小的「假陽性聚落」的出現機率！？現在大家所用的分析軟體中，大都採用了高斯隨機場理論（Gaussian random-field theory , RFT），這個理論假設訊號在腦中出現時，會呈現高斯形態分佈，並藉此來估算完全獨立的體素數目以及「假陽性聚落」的出現機率。沒想到，PNAS 這篇研究在進一步分析後卻發現，腦中訊號的分佈並非總是呈現均勻的高斯形態。也因此，這個可能錯誤的假設，就導致了錯誤的門檻值，使得大家低估了假陽性聚落的出現機率。這篇文章指出的另外一個問題，則是在其中一個分析軟體（AFNI）中發現的一個已經存在長達 15 年的程式錯誤，這個程式錯誤縮小了搜索的體素數目（低估了多重比較的數目），並因此高估了統計的顯著性。 -- 3. 腦造影與神經科學崩盤？ -- 好了，以上就是 PNAS 原文的基本發現。我個人覺得，這篇文章算是很不錯的資料模擬分析研究。但是，受影響的研究論文數量真的有 40000 篇嗎？原文的第二作者尼可斯（Thomas Nichols）很快就在部落格上澄清（註4），並把受影響的論文數量下修到 3500 篇，原因就在於，很多研究根本就不是採用上述的「聚落分析」方式來校正。此外，就算是採用聚落分析，許多研究也不是使用軟體的預設值（例如很多研究使用的第一門檻值可能遠比 p<0.01 更嚴苛）。而且，這 3500 篇研究測量到的效應值如果很大，它是假陽性的機率就會降低。至於有人擔心整個腦造影領域或神經科學會跟著崩盤。我想這是幾乎不可能。原因如下： A. 即使 fMRI 真的有過高的假陽性結果，我們依然可以透過綜合性的分析來預估某項發現真正的假陽性機率，例如，研究Ａ發現Ｘ腦區可能與語言有關，而其假陽性機率是70%，此時若研究Ｂ也發現Ｘ腦區可能與語言有關，而其假陽性機率也是70%，那麼當我們同時看待兩項研究時，這兩項研究同時為假陽性的機率就只剩下49％，如果有更多的研究也發現同樣的結果，該發現的假陽性機率就會不斷下降。 B. 有些腦造影研究是屬於探索型的，例如想要找出某種前人沒有研究過的認知功能的對應腦區。這樣的研究可能會想要採取較寬鬆的門檻值，以允許科學家在結果中公開較多的腦區讓後來的研究者參考。 C. 就算所有的 fMRI 研究果真的全部有誤，我們還有其他的測量方法來進行驗證。腦造影研究畢竟不是只有 fMRI，還有如 PET 和 MEG 等其他各種測量技術，而神經科學也不是只依賴腦造影，還有行為科學、電生理與細胞生物學等都可以提供左證。因此，腦造影領域或神經科學幾乎不可能會因此而崩盤。總而言之，一項科學發現如果要能站穩，都得要經過好幾次的實驗重現，以及不同測量方法與實驗典範的驗證才行。 -- 4. 結語：科學數據公開共享與質疑基本假設 -- PNAS 這篇文章真正值得大家深思和警惕的地方，並不是 15 年來的腦造影發現是否全是垃圾（當然不是），也不是科學家在進行資料分析是否都不夠謹小慎微（其實大部分都很細心）。我們真正要思索與鼓勵的應該是（1）科學數據公開共享，以及（2）對各種基本假設始終保持存疑。過去 20 年來，其實一直都有腦造影科學家在呼籲大家要重視其中的假陽性問題，而大部份的神經造影學者也都非常小心。但是囿於沒有大量的真實數據可以提供適當的參數，科學家也只得無奈的採用理論上的預設參數進行資料分析。所幸，近年來神經科學家開始自發推動腦造影資料共享計畫，相關的計量與統計科學家才終於可以透過公開資料庫，獲得足夠的腦造影資料，以檢視大家先在分析時所採用的假設。之前可能存在的假設錯誤，也才終於有機會獲得修正。科學演進的特色之一，就是證據不斷的累積、以及透過發現錯誤來不斷修正假設。從這個角度看，PNAS 這篇研究其實一點都不負面，而可以看成是科學社群自我反省檢驗後向前邁進的一個正面案例。 -- ps. PNAS 這篇原文中的最大錯誤，應該就是在前言的「重要性摘要」中，砲轟過去 15 年的 40000 篇論文都可能作廢的那句話。但是也因為此言，才招來了噬血媒體的引用並引發廣泛的注視與討論。這句話，究竟是原文中粗心大意的「敗筆」？還是精心策劃的「勝筆」呢？ -- 參考資料與圖片，請見部落格圖文版：http://cryofall.blogspot.tw/2016/07/blog-post_15.html

來源： The Cry of All: 腦造影研究全面崩盤？

The Cry of All: 腦造影研究全面崩盤？

發佈留言 取消回覆

Categories

Archives

Tags

發佈留言