跳到主要內容

科技大觀園商標

分類項目
Menu

從樣本到全貌,估算森林中藏著多少「隱形生物」?

114/05/30 瀏覽次數 51

想像一下,你是一位生態探險家,正踏入一片神秘的熱帶雨林。你的任務是什麼?是要找出這裡到底藏著多少種前所未見的昆蟲、多少種會發出奇異鳴叫的鳥兒,還有多少種色彩斑斕卻只在特定時刻綻放的花朵。是不是光用想的,就覺得既興奮又有點頭痛?沒錯,大自然的生物們實在太會玩「躲貓貓」了!有些習慣晝伏夜出,有些只在特定季節才露臉,更別提那些小到幾乎看不見的微生物和真菌大軍。想把牠們「全部看光光」,簡直比在沙灘上找兩粒完全相同的沙子還難!

這種「看到全部」的目標,在生物多樣性(biodiversity)研究的現場顯得困難重重且不切實際。物種可能會遷徙、隱蔽或僅在特定季節出現,讓普查所有生命成為不可能的任務。因此,與其追求普查,現代的生態保育學者更在意我們能否用有限的觀察,推估出一個可信的整體樣貌,進而對環境進行有效率的長期監測。

「在討論這片森林有多少物種之前,必須先定義調查的類群與空間範圍,」國立臺灣大學農藝學系生物統計組副教授邱春火指出,「例如是調查鳥類、甲蟲還是維管束植物?究竟是在百平方公尺的樣區,還是整座山?」而這些定義,更將決定後續採樣方式與統計推估的可行性。

然而,在戶外進行生態調查時,經常無法滿足理想化的統計假設。最基本的「個體隨機抽樣(individual-based random sampling)」原則,在自然環境中幾乎無法實現。邱春火副教授舉例到,植物會群聚、動物會避人,許多樣點設在「人能到的地方」而非真正具代表性的區域,這些抽樣邏輯(sampling framework 或 sampling scheme)的限制,不僅影響資料的代表性,也讓許多現有的統計模型無法正確運作。

 

科學家期望透過巧妙的統計方法一窺森林的全貌,圖片來源:邱春火

科學家期望透過巧妙的統計方法一窺森林的全貌,圖片來源:邱春火

從區塊抽樣出發,彌補統計模型的不足

以前,科學家想估算一個地方有多少種生物時,最理想的狀況就像是把池塘裡所有的魚都撈出來,一一編上號碼,再隨機抓幾條出來研究——這叫做「個體隨機抽樣(individual-based random sampling)」。但你想想,在廣闊的森林或草原,這怎麼可能辦到呢?所以,在野外調查時,研究者更常使用一種叫做「區塊抽樣(quadrat sampling)」的方法。打個比方,就像你有一大塊美味的巧克力,想知道裡面總共有幾種堅果,與其一顆顆挖出來數,不如先在巧克力上劃出好幾個小方格,然後隨機挑選幾個方格,仔細看看這些方格裡的巧克力包含了哪些堅果種類,並記錄每種堅果出現了幾次。這種「挖格子」的方式雖然方便多了,但這樣得到的樣本,就跟「隨機亂抓」不太一樣了。

「這時候,傳統的統計方法可能就會失準,」國立臺灣大學農藝學系生物統計組的邱春火副教授解釋道,「所以,我們採用了Chao3(Chao estimator for abundance data)及其改良版Chao3Adj這樣的統計新工具。它們就像是專門為這種『區塊抽樣(quadrat sampling)』後得到的『豐富度資料(abundance data)』(也就是記錄每種生物出現幾次的資料)量身打造的估算師,目的是彌補根據個體隨機抽樣假設之統計方法的不足,讓估算更貼近實際,幫助我們更準確地推估出到底有多少種生物,即物種豐富度(species richness)。」

談到Chao類型的估計器(Chao estimator),其發展有一脈絡。過去為研究生物多樣性(biodiversity),曾提出以豐富度資料(abundance data)進行物種豐富度(species richness)估計的Chao1,以及根據出現與否資料(incidence data)進行估計的Chao2。而所謂Chao3,則是根據混合豐富度資料(abundance data)和區塊資料的物種數估計方法,特別適用於區塊型抽樣(非個體隨機抽樣);而Chao3Adj則是對Chao3的進一步修正版本,主要是引入了Good–Turing頻率估計公式,用以修正稀有物種估計值的偏誤,提供更穩健的物種數推估與信賴區間。

這些統計方法究竟有多聰明呢?邱春火副教授笑著說,它們的「內功心法」其實挺有意思的,有點像是在玩「尋寶遊戲」時的推理。舉例來說,你今天到海邊撿貝殼,目標是想知道這片沙灘總共有多少「種」不同的貝殼。如果你隨手撿了一把,發現裡面有好多種貝殼都只有孤零零的一個,那你是不是會心想:「哇!看來這片沙灘上的貝殼種類還多得很呢,肯定還有很多是我沒撿到的!」相反地,如果你撿來撿去,看到的都是那幾種常見的老面孔,那可能就代表你差不多把這裡主要的貝殼種類都收集到了。

Chao3這類Chao 類型估計器(Chao estimator),運用的就是類似的邏輯:如果我們在調查的小區域裡,發現很多「只出現過一次」或「只出現過兩次」的稀有物種,那就暗示著整個大環境中,還藏著不少我們尚未遇見的新面孔。反之,若所有物種被反覆觀察到,可能代表觀察已趨近完整。更棒的是,研究者甚至不需要鉅細靡遺地記錄每種生物到底出現了幾百次、幾千次,只需要特別留意那些「驚鴻一瞥」的稀客就夠了。「對於人力、資源有限的調查任務來說,這將會是一大助力,進而在有限資源下收集更多的樣區資料,」邱春火副教授強調。

他也提醒,「這些方法並非萬靈丹,而是根據特定抽樣邏輯(sampling framework 或 sampling scheme)所設計,適用於區塊抽樣(quadrat sampling)或穿越線(transect sampling)等豐富度型資料(abundance data)。如果調查方式不同(如只有出現與否的資料(incidence data)),則需採用其他推估模型。」正確選擇統計方法的前提,是研究者對自己的調查資料特性與估計方法基本理論假設有清楚理解。

值得一提的是,這類「從部分推全貌」的估計邏輯,不只適用於生態調查。例如軟體開發中的Bug數預估、流行病個案總數推估,皆屬於相似的應用脈絡。「凡是你無法完整列出所有類別,但希望合理推估總數的問題,都能考慮使用這樣的統計模型,」邱春火副教授提到。

那麼,近年來紅遍全球的AI(人工智慧)能不能在這方面幫上忙呢?邱春火副教授坦率地說,在「估算一個地區總共有多少種生物」這個特定任務上,AI目前恐怕還有其限制。

「你可以把AI想像成一個非常聰明、學習能力超強的學生,」他解釋道,「但這位高材生需要大量而且附有正確答案的『教科書』和『模擬試題』來進行學習和訓練。在生物多樣性的世界裡,我們從一開始就不知道『正確答案』(也就是該地區所有物종的完整名單和確切數量)是什麼,等於是手上沒有足夠的、或是根本沒有『標準教材』讓AI去學習如何完美預測未觀察到的類別。」

邱春火副教授進一步說明:「AI 目前難以直接估算未觀察類別,但這並不表示AI在生物多樣性研究上毫無用處。AI 或許可輔助構建多層次模型、處理資料遺漏,或是在影像辨識物種等方面提供協助,因此有潛力與統計方法互補合作,而非完全取代。」相較之下,統計方法如Chao 類型估計器(Chao estimator)不全然依賴巨量的訓練資料,而是利用樣本中的邏輯結構與數學原理,提供一種在資料不完整、資源有限情況下的穩健、低資源需求的解決方案。目前在實務上,AI直接估算整體物種豐富度的能力仍受限,但其與統計方法合作的潛力值得期待。

展望未來,邱春火副教授熱切期盼這些巧妙的統計方法,能夠為我們共同的地球家園做出更有意義的貢獻。「在保育工作中,我們無法,也不需要看見每一個生命個體,但只要運用適當的統計方法,就有機會掌握整體的樣貌,」他分享道。在全球氣候變遷與全球暖化帶來重重考驗的今天,科學方法就像一盞明燈,不僅引領我們更深刻地理解自然的奧秘,也幫助我們為人類自己,乃至所有生命,尋找一條能夠和諧共存、永續發展的康莊大道。而這一切的起點,或許就源自我們對未知的好奇,以及學習如何「數」清楚那些「看不見」的鄰居們。

 

資料來源

1.採訪臺灣大學農藝學系生物統計組邱春火副教授

OPEN
回頂部