在19世紀前,統計學的內容主要是人口與政府統計,進行人口普查,國家農產收入調查等工作。時至今日,統計學進入了推論統計的時代,統計科學所發展出形形色色的數據資料分析方法,是協助科學家利用實驗或觀察數據推論出科學現象與真理所不可或缺的工具。另一方面,自然與社會科學研究中所獲得的數據與面臨的科學問題,也反過來激發統計資料科學新的動機,促成新的數據資料分析方法,以解決新的科學問題。而這樣的相互激發與交流,促成了科學界整體的進步。在現今的大數據時代,我們預期將會看到統計資料科學與其他科學領域產生更多的合作,迸發更多促成人類社會進步的火花。
本演講將以兩個實際例子介紹統計學在科學應用中扮演的角色。第一個例子是統計學的方法及技術,如迴歸分析、隨機效應模型、最大概似方法、期望—最大演算法等,如何應用於7,123筆臺灣地震地表加速度資料,以建立地震風險評估模型,供地震工程學家使用。在此例子中,我們將看出統計機率學中的工具如何依據地震測站資料的內涵與特性,定位並評估地表加速度資料的誤差與不確定性,以精確預測地表加速度。
第二個例子介紹統計學如何在大數據時代中,巧妙地結合當前日益普及的各項大型電子數據資料庫,將不同特質的資料截長補短,從大數據中整理摘要出精確有用的訊息。我們將以臺灣健保資料庫與國民健康訪問調查資料庫為例,說明統計機率學中的大樣本理論,如何用來整合不同資料庫中的訊息,探討醫學中帶狀疱疹與慢性阻塞性肺病之間的關聯。
本講演經中研院授權國網中心「知識大講堂」收錄,並提供本園轉載,謹此致謝。