跳到主要內容

科技大觀園商標

分類項目
Menu

有問題就問資料探勘!但是能得到滿意的答案嗎?

113/10/30 瀏覽次數 397

近年在機器學習、演算法、大數據的熱潮下,「資料探勘」(data mining)給大眾的印象沒那麼強烈,卻也不算陌生。它和人工智慧等熱門領域的關聯是什麼?多數人或許更關心:資料探勘和我有什麼關係,可以做哪些事情?

資料探勘就是從大量資料中尋找線索,得到有用的知識來解決問題

資料探勘就是從大量資料中尋找線索,得到有用的知識來解決問題。圖片來源:Photon photo/shutterstock.com

 

只要能回答問題,都是好的資料探勘工具

黃仁暐教授任職於國立成功大學電機工程學系,是資料探勘的專家。他解釋,資料探勘的基本概念很單純,就是從大量資料中尋找線索,得到有用的知識來解決問題。

例如一般人每天都會接觸的天氣預報、影音平臺的推薦、網路廣告投放,都運用了資料探勘。在不同的專業也很常見,像是大公司調整商業決策、經營職業運動球隊、設計商業太空旅行的交通工具等等。可以說,現代社會在食衣住行育樂每個面向,都有資料探勘的蹤影。

資料探勘既然需要處理大量資料,電腦想必不可或缺?其實並非如此。黃仁暐教授解釋,在電腦還不發達的年代,如專業經理人進行的傳統商業分析,便沒有利用電腦程式。然而不難想像,資料探勘在電腦輔助下更加容易,累積的成果在未來也更方便重複。例如一套成熟的商品分析模式,後繼者也能直接繼續使用。

隨著資訊工具進步,資料探勘也愈來愈普及,能應對更多元的問題。既然資料探勘的本質是蒐集資料與解決問題,只要能解決問題,都是好的辦法。因此資料探勘並不會自我設限,不論古代的手工計算,或是近來的機器學習、神經網路......以及尚未誕生的新技術,都是可以利用的工具。

黃仁暐教授強調,各種方法的思路不同,提供了不同的切入與分析方法來解決同一個問題。例如數學統計的方法,可能會嘗試推導數學方程式以貼近資料分佈;機器學習的方法,可能會優先考慮建立合適的模型;而資料科學家則會先尋找資料之間的關聯性。這些方法都有助於解決問題,也都是做資料探勘的人會學習並使用的方法。

「資料探勘」的意思是從大量資料中挖掘,找到可供利用的相關性、特徵、資訊、知識、決策等有意義的答案

「資料探勘」的意思是從大量資料中挖掘,找到可供利用的相關性、特徵、資訊、知識、決策等有意義的答案。圖片來源:黃仁暐教授提供

 

好的資料探勘,需要好的資料

許多人對資料探勘的期望是:無所不能,什麼都知道!黃仁暐教授卻表示,實際狀況往往沒那麼理想。最常見的問題是資料不夠好,可以分析的數量不夠、品質不佳、有很多缺失、紀錄格式亂七八糟,甚至根本就是錯誤的資料。所以要得到優秀的資料探勘結果,好的資料不可或缺。

有正確的資料,才能回答問題。比方說,有一筆氣象觀測的資料,記錄溫度、濕度、雨量、可視距離、PM 2.5 等數據,那麼可以用於推測接下來的天氣,例如「未來一週氣象預測」。然而,如果感測器異常而蒐集到錯誤的資料內容,或是蒐集到根本錯誤的方向,就無法回答想解決的問題!

不論資料品質多理想,總是需要各種處理。如果把資料探勘想像成做菜,資料處理就像烹飪前先準備食材。廚師知道某道菜該怎麼做,選擇哪些材料,在什麼條件下經過哪些步驟,才有理想的成品。實際上常常會碰到食材欠佳、時間短缺、廚房條件不符合預期等障礙,優秀的廚師則有辦法透過材料替代、改變流程、調整烹飪方式等手段解決。

黃仁暐教授大學就讀於電機系時,已經投入資料探勘,至今超過 20 年。隨著方法愈來愈好,可以回答更難的問題。像是資料處理方面,現今愈來愈複雜,拿到資料後會先經過「前處理」,排除潛在問題。例如資料有缺失的部分,可以透過預測的「補值」填上;而補值的預測愈準確,也可望得到愈正確的答案。

從問題來看,以往資料探勘的問題比較簡單,例如分析大賣場中哪些商品賣得多,要如何補貨。現在則可以建構關聯性,根據顧客的購買項目與順序,推測還有哪些商品可能引起興趣,更精準投放廣告。

還有一大突破在於,可以從大量資料中,尋找哪些才是影響力較大的關鍵,更準確針對目標。例如棒球數據分析中,過往不太被關注的投手投球「轉速」,以及打者擊球的「仰角」,如今都成為受到重視的數值。

 

食衣住行育樂有問題,都可以問問資料探勘

黃仁暐教授自己的研究團隊就探討過不少問題,也遇上各種困難。例如他自己養小孩時,親身體驗到嬰兒的啼哭,想到可以用資料探勘研究嬰兒哭聲,判斷生理、心理、病理狀況。之前藉由人為標記以蒐集資料,未來如果導入新發展的人工智慧記錄方法,應該能進一步提升這類研究的效率。

目前有個比較成功的方向是社群網路。概念是透過分析社群媒體資料,判斷哪些人形成團體,誰跟誰比較好,團體中誰最有影響力。潛在的應用方向是結合推薦系統與廣告投放,假如要推薦商品或宣傳理念,發送給團體「領導人」的效果比較好,因此辨識領導人有其價值。不過黃仁暐教授表示,現在社群媒體普遍更重視隱私,不容易蒐集資料。

還有一個成功案例是空氣品質預測。蒐集中央氣象署的觀測站,以及民間空氣盒子的 PM 2.5 數據,搭配其他氣象資料,可以預測接下來的變化,民眾便能輕易獲得「建議 3 小時後不要出門運動」之類的實用天氣預報。

最近投入的一項計畫,則是和醫學院合作,使用大型語言模型分析醫療資料,尋找不同人 DNA 序列之間的變異,與健康、疾病風險的關係,並產出治療診斷的建議,提供給醫療人員參考。另外也借助大型語言模型的優勢,建立與病患溝通及解釋的自動對話機器人,以減輕醫護人員的負擔,並加速看診進度。

資料探勘是應用非常廣泛的領域,有興趣的人該怎麼進入這個世界呢?黃仁暐教授指出,資訊、電機科系的關係當然比較直接,但是資料探勘不侷限於方法,任何科系背景的人,只要具有初步的基礎數學、統計、程式能力,都有機會從事資料探勘的工作。他自己的研究生,便有多位來自其他科系。生物、農業、醫學、經濟、文學、藝術以及各個科系的學生,都可以學習用資料探勘解決不同的問題。

資料探勘是一套講求實際,解決問題的方法,即使不熟悉的人也能與專家合作,解決自己的疑難雜症。黃仁暐教授舉例,他最近正在和成功大學女子籃球校隊合作,參與運動科學的分析。他認為,不同領域的合作中,通常雙方都不懂對方的專業;如果想順利合作,兩邊都要謙卑,向對方學習。讓資料探勘專家充分理解問題的內涵,他們才能給予有意義的回答。

 

資料來源
  1. 採訪國立成功大學電機工程學系黃仁暐教授
創用 CC 授權條款 姓名標示─非商業性─禁止改作

本著作係採用 創用 CC 姓名標示─非商業性─禁止改作 3.0 台灣 授權條款 授權.

本授權條款允許使用者重製、散布、傳輸著作,但不得為商業目的之使用,亦不得修改該著作。 使用時必須按照著作人指定的方式表彰其姓名。
閱讀授權標章授權條款法律文字

OPEN
回頂部