2013年時,哈利波特作者 J.K. 羅琳化名 Robert Galbraith 創作了一本偵探小說《Cuckoo》,評價雖高,銷量卻不好。英國的電腦科學家透過語意分析技術,將此著作和羅琳以往寫作文本比對,發現寫作手法極為接近,這也讓 J.K. 羅琳為真實作者一事曝光,《Cuckoo》因此大受關注,立刻竄上亞馬遜暢銷榜第一名。
上述案例中,語意分析可謂關鍵角色,但語意分析究竟如何運作?如何快速解構文本類型的「大數據」?本篇專訪中,鑽研中文語意分析的意藍科技董事長楊立偉,從技術原理談到語意分析各種應用和挑戰,深入分析了語意分析背後的眉角。
從單詞到文章,文本分析更深、更廣、更快
過去的資料探勘,大多侷限於結構化資料,像是論文、專利、論文、新聞稿等經過嚴謹撰寫完成的文章。隨著社群網站興起,人們在網路上發表意見變得越來越容易、卻也更零碎、甚至參雜許多錯字讓電腦難以精準判讀。而透過大數據為基礎發展演算法的語意分析,能夠分析非結構化的資訊,像是散文、小說等較無固定格式的文本,加深文本分析的廣度,同時納入圖片、影音各種非結構化資料所能提供的資訊。
假設你現在想查詢一個新聞事件,並分析網友、鄉民的看法,最直覺的方式便是利用 Google 進行關鍵字搜索,但這樣只能做到關鍵字比對,如此一來搜索出的資料將有幾百萬、幾千萬之譜,該如何進行整理、重點摘要?總不可能人工比對吧,這時,語意分析的優點便顯現出來了。楊立偉表示,語意分析透過爬梳大量網路資料,每日能夠搜索 60 億筆中文字詞,快速找出每日重要資訊。
2014 年 5 月時,越南發生排華暴動。楊立偉以當時分析越南地區的中文內容為例,除了字詞分析,也利用了情感分析。原先的文本內容大多為正面字詞,例如「建廠」、「投資」等等,但暴動當天開始出現許多負面字詞,例如「害怕」、「被砸」、「快跑」等等,情感分析的正負評比大為下滑。相對於傳統媒體可能是透過駐越記者或是當地新聞媒體報導才得知相關資訊,語意分析利用網路輿情觀察,足足快了十小時掌握新聞事件。
範例引導進行教學,機器學習增加準確率
楊立偉解釋,演算法為了能做到通篇分析,多採用機器學習的方式,就像教小孩念書,透過範例引導,結合答案輔助,電腦便能找出其中關聯。同時藉由資料庫的「語料」提供範例,輔以人工提供正確答案,電腦便能找出其中邏輯關係。
語意分析和關鍵字比對最大差異在於處理層級的不同。除了比對單詞外,它能以閱讀的概念進行分析,從前後文、段落乃至通篇文章進行分析。假設現在要分析「全家」便利商店的相關新聞,若以關鍵字比對,可能會抓出「全家一起玩」等無關字詞,但在語意分析下,此類句子會被過濾掉,只會抓出「全家推出新產品」等相關度較高的句子。
回家功課寫錯了要訂正,那語意分析錯了也要訂正嗎?「對於機器學習來說,我們只要告訴機器這樣的結果好不好,透過多次嘗試,機器會將不好與好的結果都學習下來,進而進行更準確的運算。」
語意分析的多種應用
語意分析並非萬能,發展瓶頸和隱憂是?
語意分析並非百分百正確,目前仍多以機器學習的方式增加準確度,因此機器獲得的「語料」愈多愈好,也因此需要建立具大的資料庫,而系統的硬體設備也要有一定水準,才能快速進行分析。
除了硬體條件,語意分析現階段也仍需要以人工評量系統,為機器所分析出來的結果給與回饋與改善建議。除了需要語言學家針對不同語系的慣用法進行審核,若遇到專業領域的文本、字詞,也需要請相關領域專家協助評量,這些都是現階段語意分析在人事上無法完全去除的因子。
「水能載舟,亦能覆舟。」語意分析同時也可能會被用於造假、偽造。楊立偉坦言,利用語意分析的演算法,許多人能夠設計出論文製造機等應用,雖然透過機器產生的論文或許可信度較低,但有心人仍能將其投稿到審查制度較寬鬆的學術期刊上,藉此奪得在學術期刊上發表的機會。
在隱私問題方面,楊立偉解釋,語意分析只會搜尋公開的貼文和訊息。以臉書為例,只有公開帳號的文章會被納入分析,包含熱門粉絲頁、意見領袖、公開的個人頁。目前台灣以中文為主的公開帳號約有六百萬個,都是語意分析的守備範圍。
災害通報、事件預防、預測,也是語意分析技術的努力目標,透過網友貼文,能夠在短時間內搜集大量的破碎訊息,組合成一完整資訊匯流,對於提供災害事件資訊、甚至是建立災害預測模型,都將大有助益。「現在大數據的一大挑戰在於資料都存在不同的地方,因此『匯集』的角色更為重要。」楊立偉強調,許多大數據都是在講單一企業的資料庫分析、應用,但真正重要的是跨企業、領域的資料整合,數據分析才能更兼顧深度與廣度。(本文由科技部補助「新媒體科普傳播實作計畫-智慧生活與前沿科技科普知識教育推廣」執行團隊撰稿)
責任編輯:鄭國威
審校:陳妤寧