自從鄭氏王朝擊敗荷蘭東印度公司後,臺灣便成為以漢人為主的社會。由於漢文化的傳入,這片土地先後出現了許多傑出的詩人,其作品的文學價值不亞於中國大陸文人的創作。而自明鄭王朝到日治時期(1661-1945)有數以萬計的傳統詩作,都被收錄在後人編纂的《全台詩集》中,可以稱得上是臺灣以詩為主的歷史的見證。
可惜的是,我們只能以努力鑽研該經典的內容文字的方式,來了解臺灣詩;但對於一個詩人來說,他的創作基本上都與其人生密切相關,他們從生到死的旅程,只從文字敘述,我們恐怕不足以體會到其時代背景的酸甜苦辣。
因此,由政治大學資訊科學系主任劉昭麟帶領的機器智能實驗室,便致力透過自然語言處理(Natural Language Processing)與空間資訊系統(Spatial Information Technology),將該詩集的資料輸入地理資訊系統中(Geographic Information System, GIS),讓後人們以直觀的方式,從地圖上看見詩人的出生地、他們生前曾生活的地點等,並透過演算法聰明地剖析一首詩,以嶄新的角度感受詩中提及的地點與年代背景。
將經典詩作空間化
這項研究的內容一言以蔽之,就是「文學作品空間化」,而要完成此壯舉,需要透過下圖的步驟進行:
《全台詩集》收錄的以近體詩(絕句、律詩)最多,共89,714首,因此團隊也以其中的近體詩進行研究。在這些詩中,有許多詩句提及了各式各樣的中國地名,要將它們系統性的作詞性標記,需要透過兩個步驟完成:首先是斷詞,把詩句以不同字眼分割,再將其中出現的地名標籤化。
在斷詞的部分,研究團隊使用的是中研院研發的一款斷詞器,稱為「CKIP分割器」。它利用詩句中的語法規律,與斷詞後的文本做比對,找出可能的詩句的結構,並根據結構中詞彙搭配關係的機率,來判斷正確的斷詞方式,說白了便是讓電腦去大量分析以前完整的文本,再根據關係度大小來判別目前的文本。
接下來團隊將處理的詩文部分做斷詞。以五言絕句為例,一句有五個字,可根據不同的句型規則切分詞彙為 2/2/1、2/1/2…等。舉例來說,「奉命籌軍國」可以被分為「奉命-籌-軍國」(2/1/2)或「奉命-籌軍-國」(2/2/1)。團隊透過句型的規則,利用詩詞中不同的句型規則來做為斷詞的模式。這樣的計算方式,被稱為啟發式計算法則。
這些詩被分割後,就會進行標籤化,電腦便會依地名資料庫一一比對,把類似地名的斷詞歸類於「地名」類別。過程中必定會生產出資料庫沒有紀錄的獨特地名,便會經過團隊的分析確認後,輸入至資料庫裡。
有了文本裡的地名資料後,下一步便是地理編碼(geocoding),也就是將一地點轉換成全球通用的地理座標。例如將「中華民國衛生福利部,台北市南港區昆陽街159巷21號」轉換成座標「25°02'59.5"N 121°35'44.0"E」就是標準的地理編碼;反過來說,若是將一地理座標轉換回特定的地址或地點,例如將「25°02'01.9"N 121°33'53.6"E」轉換成「台北101,台北市信義區信義路五段7號」,那就是反向地理編碼(reverse geocoding)。
在這次的研究中,地理編碼的過程主要使用兩個系統,一個是中研院架設的中華文明時空對位(CCTS)API,可以提供在臺灣和大陸區域可靠的地理資訊;另一個是Google Map API,可以輸入經緯度座標來查找點位地址資訊(也同樣限制在台灣和大陸的範圍)。若遇到這兩種方式皆無法找到的狀況,就只好將此筆資料排除。
「上帝視角」觀察詩人們的一生
成功在地圖上標註地點後,研究團隊從844位詩人的個人數據中,分析他們的出生時間(朝代)及地點,得到以下結果:
我們可以發現不管是在日治時期還是戰後,在臺灣出生的詩人大多分布於臺北(北部)、彰化(中部)、臺南(南部),而不管在哪段期間,台灣東部完全沒有產出詩人。依照這樣的結果,我們也可以進一步的探討當時的社會、文化、經濟是否會直接影響文學氣息。
詩詞中提到的地名
我們還可以分析詩詞中提到的地點,得到的分布如下圖:
若我們再縮小範圍來看,在清朝時期的臺灣,從詩詞中所提到地名的分布,也有有趣的發現:
在比較早期的時候,很少有詩人會討論到臺灣東部,但是越到後期,臺灣東部被提及的次數就越來越多,這或許是交通或者人文關係造成的。這些發現都有助於我們去研究分析當時臺灣的社會情況。
詩人的足跡
團隊還針對臺灣知名歷史學家「連橫」的詩和個人資訊做分析,結果發現在連橫年少時(36歲以前),他提到的地方大多數都在臺灣和大陸;之後在他37~46歲之間,提到的地方開始以臺灣和日本為主;而到了47歲之後,連橫主要關注在臺灣,只有偶爾提到大陸和日本。
綜觀上面的結果,我們可以發現詩人們在不同時期的作品,偏愛的地點也不同,就像是連橫的足跡一樣。那麼這個就是有趣的開端,可以開始來研究分析背後的原因、當時社會風氣以及更多更深層的問題。
用全新的角度看待既有文獻
研究團隊透過GIS,在地圖上呈現了詩人出生地、活動足跡與詩作中地名分布,結果發現,詩人的創作可能與朝代產生連結性,並為研究該朝代社會經濟發展和文化活動提供線索,讓研究人員能夠進一步觀察數據,分析各朝代變化趨勢與影響,並發想更深層次的議題,激發文學研究的豐碩成果。而民眾也能更親近詩作,提升對文學的熱忱,看見在這些不一樣的朝代與生活背景中,詩人對生活的體悟與詩作記錄下的真實。
本著作係採用 創用 CC 姓名標示─非商業性─禁止改作 3.0 台灣 授權條款 授權.
本授權條款允許使用者重製、散布、傳輸著作,但不得為商業目的之使用,亦不得修改該著作。 使用時必須按照著作人指定的方式表彰其姓名。
閱讀授權標章或
授權條款法律文字。