人工智慧如何用來下圍棋（二）：從AlphaGo到AlphaGo Zero|最新文章

facebook twitter line 中列印書籤

人工智慧如何用來下圍棋（二）：從AlphaGo到AlphaGo Zero

107/10/10 8891

王庭毅｜國立中山大學資訊工程學系

AlphaGo示意圖。（圖／Deepmind）

2016年3月，韓國籍世界圍棋冠軍李世乭敗給人工智慧——「AlphaGo」，而後2017 年1月升級版的AlphaGo Master更是橫掃千軍，以60連勝之姿稱霸這項蘊含人類千年發展的智慧結晶－圍棋。AlphaGo被Google旗下的英國公司Deepmind僅花2年研發的電腦程式，為人工智慧的新時代吹響號角。然而，AlphaGo的研發期程雖然僅短短幾年，但是它卻能有如此顯著的成就表現，其中之奧祕值得探究。在本篇文章中，我們將要介紹AlphaGo的發展史。

AlphaGo Lee（AlphaGo）與 AlphaGo Master

初代AlphaGo（與李世乭對弈版本，又稱AlphaGo Lee），使用近年來高度發展的類神經網路，它是一種模擬人腦神經傳遞訊息過程的運算方式。AlphaGo使用了兩種網路來建構它的程式，分別為：Value Networks（估值網路）以及Policy Networks（走棋網路）。其中Value Networks用以評估棋盤每個位置的優劣，而Policy Networks則是選擇落點步法。AlphaGo使用了上述兩種神經網路，透過與人類專家對奕來學習現有的對奕知識，並藉由自我學習技術來提升對奕技巧，使自己變得更聰明。除此之外，AlphaGo的程式更進一步引入一種搜尋演算法，名為「蒙地卡羅樹狀模擬（Monte Carlo method）」，來模擬上千種隨機自我對弈結果的演算法。以上敘述的幾種技術，都是使AlphaGo實力達到全新高度的方法。

而在此之後所開發的AlphaGo Master除了軟體演算法的細節更加精進之外，加上硬體改良與更精簡指令的配合，使新版的AlphaGo（也就是AlphaGo Master）更加強大。對比舊版的AlphaGo（AlphaGo Lee），新版本在處理計算時所消耗的電量僅為以往的十分之一，運作效率亦提升了10倍，亦即可以用更少的時間執行更多深遠的預測，使AlphaGo Master運算能力提高了三子（意旨能多預測三步），這就是造就AlphaGo Master能夠60連勝的原因。

AlphaGo Lee（左）與李世乭（右）對弈轉播畫面。（圖／gogameguru.com）

精益求精的AlphaGo Zero

AlphaGo (AlphaGo Lee) 與AlphaGo Master也分別在擊敗李世乭，與取得60連勝後，由Deepmind公司宣布退役。但Deepmind公司，並沒有隨即終止AlphaGo的相關研究，反而精益求精開發了比AlphaGo Master更加無人能敵的AlphaGo Zero。

AlphaGo Zero摒棄以往使用的Value Networks（估值網路）和Policy Networks（走棋網路）演算法，而是打造全新的自學系統，並完全透過自己與自己對弈來學習圍棋，而過程中並沒有人類插手指導。令人驚訝的是，AlphaGo Zero用僅僅約40小時的自學時間，就摸索出所有重要且高階的人類圍棋定式，並達到了與李世乭對戰的AlphaGo Lee相同的水平。3天後，AlphaGo Zero對戰AlphaGo Lee達到100%的勝率。40天後，AlphaGo Zero對戰AlphaGo Master也達到近90%勝率，成為有史以來 AlphaGo棋力最強的版本。

AlphaGo Zero不再需要人為的監督學習，而是在輸入圍棋規則後從零開始玩，並全靠自學下圍棋來達到無師自通的程度。而這樣的演算法並非沒有缺點，因為從無到有的探索圍棋，導致AlphaGo Zero在初期的學習成效極差，但也因此能夠打破所有人類思考模式，最終擊敗原已無人能敵的AlphaGo Master，將AlphaGo Zero的圍棋實力提升到前所未見的層次。

儘管AlphaGo Zero從沒有公開對弈，但從Google釋出的棋譜、統計與論文，可以觀察到許多AlphaGo Zero的有趣現象。不同於先前版本，AlphaGo Zero自始自終的自學，且無Value Networks（估值網路）監控思考過程，使得研究人員僅能以棋譜中觀察AlphaGo Zero的思路與成長，如圖表1，在約40小時的學習時程後，也就是達到與李世乭對戰的AlphaGo版本相同等級。由此可見AlphaGo Zero已摸索出許多人類常用的重要圍棋棋譜，並以極高的頻率使用在對弈過程，且於而後的學習過程中，漸漸摒棄了那些既有的定式，開始發明了一些人類未知定式，或是先使用低階的棋路，隨後再摒棄之，進而再進一步發明出更加高深莫測的棋譜。此種棋力自學的模式恰巧與金庸小說中要練成《葵花寶典》所述：「欲練神功，必先自宮」的概念不謀而合，也是科學家分析AlphaGo Zero思路時所發現的有趣之處！

圖表1：編號1－4為人類常定式（使用頻率都在40小時左右來到最高峰），編號5為AlphaGo Zero發現的新定式。（圖／Deepmind）

1997年5月，由IBM公司打造的超級電腦－深藍（Deep Blue），以2勝1敗3和的戰績戰勝當時國際象棋（西洋棋）俄羅斯籍世界冠軍加里·基莫維奇·卡斯帕洛夫（Garry Kimovich Kasparov），成了首位敗倒於電腦的人類冠軍，然而他卻在數年後出版的書籍中表示，儘管他不喜歡輸的感覺，但被自動化機器或看不見的演算法挑戰、超越甚至取代的感覺，的確漸漸成為現今社會的一部份，然而這也是人類科技進步的最有力證明。展望未來，人工智慧科技的進步已可以預期成為推動人類社會發展的巨大助力，並能给我們人類文明開創無限的進步空間。

副總編輯：國立中山大學資訊工程學系陳坤志教授

總編輯：國立中山大學資訊工程學系黃英哲教授

資料來源

科技部補助｢新媒體科普傳播實作計畫｣

AlphaGo(11) 人工智慧(166) 圍棋(4)

人工智慧如何用來下圍棋（二）：從AlphaGo到AlphaGo Zero

推薦文章