跳到主要內容

科技大觀園商標

分類項目
Menu

人工智慧如何用來下圍棋(二):從AlphaGo到AlphaGo Zero

107/10/10 瀏覽次數 4757
AlphaGo示意圖。(圖/Deepmind)AlphaGo示意圖。(圖/Deepmind)
 
2016年3月,韓國籍世界圍棋冠軍李世乭敗給人工智慧——「AlphaGo」,而後2017 年1月升級版的AlphaGo Master更是橫掃千軍,以60連勝之姿稱霸這項蘊含人類千年發展的智慧結晶-圍棋。AlphaGo被Google旗下的英國公司Deepmind僅花2年研發的電腦程式,為人工智慧的新時代吹響號角。然而,AlphaGo的研發期程雖然僅短短幾年,但是它卻能有如此顯著的成就表現,其中之奧祕值得探究。在本篇文章中,我們將要介紹AlphaGo的發展史。
 
AlphaGo Lee(AlphaGo) 與 AlphaGo Master
 
初代AlphaGo(與李世乭對弈版本,又稱AlphaGo Lee),使用近年來高度發展的類神經網路,它是一種模擬人腦神經傳遞訊息過程的運算方式。AlphaGo使用了兩種網路來建構它的程式,分別為:Value Networks(估值網路)以及Policy Networks(走棋網路)。其中Value Networks用以評估棋盤每個位置的優劣,而Policy Networks則是選擇落點步法。AlphaGo使用了上述兩種神經網路,透過與人類專家對奕來學習現有的對奕知識,並藉由自我學習技術來提升對奕技巧,使自己變得更聰明。除此之外,AlphaGo的程式更進一步引入一種搜尋演算法,名為「蒙地卡羅樹狀模擬(Monte Carlo method)」,來模擬上千種隨機自我對弈結果的演算法。以上敘述的幾種技術,都是使AlphaGo實力達到全新高度的方法。
 
而在此之後所開發的AlphaGo Master除了軟體演算法的細節更加精進之外,加上硬體改良與更精簡指令的配合,使新版的AlphaGo(也就是AlphaGo Master)更加強大。對比舊版的AlphaGo(AlphaGo Lee),新版本在處理計算時所消耗的電量僅為以往的十分之一,運作效率亦提升了10倍,亦即可以用更少的時間執行更多深遠的預測,使AlphaGo Master運算能力提高了三子(意旨能多預測三步),這就是造就AlphaGo Master能夠60連勝的原因。
 
AlphaGo Lee(左)與李世乭(右)對弈轉播畫面。(圖/gogameguru.com)AlphaGo Lee(左)與李世乭(右)對弈轉播畫面。(圖/gogameguru.com)
 
精益求精的AlphaGo Zero
 
AlphaGo (AlphaGo Lee) 與AlphaGo Master也分別在擊敗李世乭,與取得60連勝後,由Deepmind公司宣布退役。但Deepmind公司,並沒有隨即終止AlphaGo的相關研究,反而精益求精開發了比AlphaGo Master更加無人能敵的AlphaGo Zero。
 
AlphaGo Zero摒棄以往使用的Value Networks(估值網路)和Policy Networks(走棋網路)演算法,而是打造全新的自學系統,並完全透過自己與自己對弈來學習圍棋,而過程中並沒有人類插手指導。令人驚訝的是,AlphaGo Zero用僅僅約40小時的自學時間,就摸索出所有重要且高階的人類圍棋定式,並達到了與李世乭對戰的AlphaGo Lee相同的水平。3天後,AlphaGo Zero對戰AlphaGo Lee達到100%的勝率。40天後,AlphaGo Zero對戰AlphaGo Master也達到近90%勝率,成為有史以來 AlphaGo棋力最強的版本。
 
AlphaGo Zero不再需要人為的監督學習,而是在輸入圍棋規則後從零開始玩,並全靠自學下圍棋來達到無師自通的程度。而這樣的演算法並非沒有缺點,因為從無到有的探索圍棋,導致AlphaGo Zero在初期的學習成效極差,但也因此能夠打破所有人類思考模式,最終擊敗原已無人能敵的AlphaGo Master,將AlphaGo Zero的圍棋實力提升到前所未見的層次。
 
儘管AlphaGo Zero從沒有公開對弈,但從Google釋出的棋譜、統計與論文,可以觀察到許多AlphaGo Zero的有趣現象。不同於先前版本,AlphaGo Zero自始自終的自學,且無Value Networks(估值網路)監控思考過程,使得研究人員僅能以棋譜中觀察AlphaGo Zero的思路與成長,如圖表1,在約40小時的學習時程後,也就是達到與李世乭對戰的AlphaGo版本相同等級。由此可見AlphaGo Zero已摸索出許多人類常用的重要圍棋棋譜,並以極高的頻率使用在對弈過程,且於而後的學習過程中,漸漸摒棄了那些既有的定式,開始發明了一些人類未知定式,或是先使用低階的棋路,隨後再摒棄之,進而再進一步發明出更加高深莫測的棋譜。此種棋力自學的模式恰巧與金庸小說中要練成《葵花寶典》所述:「欲練神功,必先自宮」的概念不謀而合,也是科學家分析AlphaGo Zero思路時所發現的有趣之處!
 
圖表1:編號1-4為人類常定式(使用頻率都在40小時左右來到最高峰),編號5為AlphaGo Zero發現的新定式。(圖/Deepmind)圖表1:編號1-4為人類常定式(使用頻率都在40小時左右來到最高峰),編號5為AlphaGo Zero發現的新定式。(圖/Deepmind)
 
1997年5月,由IBM公司打造的超級電腦-深藍(Deep Blue),以2勝1敗3和的戰績戰勝當時國際象棋(西洋棋)俄羅斯籍世界冠軍加里·基莫維奇·卡斯帕洛夫(Garry Kimovich Kasparov),成了首位敗倒於電腦的人類冠軍,然而他卻在數年後出版的書籍中表示,儘管他不喜歡輸的感覺,但被自動化機器或看不見的演算法挑戰、超越甚至取代的感覺,的確漸漸成為現今社會的一部份,然而這也是人類科技進步的最有力證明。展望未來,人工智慧科技的進步已可以預期成為推動人類社會發展的巨大助力,並能给我們人類文明開創無限的進步空間。
 

副總編輯:國立中山大學資訊工程學系 陳坤志教授

總編輯:國立中山大學資訊工程學系 黃英哲教授

 
資料來源
  • 科技部補助「新媒體科普傳播實作計畫」
OPEN
回頂部