酷知百科網

位置:首頁 > 遊戲數碼 > 互聯網

前世今生,帶你瞭解AlphaGo的發展歷程

互聯網1.13W

阿爾法圍棋(AlphaGo)是一款圍棋人工智能程序,由位於英國倫敦的谷歌(Google)旗下DeepMind公司的戴維·西爾弗、艾佳·黃和戴密斯·哈薩比斯與他們的團隊開發,這個程序利用“價值網絡”去計算局面,用“策略網絡”去選擇下子。

AlphaGo的主要設計者:

大衛·席爾瓦 (David Silver),劍橋大學計算機科學學士,碩士,加拿大阿爾伯塔大學計算機科學博士。現爲倫敦大學學院講師及Google DeepMind研究員。

前世今生,帶你瞭解AlphaGo的發展歷程

黃士傑(Aja Huang),臺灣交通大學計算機科學學士,臺灣師範大學計算機科學碩士和博士,加拿大阿爾伯塔大學計算機科學博士後。現爲Google DeepMind研究員。

前世今生,帶你瞭解AlphaGo的發展歷程 第2張

阿爾法圍棋(AlphaGo)是透過兩個不同神經網絡“大腦”合作來改進下棋。這些大腦是多層神經網絡跟那些Google圖片搜尋引擎識別圖片在結構上是相似的。它們從多層啓發式二維過濾器開始,去處理圍棋棋盤的定位,就像圖片分類器網絡處理圖片一樣。經過過濾,13 個完全連接的神經網絡層產生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。

這些網絡透過反覆訓練來檢查結果,再去校對調整參數,去讓下次執行更好。這個處理器有大量的隨機性元素,所以人們是不可能精確知道網絡是如何“思考”的,但更多的訓練後能讓它進化到更好。

前世今生,帶你瞭解AlphaGo的發展歷程 第3張

第一大腦:落子選擇器 (Move Picker)

阿爾法圍棋(AlphaGo)的第一個神經網絡大腦是“監督學習的策略網絡(Policy Network)” ,觀察棋盤佈局企圖找到最佳的下一步。事實上,它預測每一個合法下一步的最佳概率,那麼最前面猜測的就是那個概率最高的。這可以理解成“落子選擇器”。

第二大腦:棋局評估器 (Position Evaluator)

阿爾法圍棋(AlphaGo)的第二個大腦相對於落子選擇器是回答另一個問題。不是去猜測具體下一步,它預測每一個棋手贏棋的可能,在給定棋子位置情況下。這“局面評估器”就是“價值網絡(Value Network)”,透過整體局面判斷來輔助落子選擇器。這個判斷僅僅是大概的,但對於閱讀速度提高很有幫助。透過分類潛在的未來局面的“好”與“壞”,AlphaGo能夠決定是否透過特殊變種去深入閱讀。如果局面評估器說這個特殊變種不行,那麼AI就跳過閱讀在這一條線上的任何更多落子。

2015年10月阿爾法圍棋以5:0完勝歐洲圍棋冠軍、職業二段選手樊麾。2016年3月挑戰世界圍棋冠軍、職業九段選手李世石。根據日程安排,5盤棋將分別於3月9日、10日、12日、13日和15日舉行,即使一方率先取得3勝,也會下滿5盤。最後以4:1結束了這場“戰爭”。

2016年3月27日,AlphaGo確認挑戰《星際爭霸2》。2016年12月29日晚起,一個註冊爲“master”、標註爲韓國九段的“網絡棋手”接連“踢館”弈城網和野狐網。 2016年12月29日晚起到2017年1月4日晚,master對戰人類頂尖高手的戰績是60勝0負。最後一盤前,大師透露,“他”就是阿爾法圍棋(AlphaGo)。

2017年5月23日-27日柯潔與圍棋人工智能AlphaGo在“中國烏鎮·圍棋峯會”展開對弈。三局比賽,分別於5月23、25、27日進行。

在未來,Alpha Go將和醫療、機器人等進行結合,更好的服務人類。

標籤:AlphaGo 今生 前世