close
哈薩比斯:TPU對新版本的AlphaGo提升巨大
文章來源:新智元
[新智元發自中國桐鄉]烏鎮人工智能峰會進入第二天,哈薩比斯、David Silver和Jeff Dea靜電排油煙機n等高管紛紛發表演講。他們對AlphaGo 2.0的新技術進行瞭詳細解讀。幾位紛紛提到一個關鍵詞——TPU。Jeff Dean 甚至直接放出瞭與GPU的性能對比圖。從昨天的賽後采訪到今天的主旨演講,哈薩比斯等人一直在強調TPU對新版本的AlphaGo的巨大提升。看來,TPU將會成為接下來一段時間內的戰略重點,GPU要小心瞭。本文帶來哈薩比斯、David Silver現場演講報道(附PPT)。
在升級版AlphaGo首戰柯潔後的5月24日,人工智能高峰論壇(The future of AI in Wuzhen)如期召開。一上來就是DeepMind CEO Demis Hassabis和AlphaGo團隊技術負責人 David Sliver 的演講,介紹AlphaGo的研發以及AlphaGo意味著什麼。新智元第一時間為你帶來精彩內容。
Hassabis和Sliver演講後,大腦資深研究員Jeff Dean和軟件工程師陳智峰一起介紹瞭《什麼是AI?AI是如何工作的?》。不僅如此,還有很多耳熟能詳的DeepMind大牛出席瞭本次人工智能高峰論壇:Alphabet董事長Eric Schmidt(對話AI的潛能)、下午還有TensorFlow軟件工程師Rajat Monga(開發者如何使用AI)、Cloud AI 研發主管李佳(行業如何應用AI),以及DeepMind聯合創始人Mustafa Suleyman和健康研究產品經理Lily Peng(如何應用AI應對挑戰:健康、能源、教育等)。
在論壇最後,智庫秘書長李小鳴將在大會上發佈報告《全球人工智能報告2017》。
哈薩比斯,David Silver 和 Jeff Dean 的關鍵詞——TPU
上周的靜電除煙機I/O大會上,Pichai 宣佈推出的第二代 TPU,既能夠加速推理,也能夠加速訓練。
據介紹,第二代 TPU 設備單個的性能就能提供高達 180 teraflops 的浮點計算量。不僅如此,這些升級版的 TPU 集成在一起成為CloudTPU。每個 TPU 都包含瞭一個定制的高速網絡,構成瞭一個稱之為“TPU pod”的機器學習超級計算機。一個TPU pod 包含 64 個第二代TPU,最高可提供多達 11.5 petaflops,加速對單個大型機器學習模型的培訓。
昨天,在升級版的阿老師(AlphaGo)半目優勢取勝柯潔之後,DeepMind CEO 哈薩比斯和AlphaGo項目總負責人David Silver 在新聞發佈會上接受媒體采訪時表示,AlphaGo實際上是在谷歌雲端的單一一臺機器上運行的,建立於TPU上。這和去年使用的谷歌雲端多臺機器分佈式結構有很大區別。因為現在有瞭一個運行起來更好、更簡單的更加強大、高效的算法,它能夠用十分之一的運算力來得到更強大甚至更好的結果。
5月24日的峰會論壇主旨演講中,David Silver 再次提到,新版AlphaGo(DeepMind稱之為 AlphaGo Master)是在單個TPU上進行遊戲。他還提到瞭新版本的AlphaGo與去年對戰李世石的舊版使用的計算資源的區別,由此看出TPU的強大。
David Sliver之後,谷歌大腦負責人Jeff Dean出現在舞臺上,他的演講話題也沒離開TPU。
從DeepMind的幾位負責人的演講中可以看到的關鍵詞有三個:AlphaGo、TPU和。在提到TPU時,直接放出瞭與GPU的性能對比,形象生動。這個廣告,可以打99分吧。
首戰擊敗柯潔後,DeepMind在發佈會上說瞭6件大事
5月23日,在AlphaGo 首戰以四分之一子的優勢戰勝柯潔之後,雙方參加瞭新聞發佈會。
柯潔賽後感言:遇到瞭“圍棋上帝”,比賽中早就預料到結果
柯潔在賽後發佈會表示,自己印象最深的,是AlphaGo自己“斷”的那手棋,在人類的對局中幾乎不可能,但他後來思考發現那步棋“太出色”,“讓人輸得沒脾氣”。另外,這次的AlphaGo讓他感覺像是遇到瞭圍棋“上帝”,與之前的Master都不同。最後,他對自己“永遠有信心”,會全力以赴去下接下來的兩盤棋。
柯潔在數子時被媒體捕捉到“笑”瞭一下,在發佈會上坦言那是“哭笑”。實際上他很早就知道結果瞭,主要是AlphaGo下棋是勻速的,因此在單關也花費比較多時間思考,所以柯潔在這個空檔拼命數子,料到自己會輸,最後果然輸瞭1/4子。
DeepMind:算法比數據量更重要,AlphaGo 的架構細節稍後會全面公開
DeepMind的賽後感言可歸納為以下幾點:
1。DeepMind對於“機機大戰”沒有興趣——要衡量 AlphaGo 的實力,必須讓它跟人類對弈。這次比賽的目的也是為瞭發現AlphaGo的更多弱點。李世石上次贏瞭AlphaGo,他們回去以後就對架構和系統做瞭升級,希望能彌補這種“knowledge gap”。當時的弱點或許被“Fix”瞭,但AlphaGo還有更多弱點,這是AlphaGo自己(通過自我對弈)和他們這些開發人員都不知道的。
2。AlphaGo不會控制輸贏差距,它隻想贏。AlphaGo總是盡量將贏棋的可能性最大化而不是將贏的目數最大化。它每次面臨決策的時候,總是會選擇它自己認為更穩妥、風險更小的路線。AlphaGo在爭取贏棋時的一些行為,它可能會放棄一些目數以求降低它感知到的風險,即使這個風險非常小。
3。沒有完全棄用人類棋譜。當然在最初的版本中,AlphaGo從人類棋譜中學習,後來到現在它大部分的學習材料都來自於自我對弈的棋譜。新版本AlphaGo的一大創新就是它更多地依靠自我學習。在這個版本中,AlphaGo實際上成為瞭它自己的老師,從它自己的搜索中獲得的下法中學習,和上一個版本相比大幅減少瞭對人類棋譜的依賴。
4。AlphaGo這次強大的地方在於算法。去年和李世石對戰後,他們提出瞭更強大的算法,而且發現算法比數據量更重要,這也是為什麼Master的訓練速度是初代AlphaGo的十分之一。這次AlphaGo的硬件支撐是統一通過谷歌雲來的,跟上次對戰李世石的時候不同。
5。AlphaGo實際上是在谷歌雲端的單一一臺機器上運行的,建立於TPU上。這和去年使用的谷歌雲端多臺機器分佈式結構有很大區別。因為現在有瞭一個運行起來更好、更簡單的更加強大、高效的算法,它能夠用十分之一的運算力來得到更強大甚至更好的結果。
6。還會公佈一些AlphaGo自我對弈的棋譜,這周稍後會正式宣佈。
哈薩比斯:AlphaGo 研發介紹, AlphaGo 意味著什麼?
“希望這周的比賽能夠激發中國的圍棋棋手和世界的人工智能科學傢”。哈薩比斯介紹瞭DeepMind在做的事情,以及他們的目標——“發現智能的本質”(slove intelligence),他將最新版 AlphaGo 的技術細節留給瞭 David Sliver 具體闡釋。
哈薩比斯提到,在DeepMind,他們研究的不是一般的人工智能(AI),而是通用智能,或者說通用的學習機器。這種機器具有自主學習的能力,可以執行多種任務,而其技術核心就是深度學習和強化學習。哈薩比斯認為,隻要創造出通用的學習機器,就能夠解決很多現在所無法解決的問題。他以載入史冊的IBM深藍對戰國際象棋大師卡斯帕羅夫為例,深藍當時獲勝的根本原因是暴力計算。
哈薩比斯認為,與圍棋不同,國際象棋是一種盤面已知的遊戲,也就是說,最開始所有的棋子都在棋盤上,當你判斷局勢時,所有的信息都已經有瞭。而圍棋則是不斷構築的遊戲,要判斷在哪裡靜電除油煙機價格落子,很多時候頂尖圍棋手會告訴你,他們依靠的是直覺,“就感覺這樣走是對的”。
剛開始的不經意一步,很可能對未來的形勢造成巨大乃至根本性的影響。
Sliver首次揭露瞭AlphaGo Master版本的新架構和算法
Sliver還是先從最初的AlphaGo講起,為什麼DeepMind團隊會選擇圍棋攻克呢?Sliver表示,圍棋是人類最古老最有智慧的遊戲,也是測試、構建並且理解人工智能最好的方式。實際上,遊戲被用於測試人工智能由來已久,計算機科學傢先從國際象棋入手,到瞭現在的圍棋。。而且,這些遊戲AI的很多算法後來也被應用於各種各樣的AI程序和應用。最後,圍棋為譽為AI的聖杯,就像Demis剛剛說的那樣。
形象化的比較,國際象棋的選擇是有限的,每一步都大約有30多種選擇,然後再下一步又有30多種選擇,以此類推。實際上,國際象棋的這種樹形結構很適合用傳統的計算機方法去搜索並解決。而圍棋的選擇則要多得多,每一步都有幾萬種走法(several hundreds),而下一步又有幾萬種……由此形成的排列組合,對於傳統的計算機或人工智能而言是無解的。
DeepMind是如何解決這個問題的呢?初版AlphaGo,也就是戰勝瞭李世石的那個版本,核心是兩個深度神經網絡。深度神經網絡有很多參數,這些參數可以通過訓練進行調整,從而很好地對知識進行表征,真正理解領域裡發生瞭什麼事情。我們希望AlphaGo能夠真正理解圍棋的基本概念,並且全部依靠自己學習這些概念。
具體說,AlphaGo用瞭卷積神經網絡,可以從每一層的一小塊當中,得出一些更高層的理解,你可以簡單理解為表示棋子在這種局勢下會贏還是會輸的特征,然後每一層以此類推,最終得到高層表征,也就是AlphaGo學會的概念。初版AlphaGo使用瞭12層網絡,而Master版本的使用瞭40層。
AlphaGo使用兩種不同的深度神經網絡,第一種是策略網絡,目標是選擇在哪裡落子。第二種則是價值網絡,價值網絡的作用是衡量走這一步對最終輸贏的影響:棋盤的局部(patches)經過很多層很多層的表征處理,最終得出一個數字,這個數字就是代表這步棋會贏的概率,概率越大(接近1),那麼AlphaGo獲勝的概率就越大。
AlphaGo訓練的過程,實際上結合瞭兩種機器學習,首先是監督學習,其中人類棋譜被用作訓練數據,然後結合強化學習,在強化學習過程中,系統通過試錯不斷提升自己,弄清哪種策略最好。這張圖顯示瞭AlphaGo的訓練過程,先從大量的人類專傢下棋的訓練數據集開始,我們讓策略網絡所做的,就是學習人類專傢的走法,不斷調整參數,最終在每個位置走出跟人類專傢一樣的走法。
這就是策略網絡,我們用策略網絡做強化學習,也就是讓策略網絡不斷自我對弈,在很短的時間裡掌握什麼是最好的下法。然後,我們用價值網絡判斷,每一步是黑棋贏還是白棋贏,就像人類專傢通過直覺判斷是否該這樣走一樣。
如果像往常一樣,我們要去判斷每一步贏的幾率,那麼計算力是不夠的。在AlphaGo這裡,我們結合策略網絡和價值網絡,大幅降低瞭搜索的難度。首先,我們用策略網絡減少瞭搜索的寬度,然後用價值網絡減少瞭搜索的深度。
這兩種搜索算法的結合,也被稱為蒙特卡洛樹搜索方法,AlphaGo先使用策略網絡選擇怎麼走,然後用價值網絡判斷這樣走的贏率,最終得出一個數字。這個模擬過程會重復很多次,計算出每種不同走法的贏率。然後,這些數字會被傳回一開始的部分,讓系統決定走哪一步贏率最大。
上面說的這些就是跟李世石對戰的AlphaGo的大致步驟。這張圖顯示瞭當時AlphaGo使用的硬件或者計算力支撐,使用瞭大約50塊TPU,能夠搜索(結合圖中顯示的數字)。看到這個數字你也許會認為AlphaGo做的計算量很大瞭,但實際上深藍當時做的是AlphaGo的要做得多,每秒做上億次計算。因此,可以說AlphaGo做的計算比深藍要“更聰明”,更謹慎。
接下來我介紹新版AlphaGo,也被稱為AlphaGo Master,這次對戰柯潔的新版AlphaGo。AlphaGo Mater使用更加有效的算法,所需的計算量是AlphaGo的1/10。這張圖顯示瞭AlphaGo Mater使用的硬件,通過谷歌雲提供的一塊TPU,你可以把它當做是一臺計算機。
而使Master如此強大的原因之一,是我們使用瞭最好的數據——AlphaGo自我對弈的數據。所以,AlphaGo實際上成瞭自己的“老師”,每一代生成的數據都成為下一代、更強一代的訓練材料。我們使用這一過程,訓練瞭更強大的策略網絡和價值網絡。
具體說,我們讓AlphaGo自我對弈,也就是通過強化學習,生成大量數據,訓練下一代的AlphaGo。這時,策略網絡就使用它自己生成的數據,在不進行任何搜索的情況下,自己訓練自己得出最強大的走法,由此得出瞭目前最強大的策略網絡。
類似的,我們也這樣訓練價值網絡,我們使用AlphaGo自我對弈後獲勝的那些數據來作為訓練樣本,這些都是質量很高(最高)的樣本,裡面含有大量每局AlphaGo自我對弈中每一步走法贏率判斷的信息。換句話說,新的價值網絡會判斷Master每一步的最終贏率是多少。
然後,我們將上述過程重復多次,不斷得到新的價值網絡和策略網絡,AlphaGo也能不斷做出更高效的搜索質量和更好地判斷勝率。
那麼,我們怎麼衡量AlphaGo的能力呢?我們最初用Zen和進行對比,後來是樊麾,再到李世石,以及線上對戰平臺。
但是,隻通過自我對弈是無法找出AlphaGo的弱點的。這也是我們今天來對戰柯潔的原因。當然,深度強化學習也不僅僅用在圍棋上,還有遊戲中。
文章來源:新智元
[新智元發自中國桐鄉]烏鎮人工智能峰會進入第二天,哈薩比斯、David Silver和Jeff Dea靜電排油煙機n等高管紛紛發表演講。他們對AlphaGo 2.0的新技術進行瞭詳細解讀。幾位紛紛提到一個關鍵詞——TPU。Jeff Dean 甚至直接放出瞭與GPU的性能對比圖。從昨天的賽後采訪到今天的主旨演講,哈薩比斯等人一直在強調TPU對新版本的AlphaGo的巨大提升。看來,TPU將會成為接下來一段時間內的戰略重點,GPU要小心瞭。本文帶來哈薩比斯、David Silver現場演講報道(附PPT)。
在升級版AlphaGo首戰柯潔後的5月24日,人工智能高峰論壇(The future of AI in Wuzhen)如期召開。一上來就是DeepMind CEO Demis Hassabis和AlphaGo團隊技術負責人 David Sliver 的演講,介紹AlphaGo的研發以及AlphaGo意味著什麼。新智元第一時間為你帶來精彩內容。
Hassabis和Sliver演講後,大腦資深研究員Jeff Dean和軟件工程師陳智峰一起介紹瞭《什麼是AI?AI是如何工作的?》。不僅如此,還有很多耳熟能詳的DeepMind大牛出席瞭本次人工智能高峰論壇:Alphabet董事長Eric Schmidt(對話AI的潛能)、下午還有TensorFlow軟件工程師Rajat Monga(開發者如何使用AI)、Cloud AI 研發主管李佳(行業如何應用AI),以及DeepMind聯合創始人Mustafa Suleyman和健康研究產品經理Lily Peng(如何應用AI應對挑戰:健康、能源、教育等)。
在論壇最後,智庫秘書長李小鳴將在大會上發佈報告《全球人工智能報告2017》。
哈薩比斯,David Silver 和 Jeff Dean 的關鍵詞——TPU
上周的靜電除煙機I/O大會上,Pichai 宣佈推出的第二代 TPU,既能夠加速推理,也能夠加速訓練。
據介紹,第二代 TPU 設備單個的性能就能提供高達 180 teraflops 的浮點計算量。不僅如此,這些升級版的 TPU 集成在一起成為CloudTPU。每個 TPU 都包含瞭一個定制的高速網絡,構成瞭一個稱之為“TPU pod”的機器學習超級計算機。一個TPU pod 包含 64 個第二代TPU,最高可提供多達 11.5 petaflops,加速對單個大型機器學習模型的培訓。
昨天,在升級版的阿老師(AlphaGo)半目優勢取勝柯潔之後,DeepMind CEO 哈薩比斯和AlphaGo項目總負責人David Silver 在新聞發佈會上接受媒體采訪時表示,AlphaGo實際上是在谷歌雲端的單一一臺機器上運行的,建立於TPU上。這和去年使用的谷歌雲端多臺機器分佈式結構有很大區別。因為現在有瞭一個運行起來更好、更簡單的更加強大、高效的算法,它能夠用十分之一的運算力來得到更強大甚至更好的結果。
5月24日的峰會論壇主旨演講中,David Silver 再次提到,新版AlphaGo(DeepMind稱之為 AlphaGo Master)是在單個TPU上進行遊戲。他還提到瞭新版本的AlphaGo與去年對戰李世石的舊版使用的計算資源的區別,由此看出TPU的強大。
David Sliver之後,谷歌大腦負責人Jeff Dean出現在舞臺上,他的演講話題也沒離開TPU。
從DeepMind的幾位負責人的演講中可以看到的關鍵詞有三個:AlphaGo、TPU和。在提到TPU時,直接放出瞭與GPU的性能對比,形象生動。這個廣告,可以打99分吧。
首戰擊敗柯潔後,DeepMind在發佈會上說瞭6件大事
5月23日,在AlphaGo 首戰以四分之一子的優勢戰勝柯潔之後,雙方參加瞭新聞發佈會。
柯潔賽後感言:遇到瞭“圍棋上帝”,比賽中早就預料到結果
柯潔在賽後發佈會表示,自己印象最深的,是AlphaGo自己“斷”的那手棋,在人類的對局中幾乎不可能,但他後來思考發現那步棋“太出色”,“讓人輸得沒脾氣”。另外,這次的AlphaGo讓他感覺像是遇到瞭圍棋“上帝”,與之前的Master都不同。最後,他對自己“永遠有信心”,會全力以赴去下接下來的兩盤棋。
柯潔在數子時被媒體捕捉到“笑”瞭一下,在發佈會上坦言那是“哭笑”。實際上他很早就知道結果瞭,主要是AlphaGo下棋是勻速的,因此在單關也花費比較多時間思考,所以柯潔在這個空檔拼命數子,料到自己會輸,最後果然輸瞭1/4子。
DeepMind:算法比數據量更重要,AlphaGo 的架構細節稍後會全面公開
DeepMind的賽後感言可歸納為以下幾點:
1。DeepMind對於“機機大戰”沒有興趣——要衡量 AlphaGo 的實力,必須讓它跟人類對弈。這次比賽的目的也是為瞭發現AlphaGo的更多弱點。李世石上次贏瞭AlphaGo,他們回去以後就對架構和系統做瞭升級,希望能彌補這種“knowledge gap”。當時的弱點或許被“Fix”瞭,但AlphaGo還有更多弱點,這是AlphaGo自己(通過自我對弈)和他們這些開發人員都不知道的。
2。AlphaGo不會控制輸贏差距,它隻想贏。AlphaGo總是盡量將贏棋的可能性最大化而不是將贏的目數最大化。它每次面臨決策的時候,總是會選擇它自己認為更穩妥、風險更小的路線。AlphaGo在爭取贏棋時的一些行為,它可能會放棄一些目數以求降低它感知到的風險,即使這個風險非常小。
3。沒有完全棄用人類棋譜。當然在最初的版本中,AlphaGo從人類棋譜中學習,後來到現在它大部分的學習材料都來自於自我對弈的棋譜。新版本AlphaGo的一大創新就是它更多地依靠自我學習。在這個版本中,AlphaGo實際上成為瞭它自己的老師,從它自己的搜索中獲得的下法中學習,和上一個版本相比大幅減少瞭對人類棋譜的依賴。
4。AlphaGo這次強大的地方在於算法。去年和李世石對戰後,他們提出瞭更強大的算法,而且發現算法比數據量更重要,這也是為什麼Master的訓練速度是初代AlphaGo的十分之一。這次AlphaGo的硬件支撐是統一通過谷歌雲來的,跟上次對戰李世石的時候不同。
5。AlphaGo實際上是在谷歌雲端的單一一臺機器上運行的,建立於TPU上。這和去年使用的谷歌雲端多臺機器分佈式結構有很大區別。因為現在有瞭一個運行起來更好、更簡單的更加強大、高效的算法,它能夠用十分之一的運算力來得到更強大甚至更好的結果。
6。還會公佈一些AlphaGo自我對弈的棋譜,這周稍後會正式宣佈。
哈薩比斯:AlphaGo 研發介紹, AlphaGo 意味著什麼?
“希望這周的比賽能夠激發中國的圍棋棋手和世界的人工智能科學傢”。哈薩比斯介紹瞭DeepMind在做的事情,以及他們的目標——“發現智能的本質”(slove intelligence),他將最新版 AlphaGo 的技術細節留給瞭 David Sliver 具體闡釋。
哈薩比斯提到,在DeepMind,他們研究的不是一般的人工智能(AI),而是通用智能,或者說通用的學習機器。這種機器具有自主學習的能力,可以執行多種任務,而其技術核心就是深度學習和強化學習。哈薩比斯認為,隻要創造出通用的學習機器,就能夠解決很多現在所無法解決的問題。他以載入史冊的IBM深藍對戰國際象棋大師卡斯帕羅夫為例,深藍當時獲勝的根本原因是暴力計算。
哈薩比斯認為,與圍棋不同,國際象棋是一種盤面已知的遊戲,也就是說,最開始所有的棋子都在棋盤上,當你判斷局勢時,所有的信息都已經有瞭。而圍棋則是不斷構築的遊戲,要判斷在哪裡靜電除油煙機價格落子,很多時候頂尖圍棋手會告訴你,他們依靠的是直覺,“就感覺這樣走是對的”。
剛開始的不經意一步,很可能對未來的形勢造成巨大乃至根本性的影響。
Sliver首次揭露瞭AlphaGo Master版本的新架構和算法
Sliver還是先從最初的AlphaGo講起,為什麼DeepMind團隊會選擇圍棋攻克呢?Sliver表示,圍棋是人類最古老最有智慧的遊戲,也是測試、構建並且理解人工智能最好的方式。實際上,遊戲被用於測試人工智能由來已久,計算機科學傢先從國際象棋入手,到瞭現在的圍棋。。而且,這些遊戲AI的很多算法後來也被應用於各種各樣的AI程序和應用。最後,圍棋為譽為AI的聖杯,就像Demis剛剛說的那樣。
形象化的比較,國際象棋的選擇是有限的,每一步都大約有30多種選擇,然後再下一步又有30多種選擇,以此類推。實際上,國際象棋的這種樹形結構很適合用傳統的計算機方法去搜索並解決。而圍棋的選擇則要多得多,每一步都有幾萬種走法(several hundreds),而下一步又有幾萬種……由此形成的排列組合,對於傳統的計算機或人工智能而言是無解的。
DeepMind是如何解決這個問題的呢?初版AlphaGo,也就是戰勝瞭李世石的那個版本,核心是兩個深度神經網絡。深度神經網絡有很多參數,這些參數可以通過訓練進行調整,從而很好地對知識進行表征,真正理解領域裡發生瞭什麼事情。我們希望AlphaGo能夠真正理解圍棋的基本概念,並且全部依靠自己學習這些概念。
具體說,AlphaGo用瞭卷積神經網絡,可以從每一層的一小塊當中,得出一些更高層的理解,你可以簡單理解為表示棋子在這種局勢下會贏還是會輸的特征,然後每一層以此類推,最終得到高層表征,也就是AlphaGo學會的概念。初版AlphaGo使用瞭12層網絡,而Master版本的使用瞭40層。
AlphaGo使用兩種不同的深度神經網絡,第一種是策略網絡,目標是選擇在哪裡落子。第二種則是價值網絡,價值網絡的作用是衡量走這一步對最終輸贏的影響:棋盤的局部(patches)經過很多層很多層的表征處理,最終得出一個數字,這個數字就是代表這步棋會贏的概率,概率越大(接近1),那麼AlphaGo獲勝的概率就越大。
AlphaGo訓練的過程,實際上結合瞭兩種機器學習,首先是監督學習,其中人類棋譜被用作訓練數據,然後結合強化學習,在強化學習過程中,系統通過試錯不斷提升自己,弄清哪種策略最好。這張圖顯示瞭AlphaGo的訓練過程,先從大量的人類專傢下棋的訓練數據集開始,我們讓策略網絡所做的,就是學習人類專傢的走法,不斷調整參數,最終在每個位置走出跟人類專傢一樣的走法。
這就是策略網絡,我們用策略網絡做強化學習,也就是讓策略網絡不斷自我對弈,在很短的時間裡掌握什麼是最好的下法。然後,我們用價值網絡判斷,每一步是黑棋贏還是白棋贏,就像人類專傢通過直覺判斷是否該這樣走一樣。
如果像往常一樣,我們要去判斷每一步贏的幾率,那麼計算力是不夠的。在AlphaGo這裡,我們結合策略網絡和價值網絡,大幅降低瞭搜索的難度。首先,我們用策略網絡減少瞭搜索的寬度,然後用價值網絡減少瞭搜索的深度。
這兩種搜索算法的結合,也被稱為蒙特卡洛樹搜索方法,AlphaGo先使用策略網絡選擇怎麼走,然後用價值網絡判斷這樣走的贏率,最終得出一個數字。這個模擬過程會重復很多次,計算出每種不同走法的贏率。然後,這些數字會被傳回一開始的部分,讓系統決定走哪一步贏率最大。
上面說的這些就是跟李世石對戰的AlphaGo的大致步驟。這張圖顯示瞭當時AlphaGo使用的硬件或者計算力支撐,使用瞭大約50塊TPU,能夠搜索(結合圖中顯示的數字)。看到這個數字你也許會認為AlphaGo做的計算量很大瞭,但實際上深藍當時做的是AlphaGo的要做得多,每秒做上億次計算。因此,可以說AlphaGo做的計算比深藍要“更聰明”,更謹慎。
接下來我介紹新版AlphaGo,也被稱為AlphaGo Master,這次對戰柯潔的新版AlphaGo。AlphaGo Mater使用更加有效的算法,所需的計算量是AlphaGo的1/10。這張圖顯示瞭AlphaGo Mater使用的硬件,通過谷歌雲提供的一塊TPU,你可以把它當做是一臺計算機。
而使Master如此強大的原因之一,是我們使用瞭最好的數據——AlphaGo自我對弈的數據。所以,AlphaGo實際上成瞭自己的“老師”,每一代生成的數據都成為下一代、更強一代的訓練材料。我們使用這一過程,訓練瞭更強大的策略網絡和價值網絡。
具體說,我們讓AlphaGo自我對弈,也就是通過強化學習,生成大量數據,訓練下一代的AlphaGo。這時,策略網絡就使用它自己生成的數據,在不進行任何搜索的情況下,自己訓練自己得出最強大的走法,由此得出瞭目前最強大的策略網絡。
類似的,我們也這樣訓練價值網絡,我們使用AlphaGo自我對弈後獲勝的那些數據來作為訓練樣本,這些都是質量很高(最高)的樣本,裡面含有大量每局AlphaGo自我對弈中每一步走法贏率判斷的信息。換句話說,新的價值網絡會判斷Master每一步的最終贏率是多少。
然後,我們將上述過程重復多次,不斷得到新的價值網絡和策略網絡,AlphaGo也能不斷做出更高效的搜索質量和更好地判斷勝率。
那麼,我們怎麼衡量AlphaGo的能力呢?我們最初用Zen和進行對比,後來是樊麾,再到李世石,以及線上對戰平臺。
但是,隻通過自我對弈是無法找出AlphaGo的弱點的。這也是我們今天來對戰柯潔的原因。當然,深度強化學習也不僅僅用在圍棋上,還有遊戲中。
- 除油煙機 【mobile01】餐廳小吃店開店必備,遠離油煙客訴問題~
- 靜電除煙機 【油煙處理首選】有油煙味道問題常常被旁邊的住戶抗議嗎,選擇靜電機不再煩惱~
- 靜電抽油煙機 【專家推薦】油煙味道讓您困擾嗎?專家告訴您解決方式?
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
文章標籤
全站熱搜
留言列表