
直到最后一刻,20歲的柯潔都在努力去贏對手人工智能AlphaGo一盤棋。柯潔是中國圍棋職業九段棋手,現今圍棋等級分排名世界第一。
2017年5月25日下午1點37分時,浙江烏鎮,柯潔將三顆白子撂在黃棋盤上認輸,來不及整理一下吃敗仗后的沮喪表情,立刻與對手開始復盤。兩天前的同一個場地,他已經輸了第一盤,按照賽前規定,此番認輸表示整個比賽,三決兩勝,他已經輸掉了整個比賽。
但是,接下來新聞發布會上,柯潔當著眾多記者的面,向AlphaGo研發公司Deepmind負責人哈薩比斯爭取最后一盤對抗執白棋權益。按照之前猜先規矩,第一盤柯潔執黑,第二盤執白,第三盤應該執黑。業界知道,柯潔執白棋勝率遠高于黑棋。
按照本次圍棋峰會日程,26日舉行配對賽和中國圍棋五人團隊與AlphaGo對弈。據現場解說員、柯潔朋友古力透露,柯潔提出想成為這場對抗賽的擺棋“人肉臂”,被主辦方拒絕。顯然,這位人類圍棋“代表”者柯潔,一直在爭取點滴機會多了解對手AlphaGo。
26日當天舉行的配對賽和團隊對弈AlphaGo,柯潔雖然沒有作為選手登場,也沒有像第一場失利之后去池塘釣魚、拉弓射箭,而是一直泡在后方研究室里,關注場上比賽變化。據AlphaGo官方團隊證實,柯潔當天下午觀看中國五人團體對戰AlphaGo過程中,首先在一步棋上提出了靠完尖的下法,被其他棋手嘲笑否定。不久之后,AlphaGo使出了一模一樣的著法。
某種程度上,柯潔是在為人類棋手而戰,也是在為自己而戰。2016年3月,AlphaGo在韓國首爾與李世石對戰五局中,輸掉第四局。李世石成為目前戰勝過人工智能AlphaGo的最后一人。如果柯潔不能勝一盤AlphaGo,歷史將會像記住戰勝過IBM深藍電腦的國際象棋冠軍卡斯帕羅夫、第一個登月的阿姆斯特朗一樣記住李世石,而不是柯潔。
兩次與現場預判相反的逆轉
從最初看不上眼,到贏了韓國棋手李世石之后被震驚,再到稱呼AlphaGo為“阿老師”,圍棋手們在不斷地調整著對于人工智能最新代表者AlphaGo的認知。峰會上,最讓中國棋手們渴望和興奮的是試圖找到AlphaGo一些破綻。
中國圍棋隊總教練俞斌此前表示,AlphaGo的弱點,在去年對李世石第四盤中所表現出來的“無中生有”的失誤,當李世石下出第78手妙棋之后,AlphaGo開始失常。他將這種失誤稱為“開放性計算的誤算”。這種誤算在AlphaGo對李世石第五局的角上計算也出現過。
人們覺得AlphaGo是電腦,擅長計算,可能不擅長從大局考慮。經過幾番對戰,棋手們推翻了此前判斷,他們發現AlphaGo駕馭大局能力并不比人類弱,很難從中占到便宜。又有人大膽提出,AlphaGo可能擅長布局,不擅長計算;還有人提出AlphaGo下棋,重撈實地,不重形勢。像盲目摸象,人類棋手不停地嘗試著。
另外,有棋手們推斷,人工智能圍棋經常走棋時刪繁就簡,不造劫材,可能不擅長“應劫”,多多打劫可能會讓電腦犯糊涂,并舉出網上一些贏了AI圍棋的例子證明,不斷挑起肉搏,在亂戰中尋找機會殺死AI圍棋大龍方才有獲勝機會。
以上這些因暫時沒有人類戰勝AlphaGo和今年初AlphaGo匿名化身的Master,無從證明。
倒是現場解說員,對于棋盤上勝負預期兩次與最終AlphaGo走出的結果完全相反,著實讓現場的觀眾和解說員一起好久難以緩過勁來。
第一次來自柯潔25日與AlphaGo的第二場比賽。開局至前100手,棋手古力九段根據柯潔臉上表情、較少揪頭發的動作和棋盤上局勢得出柯潔的棋相當樂觀,有獲勝的希望。“AlphaGo之父”哈薩比斯(Demis Hassabis)在11:32通過社交網絡對外稱:“根據AlphaGo的評估,柯潔此時此刻下的非常完美。”當時比賽還在進行當中,這條推文截圖立刻在現場傳播。觀眾有些興奮,期待柯潔代表人類給機器一個教訓。
這個希望隨著柯潔投子認輸而泯滅。
第二次是26日上午連笑+AlphaGo一起對戰古力+AlphaGo,現場氣氛隨著解說員引導,認為時間相對充裕的古力一方勝券在握。結果卻是古力一方AlphaGo主動投降,古力拒絕,下了十來手之后,古力認識到大勢已去,親自舉起投降牌子。
賽后,騰訊科技追隨著一名現場解說員問為何出現逆轉情況、AlphaGo和古力誰下出惡手等問題,此位解說員思緒一直停留在比賽中,難以回神應答。
AlphaGo帶給人類圍棋界的震驚仍然在繼續,并擴大著影響范圍。只是很多人現場見證之后,感受更為深刻——很多人是懵的,包括職業棋手和一些專家。
這或許意味著,在遠超人類計算能力的人工智能AlphaGo面前,職業棋手與業余棋手之間的差距,可能沒有職業棋手與AlphaGo之間差距大,整個圍棋界將因為AlphaGo的存在引起一些固有結構的崩塌。這之后,誰能有與AlphaGo切磋棋藝的機會,誰就有可能更快地成長,走得更遠。
更強的AlphaGo
如果烏鎮峰會上柯潔勝一局,意義將不同于去年李世石取勝。
5月24日,在新版本AlphaGo首戰以1/4子優勢戰勝柯潔之后,DeepMind創始人兼CEO 哈薩比斯、AlphaGo團隊負責人David Silver在人工智能高峰論壇上稱,“AlphaGo已經可以模仿人類直覺。在過去一年,我們想打造完美的AlphaGo,彌補它知識方面的空白。因為在與李世石的比賽中,它是有缺陷的。”哈薩比斯說。據介紹,AlphaGo升級后新版本可以讓老版本三個子。
哈薩比斯稱圍棋因為太過復雜,窮舉搜索難以解決。對于計算機來說,圍棋有兩項難題:很難寫出評估程序以決定誰贏;搜索空間太過龐大。
圍棋不像象棋等游戲靠計算,而是靠直覺。圍棋中沒有等級概念,所有棋子都一樣。圍棋是筑防游戲,因此需要盤算未來。為此,AlphaGo團隊用兩種卷積神經網絡去完成:策略網絡和估值網絡。策略網絡的卷積神經網絡用于決定下一步落子可能的位置,價值網絡用于評估當前棋局獲勝的概率。
為了應對圍棋巨大復雜性,AlphaGo 采用機器學習技術,結合了監督學習和強化學習的優勢。通過訓練形成一個策略網絡(policy network),將棋盤上的局勢作為輸入信息,并對所有可行的落子位置生成一個概率分布。

然后,訓練出一個價值網絡(value network)對自我對弈進行預測,以 -1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的標準,預測所有可行落子位置的結果。這兩個網絡自身都十分強大,而 AlphaGo將這兩種網絡整合進基于概率的蒙特卡羅樹搜索(MCTS)中,實現了它真正的優勢。最后,新版的AlphaGo 產生大量自我對弈棋局,為下一代版本提供了訓練數據,此過程循環往復。
地平線創始人、百度前深度學習研究院負責人余凱告訴騰訊科技,這次AlphaGo來到中國,技術提升的進步體現在兩方面,一方面是AlphaGo 2.0算法,更多強調通過自我博弈,加上通過學習人類棋手的歷史數據提升棋藝,一般來說,人工智能需要大數據,而AlphaGo這種做法,并不需要那么多大數據,從零開始,提升棋藝。“我覺得這具有革命性意義。”
另一方面,Deepmind母公司自己研發的新型架構處理器TPU的使用,做到了AlphaGo“單機版”,進一步減少了對處理器數量的需求。
曾經,人工智能學界認為傳統硬件很難進一步提升AlphaGo棋力。去年李世石與AlphaGo開戰之前,創新工場創辦者李開復(微博)在知乎上撰文說明,下圍棋計算,需要增加硬件。線性地從1202個CPU增加到1920個CPU,AlphaGo的技戰指數(ELO)只增加了28,并未跟著跳躍增長。
但是,TPU的出現極大地提高了計算性能,同時能耗更小,體積也更小。余凱認為通過TPU加大的計算能力,硬件能力提升使得搜索進入一個更大的求解空間。“硬件提升也是令業界矚目的。”
國內人工智能芯片研發公司寒武紀曾預言,采用人工智能芯片,AlphaGo只需要一臺個人電腦大小的主機。這次烏鎮圍棋峰會上,雖然Deepmind公司未能完全達到,卻朝這個方面在進步。值得一提的是,寒武紀公司創始人陳天石告訴騰訊科技,早期與一位法國專家Olivier Temam一起研究人工智能芯片,這位法國人后來加入了Deepmind的母公司,成為TPU團隊中一員。
未來,更強的人工智能芯片的出現,與人類棋手的水平將越拉越遠。
逼至AIpahGo極限的比賽
一方面人類棋手在尋找機會戰勝AlphaGo,另一方面,節節勝利的AlphaGo正在被神化。
在峰會現場,騰訊科技發現一個有趣現象。作為AlphaGo的核心人物之一,黃士杰博士充當機械臂擺放棋子,整個比賽過程中通常面無表情,不上廁所、不喝水。不斷吃敗仗之后,人們開始談論黃的表情,甚至開始探究黃擺放棋子的手勢,用大拇指和用中指是否代表著不同心情。
本次烏鎮圍棋峰會之前,柯潔究竟研究了多少盤AlphaGo曾走過的棋?無人知曉。人們注意到,柯潔在與AlphaGo對局時,已經可以熟練運用由AlphaGo采用的一些棋招。
最常被人舉例的是所謂“點三三”走法。在對手先手占據星位時,自己再從三三路位置打入。擱在AlphaGo之前,下棋者使用此辦法,“會被老師打屁股,甚至會被認為不會下棋”,不僅一位棋手說。但是,從去年底和今年初AlphaGo大量應用此招,并取得勝利之后,圍棋界對“點三三”做法重新評估。現在普遍持星位和三三位互為弱點,充滿辯證意味。
人與機器對弈中,人類開始借鑒學習人工智能。
23日,柯潔第一盤棋輸掉四分之一子,屬于穩扎穩打下法。25日,柯潔明顯換了一種風格,他試圖與AlphaGo激烈對抗,制造更多紛爭。一度,在左下角的一塊棋有劫爭,AlphaGo遲遲不能像慣常做法那樣化繁就簡,“撐在那里”。盤面最復雜時,有七八條大龍在相互絞殺糾纏,盤面充滿不確實性。
這是柯潔最興奮的時刻,后來也被證明是他離勝利最近的時刻。當時,他用手撫了撫心臟。“太緊張的緣故,想讓它跳得慢一點”,柯潔在賽后發布回顧當時下棋感覺。
“柯潔在這場比賽中是有很多的機會。”哈薩比斯說:“前100步是目前為止和AlphaGo下得最勢均力敵的人。”他稱柯潔比賽中一度將AlphaGo逼至了極限。
遺憾的是,“興奮之后出現了失誤”,柯潔事后坦承未能克服人類的情緒弱點。有情感的人類與只知勝負概率的AlphaGo之間究竟不是同一物種。
現在看來,人類或有可能因為AlphaGo的棋路和棋譜,挖掘出圍棋更多的、沒有被人類探索和理解的地方,利用得當,會使目前圍棋整體水平再上一個臺階。重慶人工智能公司云叢科技創始人周曦持此觀點。他對騰訊科技分析說,AlphaGo下了很多人類理解不了的棋,打破了人類圍棋思維定勢,使得人類棋手更多的反思和學習。同樣的,人的學習抽象理解能力,也不是AlphaGo能掌握的。
未來是否會開放AlphaGo給所有的圍棋愛好者?戰勝人類棋力最強的柯潔之后,下一次還會舉辦此類圍棋峰會嗎?對于騰訊科技這些問題,AlphaGo方面核心人員之一David Silver避重就輕地給予了回答,“AlphaGo只是作為研究為主,沒有進一步計劃。”
不過,有一點可以肯定,當人工智能的圍棋水平遠遠勝過人類之后,人類將放棄繼續挑戰機器的狂想,就像今天人們已經習慣普通電子計算器,誰也不會與它爭一爭計算加減乘除運算速度。也許,到那時回頭看,本次烏鎮圍棋峰會可能是人機大戰歷程中最后一個峰會。
站長資訊網