柯潔再戰(zhàn)圍棋人工智能 這次受讓二子也沒能贏棋
- 來源:雷鋒網(wǎng)
- 作者:NT
- 編輯:newtype2001
作為人類圍棋界的“大魔王”的柯潔,原本是守住人工智能攻勢(shì)的最后一道也是最強(qiáng)一道壁壘。然而在被谷歌AlphaGo擊敗之后,現(xiàn)在柯潔儼然變成了人工智能的棋力測(cè)試工具。
作為圍棋界檢驗(yàn) AI 水平的 human benchmark,柯潔再次落敗。2018 年 1 月 17 日晚八點(diǎn)半,在騰訊野狐圍棋平臺(tái)的1059號(hào)對(duì)弈房,迅速聚集了 7000多名圍觀棋友。如此火爆,只因這里正發(fā)生著一場(chǎng)圍棋史上極為罕見的對(duì)弈——作為國(guó)際圍棋界職業(yè)頂尖棋手,而且是最頂尖的那個(gè),柯潔首次在公開對(duì)戰(zhàn)中成為被讓子的一方,而且是讓二子(黑帖 6 目半)。
與柯潔對(duì)弈的是騰訊 AI Lab 研發(fā)的圍棋 AI 「絕藝」(絕藝指導(dǎo) A)。但是很快,盡管被讓二子,柯潔仍在第 77 手或許是對(duì)自己的表現(xiàn)太過不滿而直接認(rèn)輸。這場(chǎng)意義重大的對(duì)決,就這樣猝然終結(jié)。
隨后,超級(jí)銀冠棋手劍過無聲(連笑九段)登場(chǎng)挑戰(zhàn)「絕藝」,但苦戰(zhàn) 247 手后仍然無奈認(rèn)輸。
“絕藝”對(duì)弈柯潔九段(即“潛伏”)和連笑九段(即“劍過無聲”)。對(duì)弈中,柯潔追殺白棋右上未果,僅弈77手,便爽快認(rèn)輸;一個(gè)小時(shí)后連笑九段跟進(jìn),鏖戰(zhàn)247手后中盤告負(fù)
圍棋界的人士可能對(duì)「絕藝」的大名已經(jīng)耳熟能詳了;而非圍棋界的人士,可能還不是很了解此「國(guó)產(chǎn)狗」。
相比于日本的 DeepZenGo 和英國(guó)的 AlphaGo,國(guó)內(nèi)在 Computer Go(電腦圍棋)的投入起步較晚。騰訊公司從 2016 年 2 月才開始著手研制圍棋 AI。但很快,「絕藝」人工智能的第一個(gè)版本便于 2016 年 3 月 4 日完成了。
隨后,「絕藝 AI」在騰訊圍棋的野狐平臺(tái)上開設(shè)了多個(gè)賬號(hào),包括虎虎有生氣、野狐掃地僧、天下無狗 20、絕藝、驪龍、刑天等。其中「絕藝」賬號(hào)使用時(shí)間最久,對(duì)弈盤數(shù)最多,名氣也最大。目前在野狐平臺(tái)上有「絕藝指導(dǎo)」A、B、C、D 等各個(gè)小號(hào),分別用于對(duì)弈不同段位的棋手。
「絕藝」藝名來源:
重送絕句(杜牧)
絕藝如君天下少,閑人似我世間無。
別后竹窗風(fēng)雪夜,一燈明暗覆吳圖。
雖然起步晚,但是絕藝 AI 發(fā)展卻很快。僅僅經(jīng)過 4 個(gè)月的時(shí)間,在 2016 年 6 月下旬,絕藝已經(jīng)突破了業(yè)余 6 段;同年 8 月便開始在騰訊旗下的野狐圍棋網(wǎng)絡(luò)對(duì)弈平臺(tái)測(cè)試,8 月 23 日首次戰(zhàn)勝職業(yè)棋手,11 月 2 日第一次戰(zhàn)勝世界冠軍江維杰,11 月 19 日首次交手柯潔取勝。
絕藝第一次大范圍引起關(guān)注,是 2017 年 3 月初在野狐平臺(tái)上晉升為「十段」高手。但實(shí)際上在此之前,它已經(jīng)戰(zhàn)勝了包括韓國(guó)圍棋國(guó)手古力、連笑、樸廷桓等高手;甚至在 2 月 14 日至 2 月 24 日期間,和柯潔交手十次,無一敗績(jī)。
隨后,絕藝在 2017 年 3 月 18-19 日的第 10 屆 UEC 杯世界電腦圍棋大會(huì)上戰(zhàn)勝了當(dāng)時(shí)電腦圍棋界的「第二」AI——DeepZenGo,奪得冠軍。由于這次奪冠,絕藝獲得了參加第 5 屆電圣戰(zhàn)的資格,在 2017 年 3 月 26 日對(duì)弈來自日本棋院的新銳棋手一力遼,并執(zhí)黑 157 手中盤勝。
事情總是無挫不勇。2017 年 8 月在鄂爾多斯舉辦的中國(guó)圍棋大會(huì)首屆世界智能圍棋公開賽上,「絕藝」半決賽對(duì)弈 DeepZenGo 不幸落敗,未能進(jìn)入決賽。此役之后,「絕藝」臥薪嘗膽,不斷迭代。
2017 年 11 月 15 日野狐平臺(tái)上出現(xiàn)了一個(gè)昵稱為「符合預(yù)期」的賬號(hào),數(shù)日內(nèi)鏖戰(zhàn) 99 局,除了第 40 局被柯潔擊敗外,余者全勝。同時(shí)「符合預(yù)期」還對(duì)戰(zhàn)了絕藝指導(dǎo) A(UEC 杯奪冠版),在讓二子的情況下,以 60 連勝完成版本升級(jí)。
12 月 10 日在日本秋葉原舉辦的 2017 圍棋龍星戰(zhàn)(AI RYUSEI)決賽中,升級(jí)版「絕藝」相繼以平穩(wěn)的表現(xiàn)戰(zhàn)勝 MayoiGo、Raynz 和 AQ,并在決賽中再會(huì)老對(duì)手 DeepZenGo 并輕松獲勝。知名棋手劍過無聲(連笑)甚至評(píng)論說「絕藝可讓 Zen 兩子」。
進(jìn)入 2018 年后,從本月 9 日開始,裝備了最強(qiáng)公開版本的「絕藝」(野狐平臺(tái)賬號(hào)為「絕藝指導(dǎo) A」),開始了讓二子(黑帖 6 目半)對(duì)決職業(yè)棋手的行程。截止到與柯潔對(duì)弈前,事實(shí)上「絕藝」已經(jīng)與職業(yè)棋手對(duì)弈了 31 局 27 勝 4 負(fù)。與柯潔和連笑的兩場(chǎng)讓二子對(duì)弈更是讓這輪對(duì)決的意義推上了巔峰。
就圍棋 AI 對(duì)弈中讓二子的問題騰訊 AI Lab 做了以下回應(yīng):
包括 AlphaGo 在內(nèi)的圍棋 AI 都存在贏棋退讓的問題,原因是 AI 以贏棋為目標(biāo),勝率過高時(shí)下哪里都贏,不一定會(huì)選擇贏最多的下法。
而讓子棋就是另外一種勝率過低的極端情況,以絕藝海南挑戰(zhàn)賽版本為例,這是一個(gè)分先版本的 AI,如果要求其以讓 2 子開始對(duì)局,則初始勝率為 7%(讓 3 子則初始勝率 1%,讓 4 子則初始勝率 0.1%)。并且實(shí)力越強(qiáng)的版本,下讓子棋時(shí)的初始勝率就越低(因?yàn)?AI 下棋時(shí)會(huì)假設(shè)對(duì)手跟自己一樣)。
初始勝率過低將導(dǎo)致 AI 不能發(fā)揮出真正的實(shí)力,這也是現(xiàn)在絕藝讓 2 子還不能全勝的原因。我們最近在嘗試優(yōu)化算法,來解決勝率過低帶來的負(fù)面影響,爭(zhēng)取以后在讓子棋里有更好的表現(xiàn)。
據(jù)騰訊 AI Lab 的公開新聞介紹,此次與柯潔等職業(yè)棋手對(duì)弈的「絕藝」挑戰(zhàn)賽版,參考了 2017 年 10 月公開的 AlphaGo Zero 論文,并在實(shí)踐中做出了改進(jìn);使用了 40 block dual-resnet 模型,以老版本的「絕藝」為基礎(chǔ)進(jìn)行強(qiáng)化學(xué)習(xí),自對(duì)弈了數(shù)百萬棋局,在有限的資源和時(shí)間內(nèi),通過把強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)相結(jié)合來加速訓(xùn)練,快速提升了棋力。
為了了解「絕藝」如此迅猛發(fā)展背后的技術(shù)細(xì)節(jié),雷鋒網(wǎng) AI 科技評(píng)論特地采訪了「絕藝」團(tuán)隊(duì)的成員。
AI 科技評(píng)論:這次「絕藝」在與柯潔、連笑等職業(yè)選手的對(duì)弈中,均取得不錯(cuò)的成績(jī)。請(qǐng)問柯潔等職業(yè)棋手是否參與了「絕藝」的開發(fā)?在「絕藝」的成長(zhǎng)中他們起到了什么樣作用?
答:柯潔沒有參與絕藝的開發(fā),但是柯潔等幾十位職業(yè)棋手可以使用絕藝內(nèi)測(cè)網(wǎng)站,「絕藝」也在騰訊野狐圍棋上與棋手對(duì)弈,所以很多棋手共同見證了整個(gè)「絕藝」的成長(zhǎng)過程。
羅洗河九段是絕藝的技術(shù)顧問,給絕藝團(tuán)隊(duì)圍棋技術(shù)方面的指導(dǎo)。
AI 科技評(píng)論:通過您們的新聞了解到,這個(gè)版本的絕藝技術(shù)上主要參考了 2017 年 10 月份 deepmind 發(fā)表的關(guān)于 AlphaGo Zero 的文章。您們對(duì)這篇文章的內(nèi)容怎么評(píng)價(jià)?在具體實(shí)踐中,您們做了哪些方面的改進(jìn)?
答:AlphaGo Zero 是非常讓人震撼的研究成果,除了讓圍棋水平達(dá)到一個(gè)新的高度,它還不依賴人類知識(shí),讓 zero 的算法具備更高的推廣價(jià)值。
絕藝學(xué)習(xí)了 Zero 的 dual-resnet 模型,和絕藝?yán)习姹鞠啾扔懈咝У膹?qiáng)化學(xué)習(xí)算法。因?yàn)榻^藝還在不斷參加比賽進(jìn)行鍛煉,比如 2017 年 12 月騰訊棋牌的「絕藝挑戰(zhàn)賽」等,所以我們沒有選擇從「零」開始,而是以絕藝?yán)习姹緸榛A(chǔ)進(jìn)行強(qiáng)化學(xué)習(xí)。這樣可以大幅減少訓(xùn)練時(shí)間,在有限的資源和時(shí)間內(nèi)完成。目前我們已經(jīng)在開發(fā)從零開始的版本了。
AI 科技評(píng)論:相比 11 月底的「符合預(yù)期」以及 12 月中旬的「絕藝」,挑戰(zhàn)賽版的「絕藝」有哪些方面的改進(jìn)? 開發(fā)這個(gè)版本的「絕藝」花費(fèi)了多少時(shí)間?
答:絕藝近期公開亮相的三個(gè)版本之間的主要差異:
2017 年 11 月符合預(yù)期:20 block dual-resnet,自對(duì)弈了數(shù)十萬棋局
2017 年 12 月日本 AI 龍星戰(zhàn):20 block dual-resnet,自對(duì)弈了數(shù)百萬棋局
2017 年 12 月三亞絕藝挑戰(zhàn)賽:40 block dual-resnet,自對(duì)弈了數(shù)百萬棋局
從 10 月下旬開始,用了 1 個(gè)多月時(shí)間完成了上述三個(gè)版本的開發(fā)。
AI 科技評(píng)論:「絕藝」在多個(gè)比賽中戰(zhàn)勝了國(guó)際上一些歷史悠久的電腦圍棋,請(qǐng)問與 DeepZenGo 等電腦圍棋相比,「絕藝」有哪些方面的優(yōu)勢(shì)和不足?(例如技術(shù)、理念、團(tuán)隊(duì)等)
答: 我們很難簡(jiǎn)單把「絕藝」和其他圍棋 AI 進(jìn)行比較,如果回顧「絕藝」從研發(fā)到成長(zhǎng)過程中,始終與柯潔、古力和騰訊圍棋上的職業(yè)和業(yè)余棋手密切交流與切磋。
AI 科技評(píng)論:「絕藝」團(tuán)隊(duì)已經(jīng)在「絕藝」的研發(fā)上做了很久的工作,請(qǐng)問您們對(duì)「絕藝」的定位是什么?現(xiàn)在絕藝已經(jīng)達(dá)到能夠讓二子與人類的職業(yè)選手進(jìn)行比賽了。再開發(fā)下去的意義在哪?
答:我們認(rèn)為在研究、應(yīng)用和社會(huì)價(jià)值上,「絕藝」都有其特定意義。
圍棋 AI 研究由來已久,相關(guān)的算法也不斷推陳出新?!附^藝」涵蓋了人工智能最熱門的研究領(lǐng)域——深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí),我們?cè)诓粩嘌邪l(fā)中受益良多。
從應(yīng)用價(jià)值上,騰訊野狐圍棋是國(guó)內(nèi)最大、最活躍的的圍棋平臺(tái)之一,「絕藝」目前已經(jīng)有還開發(fā)了指導(dǎo)棋、棋賽講解等功能,也深受廣大棋迷喜愛和關(guān)注。
而在社會(huì)意義上,圍棋是國(guó)粹運(yùn)動(dòng),「絕藝」是騰訊推進(jìn)前沿科技賦能國(guó)粹文化的代表,我們看到 AI 的每一次進(jìn)步,不僅挖掘圍棋的潛力與邊界,也在展現(xiàn)著人類的智慧與進(jìn)步。這也是 AI Lab 對(duì)于絕藝的期待——希望它能與人類棋手積極互動(dòng),從而激發(fā)更多關(guān)注并傳承圍棋這一中國(guó)傳統(tǒng)文化。這是我們的一種科技責(zé)任感。
AI 科技評(píng)論:在去年三月份 UEC 世界杯大賽中的絕藝總體框架遵循的是 AlphaGo 在 2017 年 1 月份發(fā)表的文章;而這次則主要依據(jù) 2017 年 10 月份 AlphaGo Zero 的文章?,F(xiàn)在 Deepmind 已經(jīng)不再繼續(xù)開發(fā) AlphaGo 了。所以您們打算以后如何進(jìn)一步開發(fā)絕藝的性能呢?
答:絕藝會(huì)一直堅(jiān)持開發(fā)下去,除了不斷提高棋力,我們也會(huì)研究解決一些有趣的問題,比如現(xiàn)在的 AI 以獲勝為目標(biāo),勝率過高時(shí)可能會(huì)退讓,不一定會(huì)選擇最優(yōu)的下法。
騰訊將繼續(xù)加大對(duì) AI 的研究與投入,打造世界級(jí)圍棋 AI 能力與推廣,更在 AI 上推進(jìn)深度學(xué)習(xí)等前沿 AI 科技的研究與應(yīng)用。
玩家點(diǎn)評(píng) (0人參與,0條評(píng)論)
熱門評(píng)論
全部評(píng)論