您的位置：首頁 > 新聞 > 時(shí)事焦點(diǎn) > 新聞詳情

柯潔再戰(zhàn)圍棋人工智能這次受讓二子也沒能贏棋

時(shí)間：2018-01-21 10:03:04

來源：雷鋒網(wǎng)
作者：NT
編輯：newtype2001

作為人類圍棋界的“大魔王”的柯潔，原本是守住人工智能攻勢(shì)的最后一道也是最強(qiáng)一道壁壘。然而在被谷歌AlphaGo擊敗之后，現(xiàn)在柯潔儼然變成了人工智能的棋力測(cè)試工具。

作為圍棋界檢驗(yàn) AI 水平的 human benchmark，柯潔再次落敗。2018 年 1 月 17 日晚八點(diǎn)半，在騰訊野狐圍棋平臺(tái)的1059號(hào)對(duì)弈房，迅速聚集了 7000多名圍觀棋友。如此火爆，只因這里正發(fā)生著一場(chǎng)圍棋史上極為罕見的對(duì)弈——作為國(guó)際圍棋界職業(yè)頂尖棋手，而且是最頂尖的那個(gè)，柯潔首次在公開對(duì)戰(zhàn)中成為被讓子的一方，而且是讓二子（黑帖 6 目半）。

與柯潔對(duì)弈的是騰訊 AI Lab 研發(fā)的圍棋 AI 「絕藝」（絕藝指導(dǎo) A）。但是很快，盡管被讓二子，柯潔仍在第 77 手或許是對(duì)自己的表現(xiàn)太過不滿而直接認(rèn)輸。這場(chǎng)意義重大的對(duì)決，就這樣猝然終結(jié)。

隨后，超級(jí)銀冠棋手劍過無聲（連笑九段）登場(chǎng)挑戰(zhàn)「絕藝」，但苦戰(zhàn) 247 手后仍然無奈認(rèn)輸。

“絕藝”對(duì)弈柯潔九段（即“潛伏”）和連笑九段（即“劍過無聲”）。對(duì)弈中，柯潔追殺白棋右上未果，僅弈77手，便爽快認(rèn)輸;一個(gè)小時(shí)后連笑九段跟進(jìn)，鏖戰(zhàn)247手后中盤告負(fù)

圍棋界的人士可能對(duì)「絕藝」的大名已經(jīng)耳熟能詳了;而非圍棋界的人士，可能還不是很了解此「國(guó)產(chǎn)狗」。

相比于日本的 DeepZenGo 和英國(guó)的 AlphaGo，國(guó)內(nèi)在 Computer Go（電腦圍棋）的投入起步較晚。騰訊公司從 2016 年 2 月才開始著手研制圍棋 AI。但很快，「絕藝」人工智能的第一個(gè)版本便于 2016 年 3 月 4 日完成了。

隨后，「絕藝 AI」在騰訊圍棋的野狐平臺(tái)上開設(shè)了多個(gè)賬號(hào)，包括虎虎有生氣、野狐掃地僧、天下無狗 20、絕藝、驪龍、刑天等。其中「絕藝」賬號(hào)使用時(shí)間最久，對(duì)弈盤數(shù)最多，名氣也最大。目前在野狐平臺(tái)上有「絕藝指導(dǎo)」A、B、C、D 等各個(gè)小號(hào)，分別用于對(duì)弈不同段位的棋手。

「絕藝」藝名來源：

重送絕句（杜牧）

絕藝如君天下少，閑人似我世間無。

別后竹窗風(fēng)雪夜，一燈明暗覆吳圖。

雖然起步晚，但是絕藝 AI 發(fā)展卻很快。僅僅經(jīng)過 4 個(gè)月的時(shí)間，在 2016 年 6 月下旬，絕藝已經(jīng)突破了業(yè)余 6 段;同年 8 月便開始在騰訊旗下的野狐圍棋網(wǎng)絡(luò)對(duì)弈平臺(tái)測(cè)試，8 月 23 日首次戰(zhàn)勝職業(yè)棋手，11 月 2 日第一次戰(zhàn)勝世界冠軍江維杰，11 月 19 日首次交手柯潔取勝。

絕藝第一次大范圍引起關(guān)注，是 2017 年 3 月初在野狐平臺(tái)上晉升為「十段」高手。但實(shí)際上在此之前，它已經(jīng)戰(zhàn)勝了包括韓國(guó)圍棋國(guó)手古力、連笑、樸廷桓等高手;甚至在 2 月 14 日至 2 月 24 日期間，和柯潔交手十次，無一敗績(jī)。

隨后，絕藝在 2017 年 3 月 18-19 日的第 10 屆 UEC 杯世界電腦圍棋大會(huì)上戰(zhàn)勝了當(dāng)時(shí)電腦圍棋界的「第二」AI——DeepZenGo，奪得冠軍。由于這次奪冠，絕藝獲得了參加第 5 屆電圣戰(zhàn)的資格，在 2017 年 3 月 26 日對(duì)弈來自日本棋院的新銳棋手一力遼，并執(zhí)黑 157 手中盤勝。

事情總是無挫不勇。2017 年 8 月在鄂爾多斯舉辦的中國(guó)圍棋大會(huì)首屆世界智能圍棋公開賽上，「絕藝」半決賽對(duì)弈 DeepZenGo 不幸落敗，未能進(jìn)入決賽。此役之后，「絕藝」臥薪嘗膽，不斷迭代。

2017 年 11 月 15 日野狐平臺(tái)上出現(xiàn)了一個(gè)昵稱為「符合預(yù)期」的賬號(hào)，數(shù)日內(nèi)鏖戰(zhàn) 99 局，除了第 40 局被柯潔擊敗外，余者全勝。同時(shí)「符合預(yù)期」還對(duì)戰(zhàn)了絕藝指導(dǎo) A（UEC 杯奪冠版），在讓二子的情況下，以 60 連勝完成版本升級(jí)。

12 月 10 日在日本秋葉原舉辦的 2017 圍棋龍星戰(zhàn)（AI RYUSEI）決賽中，升級(jí)版「絕藝」相繼以平穩(wěn)的表現(xiàn)戰(zhàn)勝 MayoiGo、Raynz 和 AQ，并在決賽中再會(huì)老對(duì)手 DeepZenGo 并輕松獲勝。知名棋手劍過無聲（連笑）甚至評(píng)論說「絕藝可讓 Zen 兩子」。

進(jìn)入 2018 年后，從本月 9 日開始，裝備了最強(qiáng)公開版本的「絕藝」（野狐平臺(tái)賬號(hào)為「絕藝指導(dǎo) A」），開始了讓二子（黑帖 6 目半）對(duì)決職業(yè)棋手的行程。截止到與柯潔對(duì)弈前，事實(shí)上「絕藝」已經(jīng)與職業(yè)棋手對(duì)弈了 31 局 27 勝 4 負(fù)。與柯潔和連笑的兩場(chǎng)讓二子對(duì)弈更是讓這輪對(duì)決的意義推上了巔峰。

就圍棋 AI 對(duì)弈中讓二子的問題騰訊 AI Lab 做了以下回應(yīng)：

包括 AlphaGo 在內(nèi)的圍棋 AI 都存在贏棋退讓的問題，原因是 AI 以贏棋為目標(biāo)，勝率過高時(shí)下哪里都贏，不一定會(huì)選擇贏最多的下法。

而讓子棋就是另外一種勝率過低的極端情況，以絕藝海南挑戰(zhàn)賽版本為例，這是一個(gè)分先版本的 AI，如果要求其以讓 2 子開始對(duì)局，則初始勝率為 7%（讓 3 子則初始勝率 1%，讓 4 子則初始勝率 0.1%）。并且實(shí)力越強(qiáng)的版本，下讓子棋時(shí)的初始勝率就越低（因?yàn)?AI 下棋時(shí)會(huì)假設(shè)對(duì)手跟自己一樣）。

初始勝率過低將導(dǎo)致 AI 不能發(fā)揮出真正的實(shí)力，這也是現(xiàn)在絕藝讓 2 子還不能全勝的原因。我們最近在嘗試優(yōu)化算法，來解決勝率過低帶來的負(fù)面影響，爭(zhēng)取以后在讓子棋里有更好的表現(xiàn)。

據(jù)騰訊 AI Lab 的公開新聞介紹，此次與柯潔等職業(yè)棋手對(duì)弈的「絕藝」挑戰(zhàn)賽版，參考了 2017 年 10 月公開的 AlphaGo Zero 論文，并在實(shí)踐中做出了改進(jìn);使用了 40 block dual-resnet 模型，以老版本的「絕藝」為基礎(chǔ)進(jìn)行強(qiáng)化學(xué)習(xí)，自對(duì)弈了數(shù)百萬棋局，在有限的資源和時(shí)間內(nèi)，通過把強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)相結(jié)合來加速訓(xùn)練，快速提升了棋力。

為了了解「絕藝」如此迅猛發(fā)展背后的技術(shù)細(xì)節(jié)，雷鋒網(wǎng) AI 科技評(píng)論特地采訪了「絕藝」團(tuán)隊(duì)的成員。

AI 科技評(píng)論：這次「絕藝」在與柯潔、連笑等職業(yè)選手的對(duì)弈中，均取得不錯(cuò)的成績(jī)。請(qǐng)問柯潔等職業(yè)棋手是否參與了「絕藝」的開發(fā)?在「絕藝」的成長(zhǎng)中他們起到了什么樣作用?

答：柯潔沒有參與絕藝的開發(fā)，但是柯潔等幾十位職業(yè)棋手可以使用絕藝內(nèi)測(cè)網(wǎng)站，「絕藝」也在騰訊野狐圍棋上與棋手對(duì)弈，所以很多棋手共同見證了整個(gè)「絕藝」的成長(zhǎng)過程。

羅洗河九段是絕藝的技術(shù)顧問，給絕藝團(tuán)隊(duì)圍棋技術(shù)方面的指導(dǎo)。

AI 科技評(píng)論：通過您們的新聞了解到，這個(gè)版本的絕藝技術(shù)上主要參考了 2017 年 10 月份 deepmind 發(fā)表的關(guān)于 AlphaGo Zero 的文章。您們對(duì)這篇文章的內(nèi)容怎么評(píng)價(jià)?在具體實(shí)踐中，您們做了哪些方面的改進(jìn)?

答：AlphaGo Zero 是非常讓人震撼的研究成果，除了讓圍棋水平達(dá)到一個(gè)新的高度，它還不依賴人類知識(shí)，讓 zero 的算法具備更高的推廣價(jià)值。

絕藝學(xué)習(xí)了 Zero 的 dual-resnet 模型，和絕藝?yán)习姹鞠啾扔懈咝У膹?qiáng)化學(xué)習(xí)算法。因?yàn)榻^藝還在不斷參加比賽進(jìn)行鍛煉，比如 2017 年 12 月騰訊棋牌的「絕藝挑戰(zhàn)賽」等，所以我們沒有選擇從「零」開始，而是以絕藝?yán)习姹緸榛A(chǔ)進(jìn)行強(qiáng)化學(xué)習(xí)。這樣可以大幅減少訓(xùn)練時(shí)間，在有限的資源和時(shí)間內(nèi)完成。目前我們已經(jīng)在開發(fā)從零開始的版本了。

AI 科技評(píng)論：相比 11 月底的「符合預(yù)期」以及 12 月中旬的「絕藝」，挑戰(zhàn)賽版的「絕藝」有哪些方面的改進(jìn)? 開發(fā)這個(gè)版本的「絕藝」花費(fèi)了多少時(shí)間?

答：絕藝近期公開亮相的三個(gè)版本之間的主要差異：

2017 年 11 月符合預(yù)期：20 block dual-resnet，自對(duì)弈了數(shù)十萬棋局

2017 年 12 月日本 AI 龍星戰(zhàn)：20 block dual-resnet，自對(duì)弈了數(shù)百萬棋局

2017 年 12 月三亞絕藝挑戰(zhàn)賽：40 block dual-resnet，自對(duì)弈了數(shù)百萬棋局

從 10 月下旬開始，用了 1 個(gè)多月時(shí)間完成了上述三個(gè)版本的開發(fā)。

AI 科技評(píng)論：「絕藝」在多個(gè)比賽中戰(zhàn)勝了國(guó)際上一些歷史悠久的電腦圍棋，請(qǐng)問與 DeepZenGo 等電腦圍棋相比，「絕藝」有哪些方面的優(yōu)勢(shì)和不足?（例如技術(shù)、理念、團(tuán)隊(duì)等）

答：我們很難簡(jiǎn)單把「絕藝」和其他圍棋 AI 進(jìn)行比較，如果回顧「絕藝」從研發(fā)到成長(zhǎng)過程中，始終與柯潔、古力和騰訊圍棋上的職業(yè)和業(yè)余棋手密切交流與切磋。

AI 科技評(píng)論：「絕藝」團(tuán)隊(duì)已經(jīng)在「絕藝」的研發(fā)上做了很久的工作，請(qǐng)問您們對(duì)「絕藝」的定位是什么?現(xiàn)在絕藝已經(jīng)達(dá)到能夠讓二子與人類的職業(yè)選手進(jìn)行比賽了。再開發(fā)下去的意義在哪?

答：我們認(rèn)為在研究、應(yīng)用和社會(huì)價(jià)值上，「絕藝」都有其特定意義。

圍棋 AI 研究由來已久，相關(guān)的算法也不斷推陳出新?！附^藝」涵蓋了人工智能最熱門的研究領(lǐng)域——深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)，我們?cè)诓粩嘌邪l(fā)中受益良多。

從應(yīng)用價(jià)值上，騰訊野狐圍棋是國(guó)內(nèi)最大、最活躍的的圍棋平臺(tái)之一，「絕藝」目前已經(jīng)有還開發(fā)了指導(dǎo)棋、棋賽講解等功能，也深受廣大棋迷喜愛和關(guān)注。

而在社會(huì)意義上，圍棋是國(guó)粹運(yùn)動(dòng)，「絕藝」是騰訊推進(jìn)前沿科技賦能國(guó)粹文化的代表，我們看到 AI 的每一次進(jìn)步，不僅挖掘圍棋的潛力與邊界，也在展現(xiàn)著人類的智慧與進(jìn)步。這也是 AI Lab 對(duì)于絕藝的期待——希望它能與人類棋手積極互動(dòng)，從而激發(fā)更多關(guān)注并傳承圍棋這一中國(guó)傳統(tǒng)文化。這是我們的一種科技責(zé)任感。

AI 科技評(píng)論：在去年三月份 UEC 世界杯大賽中的絕藝總體框架遵循的是 AlphaGo 在 2017 年 1 月份發(fā)表的文章;而這次則主要依據(jù) 2017 年 10 月份 AlphaGo Zero 的文章?，F(xiàn)在 Deepmind 已經(jīng)不再繼續(xù)開發(fā) AlphaGo 了。所以您們打算以后如何進(jìn)一步開發(fā)絕藝的性能呢?

答：絕藝會(huì)一直堅(jiān)持開發(fā)下去，除了不斷提高棋力，我們也會(huì)研究解決一些有趣的問題，比如現(xiàn)在的 AI 以獲勝為目標(biāo)，勝率過高時(shí)可能會(huì)退讓，不一定會(huì)選擇最優(yōu)的下法。

騰訊將繼續(xù)加大對(duì) AI 的研究與投入，打造世界級(jí)圍棋 AI 能力與推廣，更在 AI 上推進(jìn)深度學(xué)習(xí)等前沿 AI 科技的研究與應(yīng)用。

相關(guān)資訊

標(biāo)簽：人工智能

玩家點(diǎn)評(píng) （0人參與，0條評(píng)論）

違法和不良信息舉報(bào)

注冊(cè)

熱門評(píng)論

全部評(píng)論

柯潔再戰(zhàn)圍棋人工智能 這次受讓二子也沒能贏棋

柯潔再戰(zhàn)圍棋人工智能這次受讓二子也沒能贏棋