公司動(dòng)態(tài)
森和智能--AlphaGo Zero橫空出世 一招過(guò)后 笑傲江湖
閱讀:1201 發(fā)布時(shí)間:2018-9-25迄今較強(qiáng)較新穎的版本AlphaGo Zero,使用純強(qiáng)化學(xué)習(xí),將價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)整合為一個(gè)架構(gòu),3天訓(xùn)練后就以100比0擊敗了上一版本的AlphaGo
東莞市森和機(jī)械設(shè)備有限公司是一家致力于工業(yè)自動(dòng)化系統(tǒng),智能工廠整體方案,專業(yè)研發(fā),設(shè)計(jì),生產(chǎn)塑料機(jī)械設(shè)備,工業(yè)冷水機(jī),螺桿冷凍機(jī),模溫機(jī),干冰清洗機(jī),金屬分離設(shè)備的廠商,擁有不同領(lǐng)域的專業(yè)化團(tuán)隊(duì),為世界提供高品質(zhì)的產(chǎn)品和服務(wù)。
東莞市森和機(jī)械設(shè)備有限公司是一家致力于工業(yè)自動(dòng)化系統(tǒng),智能工廠整體方案,專業(yè)研發(fā),設(shè)計(jì),生產(chǎn)塑料機(jī)械設(shè)備,工業(yè)冷水機(jī),螺桿冷凍機(jī),模溫機(jī),干冰清洗機(jī),金屬分離設(shè)備的廠商,擁有不同領(lǐng)域的專業(yè)化團(tuán)隊(duì),為世界提供高品質(zhì)的產(chǎn)品和服務(wù)。
公司積極貫徹和響應(yīng)制造強(qiáng)國(guó)戰(zhàn)略的中國(guó)制造2025計(jì)劃,力求開(kāi)拓創(chuàng)新,勤于探索,勇于實(shí)踐,銳意進(jìn)取,不斷研發(fā)新產(chǎn)品,努力提升產(chǎn)品人機(jī)交互的便利性,智慧性,互聯(lián)性以及互通性,并矢志不渝全面推動(dòng)未來(lái)工業(yè)4.0。
公司成立于2007年,經(jīng)過(guò)10年風(fēng)雨歷程,公司業(yè)務(wù)不斷增長(zhǎng)擴(kuò)大,產(chǎn)品享譽(yù)海內(nèi)外,在2017年,森和迎來(lái)了產(chǎn)品品牌全面升級(jí),我們啟動(dòng)了產(chǎn)品質(zhì)量全面流程管理,對(duì)供應(yīng)商產(chǎn)品鏈數(shù)據(jù)進(jìn)行集成優(yōu)化處理,從產(chǎn)品設(shè)計(jì)端到產(chǎn)品交付客戶的終端,森和實(shí)現(xiàn)全線質(zhì)量數(shù)據(jù)跟蹤管理,大幅度提升客戶滿意度,也增強(qiáng)了我們與客戶合作的長(zhǎng)遠(yuǎn)規(guī)劃。
記得上次Alphago 戰(zhàn)勝柯潔,從此隱退江湖,但是他的傳奇仍在繼續(xù)DeepMind 近期公布了他們新版AlphaGo論文,也是他們新的Nature-神經(jīng)元網(wǎng)絡(luò)論文,介紹了迄今較強(qiáng)較新的版本AlphaGo Zero,使用純強(qiáng)化學(xué)習(xí),將價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)整合為一個(gè)架構(gòu),3天訓(xùn)練后就以100比0擊敗了上一版本的AlphaGo。AlphaGo已經(jīng)退休,但技術(shù)永存。DeepMind已經(jīng)完成圍棋上的概念證明,接下來(lái)就是用強(qiáng)化學(xué)習(xí)創(chuàng)造改變世界的價(jià)值。
AlphaGo Zero*不依賴于人類數(shù)據(jù),因此,這一系統(tǒng)的成功也是朝向人工智能研究*以來(lái)的目標(biāo)——創(chuàng)造出在沒(méi)有人類輸入的條件下,在較具挑戰(zhàn)性的領(lǐng)域?qū)崿F(xiàn)超越人類能力的算法——邁進(jìn)的一大步。
AlphaGo Zero 得到這樣的結(jié)果,是利用了一種新的強(qiáng)化學(xué)習(xí)方式,在這個(gè)過(guò)程中,AlphaGo Zero 成為自己的老師。這個(gè)系統(tǒng)從一個(gè)對(duì)圍棋游戲*沒(méi)有任何知識(shí)的神經(jīng)網(wǎng)絡(luò)開(kāi)始。然后,通過(guò)將這個(gè)神經(jīng)網(wǎng)絡(luò)與一種強(qiáng)大的搜索算法相結(jié)合,它就可以自己和自己下棋了。在它自我對(duì)弈的過(guò)程中,神經(jīng)網(wǎng)絡(luò)被調(diào)整、更新,以預(yù)測(cè)下一個(gè)落子位置以及對(duì)局的z終贏家。
這個(gè)更新后的神經(jīng)網(wǎng)絡(luò)又將與搜索算法重新組合,進(jìn)而創(chuàng)建一個(gè)新的、更強(qiáng)大的 AlphaGo Zero 版本,再次重復(fù)這個(gè)過(guò)程。在每一次迭代中,系統(tǒng)的性能都得到一點(diǎn)兒的提高,自我對(duì)弈的質(zhì)量也在提高,這就使得神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)越來(lái)越準(zhǔn)確,得到更加強(qiáng)大的 AlphaGo Zero 版本。
這種技術(shù)比上一版本的 AlphaGo 更強(qiáng)大,因?yàn)樗辉偈芟抻谌祟愔R(shí)的局限。相反,它可以從一張白紙的狀態(tài)開(kāi)始,從世界上較強(qiáng)大的圍棋玩家——AlphaGo 自身——學(xué)習(xí)。
AlphaGo Zero 在其他方面也與之前的版本有所不同:
AlphaGo Zero 只使用圍棋棋盤上的黑子和白子作為輸入,而上一版本的 AlphaGo 的輸入包含了少量人工設(shè)計(jì)的特征。
它只使用一個(gè)神經(jīng)網(wǎng)絡(luò),而不是兩個(gè)。以前版本的 AlphaGo 使用一個(gè)“策略網(wǎng)絡(luò)”(policy network)來(lái)選擇下一個(gè)落子位置和一個(gè)“價(jià)值網(wǎng)絡(luò)”(value network)來(lái)預(yù)測(cè)游戲的贏家。這些在 AlphaGo Zero 中是聯(lián)合進(jìn)行的,這使得它能夠更有效地進(jìn)行訓(xùn)練和評(píng)估。
AlphaGo Zero 不使用“走子演算”(rollout)——這是其他圍棋程序使用的快速、隨機(jī)游戲,用來(lái)預(yù)測(cè)哪一方將從當(dāng)前的棋局中獲勝。相反,它依賴于高質(zhì)量的神經(jīng)網(wǎng)絡(luò)來(lái)評(píng)估落子位置。
上面的所有這些不同之處都有助于提高系統(tǒng)的性能,使其更加通用。但使得這個(gè)系統(tǒng)更加強(qiáng)大和的是算法的改變。
在進(jìn)行了3天的自我訓(xùn)練后,AlphaGo Zero 在100局比賽中以100:0擊敗了上一版本的 AlphaGo——而上一版本的 AlphaGo 擊敗了曾18次獲得圍棋世界排名的韓國(guó)九段棋士李世乭。經(jīng)過(guò) 40 天的自我訓(xùn)練后,AlphaGo Zero 變得更加強(qiáng)大,超越了“Master”版本的 AlphaGo——Master 曾擊敗世界上的棋士、世界的柯潔。
在經(jīng)過(guò)數(shù)以百萬(wàn)計(jì)的 AlphaGo vs AlphaGo 的對(duì)弈后,這個(gè)系統(tǒng)逐漸從零開(kāi)始學(xué)會(huì)了下圍棋,在短短幾天內(nèi)積累了人類數(shù)千年積累的知識(shí)。AlphaGo Zero 也發(fā)現(xiàn)了新的知識(shí),開(kāi)發(fā)出非常規(guī)的策略和創(chuàng)造性的新下法,這些新下法超越了它在與柯潔和李世乭比賽時(shí)發(fā)明的新技巧。
盡管目前仍處于早期階段,但 AlphaGo Zero 成為了朝著這個(gè)目標(biāo)邁進(jìn)的關(guān)鍵一步。DeepMind 聯(lián)合創(chuàng)始人兼 CEO Demis Hassabis 評(píng)論稱:AlphaGo在短短兩年里取得了如此令人驚嘆的成果?,F(xiàn)在,AlphaGo Zero是我們項(xiàng)目中較強(qiáng)大的版本,它展示了我們?cè)诟俚挠?jì)算能力,而且*不使用人類數(shù)據(jù)的情況下可以取得如此大的進(jìn)展。
“終,我們希望利用這樣的算法突破來(lái)幫助解決現(xiàn)實(shí)世界的各種緊迫問(wèn)題,例如蛋白質(zhì)折疊或新材料設(shè)計(jì)。如果我們能在這些問(wèn)題上取得與AlphaGo同樣的進(jìn)展,就有可能推動(dòng)人類理解,并對(duì)我們的生活產(chǎn)生積極影響。”
AlphaGo Zero 技術(shù)細(xì)節(jié)拆解:將價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)整合為一個(gè)架構(gòu),整合蒙特卡洛搜索不斷迭代
記得上次Alphago 戰(zhàn)勝柯潔,從此隱退江湖,但是他的傳奇仍在繼續(xù)DeepMind 近期公布了他們新版AlphaGo論文,也是他們新的Nature-神經(jīng)元網(wǎng)絡(luò)論文,介紹了迄今較強(qiáng)較新的版本AlphaGo Zero,使用純強(qiáng)化學(xué)習(xí),將價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)整合為一個(gè)架構(gòu),3天訓(xùn)練后就以100比0擊敗了上一版本的AlphaGo。AlphaGo已經(jīng)退休,但技術(shù)永存。DeepMind已經(jīng)完成圍棋上的概念證明,接下來(lái)就是用強(qiáng)化學(xué)習(xí)創(chuàng)造改變世界的價(jià)值。
AlphaGo Zero*不依賴于人類數(shù)據(jù),因此,這一系統(tǒng)的成功也是朝向人工智能研究*以來(lái)的目標(biāo)——創(chuàng)造出在沒(méi)有人類輸入的條件下,在較具挑戰(zhàn)性的領(lǐng)域?qū)崿F(xiàn)超越人類能力的算法——邁進(jìn)的一大步。
AlphaGo Zero 得到這樣的結(jié)果,是利用了一種新的強(qiáng)化學(xué)習(xí)方式,在這個(gè)過(guò)程中,AlphaGo Zero 成為自己的老師。這個(gè)系統(tǒng)從一個(gè)對(duì)圍棋游戲*沒(méi)有任何知識(shí)的神經(jīng)網(wǎng)絡(luò)開(kāi)始。然后,通過(guò)將這個(gè)神經(jīng)網(wǎng)絡(luò)與一種強(qiáng)大的搜索算法相結(jié)合,它就可以自己和自己下棋了。在它自我對(duì)弈的過(guò)程中,神經(jīng)網(wǎng)絡(luò)被調(diào)整、更新,以預(yù)測(cè)下一個(gè)落子位置以及對(duì)局的z終贏家。
這個(gè)更新后的神經(jīng)網(wǎng)絡(luò)又將與搜索算法重新組合,進(jìn)而創(chuàng)建一個(gè)新的、更強(qiáng)大的 AlphaGo Zero 版本,再次重復(fù)這個(gè)過(guò)程。在每一次迭代中,系統(tǒng)的性能都得到一點(diǎn)兒的提高,自我對(duì)弈的質(zhì)量也在提高,這就使得神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)越來(lái)越準(zhǔn)確,得到更加強(qiáng)大的 AlphaGo Zero 版本。
這種技術(shù)比上一版本的 AlphaGo 更強(qiáng)大,因?yàn)樗辉偈芟抻谌祟愔R(shí)的局限。相反,它可以從一張白紙的狀態(tài)開(kāi)始,從世界上較強(qiáng)大的圍棋玩家——AlphaGo 自身——學(xué)習(xí)。
AlphaGo Zero 在其他方面也與之前的版本有所不同:
AlphaGo Zero 只使用圍棋棋盤上的黑子和白子作為輸入,而上一版本的 AlphaGo 的輸入包含了少量人工設(shè)計(jì)的特征。
它只使用一個(gè)神經(jīng)網(wǎng)絡(luò),而不是兩個(gè)。以前版本的 AlphaGo 使用一個(gè)“策略網(wǎng)絡(luò)”(policy network)來(lái)選擇下一個(gè)落子位置和一個(gè)“價(jià)值網(wǎng)絡(luò)”(value network)來(lái)預(yù)測(cè)游戲的贏家。這些在 AlphaGo Zero 中是聯(lián)合進(jìn)行的,這使得它能夠更有效地進(jìn)行訓(xùn)練和評(píng)估。
AlphaGo Zero 不使用“走子演算”(rollout)——這是其他圍棋程序使用的快速、隨機(jī)游戲,用來(lái)預(yù)測(cè)哪一方將從當(dāng)前的棋局中獲勝。相反,它依賴于高質(zhì)量的神經(jīng)網(wǎng)絡(luò)來(lái)評(píng)估落子位置。
上面的所有這些不同之處都有助于提高系統(tǒng)的性能,使其更加通用。但使得這個(gè)系統(tǒng)更加強(qiáng)大和的是算法的改變。
在進(jìn)行了3天的自我訓(xùn)練后,AlphaGo Zero 在100局比賽中以100:0擊敗了上一版本的 AlphaGo——而上一版本的 AlphaGo 擊敗了曾18次獲得圍棋世界排名的韓國(guó)九段棋士李世乭。經(jīng)過(guò) 40 天的自我訓(xùn)練后,AlphaGo Zero 變得更加強(qiáng)大,超越了“Master”版本的 AlphaGo——Master 曾擊敗世界上的棋士、世界的柯潔。
在經(jīng)過(guò)數(shù)以百萬(wàn)計(jì)的 AlphaGo vs AlphaGo 的對(duì)弈后,這個(gè)系統(tǒng)逐漸從零開(kāi)始學(xué)會(huì)了下圍棋,在短短幾天內(nèi)積累了人類數(shù)千年積累的知識(shí)。AlphaGo Zero 也發(fā)現(xiàn)了新的知識(shí),開(kāi)發(fā)出非常規(guī)的策略和創(chuàng)造性的新下法,這些新下法超越了它在與柯潔和李世乭比賽時(shí)發(fā)明的新技巧。
盡管目前仍處于早期階段,但 AlphaGo Zero 成為了朝著這個(gè)目標(biāo)邁進(jìn)的關(guān)鍵一步。DeepMind 聯(lián)合創(chuàng)始人兼 CEO Demis Hassabis 評(píng)論稱:AlphaGo在短短兩年里取得了如此令人驚嘆的成果?,F(xiàn)在,AlphaGo Zero是我們項(xiàng)目中較強(qiáng)大的版本,它展示了我們?cè)诟俚挠?jì)算能力,而且*不使用人類數(shù)據(jù)的情況下可以取得如此大的進(jìn)展。
“終,我們希望利用這樣的算法突破來(lái)幫助解決現(xiàn)實(shí)世界的各種緊迫問(wèn)題,例如蛋白質(zhì)折疊或新材料設(shè)計(jì)。如果我們能在這些問(wèn)題上取得與AlphaGo同樣的進(jìn)展,就有可能推動(dòng)人類理解,并對(duì)我們的生活產(chǎn)生積極影響。”
AlphaGo Zero 技術(shù)細(xì)節(jié)拆解:將價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)整合為一個(gè)架構(gòu),整合蒙特卡洛搜索不斷迭代
三千年圍棋只用三天走過(guò) 簡(jiǎn)潔的AlphaGo更美
1、將策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)合并,組成一個(gè)可以同時(shí)輸出策略p和價(jià)值v的新網(wǎng)絡(luò)。
1.1、簡(jiǎn)化了新網(wǎng)絡(luò)的結(jié)構(gòu)。新策略·價(jià)值網(wǎng)絡(luò)的輸入特征平面由48個(gè)減少到了17個(gè)。其中,涉及圍棋知識(shí)的輸入特征(氣(liberty)、征子(ladder))被刪去。
2、新策略 價(jià)值網(wǎng)絡(luò)只需通過(guò)強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練,無(wú)需監(jiān)督學(xué)習(xí)。即無(wú)需輸入人類高手棋譜作為初始訓(xùn)練樣本,只需用隨機(jī)落子作為初始訓(xùn)練樣本。
3、優(yōu)化了蒙特卡洛搜索樹,主要是省去了快速走子(rollout policy),節(jié)約大量實(shí)戰(zhàn)計(jì)算成本。
3.1、 快速走子策略也需要輸入大量人類已知的圍棋知識(shí),比如如何點(diǎn)死大眼(Nakade, 如點(diǎn)死直三、丁四、刀把五等棋型的僅有招法)。省去快速走子,也就省去了輸入這些知識(shí)的麻煩。
4、改卷積網(wǎng)絡(luò)為殘差網(wǎng)絡(luò),提高訓(xùn)練效率。
公司為了滿足客戶日益定制化的需求,在加工設(shè)備方面積極引進(jìn)激光切割設(shè)備,高速加工中心羅德斯設(shè)備,精密坐標(biāo)測(cè)量?jī)x器??怂箍?,精密慢走絲設(shè)備阿奇夏米爾,德國(guó)柯羅斯精密剪板機(jī)和精密折彎?rùn)C(jī)等設(shè)備,以精益求精,工藝嚴(yán)謹(jǐn)?shù)膽B(tài)度,做好我公司設(shè)備,系統(tǒng)每一個(gè)零部件,力求提升整體產(chǎn)品在工業(yè)設(shè)計(jì)端充滿創(chuàng)新,在結(jié)構(gòu)優(yōu)化端充滿創(chuàng)意。
公司加工區(qū)以及組裝區(qū)總面積超過(guò)15000平方米,隨著公司業(yè)績(jī)節(jié)節(jié)攀升,我們預(yù)計(jì)在后續(xù)不斷擴(kuò)大產(chǎn)能, 在平穩(wěn)中求發(fā)展,在強(qiáng)大中更務(wù)實(shí),我們深信,我們的每一分努力,都有一分來(lái)自您的認(rèn)可,選擇森和,是您未來(lái)事業(yè)倍增的合作伙伴。