阿爾法狗零反對上帝
他根本沒有學會人類象棋圖。經過72個小時(即3天)的純自學,他超越了2016年3月擊敗李石師的AlphaGo Lee版本,并在100,333,600次21天的成功后,于2016年底超越了60,333,600次擊敗所有人類大師的AlphaGo Master版本,并于2017年5月3333,600次擊敗了柯杰。89:11的記錄在第40天超過了所有其他的阿爾法圍棋版本,成為了最強的圍棋玩家。最令人震驚的是,阿爾法零號僅僅依靠自學,在3天內就達到了頂級人類玩家的水平。正如之前關于人工智能和搜索引擎優化的帖子中提到的,阿爾法戈在學習了大量人類歷史象棋游戲后,開始了大量的自我競爭。這一次阿爾法零號根本沒有學習人類象棋。它從零開始是一個自我匹配,在3天內完成了490萬套自我匹配,達到了阿爾法戈李版的水平。
下圖顯示了AlphaGo Zero的水平增長曲線:
可以看出,該水平在3天內實現了跨越式增長,然后趨于平穩,但仍在增長。
以前的AlphaGo達到了AlphaGo主版本的水平。在行走了一年多之后,它大致是按“月”來計時的,而AlphaGo Zero的進度是按“日”甚至“小時”來計時的?,F在看來,AlphaGo花了這么長時間的原因可能是它被人類誤導了,被人類歷史象棋游戲誤導了,被人類的知識和思維限制了。阿爾法零號完全拋棄了現有的人類知識,不受人類知識的限制。他是一個自由戰士,能夠不受約束地真正找到最優解。
既然我們已經放棄了圍棋知識,我們一定是隨機或愚蠢地開始了我們的游戲。AlphaGo Games已經在這個網站上發布了許多實際的象棋游戲。那些感興趣的人可以研究它,并且有許多有趣的地方。最初的AlphaGo Zero自我匹配的確很混亂,但很快發現人類也掌握了大視野、布局、關閉等知識。但有些東西后來被掌握了,比如綜合癥。
聶衛平和柯杰都說,看了《阿爾法戈》后,我們發現很多人對《戈》有錯誤的理解。在某種程度上,阿爾法零號沒有歷史包袱,沒有輸贏的心理包袱,也沒有人類思維的限制。它對圍棋的探索是自由和無限的,其目標是全局最優解。因此,它的方法很可能最終是正確的。
可以安慰人類的是,阿爾法零號的自由探索結果表明,人類幾千年來的一些研究和探索是錯誤的,但總的來說沒有令人發指的錯誤。AlphaGo Zero從一張白紙開始,最終收斂到與人類相似的方向。例如,它證實了一些人類的刻板印象是正確的,在一段時間的鬼混之后,阿爾法零號也是如此。
有點矛盾的是,阿爾法零號的訓練方法有點像回到一個徹底的暴力算法,走完所有的可能性,看看哪一個會贏。根據計算,圍棋的所有可能的移動都超過了宇宙中的原子數量,所以阿爾法圍棋零分的樣本數量一定是非常小的比例。
但是正是這個微小的樣本讓阿爾法零號達到了這個水平。下面的問題是,在人工智能中,大數據更重要還是模型更重要?在AlphaGo Zero出現之前,人工智能在過去兩年的快速發展歸功于獲取大量數據是關鍵這一事實。所有取得重大進展的領域都是由于數據的可用性,包括語音、文本、圖像、視頻、醫療和自動駕駛。
現在阿爾法零號不需要現有的數據。給它規則和模型,它會自己推動一切。這是關于創造嗎?它能移植到其他領域成為一般智能嗎?思考有點可怕。
谷歌之所以偉大(至少到目前為止)是因為其他人認為它已經取得了巨大的成就,當其他人忙于贊美和跟進時,它經常毫不猶豫地推翻現有的東西,并以另一種方式取得更驚人的成就。
在過去的一年里,我參加了搜索引擎優化行業會議,我演講的主題是人工智能。作為一名搜索引擎優化人員,我如此關注人工智能的原因是我不知道什么時候同樣的智能會被用于搜索算法。如果有一天人工智能顯示當前的搜索算法在判斷內容質量上是錯誤的,權威方法是錯誤的,垃圾鏈接方法是錯誤的,人工智能有正確的方法,并且排名算法相應地改變,那么我們以前使用的搜索引擎優化方法仍然適用嗎?