请联系Telegram电报飞机号:@hg4123

alphago 历史战绩===alphago实力

2024-10-03 1:35:45 足球万岁 树天

大家好,今天小编关注到一个比较有意思的话题,就是关于alphago 历史战绩的问题,于是小编就整理了2个相关介绍alphago 历史战绩的解答,让我们一起看看吧。

人类围棋战胜了阿尔法了吗?

没有战胜

在围棋领域,人类曾经长期认为人类选手无法战胜人工智能(AI)。然而,自从2016年以来,由DeepMind开发的AlphaGo程序在与世界冠军级别的围棋选手对弈中取得了重大突破,先后战胜了韩国围棋选手李世石和中国围棋选手柯洁。这一事件引起了广泛的关注和讨论。

AlphaGo的成功表明,在特定的条件下,AI已经能够超越人类围棋选手的水平。AI在围棋中的优势在于其强大的计算能力和深度学习算法,能够通过分析大量的围棋棋局和对弈数据来提高自身水平。

尽管如此,仍然有很多人类围棋选手能够与AI进行艰苦的对弈,并且取得了不错的成绩。人类选手在围棋中具有独特的直觉、创造力和战略思维,这些特质使得他们在某些情况下能够对抗AI。

总体而言,目前的AI在围棋领域已经达到了非常高的水平,但人类围棋选手仍然有机会与之竞争并取得胜利。围棋的发展也将继续推动AI技术的进步,相信未来会有更多有趣的对局和挑战出现。

AlphaGo Zero三天击败人类的背后究竟意味着怎样的进步?

TalkingData和国内顶尖的职业围棋选手培训机构——葛道场有长期合作,从我们的经验来看,要成为一个职业围棋选手,最晚也要从六岁到七岁开始学棋。即使是像柯洁这样不世出的奇才,从五、六岁学起,到成为世界冠军也需要十多年的时间。

而AlphaGo,前年最初连樊晖这样不太知名的围棋职业选手都无法战胜;而短短几个月后,到去年已经可以击败李世乭;再到今年以Master的身份复出,人类围棋选手已经完全没有抵抗之力,再到现在Zero可以完全不依赖人的经验而碾压Master。

我们回来看看Zero的原理到底是什么?首先我们来看看在物理世界里有没有可能演化的这么快?我们知道在物理世界中,大家都学习过的牛顿第一定律表明,引力和质量成正比。这是一个线性的关系,也就是说我们的物理世界总体是由线性的规律主导的。所以,即使你可以造一台下围棋非常快的机器,每秒可以移动1000个棋子,可以想象不太可能造出AlphaGo。

AlphaGo广为人知的三个部分分别是策略网络、价值网络和蒙特卡洛树搜索。策略网络所代表的是人类的经验、历史的经验。从公开的论文来看,AlphaGo的策略网络准确度基本在57%。这个比喻未必特别精确,但类比考试成绩,如果期末考试才考了57分,这在人类世界不是特别可以拿出手的好成绩,这说明什么?说明这个策略网络和人类可以学到的相比并不是特别厉害,所以Zero在Master之后必然从头开始寻找更优策略。让我们再来看看价值网络,根据我们的实践,价值网络特别不好训练,很难获得一个质量特别好的结果;也就是说价值网络评估当前棋局形势的能力其实也不如人类。策略网络和价值网络都不如人类,那为什么AlphaGo还能这么厉害?所以最根本的,还是在于它使用的蒙特卡罗树搜索这块能力比人强。人类每下一步棋,能考虑到几十步已经是顶尖的高手,但AlphaGo却可以搜索几十万、几千万、几亿步。

alphago 历史战绩===alphago实力

策略网络(图自CSDN,作者张俊林)

价值网络(图自CSDN,作者张俊林)

蒙特卡洛树搜索(图自CSDN,作者张俊林)

这种方法给了我们极大的启示,未来的AI将物理世界建立的模型投影到计算机的数字世界,然后利用由摩尔定律支撑的指数级增长的计算力,在数字世界中进行无限的模拟、探索,并且结合以往的经验找到更好的方案,再把这个方案反过来应用到现实世界中,并从现实世界获得真实即时的反馈,并用于在数字世界中找到更好的方案。

就像AlphaGo从与樊晖试棋,再到在网上与邀请的顶级围棋选手对弈,都是期望通过现实棋局得到真实的反馈,再回到数字世界中找到更好的解决方案。目前,还有一个特别火爆的领域,那就是自动驾驶。

像谷歌,做自动驾驶近十年时间,积累的路测数据有几百万英里;特斯拉每年卖出几万辆汽车,号称路测数据积累了上亿英里。然而根据专家的估计,想让自动驾驶汽车能够可靠地上路行驶,最乐观的估计也需要至少100亿英里的路测,这对企业来说几乎是不可能实现的。

现在很多自动驾驶企业都建立了模拟系统,在数据世界搭建一个虚拟世界,例如谷歌已经把凤凰城完全数字化,自动驾驶系统可以在这个虚拟世界中每天行驶超过几亿英里。这样做的好处是,在现实的、线性的世界中,试错的成本非常高。而通过数据的方法在虚拟数字世界中建立一套与现实世界对应的模拟,利用计算机强大的计算能力去尝试各种可能性,尽量找到可找到的最好的解决方案,再应用到现实世界中,这样可以极大的提高迭代速度。

观察这三个例子,我们可以发现他们有一种共同的模式,那就是建模,投射,探索,应用和反馈;这就是数据驱动方法的基本框架,而其成功的核心,则是试错的成本和迭代的速度。

数据驱动方法的基本框架

让我们再看看另一面,目前我们记录下来的都是用户的行为,但这个世界除了计算机领域的数字世界、我们生活的物理世界,其实还有每个人大脑中的思维世界。而人的行为,其实都是由大脑中的世界驱动的。那我们有没有能力把每个人大脑中的世界也数字化呢?这是比我们以往做的更前沿、也更少人去做的事情。而TalkingData人本实验室的使命就是试图去解决这些问题。

学习3天:AlphaGo Zero>AlphaGo Lee>李世石;学习40天:AlphaGo Zero>AlphaGo Master>柯洁。

碾压围棋界的 AlphaGo 再次进化,AlphaGo Zero 这次击败了战胜柯洁的 AlphaGo Master

10 月 19 日消息,DeepMind 作为谷歌旗下专注于推进人工智能(AI)研究的子公司,在今日发布了新款程序“AlphaGo Zero”。据了解,凭借“强化学习”的机器学习技术,AlphaGo Zero 可以通过自学玩转多种游戏,并在游戏中吸取经验教训。

令人兴奋的是,在训练 AlphaGo Zero 的过程中,为其引入了围棋游戏并学习先进的概念,挑选出一些有利的位置和序列。经过 3 天的训练后,AlphaGo Zero 能够击败 AlphaGo Lee,而后者是去年击败韩国选手李世石的 DeepMind 软件。经过大约 40 天 2900 万场自玩游戏的训练后,AlphaGo Zero 击败了 AlphaGo Master,后者在今年早些时候击败了围棋世界冠军柯洁。

研究结果表明,在不同技术的有效性方面,AI 领域还有很多有待研究的地方。AlphaGo Zero 的开发使用了许多与 AlphaGo Master 相似的方法,但在开始进行自玩游戏之前,它就开始被使用人类数据进行训练。值得注意的是,尽管 AlphaGo Zero 在几周的训练中掌握了几个关键概念,但它的学习方式不同于人类棋手。

此外,AlphaGo Zero 比之前产品的学习能力高效得多。AlphaGo Lee 需要使用几台机器和 48 个谷歌张量处理单元机器学习加速器芯片,该系统的早期版本 AlphaGo Fan 需要 176 个 GPU。而 AlphaGo Zero 和 AlphaGo Master 一样,只需要一台机器和 4 个 TPU。

人工智能如此强大,你怕了吗?

“根据一些外国棋手的观察,AlphaGo Zero 在棋局的初期表现仍与人类千年来的套路相同,但到棋局中期就会变得令人难以理解。”看来人类下了几千年年围棋,才只是刚刚入门而已,我们不禁要问,围棋真的是人类发明的呢?

当然,虽然AlphaGo Zero如此厉害,但它和人类还是不能相比,不管它能通过神经网络算出多么优化的棋路,但它终究无法进行模糊思考,而这一点可能正是人类最大的优势,也是人工智能在未来可能永远也无法超越人类的根本。

在量子力学的观点里,微观粒子都是以叠加态存在,不会有准确的位置或动量,也就是说一个粒子可以同时出现在任何地方,在某个时刻它可以既在这里又在那里,完全违背人类的常识。但人类可以理解这种量子态,并发展出一整套量子力学理论,成为今天我们几乎所有现代科技成果的基础;但人工智能能理解这种模糊的认知吗?人工智能能像人类一样理解人类的感情、意识和思想吗?它能从量子力学的观点,推导出人择宇宙原理,以及它的强弱版本吗?从目前人工智能的工作方式来说,我觉得这依然是极为遥远,甚至根本不可能的。

所以,AlphaGo Zero三天击败人类旗手,其进步只是人工智能作为人工智能的进步,还不是人工智能全面超越人类的进步,在这一点上,或许它永远不可能做到,除非人类愿意和它分享人类的大脑,并有技术能够做到。

AlphaGo是第三代计算机围棋程序的代表,最开始使用了“监督学习+强化学习”的训练策略。“监督学习”,说白了就是跟人类学;“强化学习”,就是左右互搏自己练。

AlphaGo Zero是第一个不用监督学习,只用强化学习的版本。就是说不再跟自己学了,只自己摸索!

一开始程序完全不会下棋,乱扔乱放;然后越来越强,发现了吃子、死活的规律;继而发现各种人类研究过的或没研究过的定式变化,再在进步过程中判断取舍;最后实力越来越强,超过了以往的AlphaGo版本。

-

需要注意的是,AlphaGo Zero的意义主要不在于达到了更强的水平,因为这主要取决于资源的投入。AlphaGo Master和AlphaGo Zero在同为20层神经网络的情况下,投入等量训练资源后达到的实力从论文中的图表上看没有明显差距。如果给Master也投入更多资源,它应该也能达到Zero现在达到的水平。

最重要的意义在于:

1. 脱离人类知识学习客观规律;

2. 模拟了学习客观规律的进化过程。

第一点的意义无疑是非常重大的,意味着AI更强的进化能力。但我想强调的是,第二点也是很有用的,我们观察AI的学习进化过程,对照人类自己的过程,就能判断出人类在总结客观规律形成自身理论的过程中,有没有走入歧途?有没有形成“局部最优解”?如果有,该朝什么方向进行调整?

具体到AlphaGo Zero学习围棋,其实观察进化过程,和人类学习总结围棋规律的过程还是很像的,也没有进化出一个“完全不一样的外星棋手”。所以粗略的看Zero进化中不同阶段的棋谱,现在我并没有看出人类的围棋理论有什么显著的、形成了重大缺陷的系统误差。当然,小问题上有多少可改进的,还需要我们更深入的研究AlphaGo Zero的棋谱和数据。

到此,以上就是小编对于alphago 历史战绩的问题就介绍到这了,希望介绍关于alphago 历史战绩的2点解答对大家有用。