全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:4009-999-999

OpenAI科学家:现有模型+后训练足以产生黎曼猜想的新证明

  MIT诺伯特·维纳数学教授安库尔・莫伊特拉(Ankur Moitra)也发表了自己的看法。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

  不过也有人表示这个说法有点模糊★,人脑也很难机械地把任务完成时间限定为几个月、几年★★:

  智能发展层级递进显著,GPT-4只有AGI秒级思考能力,而o1模型已达AGI分钟甚至小时级别。

  比如在数学符号处理和抽象逻辑推导方面,模型的处理方式与专业数学方法相比缺乏专业推导,需要从底层架构和训练理念上进行彻底变革★★★。

  届时,模型将拥有充足时间和能力深入思考复杂数学问题,从而找到解决重大猜想的路径★★★。

  而反方辩手汤姆·麦考伊(Tom Mccoy)则对LLM能否解决复杂的开放性问题持怀疑态度。

  从GPT-3★.5开始,模型就可以实现在后训练过程中提取智能。到了o1模型时代★★★,其采用的强化学习等创新训练范式,使模型在复杂任务(比如编程、数学)处理上实现质的飞跃。

  GPT-4可以完成人类需要几秒或几分钟的任务;o1 可以完成人类需要若干小时完成的任务★★★,也就是可以用“AGI小时”衡量的任务★★★;明年,模型可能会实现AGI日,并在3年后实现AGI周,能够解决重大的开放问题★。

  基于语言预测的训练模式,使模型在处理数学问题时难以直接触及深度推理和创新思维核心。

  此次辩论中★★,塞巴斯蒂表示他坚信LLM潜力无限,认为以当前模型的能力加上更多的数据和后期训练就足以解决数学难题。

  也许以人类的方式做事的唯一理由是,如果我们关心的是试图理解证明、并提取一些定义之类的东西★,那么我们希望它至少是类人或人类可读的。但我认为如果我们关心的是证明能力★★,比如能够证明事物,那么不一定要以类人的方式。

  我们关心数学难题,关心的不只是具体的证明细节,更希望可以在证明的过程中产生可以引发数学体系变革的新想法。

  塞巴斯蒂安首先用数据回顾了LLM最近几年的发展历程★★,他表示GPT系列已在多领域的基准测试上都表现亮眼。

  有人认为★,如果模型可以达到人类需要数周或数月才能完成的任务,也就代表它可以将长期推理和计划结合起来,也就和真正的AGI差不多了:

  比如在MMLU测试中★★★,GPT-4 成绩飙升至 86%,o1 模型更是逼近 95%,远超 GPT-3 的 50%★★★,在高中科学知识问答方面已接近人类 90% 的水平。

  而且人类在超过50页的证明中也经常会出错,未来可以让不同的智能体进行合作互相指正,可以有效减少这一方面的失误。

  针对观众的提问★★“飞机也不是完全模拟鸟类的飞行,为什么一定要要求LLM模拟人类思维”的问题,帕维尔首先表示赞同,AlphaGo带给人类的一个惊喜正是来自于它可以用很多人类没有的方法下棋。

  让两位大佬争论不休的问题,就是最近由世界知名理论计算机科学机构Simons Institute提出的辩题:

  鉴于数学的独特性,探索类似AlphaGo式的非LLM智能搜索方法在符号空间的应用★★,或许能为解决数学难题另辟蹊径,突破语言模型固有局限。

  持正方观点的塞巴斯蒂安・布贝克是应用数学博士,曾在普林斯顿大学担任助理教授,后在微软研究院任职十年,主导开发了 Phi 系列小语言模型★★,也是Sparks of AGI(AGI的火花)论文的重要作者之一。

  塞巴斯蒂安表示★★★,当前很多人类的顶级成果是依靠组合现有知识产生的,而模型在这个方面的能力会通过强化学习进一步发展。

  依此趋势,未来实现AGI日级、周级思考时长指日可待,可能明年、后年就能达到。

  他也是“Embers of Autoregression(自回归余烬)”论文的主要作者,文中他深刻剖析了当前LLM的局限性★★。

  他表示★,语言模型虽令人惊叹★★,但能力源于训练数据,目前没有证据显示它们可以产生能解决开放问题的新范式★。

  他认为当前LLM 虽在部分任务取得进展★★★,但与解决如黎曼假设这类问题所需的深度和创新性仍相距甚远★★。

  在单词计数和排序任务中,数据频率影响清晰可见★。如统计单词数量时,对常见长度列表准确率高,罕见长度则大幅下降★★★;排序任务中,对常用的字母正序处理良好,逆序则表现不佳★★。

  这表明模型在面对新证明技术这类低频任务时,缺乏创造性突破的根基★★★,难以跳出训练数据的固有模式★★★。

  而且,根据各种测评数据★,模型能力与数据量级呈对数关系★★★,未来想要提升模型能力需要新的指数级数据★,而目前已有严重数据瓶颈,在未来几年很难迅速突破★★。

  当前基于缩放定律的LLM★★,能否在未来几年内产生可以解决重大数学难题(如P≠NP、黎曼假设)的证明技术。

  即使类o1模型在多步推理场景下进步显著,但LLM仍易生成错误信息★★。随着数学证明篇幅拉长,极低的错误率也会因累积效应使证明失效。

  Anthropic研究员帕维尔・伊斯梅洛夫也发表了观点,他认为LLM在识别数据结构上确有优势,但数学领域专业性强,需借助强化学习与Lean等证明验证器构建有效训练机制★★★。

  安库尔还提议,未来模型发展或许应聚焦于知识在模型中的有效表示、数学家与模型间的高效协作模式等关键层面,探索新的突破方向★★★。

  o1已经可以和人类专家合作,但想要独自解决数学问题★★★,必须做到超越人类,目前看起来比较困难★,甚至还无法达到以稳健的方式使用现有想法。

  也就是人们常说的★“薄弱环节会破坏整个推理链条”★★,严重阻碍模型解决复杂数学证明的能力★。

  尤其是在特定数学问题中,o1能迅速关联看似不相关的知识概念,自发地涌现出一些新的思路,为解决难题提供新线索★★。

  在医学诊断领域,GPT-4 准确率高达 90%★★★,远超人类医生的 75%,有力证明了模型强大的学习与应用能力,且这种提升趋势为解决数学难题奠定基础★★★。

  在不改变原意的基础上★★,量子位对本次辩论的主要观点进行了梳理总结,希望能带给你更多的启发和思考。

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。