返回首页

AI颠覆数学研究!陶哲轩借AI破解数学猜想形式化成功惊呆数学圈

时间:2023-12-07 来源:原创/投稿/转载作者:管理员点击:

  历时三周,陶哲轩成功地用AI工具完成了形式化多项式Freiman-Ruzsa猜想证明过程的工作。他再次呼吁数学研究者学会正确利用AI工具,网友惊呼:以后的数学论文不需要人类可读了?

  三周前,他曾发布一篇博文,记录下自己使用Blueprint在Lean4中形式化多项式Freiman-Ruzsa猜想的证明过程。

  就在昨天,他激动宣布:将多项式Freiman-Ruzsa猜想的证明形式化的Lean4项目,在三周后取得了成功!

  陶哲轩表示,在整个团队中,自己贡献的代码大概只有5%。这个结果很鼓舞人心,因为这意味着数学家即使不具备Lean编程技能,也能领导Lean的形式化项目。

  他发现,项目中在数学上最有趣的部分,形式化起来比较容易,而技术上看起来最显而易见的步骤,却最耗时。

  而使用Blueprint将项目分解成难度小到中等的部分,效果很好,这就让大量并行工作成为可能。

  这样,许多贡献者就可以处理特定的子任务,而无需理解整个证明过程,甚至可以完全不了解相关的数学领域知识。

  就在几分钟前,Lean成功证明了PFR猜想,且没有留下任何悬而未决的问题(后文将会提到的「sorry」)。这意味着,这个项目的所有主要目标,都已经圆满完成。

  陶哲轩表示,恰恰相反,如果证明的形式化变得更加主流,并且更多地得到AI辅助,那完全有可能创建出既人类可读、又能被机器阅读的证明。

  PFR证明的blueprint就证明了这一点——既人类可读,每个证明步骤还带有形式化的理由,还能得到一个依赖关系图,来可视化整个论证的全局结构。

  比如对于有限单群分类的超过10000页的证明,几乎百分百是由人工生成的,但一个由计算机协助处理的替代证明,在某些方面看更令人满意。

  许多数学家都应该将写作风格从标准数学英语/LaTex,转换为Blueprint/LaTex。

  我在研究生阶段对数学的尝试,就就好像一个穴居人本来在摇晃一辆普通的独轮车,忽然眼前出现了一辆直升机,上面的人向我伸出手,告诉我来试试看,一点也不可怕。

  自从听说四色定理以来,我一直很清楚,形式化是数学的未来。但我没有预料到的是,陶哲轩如此从容不迫,形式化才刚刚获得牵引力,他就能用AI完成几乎所有的数学写作。

  形式化,是指从基本公理和规则中真正推导出证明中的每个陈述。而陶哲轩在这篇博文里,把需要死记硬背的劳动都抽象出来,交给了机器。

  已经有人开始畅想:很可能会有一段时间,大多数证明只是在Lean或类似系统中完成,再也没有人需要费心写一篇「人类可读」的论文了。

  是的,如果我们只是要训练或微调AI来产生答案,然后编写一个循环来反馈,直到编译器正确输出,那我们自己并不需要真的理解。

  用这种方法,我们还能生成更多的训练示例,可以手动检查结果是否符合要求,做上注释。而训练,可以提高初始答案的准确性。

  这个项目得益于Patrick Massot的Blueprint工具,这个工具让团队能够编写与Lean形式化紧密相关的、人类可读的证明「蓝图」。

  在Blueprint中,有一个陶哲轩特别喜欢的功能,那就是自动生成的依赖图。它可以提供形式化进度的大致快照。截至当时,依赖图的样子如下:

  简单来说,绿色的气泡或矩形表示那些已经被完全形式化的引理或定义,而蓝色的则指那些已准备好进行形式化的引理或定义(这意味着它们的陈述已经形式化,但证明还没有,同时所有相关的前置引理和证明也是如此)。

  图中,Blueprint显示出一种人类可读的PFR语句形式,还附带了这个语句的人类可读证明,该证明依赖于项目中的其他语句:

  注意,「pfr」气泡是白色的,但有一个绿色边框,这意味着PFR的陈述已经在Lean中正式化,然而证明并没有。

  证明本身还没有准备好被形式化,是因为一些先决条件(特别是「entropy-pfr」Theorem6.16)甚至还没有形式化的陈述。

  G是一个属于顺序2的有限初等阿贝尔群(这就是团队选择形式化有限场向量空间的方式);A是G的非空子集;A+A的基数k倍a的基数。 p=

  这是因为「pretty printing」模式抑制了定理陈述中的一些信息,只要单击「来源」链接,就可以看到了。

  该定理底部有一个明显的「sorry」,这意味着尚未为该定理提供证明,但最终意图当然是用实际证明,来代替这个「sorry」。

  Blueprint依赖关系图表明,这个引理可以从前面的一个引理中推导出来,称为「ruzsa-diff」:

  「uzsa-diff」也是蓝色的,边框是绿色的,所以它与「ruzsa-nonneg」具有相同的当前状态:陈述是形式化的,证明也准备好形式化了,但证明还没有用Lean编写。其中,

  因此,即使我们还不知道如何证明Lemma3.11,但假设Lemma3.11成立,并补全Lemma3.13的证明,应该是轻而易举的事。

  这里可以使用一种非常方便的「linarith」策略,它能解决任何可以通过现有假设的线性运算得出的目标:

  成功之后可以看到,状态报告显示这个分支已经没有需要证明的目标了。所以,我们继续剩下的「sorry」,也就是证明

  其中一种方法是尝试使用「exact? 」策略,它会自动搜索,看目标是否可以立即从现有的引理中推导出来:

  于是,陶哲轩点击了建议的代码(系统会自动将其粘贴到正确的位置)。结果成功了,只留下最后的「sorry」:

  在补全最后一个「sorry」时,陶哲轩再一次尝试了「exact?」,想知道如何把h和h结合起来才能达到预期目标,结果成功了!

  我们最后得到的,基本就是一个「单线证明」,考虑到Lemma3.11和Lemma3.13是如此接近,这也是合情合理的。

  Blueprint的重建需要相当长的时间(约半小时),依赖关系图现在以绿色显示 「ruzsa-nonneg」:

  不过,虽然「ruzsa-nonneg」现在被涂成绿色,但还没有这个结果的完整证据,因为它所依赖的引理「ruzsa-diff」不是绿色的。

  陶哲轩表示,希望在未来的某个时候,前身结果也能被证明,那时,就可以说PFR猜想的结果,得到了完全的证明。

  11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!

  陶哲轩成功利用AI工具形式化了多项式Freiman-Ruzsa猜想的证明,这一成果引起了数学界的广泛关注。他在博文中详细记录了使用Blueprint在Lean4中形式化证明的过程。这一成果展示了形式化在主流数学中的受关注程度,为未来的数学研究指明了可能的方向。

  如今很多大模型都声称擅长数学,谁有真才实学?谁是靠背测试题“作弊”的?有人在今年刚刚公布题目的匈牙利全国数学期末考试上做了一把全面测试。很多模型一下子就“现原形”了。另一项提议是建立一个逐年更新的测试基准,来缓和过度拟合问题。

  建哥指针数学提出,高中数学更注重对概念、公式的理解与运用,所以在学生看来,高中数学和初中数学对比起来简直是断档的难度,学生普遍感觉难以掌握,主要包括集合和命题、不等式、函数的基本性质、幂函数指数函数对数函数、三角比和三角函数,每一章的知识点概念性知识较多,部分章节内容也是强相关的,可能前面一章知识点没掌握住,后面章节就会越来越吃力,导致数学成绩较差!那么该如何学习高一数学呢?每一年都是重要的一年,如果高一没学好,会引起一连串的连锁反应,到高二高三的时候很有可能跟不上,大家一定要重视起来。

  陶哲轩支持的AI奥林匹克数学奖推出,奖金高达500万美元,旨在寻找能够在IMO竞赛中获得金牌的大型AI模型。这项名为AI-MO的比赛由XTXMarkets发起,其初衷是推动大语言模型的数学推理能力,鼓励开发能够匹配人类数学最高水平的新AI模型。在金钱的驱动下,是否会出现一个能解困难数学题的AI并超越人类夺得IMO金牌,成为业界关注的焦点之一。

  人工智能已经渗透到科学的各个领域。机器学习模型已被用于预测蛋白质结构、估算亚马逊雨林的砍伐比例,甚至分类可能存在系外行星的遥远星系。这一方法可以应用于各种问题,是现代数据密集、模型密集和合作科学的必需组成部分。

  医学研究者们发出紧急警告,指出生成式人工智能有可能轻松制造大量健康领域的虚假信息,对社区的健康和福祉构成威胁。这一警告来自于对生成式AI技术进行测试的Flinders大学医学研究团队,他们使用这一前沿技术来检验虚假健康信息的制作和传播过程测试结果让研究者们自己也感到震惊。迫切需要透明的流程来监测、报告和修复AI工具中的问题。

  Q*猜想,持续在AI社区火爆。大家都在猜测,Q*是否就是「Q-learningA*」。只是这是否就是通往未来的道路?只能等待时间来告诉我们答案。

  斯坦福大学最新研发的NOIR模型,成为一项引人注目的技术突破。这一通用型模型通过解码大脑信号,实现了人类通过思维来操控机器人的目标。这一突破性的技术将为未来的科技发展开辟新的方向,为社会的发展带来更多可能性。

  芝加哥大学的研究人员与SnapResearch合作,推出了一种名为3D画笔的人工智能方法,通过文本描述自动生成网格上的局部语义区域的纹理。这一创新使得用户可以通过直观的、自由形式的文本输入控制纹理编辑,为各种网格描述其编辑。这一研究为3D建模和纹理编辑领域带来了新的可能性,为游戏、动画、电影等各个行业提供了更加高效和直观的纹理编辑工具。

  来自GoogleDeepmind、华盛顿大学、康奈尔大学、卡内基梅隆大学、加州大学伯克利分校和苏黎世联邦理工学院的一组研究人员成功地让OpenAI的聊天机器人ChatGPT揭示了用于训练AI模型的一些数据。研究团队使用了一种创新性的手法,即通过不断迭代地要求ChatGPT重复一个特定的词汇,比如“诗歌”,来引导模型透露其训练数据。这一研究为我们敲响了警钟,提醒我们在推动AI发展的同时,需谨慎处理其隐私和能源消耗的问题。

  Brainpool是一家顶级的AI咨询公司,由人工智能专家提供跨行业的AI咨询服务和机器学习解决方案。我们的AI专家将为您构建AI战略,并开发定制的精细调整的AI解决方案,以自动化和增强您的手动业务操作。

  Onehouse是一种通用的数据湖屋,提供开放存储、连续数据流以及跨表格格式、引擎和云平台的自动优化。它是基于Hudi、Delta和Iceberg的自动化数据平台。Onehouse支持业务智能、数据科学和AI/ML,提供统一的湖屋解决方案。它支持流式和批处理,自动管理数据基础设施,具备真正的开放性和互操作性,能够节省成本并满足不断扩展的需求。Onehouse由Apache Hudi的创建者打造,具备高吞吐量的数据流式摄入、易于变更的数据捕获、自动化数据管理、云原生表格和元数据等特点。

  Hyperscience是一款领先的企业AI平台,帮助您自动化文档处理流程,将非结构化内容转化为结构化可操作数据。它使用先进的机器学习和自然语言处理技术,能够准确地识别和提取关键信息,并将其转化为可用的数据。Hyperscience的优势在于高度准确的识别能力、高度可扩展的处理能力和快速部署的灵活性。该产品适用于各种行业和场景,包括金融、保险、医疗等。具体定价和定位请参考官方网站。

  Inari是一款AI驱动的产品,用于自动分析客户反馈并生成洞察和需求管理,帮助您深入了解用户并构建用户喜爱的产品。Inari可以将销售笔记、用户访谈、Slack请求和CSV文件中的客户反馈整合到一个统一的平台,并提供简化的工作流程来管理所有的反馈。通过使用AI来分析大量的反馈,Inari可以自动分析客户情感,并突出显示顶级需求、缺陷、赞美和学习,从而减少团队手动查阅数百个来源的工作量。Inari可以自动提取连接的反馈中的洞察,包括需求、bug修复、功能请求和学习,从而降低用户流失,并构建出色的产品。通过Inari的仪表板,您可以实时搜索、筛选和监控趋势,了解用户反馈和洞察,并将洞察汇总直接推送到Slack、JIRA和Linear等工具。借助Inari,您可以节省数百个小时的时间,使用AI自动化反馈分析和洞察发现,而不是陷入旧的电子表格中。

  AI简历筛选提供一种转变招聘流程的方法,极大提高效率和准确性。通过使用先进的算法,快速分析和排名与职位描述匹配的简历。不仅加速筛选过程,还确保高度客观性,减少人为评估中可能出现的偏见。AI驱动的分析准确定位相关技能和经验,使招聘经理更容易找到最合适的候选人。同时,这些工具可以不断适应和学习,不断优化筛选能力。

  Story Bard是一款AI工具,能够帮助用户快速生成、观看和分享短视频故事。用户可以利用强大的AI工具,将想象力变为现实,创造出全新的故事。该工具还提供了重制功能,用户可以无限制地为现有故事创建各种变化。同时,用户也可以浏览丰富的AI生成内容库,享受无限的创作可能。Story Bard的使命是将人类想象力的魔力带到生活中。

  Smallpdf是一个免费的在线平台,提供转换和编辑PDF文件的简单解决方案。它集成了多种功能,包括PDF转换、合并、拆分、压缩、加密、解密、编辑、签名等。Smallpdf通过直观易用的界面和快速高效的处理速度,为用户提供了方便、快捷的PDF处理体验。

  Please Dont Code是一款能够为Arduino生成代码的AI代码生成器。它能够帮助开发者节省时间,实现嵌入式系统的快速开发。请 Dont Code提供了一个简单易用的界面,用户只需输入相关参数,即可生成适用于Arduino的代码。该产品的定价信息请查阅官方网站。

  Bites是一个提供区块链和加密货币新闻的平台,通过智能AI将复杂信息转化为简洁易懂的摘要。用户可以在Bites上实时获取最新的新闻动态,保持对区块链和加密货币行业的敏锐洞察。Bites提供的功能包括:即时访问突发事件、每日摘要、关注的内容定制、保存喜欢的文章等。Bites的定价模式为付费订阅,用户可以选择购买每日摘要或高级会员套餐。

  Radical Customer Experience™️(RCX™️)是一种以客户为中心的理念,通过优化品牌与客户之间的互动,创造深入而有意义的客户体验。通过融合包容性营销、技术、心理学和研究,RCX™️帮助品牌与客户建立紧密的连接,培养非凡的客户忠诚度。

  InfinityFlicks.com是AI生成电影和电视节目的领先平台。我们提供独特创新的电影和电视节目,为观众带来AI增强娱乐的顶峰体验。平台包含各类类型的电影和电视节目,满足不同观众的需求。我们的电影和电视节目由AI生成,内容精彩纷呈,带给观众前所未有的娱乐体验。InfinityFlicks.com还提供个人订阅服务,用户可以根据自己的喜好订阅不同类型的电影和节目。

  DeepEyes是一款基于人工智能和数据分析的Web3数据分析工具,能够帮助企业将链上和链下数据结合起来,为用户提供有关客户、用户和持有者的深入洞察,以优化业务决策和增加增长。它提供易于使用的仪表板,可根据项目需求创建度量仪表板,还支持定制化分析和AI助手功能。DeepEyes可以帮助用户深入了解客户行为、优化营销策略、改进产品开发计划,并提供准确的预测和预测。

  Decembra是一款AI定制节日礼物的平台。用户填写简单的偏好表单后,AI分析并筛选出最适合的礼物。用户只需等待礼物送到门口,即可体验个性化的惊喜和灵感。

  WhisperAI是一个AI订阅服务,为您的业务提供生成式AI图像和视频内容。订阅后,您可以立即与AI专业人员合作,创建引人注目的图像和视频内容。我们提供快速交付、无限修订和完全商业使用权限的定价模式。使用WhisperAI,您可以优化创意流程,通过生成式AI快速获得高质量的图像和视频内容。

  PencilsOut是一个连接AI艺术的平台,通过生成式AI技术,将设计过程简化为拼图的方式。用户可以使用简单的建筑块开始设计,并将多个块连接起来构建更复杂的工作流程。产品提供多种定价方案,支持团队协作和API访问。

  PenParrot是一款让您的文本框中无处不在的ChatGPT工具,它可以在2万多个网站上无缝使用。您可以使用它来重写、详细说明、总结代码或切换语气,让您更高效地完成工作。只需键入“ai”,您就可以以前所未有的速度完成任务。年度订阅价格为47美元,提供无限使用。

  Llog是一个协作监控LLM应用程序的终端到终端平台,为团队提供洞察力,了解他们的LLM应用程序在生产后的情况。团队成员可以在一个协作空间中审查日志、标记重要事项并分配任务。无论团队规模多大,都可以在任何价格层级下享受无限的席位支持。通过直接观察用户交互,全面了解终端用户的行为,并永远不再担心LLM实际上在说什么。使用我们简单的格式,进行几个API请求,即可立即在我们的平台上查看结果。

  Stockvistas是一个由AI生成的高质量风景和自然图像库,每张图片都经过仔细筛选,确保没有人和建筑物。这些图片非常适合作为壁纸、背景或用在您的下一个项目中,无论是网站、移动应用还是演示文稿。Stockvistas的每张图片都是免费使用的,不需要署名,适用于个人和商业项目。

  Nichely是一款利用尖端AI技术来构建详细的主题地图、构建全面的主题群集并找到长尾关键词的工具。通过发现未开发的内容机会,帮助您成为真正的领域权威。

【责任编辑:管理员】
随机推荐 更多>>