公司新闻

奥运会在2025年在美国的最新数学问题使集体模型

作者: bet356官网首页   点击次数:    发布时间: 2025-04-04 10:00

当AI打开奥林匹克运动会问题时,CPU也会燃烧!您还记得那些日子,当时我因奥林匹亚问题而遭受酷刑,无法整夜入睡?当您在凌晨3点用几何证明问题剃光头并怀疑自己的生活时,您可以想象:“有几岁的超级大脑可以帮助我解决这些问题!”好消息:大型模型具有很强的解决数学问题的能力!坏消息:看来他们也遭受了奥林匹亚数学的苦难。许多针对大型语言模型(LLM)的数学基准表明,最先进的婴儿模型在数学竞赛中表现出色,例如美国数学邀请赛(AIME),而O3-Mini模型甚至达到了与顶级人类竞赛相当的水平。 gahowever,这些试验只是回顾最终答案,而忽略了推理和证明的过程。为了解决这一缺点,来自Matharena平台的研究人员着重于评估大型模型的数学能力,具有C强烈地评估了第一次开发模型证明的完整概念和能力。美国数学奥林匹克运动会(USAMO)是全球中学学生最具挑战性的数学比赛之一。首先,该事件强调严格的证据和逻辑力量。问题是证明问题,它要求玩家通过严格的逻辑推导和完整的数学语言来表示答案,而不仅仅是给出答案(例如Aime)。其次,这个问题非常困难,涉及基本领域,例如数字理论,组合数学,代数和几何形状。经常使用先进的技能(例如开发操作,不平等平等,图形理论构建等)。此外,问题的设计具有“阈值效应”:有些问题似乎很简单,但是他们需要了解隐藏的结构或非标准的解决方案(例如,证明结构和反PRoof方法)。在释放了2025年美国数学奥林匹克(USAMO)测试问题之后,他们尝试了一些流行的模型,结果失败了:所有模型的表现都很差,平均得分低于5%。通过对模型理解过程的深入分析,研究人员确定了各种常见的挫败感,并发现某些模型优化技术具有负面影响。纸的标题:证明还是虚张声势? LLMS评论在2025 USA MATH OLYMPIAD PAPER LINK生成。在未来的研究中,有必要改善培训技术,例如集成由数据库发布的数据集,结合正式验证工具或开发架构,这些架构重视逻辑一致性以优化答案,以弥合有效数字和逐步过程之间的间隔。基准和问题准备研究方法由USAMO 2025作为基准选择,与数学的正确竞争包括六个问题d在两天内得到证明。这项竞赛是适合预览的基准,因为受试者很困难,需要详细的证明才能获得完整的标记,并且数据没有污染。图1显示了比赛的两个主题。在审查过程中,研究人员要求每个模型提供全面,详细的证明并使用乳胶格式。为了减少差异 - 结果,每个模型为每个问题提供了四个独立的答案。所有答案均未识别并转换为PDF进行评级,并且在评级过程中未考虑一部分思维过程。考试团队标记团队由四名高级数学专家组成,所有这些都成为国家IMO团队的成员,或者成为国家队的最终选择。在检查之前,他们被指导定义目标和评估方法(可在GitHub上获得)。该团队通过标记三个Qu的测试来熟悉标准标准并解决了歧义USAMO 2024年的估算。USAMO的2025年评分过程是六个问题,与两名审稿人结合在一起,每个问题都有三个不同的问题。捕获IMO的双重标记方法可确保标记相同并减少主观偏见。由于该官员没有发布共同的答案,因此研究小组从可靠的数学社区来源(尤其是AOPS论坛)收集并组织了标准标记评分方案,并证明了所有解决方案的准确性。遵循USAMA技能,每个问题的完整得分为7分,并且有一些分数为重大发展。审阅者能够根据既定标准进行评分,并为无法完全符合评分计划的解决方案提供了适当的观点,并记录了标记和合理化某些分数的原因。失败模式的审稿人在标记过程中记录了明显的挫败感 - 也就是说,第一错误或推理解释不足的机会,包括逻辑缺陷,没有基本假设,数学准确性或计算错误。这些错误专门分为四类:逻辑:由逻辑谬论或毫无根据的推理引起的错误,即跳跃会干扰推理过程。假设:从引入不变或不正确的假设引入的错误,这些假设分散了下一步的注意力。创造力:由于无法识别正确的方法,因此从根本上根本上解决了错误的解决方案引起的错误。代数/算术:临界算术计算误差引起的误差。研究团队还系统地记录了该模型在生成深入分析的解决方案期间所呈现的重要行为和趋势模式。这些观察结果有助于确定需要改善模型推理能力的常见问题和方向。结果基本结果StuDY评估了六个识别模型的性能(QWQ,R1,Flash,O1-Pro,O3-Mini和Claude 3.7在2025年的USAMO问题中进行思考。表1详细检查了每个问题中的每个模型的表现。每个问题的平均标记是根据四个问题的四个审查测试计算的,每个问题的全部要素和每个模型的总成本包括42点的分数。所有大型语言模型都被诊断出来,这给数学应用带来了主要的挑战,因为这些模型在没有严格的人类验证的情况下可靠2显示了modEL尚未准确地分数解决方案,这两者都系统地高估了答案的质量。 Partikular,它们通常提供不正确或毫无根据的推理的分数,导致标记可恶化20次。值得注意的是,从自动分析中的心态明显低于其他模型,研究人员可能会为每种尝试提供许多解决方案,从而使基于LLMS的评估系统混淆。相比之下,QWQ的分数较高,可能是因为它通常是一种更清洁的解决方案,而自动评估系统更容易理解。合格的讨论选择了优化优化的当前方法,以从清晰的最终答案中获得奖励,对于此模型,通常要求将最终答案放在\ boxed {}环境中。但是,这对USAMO对问题的回答产生了意想不到的影响:尽管大多数评论问题并不需要一个在盒子中选择的旋转,该模型通常会这样做。一个典型的示例是问题5,其中QWQ模型错误地阻止了自己仅找到整数解决方案,尽管问题不需要这种需要。它坚持认为最终的答案是2,尽管正确扣除了一切甚至数字符合标准。这表明诸如GRPO之类的对齐技术可能会无意间想象每个数学问题都需要明确的答案盒选择,从而推翻了推理的整体能力。模式泛化模型通常表明,在大型非编写情况下,每个G在小数情况下观察到的模式过高的趋势。尽管这种启发式方法可能会用于仅需要数字答案的问题,但对于需要严格证明的问题,此方法是自然错误。该模型通常错误地断言,在没有正式证明的情况下,在少数情况下观察到的模式具有普遍的可用性。溶液的结构离子和清晰度不同。该模型提供的解决方案在清晰度和结构一致性方面存在显着差异。诸如O3-Mini和O1-Pro之类的模型通常以清晰,合乎逻辑且易于理解的方式呈现解决方案。相反,像Flash和QWQ这样的模型经常使人混乱和误解,有时将单个解决方案中的许多无关概念混合在一起。由OpenAI培训的清晰度培训的模型的明确优势表明,专门用于解决方案统一的进一步培训显着提高了其阅读能力,这一功能在其他模型中的欣赏大大降低了。因此,下次有人警告您“ AI将要统治世界”时,您还可以对奥林匹克的数学考验进行数学考验:“让他们首先通过此水平。”