新民晚报记者今天从上海东说念主工智能实验室获悉,实验室近日在开源“通专交融”方面取得新进展。其P1物理推理模子系列,在通用模子的基础上,通过大限制、多阶段强化学习要点升级了物理专科期间。
其中,P1-235-A22B在2025年外洋物理奥林匹克大赛(IPhO)拿下金牌,成为首个亦然独一取得金牌的开源模子;在隐敝2024-2025年专家13场顶级物理竞赛的HiPhO基准测试中,与Gemini-2.5-Pro并排奖牌榜第一。
P1在IPho 2025中的得分情况
初步具备处分复杂物理问题期间
物理推理是AI相识与塑造本质寰宇的中枢期间。外洋物理奥林匹克(IPhO)等顶尖赛事,以其对复杂推理和深度物理相识的高圭臬,成为锻真金不怕火物千里着放心能对本质分解期间的热切标尺。
在外洋物理奥林匹克中,P1-235-A22B在满分30的情况下,取得21.2分,是首个亦然独一取得金牌的开源模子。
在靠近沿途大气压联系的物理题时,P1给出的4个小问题谜底均正确,且过程弥散适合评分圭臬。

为了准确评估物理奥赛的阐扬,究诘团队构建了HiPhO(High School Physics Olympiad)基准测试,这是首个专注于最新物理奥赛、选拔东说念主类对都评估的基准。HiPhO涵盖了2024-2025年最新的13场奥林匹克级别的物理竞赛,评估时选拔官方评分圭臬,对谜底和过程进行细粒度评分,与东说念主类评审严格对都,确保得分准确——由此,每个模子的考试得分可径直与东说念主类选手以及金银铜牌分数线进行比拟。
上海AI实验室知道,P1-235B-A22B取得12金1银佳绩,与Gemini-2.5-Pro并排奖牌榜第一,金牌数绝顶了GPT-5、Grok-4等主流闭源模子。
P1在外洋物理奥林匹克、HiPhO基准测试中阐扬杰出,分解模子已初步具备顶住本质寰宇中复杂物理问题的后劲,这一冲突为大模子进一步处理复杂推理任务,进而处分科学发现等难题奠定了基础。
P1在HiPhO基准测试上的得分情况
收场物理推理期间捏续普及
据先容,P1在物理推理方面的异常阐扬,离不开高质料数据和多阶段强化学习计谋。
究诘团队通过高效的提真金不怕火和标注经过,构建了包含数千条奥赛级别题方向教师数据集。每条数据均具有完好的荆棘文信息、可考证谜底以及圭臬解题过程,用于强化学习教师。
新民晚报记者了解到,P1选拔多阶段强化学习经过进行教师。为了收场平稳高效的教师,团队在每个阶段运用两项关键计谋:一是荆棘文窗口膨胀,跟着教师的鞭策,逐步膨胀模子最大生成长度,使模子简略探索更长的推理链;二是通过率过滤,在教师前,基于通过率统计对数据进行筛选,抹杀过于浮浅或过于用功的任务。
此外,为了冲突单一模子的性能极限,究诘团队建立了一套专为物理推理缱绻的协同进化多智能体系统。它由视觉、逻辑和审核三个交互式模块构成,通过自我考证与反念念迭代,收场了物理推理期间的跃升。
要是任一阶段考证失败天元证券,详备的作假敷陈会被发送回逻辑模块,进行反念念翻新解答。通过这种协同进化谄谀,系统捏续普及大模子对复杂物理问题的推理质料和鲁棒性。
天元证券_平台使用指南与操作流程介绍提示:本文来自互联网,不代表本网站观点。