周明轩的眉头微微动了一下。
陈林:“原因是这样的,数学不是一个统一的学科,它是一个由众多子领域组成的庞大体系。“
“代数几何和数论之间的差异,可能比物理学和化学之间的差异还大。“
“它们使用的语言不同、核心技术不同、思维方式不同、甚至对'什么是好的证明'的审美标准都不同。“
“用一个通用模型去处理所有子领域的数学问题,就像是让一个医生去当全科大夫,什么病都看——理论上不是不行,但你不会指望他在任何一个专科上达到专家的水平。“
他提出了替代方案:
“我建议基于数学领域的专业文献进行微调——包括arXiv上的预印本、Mathoverflow上的讨论、以及Lean和Coq等形式化证明库中的数据。“
“但不是笼统地用所有数学文献去微调一个模型。“陈林特别强调了一下。
“我们需要按数学子领域细分。代数几何训练一个专家模型,数论训练一个,分析训练一个,拓扑训练一个,概率论训练一个……“
“每个专家模型都只在自己擅长的子领域上做到极致。“
他停了一下:
“然后通过混合专家架构,也就是MoE,把这些专家模型整合到一起。“
“当用户输入一个待翻译的数学证明时,系统首先判断这个证明属于哪个子领域,然后自动路由到对应的专家模型去处理。“
“这样一来,每个子领域的翻译精度都能得到显著提升。“
陈林说完这段以后,稍微停了一下,喝了一口凉白开。
视频会议里安静了好几秒钟。
然后一个来自华清大学的年轻教授,陈林从名牌上看到他叫林昊,最先开口了。
“陈教授,MoE架构的子领域路由判断本身的准确性怎么保证?“
“如果一个证明涉及到多个子领域的交叉——比如既用到了代数几何的方法又用到了数论的技术——路由器该怎么处理?“
这个问题问得很好。
陈林笑了笑:
“林老师的问题正好引出了我想说的第三点。“
“也是我个人认为最重要的一点,刚才周院士的汇报里有一句话——模型在处理研究级别数学证明时准确率不到百分之十。“
“林老师刚才的追问也涉及到了一个很关键的问题,子领域交叉的情况下路由怎么处理。“
“这两个问题,表面上看是两个不同的问题,但它们的根源其实是同一个。“
他停顿了一下,然后说出了那个核心判断。
“当前最大的瓶颈,与其说是验证能力,不如说是翻译能力。“
会议室里又安静了。
陈林继续说道:
“所谓翻译能力,指的是把人类用自然语言写出的数学直觉和证明思路,准确转化为机器可以严格检验的形式化语言。“
他看着摄像头:
“各位可以回想一下自己写数学证明的过程。“
“当你在纸上写下不难看出这四个字的时候,你的脑子里发生了什么?“
“你的直觉告诉你,从当前的条件出发,经过某个你已经非常熟悉的推理路径,可以到达你想要的结论。“
“这个推理路径可能涉及到好几个中间步骤,每个步骤都调用了你脑子里存储的不同的数学知识,可能是一个经典定理的变体,可能是你在某篇论文里看到过的一个技巧,也可能是你自己在多年研究中总结出来的一个直觉。“
“但你不会把这些中间步骤全部写出来,因为对你来说,这些步骤是显然的。“
“你用不难看出四个字,把所有这些中间信息压缩成了一个黑盒。“
“你的同行,如果他们和你在同一个研究水平上,也能理解这个黑盒里面装的是什么。“
“但AI看到'不难看出'这四个字,它不知道黑盒里面有多少步推理、每一步调用了什么知识、中间的逻辑链条是怎么连接的。“
“它只能'猜',猜对了,翻译就成功了。猜错了,就会出现那些看起来很像回事但实际上逻辑断裂的伪证明步骤。“
陈林的这段话说完以后,好几个参会者的表情发生了微妙的变化,那种被一语点破的表情。
是的,他们都知道不难看出是怎么回事,他们每个人在自己的论文里都用过不知道多少次。
但他们之前从来没有从AI翻译的角度去审视这个问题。
周明轩摘下了金边眼镜,认真考虑了一下然后说:
“陈教授的意思是,当前模型在研究级别证明上表现不佳的根本原因,是从自然语言到形式化语言的翻译过程中,信息损失太大了?“
陈林点了点头:
“可以这么理解。“
“自然语言数学证明和形式化语言数学证明之间,不是简单的'语法转换'关系。“
“它们之间存在着巨大的语义鸿沟,自然语言证明里充满了省略、简写、上下文暗示、以及只有领域专家才能理解的惯用表达。“
“而形式化语言要求每一步都必须完整、显式、可机械验证,不能有任何省略和暗示。“
“从前者到后者的翻译过程,本质上是一个信息恢复和补全的过程——你需要把那些被人类作者省略掉的中间步骤全部找回来、补上去。“