“而这个过程中丢失或者被错误恢复的信息,就是导致翻译准确率低的根本原因。“
“所以,我认为项目组的核心攻关方向,应该放在解决'翻译'过程中的信息损失问题上。“
他停了一下,然后说道:
“我有一个初步的技术思路。“
“基于范畴论的框架,构建一套语义保持翻译方法。“
听到范畴论三个字的时候,好几个做代数和做几何的参会者的眼睛同时亮了。
范畴论,被誉为“数学的数学“,它研究的是数学对象之间的关系和结构。
之前没有人意识到,但陈林一说出来,他们立刻就意识到了这个角度的精妙之处。
因为范畴论天生就是用来描述结构保持的映射的。
从一个数学结构到另一个数学结构的映射,如果能保持原有的核心关系不变,在范畴论里这叫做“函子“,那就是一个好的映射。
而从自然语言证明到形式化语言证明的翻译,本质上不就是这么一回事吗?
你需要一个映射,把自然语言中的证明结构——定义、假设、推理步骤、结论之间的逻辑关系,保持不变地转移到形式化语言中。
如果这个映射的过程中核心逻辑结构被保持了——也就是说,这个映射是一个“忠实的函子“——那信息损失就被从数学层面保证降到了最低。
陈林花了大约二十分钟,系统性地阐述了这套方法的核心框架。
他没有深入到具体的数学推导,那些内容太技术性了,在视频会议上展开不太合适,而是用一种直觉性的、概念化的方式把核心思想讲清楚了。
简单来说,这套方法的关键创新在于:
第一步,把自然语言证明和形式化语言证明分别抽象为两个不同的“范畴“。
自然语言证明范畴里的“对象“是命题、定义、假设,“态射“是推理步骤。
形式化语言证明范畴里的“对象“是形式化的类型和项,“态射“是类型检查器认可的推导规则。
第二步,构建一个从自然语言范畴到形式化范畴的“函子“。
这个函子的核心要求是“忠实性“——也就是说,自然语言证明中任意两个命题之间的逻辑关系,在经过函子映射到形式化范畴以后,必须被完整保留。
第三步,也是最关键的一步——利用AI模型来学习和实现这个函子。
具体来说,是用配对的数据,同一个证明的自然语言版本和形式化版本来训练模型,让模型学会“在翻译过程中保持逻辑结构不变“的能力。
而训练的损失函数,就用范畴论意义上的忠实性度量代替传统的逐字翻译准确率,也就是说,即使模型翻译出来的形式化证明在表面文字上和人类写的版本不完全一样,只要核心逻辑结构被保持了,就算是好的翻译。
这个思路的精妙之处在于,它把一个看似文字翻译的问题,重新定义成了一个结构保持映射的问题。
而结构保持映射,恰好是范畴论最擅长处理的东西。
陈林讲完以后,视频会议里沉默了至少半分钟。
第一个打破沉默的是周明轩。
“陈教授。“
他的语气比之前任何时候都更加认真:
“你说的这套方法,如果能落地,它本身就可以作为一篇高质量的学术论文发表。“
这句话一出,好几个参会者同时点了头。
做形式化验证的那位双旦大学教授直接在视频里说了一句:“岂止是高质量,这个东西如果做出来,投《数学年刊》都够格。“
陈林听到这些评价,笑了笑。
“论文就不必了。“
他的语气很随意:
“这个方法如果有用,直接用就行。“
然后他补充了一句:
“具体的数学推导我后面会整理成文档发给周院士和各位老师。框架和核心公式我已经有了大致的思路,整理出来应该不需要太长时间。“
“在那之前,我建议项目组先把几件基础工作做起来——“
他掰着手指数了一下:
“第一,把YanHai-AutoGrow的推理服务接入到项目组的工作流中,替换掉现在在用的GPT和其他模型。“
“第二,开始收集和整理配对数据——同一个证明的自然语言版本和Lean 4形式化版本。这个数据是后面训练专家模型的基础。“
“第三,按子领域划分工作小组,每个小组负责收集和整理自己领域内的配对数据。“
“这三件事可以并行推进,不需要等我的文档。“
周明轩一边听一边快速地在本子上记着。
等陈林说完,他连连点头:
“好。这三件事我回头就安排布置下去。“
然后他抬起头,看着屏幕上陈林的画面,语气里多了一种复杂的情绪,既有对年轻人才的由衷钦佩,也有一种微妙感慨,毕竟自己这边半年时间都没有进展的事情,人家来开了一次会就有了眉目。
“陈教授,今天真的非常感谢。“