“博士及以上水平的研究级证明,也就是我们这个项目真正想要辅助的那些前沿研究,“
他摘下了金边眼镜擦了擦:
“准确率不到百分之十,而且这不到百分之十里面,还有相当一部分是模型碰巧蒙对了某些步骤,整体的证明逻辑链条依然是断裂的。“
他把眼镜重新戴上:
“更麻烦的是,模型在处理它不理解的证明步骤时,不会诚实地说我不知道,反而编造一些看起来很像回事,但实际上经不起推敲的伪证明步骤。“
他看了一眼摄像头:
“在座各位应该都遇到过这种情况。模型给你一个看上去很流畅的证明过程,每一步的数学符号和公式都用得很漂亮,读起来行云流水。
但仔细一看,某一步的推导使用了一个根本不存在的引理,或者某一步的不等式放缩方向反了,或者某一步默认了一个根本没有被证明过的条件。“
好几个参会者在视频里点了头,显然大家都深有体会。
周明轩做完汇报以后,视频会议进入了自由讨论环节。
陈林一直在安静地听,没有急于发言。
讨论进行了大约十五分钟,参会者们各抒己见。
有人建议增加训练数据的规模,用更多的数学文献去微调模型。
有人建议开发专门的提示词工程策略,用更好的prompt引导模型一步步推导。
有人建议引入检索增强生成(RAG)技术,让模型在翻译过程中可以实时检索相关的数学定理和引理库。
这些建议都有一定的道理,但在陈林看来,它们都只是在现有技术框架内做修修补补,没有触及到问题的根本。
大约又过了五分钟,讨论出现了一个短暂的间歇,大家似乎把想说的都说了一轮,开始等待其他人的反应。
周明轩抓住了这个间隙:
“陈林教授,“
他的目光在屏幕上找到了陈林的摄像头,语气很客气:
“不知道陈教授对我们目前的情况有什么看法?“
二十多个参会者的注意力同时聚焦到了陈林的镜头框上。
陈林坐直了一点。
“周院士,各位教授,我说几点想法,不一定对,供大家参考。“
他的语气一如既往地谦逊和随意,但其他人都集中了注意了当全球最顶尖的数学家兼AI架构设计者说“我说几点想法“的时候,你最好拿出笔来做笔记。
“第一点,关于模型的选择。“
陈林说道:
“周院士刚才提到,项目组目前在使用的模型包括GPT系列和国内几家公司的产品。“
他停了一下:
“我有一个建议,项目组可以试试之前官方在体制内推广的那个YH模型,也就是YanHai系列。“
周明轩微微一愣。
YH这个缩写他是知道的——之前科技部和超算中心推广过一版推理服务,代号就是YH。
科学院里有些人试用过,但大部分人还停留在听说过但没有深入了解的阶段。
主要是因为之前推广的时候,YH模型的具体出处和技术细节都没有公开说明,项目组的成员们虽然觉得效果不错,但由于缺乏详细的技术文档和学术论文支撑,一直没有把它作为主力工具来使用。
陈林接着说道:
“我在这里可以做一个说明——YH推理服务上搭载的模型,叫YanHai-AutoGrow,是我们演海公司训练的最新一代模型。“
他停顿了一下,给在座的人留了几秒钟消化的时间,然后补充道:
“效果比我之前开源的YanHai-30B还要更好。“
会议室里安静了大约两秒钟。
毕竟是和人工智能大模型相关的项目,参加会议的人对于大模型的进展动态都是非常关注的。
那个在十天前刚刚开源、在全世界掀起巨大热潮、让纳斯达克AI板块集体跳水、让国外学者认为是“2017年以来最重要的架构创新“的YanHai-30B,大多数人都是了解的。
比那个还好?
陈林能感觉到视频会议里的气氛突然变了。
之前很多人虽然很认真但是看得出没有什么兴奋的感觉,毕竟他们已经在这个项目上磕了大半年了,对AI辅助数学研究这件事的困难程度有着非常清醒的认知。
但现在,一种明显的期待感开始在画面里蔓延。
周明轩率先反应过来:
“陈教授,你说的这个YanHai-AutoGrow目前支持在线使用吗?我们的成员可以直接接入推理服务?“
“可以。“
陈林点了点头:
“之前科技部和超算中心推广的那个接口还有效,各位的账号应该都还能用。如果有需要新开通权限的,可以联系廖副部长那边,或者直接联系我也行。“
周明轩的手在桌面下面快速地记了几笔。
陈林没有在这个话题上停留太久,接着说道:
“第二点,关于技术路线的选择。“
他组织了一下措辞说道:
“目前项目组的做法,是试图用通用大模型来做'万能数学助手'。“
他没有用批评的语气,但意思很明确:
“这个方向我个人认为需要调整。“