三家顶级实验室,三个完全独立的验证过程,三个高度一致的结论。
结论的核心内容可以用一句话概括:
“YanHai架构的计算复杂度声明完全属实——线性复杂度介于O(n)和O(n log n)之间——且在多个下游任务上的性能表现,不仅没有因为降低复杂度而下降,反而在部分任务上有所提升。“
这个结论在学术界引发的震动,比模型本身的性能数据更大。
因为性能数据可以用“数据集选择偏差““评测基准设计问题““过拟合“等各种理由来质疑。
但计算复杂度是一个可以从数学上严格证明的东西。
你说你的架构是O(n)的,那我就去看你的代码:注意力机制是怎么实现的、信息聚合的步骤有多少、每一步的计算量是多少,然后我自己推导一遍复杂度。
如果推出来确实是O(n)的,那就是O(n)的,没有任何争议空间。
三家实验室的验证结果一致说明——陈林没有说谎,YanHai确实实现了更低线性复杂度的注意力机制。
而在所有的AI架构中,注意力机制的复杂度是最大的性能瓶颈。
传统的Transformer架构使用的标准自注意力机制,复杂度是O(n²)。
这意味着输入序列的长度每翻一倍,计算量就翻四倍。
这就是为什么所有大模型都有“上下文长度限制“的根本原因——不是模型“不想“处理更长的文本,而是处理更长文本的计算成本呈平方增长,硬件根本扛不住。
而YanHai把这个O(n²)干到了O(n)到O(n log n)之间。
输入序列长度翻一倍,计算量只增加一倍多一点点。
这个差距有多大?
打一个不太严谨但非常直观的比方:
如果传统Transformer处理一段10万token的文本需要消耗100单位的计算资源,那YanHai处理同样长度的文本,只需要消耗大约10到17单位。
差了将近一个数量级。
反过来说,在同样的硬件条件下,YanHai可以处理的上下文长度,是传统Transformer的好几倍甚至更多。
这就是同等硬件可训练参数量翻倍、显存占用降低60%这些数据背后的数学本质。
斯坦福的那位终身教授,安德鲁·万斯,在验证完成后的当天晚上就在arXiv上传了一篇二十页的分析文章。
标题是:
《On the Architectural Innovations of YanHai: A Preliminary Analysis》(一份对于YanHai架构创新的初步分析)
文章写得非常扎实,从数学推导到实验复现再到与现有架构的横向对比,面面俱到。
而文章结论段的那句话,在上传后不到二十四小时就被全世界的AI研究者们疯狂引用——
“This may be the most significant innovation in neural network architecture design since the introduction of the Transformer in 2017.“
“这可能是自2017年Transformer论文以来,神经网络架构设计领域最重要的创新。“
这篇分析文章在arXiv上线后的七十二小时内,被下载了超过四万次。
要知道,arXiv上的顶级论文,一年的下载量能过一万就已经算非常受关注了。
三天四万次下载量,在arXiv的历史上可能排不进前十,但绝对排得进前五十。
而且这只是分析文章,原始的YanHai架构论文,也就是陈林当时和白迁他们一起整理的那份技术文档的学术版的下载量更恐怖,直接突破了十万。
arXiv的服务器在开源后的第二天一度出现了访问速度明显放缓的情况,虽然不至于宕机,但明显卡顿了。
后来arXiv的运维团队在推特上发了一条有点无奈又有点自豪的消息:
“由于对特定论文的异常访问流量,arXiv正面临比平常更高的延迟。我们正在处理此问题。感谢您的耐心等待。“
配图是一张服务器流量监控截图,某个时间点上的流量曲线直接从地面飙到了天花板。
Reddit上的r/LLM板块在这三天里的讨论量暴增了十倍不止。
关于YanHai的讨论帖占据了板块前三十名热帖中的至少二十个位置。
基于YanHai架构的衍生论文也开始以一种让人目不暇接的速度出现在arXiv上——平均每天数篇,涵盖各种方向。
有做自然语言处理的,把YanHai架构适配到机器翻译和文本摘要任务上。
有做计算机视觉的,尝试将YanHai的线性注意力机制引入视觉Transformer。
有做多模态的,探索YanHai在图文理解任务上的表现。
甚至有做蛋白质结构预测的研究组,在讨论能否用YanHai架构替换AlphaFold中的注意力模块。
大部分衍生论文来自大漂亮和欧洲的研究组。
但华夏国内的研究组跟进速度同样很快——燕北大学的甄逸飞在开源后的第二天就发了一篇基于YanHai-30B的中文自然语言理解评测报告,数据详实、分析到位,被国内同行广泛引用。
这就是开源的力量,一个架构,一旦被证明有效、被公开分享,全世界的聪明脑袋都会在上面做文章。
而这些文章反过来又会验证、完善、扩展这个架构的能力边界。
这是一个正向循环。
学术界的反应虽然热烈但总归还是理性的——学者们会去验证、去分析、去讨论。
而产业界的反应就要直接得多了。
华夏AI产业界。
国内的几家头部大模型公司——几乎在同一天——发布了内部公告。
具体的措辞各有不同,但核心意思高度一致:
立即成立专项团队,评估YanHai架构的适配可行性。
陈林是怎么知道这些“内部公告“的内容的?
MOSS告诉他的。
这些公司的内部公告虽然不对外发布,但MOSS有它自己的信息获取渠道,具体是什么渠道,陈林已经懒得追问了。
几家公司里面,动作最快的是两家。
一家是ALBB的通义千问团队,另一家是月之暗面。
这两家在开源后不到一周的时间里,就分别宣布将旗下主力模型切换至YanHai架构进行重新训练。
消息是通过各自的官方渠道发布的——通义千问发了一篇微信公众号文章,月之暗面在自家App的公告栏里挂了一条通知。
措辞都很含蓄,核心信息就是:“我们将采用业界最新的架构创新成果,对现有模型进行全面升级。“
虽然都没有直接提“YanHai“三个字,但所有人都知道说的是什么。
这两条消息发出后通义千问母公司ALBB的港股股价,在消息发布后的第一个交易日上涨了4.7%。
月之暗面虽然没上市,但据MOSS的情报,其最新一轮融资的估值较上一轮提升了将近30%,而融资谈判中被投资人反复追问的核心问题就是“你们对YanHai架构的掌握程度有多深“。
其他几家头部公司虽然没有这么快宣布切换架构,但从MOSS获取的内部信息来看,企鹅的混元团队、百特丹斯的豆包团队、以及智谱清言团队,内部的技术评估工作都已经全面展开。
这种所有玩家同时开始研究同一个架构的场面,在华夏AI行业的历史上还是第一次出现。
以前大家各搞各的,你有你的架构创新,我有我的数据优势,他有他的算力储备,竞争格局是分散的、多中心的。
但现在,YanHai的开源把整个行业的竞争焦点暂时拉到了同一个维度上。
以前的核心问题是谁家模型更大、谁家数据更多,现在变成了“谁能更快、更好地利用YanHai架构的效率优势“。