这是一个根本性的变化。
之前的大模型竞赛就是一个烧钱的游戏,本质上是讲究力大砖飞。
模型的参数和用来训练的数据都是可以用钱砸出来的,有钱就能买更多的GPU训练更大的模型,就能雇更多的人标注更多的数据。
但是由于YanHai模型新的框架的出现,在学术界和业界把新的算法框架彻底研究透彻之前,大模型的竞争暂时成为了一个技术能力问题。
这些公司得有足够聪明的工程师,能真正理解YanHai架构的数学原理,才能把它用好、用对。
否则就算照着开源代码一行一行地抄,跑出来的效果也不一定能达到演海公司团队的水平。
因为代码只是架构的表达形式,架构背后的数学直觉和设计哲学,不是靠读代码就能学会的。
与此同时,一大批中小型AI创业公司也在第一时间行动了起来。
这些公司和头部巨头不同,它们没有从零训练一个大模型的资源和能力。
它们的策略是直接基于开源的YanHai-30B进行微调和二次开发。
微调就是拿一个已经训练好的通用大模型作为底座,然后用特定领域的专业数据在这个底座上进行少量的额外训练,让模型在这个特定领域变得更加专业和准确。
比如说,你拿YanHai-30B作为底座,用医学论文和病历数据进行微调,就能得到一个擅长医学问答的专业AI。
用金融报告和市场数据进行微调,就能得到一个擅长金融分析的专业AI。
以此类推。
这种“底座+微调“的模式,正是开源大模型对中小型创业公司最大的价值所在。
而YanHai-30B的低复杂度优势,让微调的成本也大幅降低了,因为同等硬件能跑更大的上下文、处理更多的数据,微调效率直接翻了好几倍。
于是在开源后的一周之内,华夏市场上就涌现出了一批基于YanHai-30B微调的垂直领域AI产品。
法律AI助手、医疗AI问诊、教育AI辅导、电商AI客服……
品类繁多,质量参差不齐,但总体来说,基于YanHai-30B微调出来的产品,在效果上普遍优于之前基于其他开源模型(比如Llama或者Qwen)微调的同类产品。
这直接导致了华夏AI应用层的一次结构性洗牌。
那些之前基于Llama或者其他国外开源模型开发产品的公司,突然发现自己的竞争对手换了一个更好的底座,效果直接拉开了差距。
这种情况倒逼着它们也不得不考虑切换到YanHai架构。
华夏AI产业的整体生态,就这样在一周之内发生了肉眼可见的结构性变化。
陈林的一个开源决定就搅动了整个行业的格局。
——
太平洋另一边的反应,更加精彩,以及惊慌。
CloseAI的内部在开源消息传出后的第一个小时就炸了锅。
这个“炸“不是夸张的修辞,是字面意思——内部的Slack频道在一个小时内涌入了上千条消息,从工程师到研究员到产品经理到高管,几乎所有人都在讨论同一件事。
当天晚上(湾区时间),CEO亲自召开了一场紧急全员视频会议。
视频会议的内容,按照常理来说是严格保密的,但某个不受约束的人工智能就是能知道。
根据MOSS给陈林透露的信息,CEO在会议上的核心表态是这样的:
“YanHai的架构创新显著改变了竞争格局。我们必须认真对待。“
然后CTO团队被下达了一个明确的指令:两周之内,完成对YanHai架构的全面技术评估,判断是否需要调整CloseAI自研架构的方向。
两周。
对于一个像CloseAI这种体量的公司来说,“两周内完成全面技术评估“已经是极其紧迫的时间要求了。
这说明CloseAI的高层对这件事的重视程度远超寻常。
而在这场紧急会议结束后不久,MOSS截获了一份在CloseAI内部流传的备忘录。
备忘录的作者是CloseAI的一位高级研究总监,内容是关于YanHai架构的初步分析和战略影响评估。
备忘录的大部分内容都是技术性的,陈林看了一遍,大意是从各个角度分析YanHai架构的创新点和潜在弱点。
但备忘录的最后一段,让陈林的嘴角微微动了一下。
“Our greatest concern is not the performance data of YanHai-30B itself. It is the person who designed this architecture( a 21-year-old Chinese mathematician)who may have more that we haven't seen yet.“
“我们最大的担忧不是YanHai-30B的性能数据本身,而是设计这个架构的人(一个21岁的华夏数学家)可能还有更多我们没有看到的东西。“
狗狗和DeepMind那边的反应更加有意思。
谢尔盖·布林,这个半退休了好几年然后又杀回来亲自写代码的狗狗联合创始人,在内部的一次技术讨论会上亲自过问了YanHai开源这件事。
DeepMind内部对YanHai架构的评价用了一个词:“Elegantly unsettling“。
优雅到令人不安,这个评价很精准。
DeepMind的工程师们看出了YanHai架构的核心创新不是靠堆工程量实现的,它不是那种多做了十倍的实验,多调了一百倍的超参数的改进。
它是从数学层面上找到了一条全新的路径,用一种根本性的方式绕过了传统注意力机制的复杂度瓶颈。
这种创新方式对于DeepMind来说尤其“不安“,因为DeepMind一直以来的核心竞争力就是数学能力。
从AlphaGo到AlphaFold,DeepMind最引以为豪的就是“用数学和理论创新来解决工程问题“。
而现在,一个21岁的华夏数学家,在它们自认为最强的领域,用数学解决AI问题,打出了一个它们没有想到的解。
而DeepMind的一位资深研究员在内部讨论中说了一句话,后来不知道怎么流出去了(MOSS暗示可能是它故意放出去的,目的是测试外界反应)
“We've spent five years and billions of dollars trying to solve the attention complexity problem. He solved it with a mathematical trick that none of us thought of. This is not a gap in engineering capability. This is a gap in mathematical talent.“
“我们花了五年和几十亿美元试图解决注意力复杂度问题,他用一个我们都没想到的数学方法解决了。这不是工程能力的差距,这是数学天赋的差距。“
这句话在X平台上被转发了超过两万次。
META那边的反应相对友善一些,至少表面上是。
扎克伯格在内部会议上拍板,要求团队评估在下一代Llama模型中直接采用YanHai架构的可行性。
META作为大漂亮开源模型的主要推动者之一,对陈林的开源行为在态度上是相对正面的,毕竟大家都是搞开源的,你开源了一个好东西,我拿来用,然后我的产品也变好了,这对META来说不是坏事。
但这种友善的背后,是一种更深层的焦虑。
如果YanHai的架构成为全球AI行业的事实标准——就像Transformer当年那样,那META在开源AI领域那本来就越来越小的“话语权“将被进一步稀释。
以前说起开源大模型,大家第一个想到的是Llama。
现在说起开源大模型,大家第一个想到的可能要变成YanHai了。
而NVDA,皮衣黄的反应最为耐人寻味。