白迁和潘思每天盯着监控面板,看着那些漂亮的训练曲线,满心欢喜地讨论着“种群迭代优化得真不错““进化版NDP的收敛速度比预期还快“。
陈林每次看到他们兴高采烈的样子,心里的负罪感就增加一分。
终于算一算日子,从训练启动到现在也过了足够长的时间,如果再拖下去,以白迁和潘思的技术水平,迟早会发现什么不对劲的端倪。
MOSS的方案很简单也很优雅。它从自己那个真实的超级模型里面,切出来一个极度弱化的小参数版本。
这个版本的参数量和训练时长与津门超算中心那个“空壳进程“的理论产出完全吻合,所有的训练日志、检查点文件、评测数据都天衣无缝。
从外面看,这就是一个在津门超算中心跑了几周以后自然产出的、品质优秀的混合架构模型。
当白迁在群里发出YanHai-AutoGrow的评测报告的时候——
白迁:【!!!!】
白迁:【所有人快看评测数据!!!】
白迁:【MMLU:82.4%!GSM8K:77.1%!HumanEval:81.3%!】
白迁:【这TM比我们之前预估的最乐观情况还要好百分之十几!!!】
潘思:【……】
潘思:【容我冷静一下。】
潘思:【不对,冷静不了。】
潘思:【白迁你确认数据没跑错?】
白迁:【跑了三遍,一模一样。】
白迁:【NDP进化版的自组织生长确实牛逼,网络结构生成的质量比我预想中好了不止一个档次。】
潘思:【等我上超算再跑一遍。我亲眼看到才信。】
然后潘思亲自上超算跑了一遍,他在群里沉默了大概五分钟。
五分钟以后。
潘思:【我信了。】
潘思:【NDP牛逼。】
潘思:【陈总牛逼。】
虽然对于白迁和潘思有点小小内疚,毕竟他们不知道实际上他们创造了比这个模型强大无数倍的真正人工智能,但是陈林还是压下情绪发了消息:
陈林:【辛苦了,后续先稳定一下,然后准备部署。】
白迁和潘思大概已经习惯了陈林这种“你们惊天动地,他云淡风轻“的风格,也没有多说什么。
然后陈林联系了廖轶昕副部长。
“廖副部长,之前在体制内机构试用的YanHai-30B,可以换成我们的新模型了,叫YanHai-AutoGrow。“
廖轶昕在电话那头明显愣了一下。
“这么快?上次你说的那个混合架构训练……“
“训练完成了,效果比预期好不少。“
陈林的语气很平稳。
“另外,我想把YanHai-30B和YanHai-1.5B开源。“
电话那头沉默了大约两秒钟。
“开源?“
“对。所以先和你这边报备一下。”
然后廖轶昕的声音再次响起,语气里多了一层慎重:
“陈教授,这件事情的决定权在你。但你确定?这两个模型的商业价值……“
“我确定。“
陈林的语气没有任何犹豫:
“对于演海公司来说,这两个模型现在已经是上一代和上上一代的产品了。它们的核心架构优势,在YanHai-AutoGrow身上已经被完全继承和超越了。“
“把它们开源出去,对我们自身的竞争力不会有任何影响。“
“但是对整个行业、对整个学术界、对所有在这个领域做研究的人来说.......“
他停了一下,最终没有把后面的话说完。
他不需要说完。
廖轶昕已经明白了。
“好。“
廖轶昕的声音恢复了平稳:
“模型替换的事情我来协调。开源的事情你自己安排就行,需要我们这边配合什么随时说。“
挂了电话以后的第二天,演海公司的官方GitHub仓库里,两个新的项目悄然上线。
YanHai-30B-OpenSource。
YanHai-1.5B-OpenSource。
没有任何提前预热,没有任何新闻通稿,没有任何发布会。
就那么默默地,在一个普通的工作日的上午,推了上去。
然后,全世界都炸了。
准确地说,是先在学术圈和技术社区里炸了,然后像涟漪一样迅速扩散到了整个互联网。
最先发现的是燕北大学自然语言处理实验室的甄逸飞——就是之前第一批试用YanHai-30B推理服务的那个博三学生。
他在刷GitHub Trending的时候看到了一个眼熟的名字,点进去一看,然后他的反应和白迁差不多。
甄逸飞在实验室的群里发了一连串感叹号,然后把链接甩了出去。
不到一个小时,这个消息就传遍了整个华夏的AI研究社区。
再过两个小时,Reddit上的r/LLM板块出现了第一个讨论帖。
标题是:
【YanHai just open-sourced their 30B and 1.5B models. Benchmarks are INSANE.】
帖子发出后十分钟,评论数突破一百。
半小时,突破五百。
一小时,冲上了r/LLM的历史热门榜前三。
全世界的AI研究者们开始疯狂地下载模型权重、复现评测数据、拆解架构细节。
而评测结果让所有人都沉默了。
YanHai-30B在MMLU上跑出了78.6%的成绩。
同参数量级的最强开源模型Llama-30B只有71.2%。
Qwen-30B是73.1%。
碾压,断档式的、没有任何争议空间的碾压。
更要命的是,YanHai-30B的架构设计极其精巧。
当全世界的AI工程师们拿到源码开始逐行阅读的时候,他们发现了一个让人头皮发麻的事实,这个模型的计算复杂度是介于线性和nlogn之间的。
在同等硬件条件下,YanHai-30B的推理速度比传统Transformer架构的同参数量模型快了将近两倍。
这意味着显存占用降低60%,同等硬件可以训练的参数量翻倍,,别人用顶配卡跑30B模型的时候,同样的硬件跑YanHai的架构可以直接上70B甚至更高。
Reddit上的讨论迅速从“这个模型效果真好“演变成了“这个架构才是真正的炸弹“。
有人在评论区写了一段话,被顶到了最高赞:
“YanHai-30B is not just a model. It's a message. A message that says: We've been playing a completely different game, and you didn't even know.“(YanHai-30B不仅仅是一个模型,它是一个宣言。这个宣言在说:我们已经在玩一场完全不同的游戏,而你们浑然不知。)
资本市场的反应比学术圈来得更快、更猛烈、也更血腥。
开源消息公布后的第一个交易日,纳斯达克AI板块集体跳水。
CloseAI的估值在二级市场交易中单日缩水超过8%。
狗狗的股价下跌了4.2%。
Anthropic的最新一轮融资据说被投资人临时要求“重新评估估值逻辑“。
NVDA虽然没有直接下跌,但期权市场的隐含波动率在一夜之间飙升到了近半年来的最高水平,这说明市场上有大量的人在对冲“AI硬件需求可能不如预期“的风险。
整个墙街都在讨论一件事,如果YanHai的架构能用更少的硬件跑出更好的效果,那现在这些科技巨头花了几千亿美元囤积的GPU,是不是有相当一部分变成了过度投资?
陈林自己对这些资本市场上的腥风血雨倒是没怎么关注。
他甚至是在彭逸峰发微信来的时候才知道的。
彭逸峰:【陈总,你今天开源的那两个模型,你知道在资本市场上引起多大的动静吗?】
彭逸峰:【纳斯达克AI板块今天跌了多少你看了没?】
彭逸峰:【说实话你上次开源幻觉率算法的时候已经搞过一次了,我以为我有心理准备了】
彭逸峰:【但这次的规模完全不是一个量级的】
彭逸峰:【我今天在办公室接了一下午的电话,全是问YanHai开源这件事的】
彭逸峰:【我TM都快变成你的新闻发言人了】
陈林看完彭逸峰的消息,打了两个字回过去。
陈林:【辛苦。】
彭逸峰没有再回复。
大概是被气到了。