2026年DeepSeek-V4流言的传播路径
调研最近一周DeepSeek-V4流言的传播路径,可知关键可信信息就两个,mHC架构论文中透露的“正在训练的大模型”和“R1白皮书更新”:
提出mHC架构,解决MoE训练不稳定性,使用27B参数验证
推测mHC是V4的基础架构,DeepSeek正在训练更大模型。同时一项微博公开投票表明,大部分人期望或预测2月有新的DeepSeek模型
扩充至86页,披露失败尝试,清理技术债务
争论是R2还是V4,出现伪造的“官方宣布”推文
爆料V4将于2月中旬发布,主打代码能力,提及芯片来源
引用外媒报道并“深加工”,夸张化标题,引发恐慌性转发
只能说反映了大伙的预期吧。也有投票:
DeepSeek-V4 的发布时间将会在——https://weibo.com/1401527553/QleQzxGb
至于是否真会在春节发布,DeepSeek项目组应该自己都不知道,最多就会往这个目标赶。凭AI炼丹的随机性,延期是非常正常的。就算有Deadline,也只是提升团队效率的工具。
反正大家都爱凑这热闹,那还可以结合DeepSeek理论论文跟发布频率推断:
比方说,同样是内部论文,先有2024年1月11日,DeepSeekMoE论文,再有2024年5月7日,DeepSeek-V2发布。间隔约 117天(近4个月)。
如果后面还有受外部论文启发的,还能参考DeepSeek-V3,它论文第二章「架构」里面有一句话「受 Gloeckle et al. (2024) 启发,DeepSeek-V3 使用多 token 预测(MTP)训练目标」,这篇启发DeepSeek-V3的论文,在2024年4月30号发布到arxiv,距V3发布为8个月。https://weibo.com/6083767801/P6R9g46Nc
如果先出了V4,R2大概会在1个月后发。参考的是R2的规律。
加上工程能力有提升,再加上先发布预览模型……
不过鉴于去年服务器不断崩经历,我觉得今年他们会好好过春节。
上面这些推断都算外推法,基于的样本数都是1。
有网友有疑问,我的观点是什么。我这里是梳理出真正可靠的信息。如果你觉得The Infomation十分值得信赖,那么DeepSeek内部会有一个春节前发布V4的计划。
二十年后,大模型可能会很疑惑,为什么人类老是追求不切实际的确定性,明明最准确的预测,天气预报,连明天的天气都不一定预测得准。
闲得蛋疼,“深度执行”的最后,它写到。