
为Agent能力的落地扫清了障碍。反过来,Kimi率先大规模验证的Muon优化器,解决了万亿参数大模型训练不稳定、效率低的行业难题——实现了“同等训练量下效率翻倍”,相当于把50万亿token用出了100万亿的效果。而DeepSeek V4的技术报告里,直接把Muon优化器写进了训练方案。简单说,DeepSeek的MLA帮Kimi降低了推理成本;Kimi的Muon帮DeepSeek降低了训练成本。
当前文章:http://wy780j.ruocenqi.cn/at6/gwc9.html
发布时间:11:09:37