想起Kimi K2,月之暗面的“复仇”
栏目:媒体新闻 发布时间:2025-11-13 09:33
Kimi K2心灵的释放,对于月之暗面,就像《基督山伯爵》中名为蒙特克里斯托的城堡...
基米K2的思想释放,针对月球的阴暗面,就像《基督山伯爵》里那个叫基督山的金银岛。曾经被囚禁在如果城堡中的“男人”带着捕获世界守护者的计划回来了。在预计年底发布Gemini 3和GPT -5.1,以及新的Deepseek模型之前,中国大型模型制造商月之暗面首先到达了一个里程碑式的作品——思密K2。如何形容思维kimi k2的价值?也许Huggingface联合创始人Thomas Wolf的分析反映了大多数人的心声,“这是否又是一个‘深探’时刻?开源再次超越闭源。”当时开源的Deepseek R1超越了OpenAI闭源型号的旗舰型号O1。现在,Kimi K2 的思路直接转向了 GPT-5 和 Claude 4.5 Sonnet 等闭源模型的基准测试。虽然还存在一些缺陷,但这并不妨碍月之暗面的成功。如果说之前商业化的大规模投入和Deepseek的成功让很多人怀疑月球之暗面是否还能成为最有前途的大型商业企业,那么Kimi K1.5可以算是对月球之暗面的推理和探索。 K2让人惊讶不已,想到Kimi K2就更加坚定了内心和外在的自信。事实证明,月之暗面有能力站在大型模型的第一梯队。 11月11日上午,月之暗面创始人杨智霖与合伙人周欣雨、吴宇欣在海外Reddit社区举办线上问答活动,解答有关Kimi K2和大模特的思考问题。 460万美元的成本并不重要,K3可以拥有新的架构特点。围绕Kimi K2思维的出现,外界对训练方法、工程技术以及d 未来的计划。 《月之暗面》讲述了460万美元训练费用的真实性、为何大胆采用未开发的μ子优化器,以及推理背后的技术突破。这是一次难得的直接技术交流。 Kimi团队首先澄清了盛传的“培训费用460万美元”的传闻。该团队表示这不是官方数字。训练成本很难衡量,尤其是大型预训练模型涉及研究、探索和失败的实验,本身就很难用纯金钱来衡量。至于外界最惊讶的一点——为什么他们敢在这么大的模型中使用几乎没有人尝试过的μ子优化器——团队直接解释道:虽然μ子还没有被其他人证明过,但他们严格遵循验证标度律的流程,以确保其在所有小型测试中表现稳定。在Muon出现之前,有数十种优化框架和架构被消除,这让团队对其研究系统建立了信心。在软件方面,Kimi确认他们使用的是Infiniband互联的H800 GPU,与美国厂商的高端计算设备相比并不优越。但团队强调:“我们彻底压榨了每一张卡。”在紧张的预算下最大化产出是这个团队的主要风格。在谈到预训练的关键指标时,团队强调最重要的仍然是损失、基准性能和内部稳定性。架构的每一次消融在规模化之前都必须经过验证,不允许跳过。如果模型出现异常,将立即暂停扩容。关于数据,Kimi 用了一个浪漫的比喻:“找到正确的数据集是一门艺术。”该团队认为,数据之间存在大量的交互效应,但最终还是应该基于实验。基米阿尔从而对外界给出了明确的态度。选择纯文本模型的原因是视频模型的数据准备和训练周期较长;至于1M上下文窗口,团队已经尝试过,但目前的服务成本太高,未来版本中很可能会重新编码。被众多用户称赞的“K2独特的散文风格”从何而来? Kimi表示,这既来自于训练前阶段奠定的知识基础,也来自于训练后阶段的口味调整。甚至不同的强化学习技术也会导致完全不同的“品味差异”。模型的性质也在一定程度上反映了团队的偏好。对于一些用户提出的批评,例如该模型在战斗场景或战斗对话中过于“安全”、略显“毒正”,Kimi团队承认这是一个长期挑战,但相信有解决方案。他们还探索在保持安全性的同时减少不必要的测试的方法。至于NSFW内容,团队不排除这种可能性,但前提是建立可靠的年龄验证机制并调整服务条款。关于技术栈,Kimi继续强调其相对于链式推理的独特优势。 K2思维目前完成200到300步的工具调用,团队将其归因于智能体学习的端到端训练方法。再加上Int4 Int4带来的速度优势,单次长推理成为可能。至于未来的技术升级路线,Kimi宣布他们正在研究新的架构KDA(Kernel Attention Dual Architecture),很可能会用在K3车型上。此外,团队不排除更多组件的额外开源,包括安全对齐技术栈,但也强调需要找到机制来确保开源的细化不被破坏。用过的。 Kimi K2的精神力如何?据官方介绍,这是月球背面最强大的开源思维模型。其参数规模达1万亿,采用384位专家的混合架构。它是以“思考代理”为目的而构建的,可以在使用工具的同时进行逐步推理。可用于Humanity Final Exam(HLE)、Browsecomp等。在多项基准测试中取得业界领先的最新成绩,在推理、智能体搜索、编码、写作、综合能力等方面都有不小的提升。当然,对收视率不太感兴趣的朋友更看重实际结果。 Kimi K2思维可以在无需人工干预的情况下连续执行200到300次工具调用,并在数百步的链式推理中保持连接,以解决复杂的问题。这标志着测试时间扩展的最新进展,包括扩大思想令牌的大小和扩大工具调用的链接深度。这是公司得益于克劳德的长远规划和灵活的推理能力。 Kimi K2思维直接大幅降低门槛。 Kimi K2 思维在衡量推理、codiof 和智能体能力的许多基准测试中创造了新记录。通过工具在 HLE 中达到 44.9%,在 Browsecomp 中达到 60.2%,在 SWE-Bench 验证中达到 71.3%,显示出作为顶级思维代理模型的强大综合能力。该图像来自 AI 生成的 Kimi K2 的大脑。它还可以在推理过程中主动调用各种工具。它还可以在数百个步骤的序列中完成规划、推理、实施和适应性调整,并处理一些最具挑战性的学术和分析问题。在具体测试中,它通过23次连贯推理和工具调用,成功解决了一道博士级数学题,充分展示了深度结构化推理和解决问题的能力。编码也是智能体能力的重点。 Kimi K2的思维已经表明编码和软件开发任务的显着改进,特别是 HTML、React 和组件前端任务,并且可以将想法转化为功能齐全且响应迅速的产品。在基于Agent的场景中,它在调用工具的同时进行推理,可以与软件Agent无缝集成,准确灵活地执行复杂的多步开发流程。低位量是减少大规模服务器延迟和 GPU 内存使用的有效技术。然而,心理模型经常使用太长的解码长度,因此体积往往会导致性能显着下降。为了应对这一挑战,月球的黑暗面被粘起来,在训练后阶段应用数量感知训练(QAT),并将仅重量 int4 数量应用于 MOE 组件。这使得 K2 逻辑能够支持本机 Int4 识别,从而使生成速度提高约 2 倍,同时仍保持最先进的性能。一般来说,月球的暗面有通过K2的思维证明了大型模型的技术能力,也更加清晰地证实了目前大型模型的发展方向。一大发展趋势:从追求尺度参数转向追求卓越的推理能力和实践能力。但其长期竞争力仍需通过Gemini、GPT等巨头模型的不断迭代和更广泛的市场检验来实现。行业竞争已进入更加复杂、综合性的技术竞争、工程优势竞争和生态战略竞争阶段。 (文|Techpulse,作者|张帅,编辑|盖宏达)返回搜狐查看更多