今日,小米大模型团队通过“Xiaomi MiMo”公众号宣布,正式开源首个专为推理场景设计的大语言模型Xiaomi MiMo。该模型仅用70亿参数(7B),便在数学推理(AIME 24-25)与代码生成(LiveCodeBench v5)两大国际权威评测集中,击败OpenAI闭源推理模型o1-mini及阿里开源的320亿参数模型QwQ-32B-Preview,成为AI领域“以小博大”的技术标杆。
MiMo的突破性表现源于其“算法-数据-框架”三位一体的创新。在数据层面,小米通过挖掘科学论文、竞赛题库、代码仓库等富推理语料,合成约2000亿tokens的专项训练集,覆盖数学证明、算法设计、逻辑推演等高阶场景。训练阶段采用“三阶段难度渐进”策略,从基础推理能力起步,逐步引入复杂数学定理证明与跨领域代码迁移任务,总训练量达25万亿tokens。算法层面,团队提出Test Difficulty Driven Reward(TDDR)机制,通过动态调整奖励函数缓解复杂推理任务中的“奖励稀疏”问题,并引入Easy Data Re-Sampling策略,使强化学习训练稳定性提升40%。此外,自主研发的Seamless Rollout框架将模型迭代效率提升2.29倍,推理延迟降低至300毫秒以内,满足实时推理需求。
据小米技术报告披露,MiMo在AIME 2024-2025竞赛题库中取得67.8%的正确率,较o1-mini提升12.3%;在LiveCodeBench v5代码生成任务中,通过率达89.1%,超越QwQ-32B-Preview近5个百分点。更值得关注的是,其推理能耗仅为后者的1/5,这意味着开发者可在消费级GPU上部署该模型,显著降低推理成本。
目前,MiMo-7B的模型权重、训练代码及技术报告已全面开源至Hugging Face平台,开发者可自由用于学术研究或商业应用。小米大模型Core团队负责人表示,未来将推出支持多模态推理的MiMo-Pro版本,并探索与小米智能硬件的深度融合。这场由7B参数引发的“推理革命”,不仅为AI社区提供了轻量化高性能模型的新范式,更标志着中国科技企业在AI基础模型领域正式跻身全球第一梯队。