当前位置: > 图文评测 >

罗福利亮相前,小米突然宣布!代码全球最强,普遍堪比DeepSeek

发布者:365bet体育注册
来源:未知 日期:2025-12-17 10:23 浏览()
智溪作者程前编辑李水清智溪12月17日报道,今天,小米发布并开源了最新的大MoE模型MiMo-V2-Flash,总参数为309B,激活参数为15B。今天上午,在小米2025小米人车家生态合作伙伴大会上,小米MiMO大机型负责人罗福利将首次亮相并发表主题演讲。该模型专门针对推理、编码和代理场景而开发,并支持混合思维模式,允许用户在模型是“思考”还是即时响应之间切换。它可以一键生成功能齐全的HTML网页,并与Claude Code、Cursor、Cline等大气编码框架配合。该模型提供了256k的上下文窗口,可以完成数百轮座席与呼叫工具的交互。 Benchmark测试结果显示,MiMo-V2-Flash的性能与DeepSeek-V3.2基本相当,略逊于DeepSeek-V3.2。o DeepSeek-V3.2中的“终极人体测试”无需任何工具辅助且创意文本生成分析ARENA-HARD,但延迟更小。 MiMo-V2-Flash可以以每秒150个令牌的速度实现非常快速的推理。价格方面,每百万个输入代币成本为0.7元,每百万个输出代币成本为2.1元。小米开源了所有MiMo-V2-Flash内容,并将所有推理代码贡献给开发者社区SGLang。该 API 在有限时间内免费。目前,用户可以在网页上免费体验MiMo-V2-Flash。开源地址:https://t.co/4Etm0yZKTL 体验地址:https://aistudio.xiaomimimo.com/#/技术报告:https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf 稳定。智能工具首先测试了MiMo的Web开发能力。首先,智动智要求搭建一个电商页面,必须包含主产品图片轮播、详情选品、价格、库存等要素。代码生成后启动后,MiMo 会在右侧显示预览界面。除了查看产品大图的功能必须在完整版中使用之外,其他元素与真实的网购非常相似。然后为了增加难度,志东志要求开发一个网页版的迷宫游戏,必须包含四个难度,并且可以通过鼠标和键盘控制。在生成的网页上,MiMo还添加了提示、积分、计时等功能,让整个交互体验更加完整。 Z还允许ithidongxi开发互动网页“圣诞树装饰”。网页左侧有灯笼、铃铛、星星、礼盒、蝴蝶结等。您可以拖动这些物品来装饰右侧的圣诞树。您还可以一键清除它们或直接生成随机装饰。整个屏幕会不断飘落雪花,并且还可以播放背景音乐。至于聊天能力,智动zhi首先要求MiMo“用程序员的语气安慰失恋的猫”。 MiMo会让小猫“清除缓存”,忘记不愉快的事情,也会让小猫“升级硬件”,帮小米打广告。最后,志东志要求MiMo开发一部科幻悬疑题材的AI短剧剧本。最初,MiMo 提供了两个关键要素:深度潜在记忆检索头盔和真理之环 AI 道德防火墙。通过搜索,发现MiMo将这两件事融入到了后续的框架中,直接成为了推动框架发展的关键。此外,小米还在其官方博客上发布了多起案例。首先是构建网页的能力。它的第一个官方案例是“使用HTML构建一个美观可用的macOS模拟操作系统”。最终生成的界面包含了主要的macOS风格的桌面图标,还可以切换背景和打开Finder。第二个步骤是创建一个“豪华互动圣诞树”高保真3D Web应用程序,需要豪华的视觉效果。 MiMo生成的结果可以在圣诞树和混乱状态之间切换,支持手势交互等。第三个演示使用HTML创建交互式太阳系探测器。当用户单击每个地球仪时,会出现该行星的简要介绍。智东西还要求MiMo“使用HTML创建一个教育性交互式太阳系浏览器”,但最终结果并没有官方演示的那么好。刚形成时,星球是无法选择的。再生后,可供选择的地底选项就消失了。在聊天能力方面,MiMo可以回答“大语言模型有知识吗?”等硬核科普问题。 MiMo还可以回答“我应该服用长生不老药吗?”的问题。 MiMo也会从人的角度分析是否会采取、在什么条件下采取。此外,该模型还具有长文本书写功能,可以“写一个关于一封误送的信的悲伤爱情故事”。 MiMo还可以写有深度的非虚构作品,比如聚焦于一个独居老人,根据他一周内收到的电子邮件来探讨现代社会的悲伤。 2.专为推理、编码和代理而开发,可与K2 Thinking和DeepSeek V3.2 Thinking相媲美。在数学竞赛 AIME 2025 和科学知识基准 GPQA-Diamond 中,MiMo-V2-Flash 的性能在开源模型中名列前两名。在软件工程的SWE验证和多语言基准测试中,MiMo-V2-Flash在所有开源模型中排名第一,与全球顶级闭源模型持平。从整体基准测试结果来看,MiMo-V2-Flash的性能与K2 Thinking和DeepSeek相当。 V3.2 充分考虑推理基准,同时保持与高水平的竞争力高质量的开放式答案。在长上下文评估中,MiMo 模型优于 K2 Thinking。在 Agent 任务中,MiMo-V2-Flash 在 SWE-Bench Verified 中表现优于所有开源竞争对手,性能接近 GPT-5-High。在SWE-Bench的多语言版本中,MiMo-V2-Flash解决了71.7%的问题。在搜索代理评估方面,MiMo-V2-Flash 在 BrowseComp 中得分为 45.4,在上下文管理中进一步提升至 58.3。小米分享了SGLang中的所有推理代码并开源。社区实测单机结果如下:在Prefill单机吞吐量约50000toks/s的条件下,不同Context Lengths均取得了优越的TTFT性能。得益于3层MTP,上下文长度16K,Decode可以实现单机吞吐量5000~15000toks/s,单请求吞吐量151~115toks/s。 3.引入MTP训练,建议在训练后阶段,提高效率MOPDMiMo-V2-Flash 的改进归功于其专为高吞吐量推理而设计的创新架构进步。该模型是全局注意力(GA)和滑动窗口注意力(SWA)的1:5混合结构。小米MiMo研究团队的大量实证结果表明,SWA简单、高效、易于使用,在一般任务、长上下文加载和推理方面其整体性能优于线性注意力。它还提供固定大小的 KV 缓存,以便轻松集成到现有的训练和推理基础设施中。爱好者们重新定义了紧凑并行解码,以实现非常高的输出令牌吞吐量:通过引入多令牌预测(MTP)训练,提高了主模型的能力,并在推理过程中并行验证MTP。 MiMo-V2-Flash使用MTP作为原生草案模型进行自推测解码,实现了实际部署加速。解码大语言模型的过程是由于计算密度低,本质上内存有限。业界普遍采用批量级并行技术来提高前馈网络(FFN)的计算密度,但这种方法并不能从注意力计算链路中受益,因为每个推理请求都需要维护独立的KV缓存。相比之下,MTP技术通过同时生成多个草稿令牌,同时应用前馈网络(FFN)的计算密度和注意力机制,后续的核心模型可以并行验证这些草稿令牌。该方案可以在不增加KV缓存输入输出开销的情况下,实现token级别的并行计算。 MiMo-V2-Flash模型中,MTP模块使用密集前馈网络来控制参数量,同时还使用滑动窗口注意力机制来降低KV缓存和注意力计算的成本。实际测量数据表明,e MTP模块采用3层结构,有效接收长度可达2.8-3.6个token,推理速度提升2.0-2.6倍。 MiMo-V2-Flash预训练使用FP8混合精度和原生32k序列长度,并使用guse 27T token进行训练。在训练后阶段,为了有效扩大强化学习的计算规模,同时增强模型的推理能力和智能体的自主决策能力,研究人员提出了多教师在线策略蒸馏(MOPD)。该范式首先通过监督微调(SFT)或强化学习(RL)技术获取各个领域的专家教师模型,然后让学习器模型根据自身的策略分布进行采样,并利用多个教师模型提供的代币级密集奖励信号来完成优化。 MOPD训练所需的计算资源不到传统SFT+RL过程的1/50,并且可以匹配峰值性能教师模型的存在。此外,MOPD采用解耦设计,支持新教师与ORM(教与学)的灵活融合,自然实现“教与学”的闭环迭代,细化学生模型成为更强的教师,实现不断自我提升的能力。结论:小米已经踩上了模式大研发的加速器。小米依靠混合注意力机制、MOPD等创新技术,极大优化了大型模型的研发成本和运行效率。同时,将相关成果全部开源,有效降低了行业研发门槛。此外,近几个月来,小米MiMo大模型团队踩下了加速器,发表了多篇论文并开源了许多模型。 12月5日,小米集团合伙人、总裁卢伟冰宣布,公司AI大片e模型业务投资近四个季度环比增长超过50%,目前的发展“超出了董事会的预期”。他还宣布,人工智能和“现实世界深度融合”将被列为未来十年的重点战略。与此同时,小米正式启动全球人才招聘计划,将单个职位的薪资上限提高至千万元,目的是“在最短的时间内填补大模特的尖端人才缺口”。 特别声明:以上内容(如有,包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供mga信息存储服务。 注:以上内容(如有,包括照片和视频)由网易号用户上传发布,网易号为社交媒体平台,仅提供信息存储服务。
分享到