
“推理首次超越训练,AI真正开始“用电代替发电”。”作者丨杨一婷编辑丨包永刚2025年12月12-13日,第八届GAIR全球人工智能与机器人大会在深圳博林天瑞喜来登酒店正式开幕。作为AI A产学研投的标杆盛会,GAIR自2016年创办以来始终遵循“传承+创新”的核心,始终注重连接技术前沿与行业实践。在人工智能逐渐成为国家竞争的主要变量之际,计算的力量正在以前所未有的速度重塑技术和产业结构的路径。 “算力新十年”专场专门针对智能系统的底层核心算力,从架构演进进行系统探讨从生态建设到产业化,试图厘清中国人工智能产业未来十年的关键变量和发展方向。在GAIR 2025专场“AI算力新十年”上,云天理飞副总裁罗毅发表了题为《筑牢智能AI基础,普惠点亮未来》的主题演讲,系统阐述了他对国产芯片路径和AI普惠性的主要判断。 2014年,当大多数人还在讨论“人工智能到底有没有用”时,一家中国企业却选择了一条更艰难、更艰难的道路——同时押注算法和芯片,试图自下而上开发自己的这套AI技术体系。随后的十几年里,从深度学习的早期探索,到大规模模型席卷全球,再到成为算力的国家命题,公司几乎全程经历了整个过程中国人工智能产业从崛起、加速到多元化竞争。从某种意义上说,云天理飞本身就是中国人工智能产业的一个缩影。云天励飞副总裁罗毅是这一过程的主要参与者和倡导者之一。早年,他要反复向客户和行业解释“人工智能能解决什么问题”;在推理成本、算力结构、生态约束成为行业重大问题的今天,他的思考焦点转向如何让人工智能真正“用得起、可持续、广泛应用”。与很多聚焦单点技术成果的叙事不同,罗毅的愿景始终锚定在一个更现实、更有意义的产业闭环:生产数据应用、数据训练算法、算法定义芯片、芯片赋能应用,最终推动整个AI生态的正向飞轮。在他的看来,人工智能的竞争不仅仅发生在实验室和算力排行榜上,更重要的是真实的行业、真实的成本、真实的规模落地场景。在国内算力加速渗透、推理逐渐超越实践成为产业战主战场的当下,来自一线从业者的这种判断显得尤为重要。它试图回答的不是“能否对标巨头”,而是一个更根本的问题:在完全封闭、生态约束严格的全球算力竞争中,国产芯片该如何找到自己的生存空间和增长路径?演讲结束后,雷锋网与罗毅就演讲中提到的“生态融合”、“AI HP”等关键话题进行了更深入的讨论。以下为雷锋网原版,未经改动,根据大家意见,根据对话专业人士整理编辑而成cess: 01 对话提问:您在演讲中分析了科技史的发展。云天的AI芯片还覆盖了CNN杭钢变形金刚。您认为这两个时期芯片需求最大的差异是什么?答:一路走来,云天选择了NPU路线,现在面临着最明显的变化:在Scaling Law的驱动下,技术瓶颈开始螺旋式出现。一开始是计算能力瓶颈,后来发现本质上是内存容量瓶颈,然后是带宽瓶颈,然后瓶颈从芯片内部延伸到服务器之间。这就催生了“超级节点”等系统级解决方案。这体现了一个根本性的变化:如今的芯片企业不再只是设计芯片,而是必须提供全栈系统工程能力。二是市场加速带来的生态压力。从去年到今年,增加了n市场推理需求在百次左右,模型迭代周期从过去的几个月缩短到现在几乎每周更新一次。以前使用NPU时,可以“慢工出细活”,花三个月的时间把算法优化到极致;但现在三个月的窗口早已关闭,新模式已经重复数次。因此,我们必须主动与包括CUDA在内的各大开发生态进行兼容和集成,否则客户的迁移和适配成本将大幅增加,商业化速度也会减慢。本质上,技术突破推动工业化进程快速压缩。过去六个月每年遇到一次的瓶颈现在每三个月就会遇到一次,这正在推动技术向前发展。从中国人的角度来看,我们肯定还是两条腿走路。国内生态y,无论是RISC-V,还是升腾这样的国内万卡生态,都需要自己慢慢发展。另一方面,它也应该融入到高速迭代的CUDA生态系统中,这是无法逃脱的。问:在变形金刚时代,你认为让推理更加成功的最关键因素是什么?答:从我们的角度来看,一般来说,最终的成功是与生态融合或者拥抱生态。但作为追球手,进入后必须有自己的价值,必须有技巧,必须有一定的长板。然后你就有时间去换空间,慢慢弥补自己的缺点,慢慢融入生态系统。问:您提到moreChina强调普惠人工智能的应用渗透。您认为当今AI推理普及面临的最大挑战是什么?减少单位代币价值?答:我认为这显然是一个成本问题。大家都期待AI越来越精准来满足工业用途的要求。过去,我们发现无论我们如何努力,我们都做不到。现在我们知道,通过努力、长期思考、对上下文的长期理解以及将知识带到私人领域,是可以做到的,但成本非常高。那么如何选择呢?所以下一步就是降低成本。问:从芯片公司的角度来看,您认为在推理市场打造护城河的关键是什么?答:纳入生态护城河。现在很多圈子都形成了“互生生态”的结构,每个pangFirst技术都有其相应的上下游各方。狭义上讲,生态就是自己的上下游,但如今技术栈太深、太广,各个细分领域都形成了自己的生态系统。比如我们最近参与了中国移动提出的OISA系统,共同攻克大型万亿级MoE模型推理集群规模化的瓶颈,并与中国移动合作与产业伙伴在AI芯片互联、超级节点等系统级方向进行技术合作。主要目标是提高国产AI芯片在大规模推理(包括MoE等复杂负载)场景下的互联效率和互操作性,推动集群规模化能力演进。未来,如果“超级节点”确实被打造成可复制、可扩展的推理基础设施,除了芯片本身之外,互连协议、交换和网络、系统软件和调度等关键环节都必须协同兼容。因此,我们将持续参与国内技术栈和关键标准生态的共建,让产品更顺利地进入主流系统形态和客户工程系统。问:云天未来1-2年实现生成式AI普惠的目标是什么?长期战略是什么?答:我现在想,一就是要提高你的内功。从技术上讲,你需要先掌握,关注最重要的逻辑指标,让一个或几个核心能力脱颖而出、可重用、可交付——这样客户才能清楚地看到成本、专业知识、能源、延迟或工程效率方面的价值。二是以更加开放的方式进入头部生态系统和头部客户体系。一方面,积极参与主要技术栈与产业生态的合作,降低适配门槛。另一方面,也将通过多种形式的合作(包括联合创新、联合解决方案、产业合作等)与重点客户建立更深层次的验证和共创关系,尽快打造可复制的标杆和规模路径。对我们来说,策略是推动圈子、先进领袖圈子,在实际应用中逐步建立自己的生态。 02楼演讲全文 以下是罗毅演讲的精彩内容。雷锋网编辑整理了一下,不改变原意:大家好,我是来自云天励飞的罗毅。我主要负责推理芯片相关的生态建设。云天励飞成立于2014年,是一家总部位于深圳的人工智能芯片公司。 2014年公司成立时,人工智能尚未像今天一样被广泛认可为第四次工业革命的关键技术。我们需要继续向客户和行业证明人工智能的长期价值。但在这个过程中,云天励飞逐渐积累了端到端的全栈技术能力。从历史上看,中国在早期技术体系方面长期领先于世界。但在第一次、第二次、第三次工业革命过程中,多项关键产品工具稳定性和基础技术的突破,拉大了不同国家和地区之间的差距。进入人工智能时代,现在我们可以看到中美之间的竞争是相当明显的。美国在人才、资金、先进制造工艺等方面对中国具有扼杀作用。但与此同时,由于多年的技术积累,中美在整个人工智能产业链上的差距正在逐渐缩小。虽然目前还无法实现全面国产替代,但如今的行业同仁都在反复、勤奋地实践着,总应该有一些国家实验室和大企业来应对关键技术,维护产业发展的底线。拐点已经到来:liftwiran超训练,国内算力占比过半。从整个科技发展浪潮来看,2014年到2022年,AI产业迭代的总体节奏比较稳定,通常以三个月到半年为周期。 2022年底被普遍认为是一个重要的转折点——大车型时代正式到来。整个行业随着规模法则的发展而发展。随着计算能力的增强、数据量的增加、参数量的增大,模型的能力不断提升,能够提供更通用的服务。自2023年初大型车型出现以来,技术和产品的迭代速度明显加快。无论是做底层技术的公司还是应用层的公司,他们普遍都感受到了学习和适应的压力。整个行业的重复节奏进入“每周”重复。我们甚至说,中美之间的迭代只能是5到8小时的迭代。你唱歌,我就会出现。直到发布为止2025 年 1 月上旬的 DeepSeek-R1,这一趋势出现了新的转变。 DeepSeek的主要意义主要有两点。首先,缩短了开源模式与闭源模式的时间差;其次,它仅使用二十分之一的硬件成本来重现类似闭源的效果。通过Qianwen的一系列蒸馏模型,也表明在实际的工业应用中,万亿参数、千亿参数的模型从长远来看成本上是难以接受的。本质上,模型的参数规模越大,单位推断的价值就越高。每次推理所需的计算能力、带宽和KV Cache都会急剧增加。在工业应用中,我们实现了一套基本逻辑:训练阶段可以不断探索模型能力的上限。应用阶段应通过sp等方法不断减少推理量砷化、蒸馏、量化和数据格式优化。只有这样,人工智能才能真正实现普惠,在千行百业大规模落地。如果把它比作工业革命,训练更像是“发电”,而推理更像是“用电”。培训不仅仅是技术皇冠上的明珠,需要一些领先的公司才能解决大型集群问题。真正进入行业和社交操作系统的是推理能力,需要云、边缘、端的多级芯片支持。据我们观察,今年至少有两个重要变化。首先,推理算力消耗将首次超过训练消耗。黄仁勋在今年的一次演讲中提到,他认为驱动NVIDIA股价上涨的三条曲线中的前两条,第一条是预训练,第二条是训练后和现在的新扩展确实是长期思考。从行业数据来看,推理代币消费正在快速增长。 2023年的ChatBot时代将主打快速问答,但现在已经进入长上下文、在线搜索和深度思考的阶段,Token消耗大幅增长。 2024年数据显示,国内企业Token消耗每年增长100倍以上,谷歌日均Token调用量已达约43万亿。该数据已被捕获并且仍在进行中。继续成长。记得6月份国家数据局公布的数据显示,中国互联网每日代币调用总量为30万亿次。到9月份,仅字节跳动的日交易量就达到了30万亿。我们内部处理 Byte 已经有一段时间了,据说最近可能已经超过 40 万亿/天了。这个增长速度确实是惊人的,而且这个速度并没有放缓的意思。其次,它预计到年底,国产AI芯片出货/部署结构中,国产AI芯片大概率将超过50%,总份额将超过非国产高端GPU。中国路径:落实应用、修复AI生态在人工智能发展方面,我们可以看到,美国从《人工智能行动计划》到近期的《创世计划》,持续在国家层面推动人工智能发展。以目前的美国股市来看,依靠AI概念的科技公司普遍支撑着股价,科技公司的涨幅已经达到50%以上。在中国股市,科技能占的比例还不到10%。从2024年Q3到今年9月,北美四大主要云厂商的资本支出在2025年增长了83.5%。谷歌、亚马逊等头部云厂商纷纷开发自己的芯片,以获取成本优势。中国也出台了一系列政策,其中最集中的就是今年年中推出的“人工智能+”计划。这个政策有中国特色,或者说非常符合中国的道路。对于中国来说,最重要的是通过进入数千个行业的应用和落地,真正推动或者恢复整个人工智能的发展。我们始终相信一个“数据飞轮”,应用生产数据、数据训练算法、识别芯片的算法、芯片的规模化应用来推动整个行业的发展。中国的特点是,一些领先的公司,包括人工智能培训厂商,利用更大的培训群体来追赶美国领先的闭源模型,甚至使用工程化的方法。这样做一方面是为了降低训练成本,更多的是为了降低未来的推理成本。而且中国基础设施非常好,在基础数字化方面优势明显。化、产业应用、应用数量大、应用热情高。这一渗透率将进一步推动以AI推理芯片为核心的资本投资增长。因此,在中美动态竞争中,双方在政策导向、主要目标、技术路线等方面存在一定差异:美国更注重攻克技术领先高度,并将其作为经济增长的主要锚点;而中国的主要目标是加快应用市场的发展,特别是提高AI推理芯片的国产替代速度。同时,我认为一些分享者刚刚提到了一件非常重要的事情。目前国内芯片产业最大的挑战在于软件和生态建设。对此,我们也有自己的布局和思考。最近在香港举行的一次峰会上,我们的主席与一位我是先驱者辛顿(Jeffrey Hinton)。 Hinton 一直担心人工智能发展太快,但相应的道德和安全法规却没有跟上。此外,他还提到,“我们只专注于让AI变得更聪明,而不考虑它的应用,这是一个很大的错误。”这个应用包括生态、伦理、安全、管理等一系列问题。对于我们来说,我们不仅要不断完善技术,更要追求普惠、美好的目标,让人工智能真正以可承受的成本解决生产力问题,为各行各业创造价值。 GPNPU=生态兼容性+能效专业知识+在权衡成功方面,总会有存储测试,面临“性能-成本-准确性”三个存储挑战。自从云天励飞进入这个赛道以来,云天励飞从小机型时期开始,基于自研NPU指令集,走AI普惠化、极致化的道路。eme性价比,通过算法与算力的一体化设计,深化其在各种边缘和城市场景的应用。随着模型规模的扩大和应用范式的多样化,技术路线大致分为三类:以CUDA生态系统为代表的GPGPU,主要解决大集群训练问题; NPU继续发挥其在极致能效和功耗方面的优势;对于云推理,业界的共识是走向GPNPU,有两条技术路径。这些线继续重叠和汇聚。我们制定了国产云算力推理芯片技术路线选择公式:GPNPU=GPGPU+NPU+3DM。其主要使命是保持NPU设计模型的效率和一致性,以确保芯片在工业应用中实现算力的高利用率。另外,在实现大规模推理模型时d(尤其是解码阶段),性能瓶颈往往并不体现在计算能力本身,更突出的是内存容量、互连带宽、节点间互连带宽等系统约束。在HBM等高端存储供应有限的背景下,我们必须寻找更多的解决方案。存储器技术路线是实现国产化、大容量、高带宽方向突破的关键。只有得到更多厂商的支持,才能加速该技术的产业化和商业化成熟。未来,云AI基础设施必将朝着多元化、高性价比的方向发展。这不仅体现在模型中计算和内存访问的分离,还体现在需要使用不同大小的模型来服务不同情况的需求。合理的性价比配置才能获得良好的产出。 + 氧运营成本 OPEX) ÷ (加速卡吞吐量 × 设备利用率)。非常重要的是P阶段和D阶段是完全不同的。在D阶段大部分时间,算力都在等待数据传输。如何通过优化数据格式、模型量化等方式更好地解决这个问题呢?列算法技术在保证模型准确性的同时,显着提高了计算和数据传输的实际效率,从而不断降低每个Token的推理成本。目前国内云厂商的Token报价通常以百万为单位,成本通常在10元以上。调用没有服务级别协议保证的模型的成本。费用20多元。我们认为,未来三到五年,100万个Token的数量应该减少到1元人民币以下,以支持“人工智能+”计划所需的目标渗透率。最后,我们来谈谈布里飞约云天丽妃。公司自2024年成立以来,始终走“算法+芯片”两轮驱动技术之路。目前的芯片已经在第四代中重复出现。第五代芯片将全面过渡到GPNPU架构,基于原有自主设计的NPU指令集和多年的行业技术积累,向通用推理演进。 2020年,公司全面转型国内工艺体系,成为国内首批实施D2D Chiplet技术的公司之一。这一过程是克服算力约束的主要路径,也是国产算力芯片发展的共同方向。在存储技术方面,我们认为3DM是国内技术未来突破的一个重要方向。虽然HBM3e乃至后续产品目前在海外已经上市,但仍存在很大的不确定性。ts产业链和供应链。因此,我们坚持全面推进国产化,重点发展3DM等突破性工艺。我们期待更多的芯片企业加入,共同推进行业的成熟。有了这一代商用芯片,我们可以通过流片的方式封装一系列适合边缘、边缘、云等不同场景的芯片。算力涵盖8T、16T、64T、最高128T。其中,最高规格的Edge200芯片可以完全支持ahan深度推理任务。从公司角度出发,云天励飞致力于全面拥抱人工智能浪潮。无论是在智能硬件、智能摄像头、实体智能、人形机器人还是云端推理领域,我们都围绕“端-边-云”体系部署了三大芯片产品线:专注于云推理的“深穹”、专注于端侧NPU芯片的“深渊世界”和专注于端侧NPU芯片的“深渊”。“引擎”是面向人工智能芯片的。我们期待基于国产技术全面推动AI技术的落地和使用。以上是我的分享,谢谢大家。
特别声明:以上内容(如有,包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:最差以上(包括照片和视频,如有)由网易号用户上传发布,网易号为社交媒体平台,仅提供信息存储服务。