华为昇腾芯片将为DeepSeek-V4推理,通往国产算力自由

张开发
2026/6/24 22:25:08 15 分钟阅读
华为昇腾芯片将为DeepSeek-V4推理,通往国产算力自由
文章目录在华为昇腾950 PR芯片一季度实现商用化之后很快就传出消息DeepSeek-V4也即将推出。V4的推理将运行在950 PR上其异构计算架构CANN Next将兼容CUDA。不过V4的训练仍然使用英伟达先进的GPU。去年底我们对2026年的AI做出了十个展望第一条就是在中国的算力基础设施上训练出中国的下一代前沿模型。2026年是中国走向自主算力的元年海外AI芯片在中国市场上份额显著下降自主设计、制造和封装的AI芯片将占据市场主流国产万卡乃至十万卡集群出现。芯片算力系统与中国本土的前沿大模型协同设计形成中国的AI生态最重要的标志是用中国本土基础设施训练出前沿模型。这个使命由谁来完成应该是不言而喻的。华为去年也公布了昇腾芯片的路线图预计年底推出可媲美H200的、面向训练与深度学习场景的昇腾950 DT。过年前后人们千呼万唤DeepSeek-V4没有发布。它在想什么它在干一件更大的事情比发布一个模型更厉害只想做模型而不做应用的DeepSeek最重要的可能还真不是就简单发布DeepSeek-4。单个模型而言在中国也无法摆脱商品化关键是它在中国的AI计算与应用生态中发挥的作用。DeepSeek主动适配国产芯片就等于在给整条国产算力供应链做背书和激活。每一个基于DeepSeek开源版本做应用的中国开发者都会把算力需求导向国产硬件。这对华为昇腾、海光、寒武纪、摩尔线程、燧原等公司的价值不可估量。DeepSeek-4的确要花点时间。去年初DeepSeek-R1推出后主要部署在H20系统上今年AI智能体应用的爆发在GPU出现短缺和服务涨价的市场上即使算上H200也给中国本土的算力供应商打开了空前的机会窗口。DeepSeek之前与英伟达密切协同每年都派代表在GTC大会上发言但是今年DeepSeek拒绝了英伟达提前获取V4内核的权限。在GTC上发言的是月之暗面创始人杨植麟。业内猜测DeepSeek-V4发布的日期又延伸到了4月份。正如上表显示V4与PR的发布看起来是合拍的。科技媒体Information称其找到了5位消息人士证实了四月中旬可能是V4发布的时间窗口并且运行在昇腾950 PR上。消息还称“为迎接V4的发布包括阿里巴巴集团、字节跳动和腾讯控股在内的中国科技巨头已向华为订购了数十万颗即将上市的芯片。他们计划通过云服务销售DeepSeek的新模型并将其集成到自身的人工智能应用中。”昇腾950 PR的使命是超过H20。在华为中国合作伙伴大会期间3月20日昇腾计算业务总裁张迪煊透露了PR的一些性能信息单卡算力可达业界H20的2.8倍以上是目前国内唯一支mxFP4低精格式的推理产品。片上内存最大提升至112GB达业界1.1倍以上。950 PR搭载了华为首款自研高带宽内存HiBL 1.0容量达112 GB带宽 1.4 TB/s摆脱了对外部供应链的依赖也打破了产能瓶颈为大规模交付提供了保障。有关CANN Next兼容CUDA的情况新增SIMT编程模型可直接适配英伟达代码环境降低迁移门槛。CANN Next将CUDA视作编程标准同时结合昇腾芯片的特性做了专项优化相当于打造了一个近乎直接替代CUDA接口的方案实现了软硬件协同设计的可扩展性。目前中国以昇腾950 PR为代表的中国AI训练及推理芯片水平在H100与H200之间主要的瓶颈在产能。950 PR仍然是偏推理场景预计今年底发布的950 DT将面向训练和深度学习场景。如果DeepSeek在一两年内做到推理和训练都在昇腾上跑 编译器、算子、通信库、分布式训练、推理框架都稳定那么它的核心模型生产流程就可以基本脱离 CUDA。

更多文章