3万卡集群点亮!国产AI加速卡昆仑芯全面适配DeepSeek

vipkang vipkang 2025-02-06 17:00:01 新闻 阅读: 955
摘要: 石家庄都市网2月6日消息,短短两周,DeepSeek成为全球增速最快的AI应用,凭借卓越的性能、广泛的应用场景,俨然成为行业标杆,适配和部署也得到了全行业的鼎力支持,昆仑芯现在也加入了这一行列。 昆仑芯前身为百度智能芯片及架构部,2021年

石家庄都市网2月6日消息,短短两周,DeepSeek成为全球增速最快的AI应用,凭借卓越的性能、广泛的应用场景,俨然成为行业标杆,适配和部署也得到了全行业的鼎力支持,昆仑芯现在也加入了这一行列。

昆仑芯前身为百度智能芯片及架构部,2021年4月完成独立融资,首轮估值约130亿元,在国内最早布局AI加速领域,在体系结构、芯片实现、软件系统、场景应用上均有深厚积累。

3万卡集群点亮!国产AI加速卡昆仑芯全面适配DeepSeek

就在2月5日,也就是蛇年开工当天,昆仑芯新一代产品P800万卡集群点亮,3万卡集群也将于近日点亮。

目前,昆仑芯已完成Deepseek训练推理的全版本适配,而且性能卓越,可一键部署,成本效率极高。

事实上,DeepSeek-V3/R1上线不久,昆仑芯便率先完成了全版本模型适配,包括DeepSeek MoE模型及其蒸馏的Llama/Qwen等小规模dense模型。

同时,昆仑芯也已全面适配文心系列、Llama、Qwen、ChatGLM、Baichuan等各类大模型的推理和训练任务,性能优势明显,并上线运行各类大模型任务。

3万卡集群点亮!国产AI加速卡昆仑芯全面适配DeepSeek

3万卡集群点亮!国产AI加速卡昆仑芯全面适配DeepSeek

据介绍,昆仑芯P800可以较好底支撑Deepseek系列MoE模型大规模训练任务,全面支持MLA、多专家并行等特性,只需32台即可支持模型全参训练,高效完成模型持续训练和微调。

P800的显存规格优于同类主流GPU 20-50%,对MoE架构更加友好,且率先支持8bit推理,单机8卡即可运行671B模型,因此更易于部署,可显著降低运行成本。

目前,P800已经快速适配支持了Deepseek-V3/R1的持续全参数训练,LoRA等PEFT能力,提供给用户开箱即用的训练体验。

基于昆仑芯完整的软件生态栈,只需两步,就可以轻松实现在昆仑芯P800上进行DeepSeek-V3/R1推理部署。

3万卡集群点亮!国产AI加速卡昆仑芯全面适配DeepSeek

1、资源准备

主要是镜像和模型,镜像提供完整的依赖环境开箱即用。

昆仑芯P800支持8bit推理,下载官方权重后使用如下命令进行量化;其他不同尺寸蒸馏模型则通过huggingface下载即可。

3万卡集群点亮!国产AI加速卡昆仑芯全面适配DeepSeek

2、启动服务&请求示例

server和client使用方式和vllm社区基本一致,零成本上手。

启动服务可在镜像中一键启动,采样和推理参数可根据实际业务场景在脚本中配置。

3万卡集群点亮!国产AI加速卡昆仑芯全面适配DeepSeek

下图为一个简单的请求示例:

3万卡集群点亮!国产AI加速卡昆仑芯全面适配DeepSeek

其他相关
AMD获青睐!甲骨文大手笔采购3万块MI355X

AMD获青睐!甲骨文大手笔采购3万块MI355X

作者: 站长小白 时间:2025-03-23 阅读: 960
AMD受到青睐,甲骨文大规模采购三万块MI355X芯片,这一采购行动显示了AMD在服务器处理器领域的强劲实力和市场份额,甲骨文此次采购的MI355X芯片预计将用于其未来的数据中心和云计算服务中,进一步推动AMD在高性能计算领域的发展,此举也反映出AMD与甲骨文之间的紧密合作关系,共同推动企业级计算技术的进步。...
行业唯一!龙芯3A6000电脑通过DeepSeek适配认证

行业唯一!龙芯3A6000电脑通过DeepSeek适配认证

作者: 站长小白 时间:2025-03-21 阅读: 703
在行业中独树一帜,龙芯3A6000电脑成功通过DeepSeek适配认证,这一重要里程碑意味着该电脑在兼容性和性能上达到了新的高度,这一认证为其在市场上的独特地位提供了有力支持,并为用户带来了更优质的使用体验。...

兆芯全系整机成功部署DeepSeek-R1:双路64核跑满血617B

作者: vipkang 时间:2025-02-24 阅读: 907
兆芯全系整机成功部署DeepSeek-R1系统,采用双路64核处理器,性能强劲,运行流畅。该系统实现了617B满血性能表现,为用户带来出色的计算体验。此次部署展示了兆芯整机在高性能计算领域的实力,为未来的技术发展和应用推广奠定了基础。...
龙芯DeepSeek推理一体机发布:CPU、系统全国产 摆脱对国外技术依赖

龙芯DeepSeek推理一体机发布:CPU、系统全国产 摆脱对国外技术依赖

作者: vipkang 时间:2025-02-23 阅读: 914
龙芯DeepSeek推理一体机发布,采用全自主国产CPU和系统技术,成功摆脱对国外技术的依赖。这款推理一体机的推出,彰显了我国在计算机领域的自主创新能力和技术实力。其强大的计算能力和高效的性能表现,将为国内相关领域提供更加可靠和安全的技术支持。...
百度百舸推出DeepSeek R1企业级部署解决方案 释放昆仑芯极致性能

百度百舸推出DeepSeek R1企业级部署解决方案 释放昆仑芯极致性能

作者: vipkang 时间:2025-02-11 阅读: 1143
春节期间,DeepSeek凭借其卓越的技术性能和创新性的功能,在市场中迅速崛起,实现了C端用户数量的爆发式增长。然而,当考虑将其应用于企业业务时,除了模型本身强大的性能之外,稳定性和安全性也是关键因素。因此,如何将具有与DeepSeek官方...
国内首次!百度智能云成功点亮昆仑芯三代万卡集群

国内首次!百度智能云成功点亮昆仑芯三代万卡集群

作者: vipkang 时间:2025-02-05 阅读: 695
石家庄都市网2月5日消息,近日,百度智能云成功点亮了昆仑芯三代万卡集群,这也是国内首个正式点亮的自研万卡集群。 据了解,百度通过自研芯片和大规模集群的建设,不仅解决了自身算力供应的问题,还为整个行业提供了新的思路和方向。 随着国产大模型的兴...

年度爆文