华为从最底层构建了以鲲鹏和昇腾为基础的 AI 算力云平台

6000 字详解华为盘古大模型：能否撑起世界 AI 另一极？

　　解耦——盘古大模型 3.0 来得晚，但瞄得准。

　　今天，华为在大模型领域狠狠秀了一把「肌肉」。

　　7 月 7 日，2023 华为开发者大会（HDC 2023）开幕。下午两个多小时的主题演讲里，华为云首次详细披露了盘古大模型的进展，不仅发布面向行业的盘古大模型 3.0，还详细介绍了华为发展大模型的基础技术能力。

　　盘古大模型 3.0 包括「5+N+X」三层架构，三层分别指 L0 层的 5 个基础大模型、L1 层的 N 个行业通用大模型、以及 L2 层可以让用户自主训练的更多细化场景模型。其采用完全的分层解耦设计，企业用户可以基于自己的业务需要选择适合的大模型开发、升级或精调，从而适配千行百业多变的需求。

　　华为轮值董事长胡厚崑在日前的 WAIC 大会上表示，华为发展大模型的核心是关注算力和应用。一方面是深耕算力，打造强有力的算力底座，来支撑中国的人工智能事业的发展。另一方面就是结合大模型，从通用大模型到行业大模型的研究创新，来真正让人工智能服务好千行百业，服务好科学研究。

　　华为是国内最早布局大模型的云服务商之一，早在 2021 年就已经发布了盘古大模型。在发展大模型的道路上，华为从最底层构建了以鲲鹏和昇腾为基础的 AI 算力云平台，以及异构计算架构 CANN、全场景 AI 框架昇思 MindSpore，AI 开发生产线 ModelArts 等技术能力。

　　除了大模型和算力底座，会上，华为云还重点介绍了盘古大模型与具体行业结合的典型案例，涉及的行业包括政务、气象、铁路、制造、金融，以及多个升级、重塑华为云旗下软件产品和服务的应用案例。

　　不论是基础的技术能力，AI + 云的产品服务体系，还是落到具体行业的应用案例，华为云均展示出了高度成熟、成体系化的业务能力，这着实给行业带来惊喜。在大家还在争论谁是中国的 OpenAI 时，华为云已经开辟出了一条相当成熟的大模型发展道路。

　　华为在用自己的实践证明，大模型很重要，但更重要的是用大模型解决行业和产品的痛点问题，做出能让企业和用户买单的产品和服务，为千行百业真正创造价值。

　　盘古大模型 3.0：分层解耦架构

　　解耦，是今天发布的盘古大模型 3.0 的关键词。这也是过去几个月来，实际调用大模型的行业客户一个普遍的诉求。

　　一位头部 SaaS 厂商在发布自己的大模型升级应用时表示，「我们不自研大模型，而是在不同的业务场景中，哪个大模型擅长什么事情，就接那个模型。」为了可以在不同的大模型之间切换，「我们自身产品架构上要做到与底层大模型无关，或者说松耦合。」

　　「盘古大模型的解耦设计，就是为行业着想」，在华为开发者大会上，华为常务董事、华为云 CEO 张平安给出了盘古大模型的差异化路线。其核心是把盘古大模型的的各种层和能力解耦，让行业用户根据自己的需求去开发。

　　具体来说，盘古大模型 3.0 是一个面向行业的大模型系列，包括「5+N+X」三层架构：

　　「5」代表 L0 层的五个基础大模型：包括自然语言、视觉、多模态、预测、科学计算大模型，提供满足行业场景中的多种技能需求。

　　盘古 3.0 为客户提供 100 亿参数、380 亿参数、710 参数和 1000 亿参数的系列化基础大模型，匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。同时提供全新能力集，包括 NLP 大模型的知识问答、文案生成、代码生成，以及多模态大模型的图像生成、图像理解等能力，这些技能都可以供客户和伙伴企业直接调用。无论多大参数规模的大模型，盘古提供一致的能力集。

　　「5+N+X」三层架构中的「N」，代表 L1 层的 N 个行业大模型。行业大模型的提供方式有两种：一方面，华为云可以提供使用行业公开数据训练的行业通用大模型，包括政务，金融，制造，矿山，气象等大模型；另一方面，可以基于行业客户的自有数据，在盘古大模型的 L0 和 L1 层上，为客户训练自己的专有大模型。

华为从最底层构建了以鲲鹏和昇腾为基础的 AI 算力云平台

相关工具