6000 字详解华为盘古大模型:能否撑起世界 AI 另一极?
解耦——盘古大模型 3.0 来得晚,但瞄得准。
今天,华为在大模型领域狠狠秀了一把「肌肉」。
7 月 7 日,2023 华为开发者大会(HDC 2023)开幕。下午两个多小时的主题演讲里,华为云首次详细披露了盘古大模型的进展,不仅发布面向行业的盘古大模型 3.0,还详细介绍了华为发展大模型的基础技术能力。
盘古大模型 3.0 包括「5+N+X」三层架构,三层分别指 L0 层的 5 个基础大模型、L1 层的 N 个行业通用大模型、以及 L2 层可以让用户自主训练的更多细化场景模型。其采用完全的分层解耦设计,企业用户可以基于自己的业务需要选择适合的大模型开发、升级或精调,从而适配千行百业多变的需求。
华为轮值董事长胡厚崑在日前的 WAIC 大会上表示,华为发展大模型的核心是关注算力和应用。一方面是深耕算力,打造强有力的算力底座,来支撑中国的人工智能事业的发展。另一方面就是结合大模型,从通用大模型到行业大模型的研究创新,来真正让人工智能服务好千行百业,服务好科学研究。
华为是国内最早布局大模型的云服务商之一,早在 2021 年就已经发布了盘古大模型。在发展大模型的道路上,华为从最底层构建了以鲲鹏和昇腾为基础的 AI 算力云平台,以及异构计算架构 CANN、全场景 AI 框架昇思 MindSpore,AI 开发生产线 ModelArts 等技术能力。
除了大模型和算力底座,会上,华为云还重点介绍了盘古大模型与具体行业结合的典型案例,涉及的行业包括政务、气象、铁路、制造、金融,以及多个升级、重塑华为云旗下软件产品和服务的应用案例。
不论是基础的技术能力,AI + 云的产品服务体系,还是落到具体行业的应用案例,华为云均展示出了高度成熟、成体系化的业务能力,这着实给行业带来惊喜。在大家还在争论谁是中国的 OpenAI 时,华为云已经开辟出了一条相当成熟的大模型发展道路。
华为在用自己的实践证明,大模型很重要,但更重要的是用大模型解决行业和产品的痛点问题,做出能让企业和用户买单的产品和服务,为千行百业真正创造价值。
盘古大模型 3.0:分层解耦架构
解耦,是今天发布的盘古大模型 3.0 的关键词。这也是过去几个月来,实际调用大模型的行业客户一个普遍的诉求。
一位头部 SaaS 厂商在发布自己的大模型升级应用时表示,「我们不自研大模型,而是在不同的业务场景中,哪个大模型擅长什么事情,就接那个模型。」为了可以在不同的大模型之间切换,「我们自身产品架构上要做到与底层大模型无关,或者说松耦合。」
「盘古大模型的解耦设计,就是为行业着想」,在华为开发者大会上,华为常务董事、华为云 CEO 张平安给出了盘古大模型的差异化路线。其核心是把盘古大模型的的各种层和能力解耦,让行业用户根据自己的需求去开发。
具体来说,盘古大模型 3.0 是一个面向行业的大模型系列,包括「5+N+X」三层架构:
「5」代表 L0 层的五个基础大模型:包括自然语言、视觉、多模态、预测、科学计算大模型,提供满足行业场景中的多种技能需求。
盘古 3.0 为客户提供 100 亿参数、380 亿参数、710 参数和 1000 亿参数的系列化基础大模型,匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。同时提供全新能力集,包括 NLP 大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力,这些技能都可以供客户和伙伴企业直接调用。无论多大参数规模的大模型,盘古提供一致的能力集。
「5+N+X」三层架构中的「N」,代表 L1 层的 N 个行业大模型。行业大模型的提供方式有两种:一方面,华为云可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等大模型;另一方面,可以基于行业客户的自有数据,在盘古大模型的 L0 和 L1 层上,为客户训练自己的专有大模型。
<登录后可查看完整内容,参与讨论!
立即登录