Hugging Face：成为机器学习界的“GitHub”

翻译｜程浩源、胡燕君、许涵如、董文文

五年前，AI领域的知名研究者Andrej Karpathy发文称，传统人工编程属于“软件1.0”，“软件2.0”时代将以神经网络来编程，在这个过渡过程中，将涌现像GitHub这样的重量级平台。

AI届网红公司“抱抱脸（Hugging Face）”有志于成为“软件2.0”时代的GitHub。在Hugging Face上，用户可以托管机器学习模型和数据集等，对它们进行共享、协作和评价，最后将它们投入生产应用，这种模式有点像Github上的托管和协作模式。

如今，依靠明星项目Transformers库走红的Hugging Face的关注点不止于NLP库。Hugging Face已经共享了超100,000个预训练模型，10,000个数据集，涵盖了 NLP、计算机视觉、语音、时间序列、生物学、强化学习等领域，以帮助科学家和相关从业者更好地构建模型，并将其用于产品或工作流程。

03ab3e7d499c029d300247b0f3c9d829.png

对于这些耀眼的成绩，在此前的《一个GitHub史上增长最快的AI项目》一文中，Hugging Face的CEO兼联合创始人Clément Delangue分析称，主要是因为Hugging Face弥补了科学与生产之间的鸿沟，通过搭建平台为开源界和科学界赋能，所产生的价值比通过搭建专有工具产生的价值要高上千倍，而很多开源软件和公司都没有做到这一点。

Hugging Face培育了一个庞大的开源社区，商业化似乎也顺理成章。目前，已有超过10,000家公司在使用他们提供的产品和服务，其中付费用户超过1000。在资本市场，Hugging Face也备受青睐，它于今年5月完成1亿美元的C轮融资，估值达到20亿美元。

在Pieter Abbeel近期主持的The Robot Brains Podcast节目中，Clement Delangue聊了聊Hugging Face的发展历程，开源协作和商业化以及机器学习行业的发展。以下为对话内容，由OneFlow社区编译。

从研发聊天机器人到开源平台

Pieter：2016年当你们创业时，为什么一开始决定开发聊天机器人？后来又是怎样改变想法搭建了机器学习开源库？

Clement：我和Julien Chaumond、Thomas Wolf一起创办了Hugging Face。我们非常热爱机器学习，认为机器学习代表未来，是我们想为之奋斗的事业。

我们希望挑战机器学习领域最难的方向，所以决定开发一个娱乐型的开放域对话式AI，就像科幻电影《Her》里面的AI那样，可以跟人聊天气、朋友、爱情和体育比赛等各种话题。市场上还没有人很好地做出这样的聊天机器人，当时的Siri和Alexa都是事务型AI，主要是为了帮助人类完成某些任务，缺乏趣味性和娱乐性。所以我们就定下了这个创业方向。

为了做好开放域的对话式AI，我们必须做好一系列不同的机器学习任务。我们需要从文本中提取信息，理解文本意图和情感，还要生成回答，对话中涉及图片时还需要进行图像识别。我们还希望AI能够驾驭多种聊天话题，所以需要多种数据集，比如聊体育比赛要有体育数据集，聊天气要有天气数据集等等。

刚开始的两年我们都在做这件事，很幸运在创业初期就能够把自己想做的事做好。

后来就搭建了Hugging Face平台，上面有各种不同的模型和数据集，几乎想到什么就加进去，因为我们一直希望能为整个机器学习社区做贡献。在我们决定开源后，就得到了热烈反响，大家都踊跃地贡献代码，很多公司也开始使用Hugging Face库，让我们觉得创造了巨大的价值。

虽然当时还不清楚这个平台的具体意义是什么，但既然有这么多人感兴趣，那它一定有比较大的作用。几个月后，我们就决定从研发聊天机器人转向搭建机器学习平台，然后在这条路上一直走到今天。这是我们创业途中最正确的决定，我们对此非常开心。

Pieter：你们当初为什么选择开源模式？

Clement：不同公司想法不同，有些公司认为其主要竞争力在于拥有其他公司所没有的技术，而我们认为公司的竞争力在于技术是否创新，开发速度是否够快，所以选择了开源。

在机器学习这样快速发展的领域，技术更迭日新月异。通过开源共享，既可以帮助他人，又可以为社区吸引到优秀人才，从而提高自己解决问题的能力。

尽管有些人可能不愿意为社区做贡献，但我认为开源是一个明智的决定，可以提高技术敏感度，保证公司永远处于技术前沿。

现在很多AI公司已经失去了技术优势，即使是盈利良好的公司也招不到AI领域的核心人才，这个问题很致命，因为没有前沿技术人才，做出来的东西都是落后、过时的。

Pieter：我记得Hugging Face平台一开

Hugging Face：成为机器学习界的“GitHub”

相关工具