北京笔神作文公司计划起诉合作伙伴学而思

大模型侵权第一案,学而思或被起诉偷数据

  为了开发大模型,数据版权方就该要做出牺牲?

  撰文:郑思芳

  编辑:龚 正

  全社会都在关注各公司推出的大模型,但鲜少关注大模型背后的训练数据来自于哪,是否征得了数据版权方的授权,以及是否付费。

  日前,北京笔神作文公司计划起诉其多年的合作伙伴学而思,指其近期推出的数学大模型 MathGPT 和在学而思学习机上线的 AI 助手,在未经其授权和许可情况下,爬取了海量数据,要求学而思公开道歉、删除数据资源,求偿 1 元。

  笔者通过笔神作文联系上了与其保持有业务沟通的学而思相关负责人,发去求证信息,不过截至发稿,学而思方面未给予回复。

  #01

  一夜之间,数百万篇数据资源直接被爬

  4 月的一个周末,北京中关村笔神作文公司。

  码农们都在家休息,办公室里空荡荡。然而直至周一,归来的程序员才发现,公司的海量数据,在周末这几天被一群“天外来客”爬了个遍,总爬取数超过两百万次。

  事后,笔神作文的创始人及 CEO 宋嘉伟经过分析判断,并直接向他猜测的爬取方询问,才发现爬取者不是别人,正是与其保持有多年合作关系的学而思。

  事件中的主角笔神作文,成立于 2017 年,是一个中小学生作文 AI 批改平台和投稿社区,隶属于北京一笔两划科技有限公司。

  创始人宋嘉伟是一位技术达人,也是一位爱好写作的专业作家。经过过去 6 年的创业,笔神作文从以学生为主的用户那里,收集及沉淀了海量的作文资源。

  官方宣传资料称,“笔神作文每月会收到超过 30 万篇作文投稿和超过 40 万次的点赞评论。6 年来,笔神作文积累了超过数百万篇作文素材,月批改作文量超 3 万篇。”

  宋嘉伟说,这里面融入了团队创业的心血,以来一点一点积累起来的成果。

  他至今记得,为了获得作文素材的数据,笔神作文用人工审核的方式、一篇一篇筛选投稿来的作文,通过打标签、分级、数据清洗(指发现及纠正数据文件中的错误)等,最终得以积累到目前的作文素材体量。

  宋嘉伟认为,正是这些优质的作文数据资源,成了“天外来客”眼中的目标。

Image ▲ 图学而思&笔神作文

  笔神作文与学而思的合作要追溯到三年前。当时笔神作文与学而思旗下的一款学习工具 APP——题拍拍签约合作,为其提供作文素材查询服务。

  官方资料显示,题拍拍是一款免费答题 APP,于 2020 年 3 月上线,涵盖全年级、全学科,为广大用户提供真人在线免费答题服务,专注于 6-18 岁中小学生课后学习场景。

  根据双方的合作合同,双方协议笔神作文为题拍拍中的作文版块、只提供用户查询服务,且题拍拍不得将作文数据缓存本地以及机器学习训练。

  合同中有这样几项条款,对笔神作文数据的使用用途,进行了较为明确的规定。

  1、作为第三方技术服务商的深圳市三体云联网络科技有限公司(即“三体云联公司”,系学而思子公司