大模型侵权第一案,学而思或被起诉偷数据
为了开发大模型,数据版权方就该要做出牺牲?
撰文:郑思芳
编辑:龚 正
全社会都在关注各公司推出的大模型,但鲜少关注大模型背后的训练数据来自于哪,是否征得了数据版权方的授权,以及是否付费。
日前,北京笔神作文公司计划起诉其多年的合作伙伴学而思,指其近期推出的数学大模型 MathGPT 和在学而思学习机上线的 AI 助手,在未经其授权和许可情况下,爬取了海量数据,要求学而思公开道歉、删除数据资源,求偿 1 元。
笔者通过笔神作文联系上了与其保持有业务沟通的学而思相关负责人,发去求证信息,不过截至发稿,学而思方面未给予回复。
#01
一夜之间,数百万篇数据资源直接被爬
4 月的一个周末,北京中关村笔神作文公司。
码农们都在家休息,办公室里空荡荡。然而直至周一,归来的程序员才发现,公司的海量数据,在周末这几天被一群“天外来客”爬了个遍,总爬取数超过两百万次。
事后,笔神作文的创始人及 CEO 宋嘉伟经过分析判断,并直接向他猜测的爬取方询问,才发现爬取者不是别人,正是与其保持有多年合作关系的学而思。
事件中的主角笔神作文,成立于 2017 年,是一个中小学生作文 AI 批改平台和投稿社区,隶属于北京一笔两划科技有限公司。
创始人宋嘉伟是一位技术达人,也是一位爱好写作的专业作家。经过过去 6 年的创业,笔神作文从以学生为主的用户那里,收集及沉淀了海量的作文资源。
官方宣传资料称,“笔神作文每月会收到超过 30 万篇作文投稿和超过 40 万次的点赞评论。6 年来,笔神作文积累了超过数百万篇作文素材,月批改作文量超 3 万篇。”
宋嘉伟说,这里面融入了团队创业的心血,以来一点一点积累起来的成果。
他至今记得,为了获得作文素材的数据,笔神作文用人工审核的方式、一篇一篇筛选投稿来的作文,通过打标签、分级、数据清洗(指发现及纠正数据文件中的错误)等,最终得以积累到目前的作文素材体量。
宋嘉伟认为,正是这些优质的作文数据资源,成了“天外来客”眼中的目标。
Image
▲ 图学而思&笔神作文
笔神作文与学而思的合作要追溯到三年前。当时笔神作文与学而思旗下的一款学习工具 APP——题拍拍签约合作,为其提供作文素材查询服务。
官方资料显示,题拍拍是一款免费答题 APP,于 2020 年 3 月上线,涵盖全年级、全学科,为广大用户提供真人在线免费答题服务,专注于 6-18 岁中小学生课后学习场景。
根据双方的合作合同,双方协议笔神作文为题拍拍中的作文版块、只提供用户查询服务,且题拍拍不得将作文数据缓存本地以及机器学习训练。
合同中有这样几项条款,对笔神作文数据的使用用途,进行了较为明确的规定。
1、作为第三方技术服务商的深圳市三体云联网络科技有限公司(即“三体云联公司”,系学而思子公司),有义务保障北京一笔两划科技有限公司(即“一笔两划公司”)服务接口的安全性,应经一笔两划公司允许后、方可将合作接口内容用于双方约定好的平台或产品中。
2、合同原文称,三体云联公司不得随意泄漏、使用、传播或缓存乙方服务接口中的作文范文及其相关内容,否则造成的损失将由甲方全额赔付。
3、合同原文强调,三体云联公司不得在未经一笔两划公司允许的情况下用于任何其它用途,包括级存、存储、作为语料进行计算、训练等。
基于双方的合作精神,笔神作文介绍,自己的技术团队设计了完备的安全机制,正常情况下,可以防止黑客们进行爬虫攻击。而只有提供给合作伙伴学而思的接口是不设防的。
爬取事件被发掘后,宋嘉伟也曾一度怀疑是不是有黑客利用了这个接口盗取数据,所以专门与学而思经常对接的程序员求证。
然而令他出乎意料的是,对方直接承认,笔神作文数据后台被高频调用、确实来自学而思方算法组的调用操作。
通常来说,算法组的工作之一,就是训练人工智能大模型。果然,在数据调用异常不到两周后,大量关于学而思推出数学大模型的新闻开始密集出现。5 月初,学而思宣布将推出 MathGPT,以及其中即将上线的 AI 助手涉及的功能。
宋嘉伟团队于是高度怀疑,学而思的这项产品已将其多年积攒的数据化为己用,关键是未经过笔神作文的同意。
尤其 AI 助手被介绍为是“涵盖作文助手、口语助手、阅读助手、数学助手等功能”。宋嘉伟称,学而思自己并没有海量作文素材数据,否则此前双方的合作也不会开始。
苦心经营多年的数据在一个周末被擅自爬取,“团队的苦心经营为他人的大模型做了嫁衣。”宋嘉伟表示。
事件发生之后,宋嘉伟多次向学而思相关方询问事宜,包括发出律师函,却始终没有得到实质性答复。
目前一笔两划公司已经搜集证据,准备走司法程序来维权。其诉求有三:
要求公开致歉、删除非法获取的数据并中止应用、求偿 1 元。
对于笔神作文的诉求,笔者通过笔神作文联系到了学而思方面相关负责人,对方在通过微信验证、并看到相关提问后,直接拉黑了联络微信。未针对笔神作文的诉求给于回应。
#02
海外类似纠纷频发
笔神作文与学而思题拍拍之间发生的纠纷,揭开了大模型热潮下一个容易被忽视的角落。
大模型想变得智能,就需要对海量数据进行深度学习。然而海量数据来自哪,是否被版权方授权,是否有需要付费,目前这是一个模糊地带。
《真故研究室》搜集了国内过往诸多案例。围绕一般版权的诉讼案例比较多,鲜见围绕大模型数据版权而展开的诉讼。但在海外,类似数据版权纠纷已经显示出频发态势。
先说结论,从海外数据版权纠纷来看,侵权方与被侵权方之间未存在共识。这导致数据版权保护起来还有难度。
今年年初,被称为美国最大的商业图库提供商 Getty Images,在英国起诉了 Stability AI。这是英国首起涉及人工智能的重大知识产权纠纷。
Stability AI 公司,即 Stable Diff
登录后可查看完整内容,参与讨论!
立即登录