测评:“文字研究者”的 AI 工具 | Yiqin Fu

可能大家都看了微软的 Bing 产品展示。在结合了 ChatGPT 的搜索引擎里,你可以打开上市公司财报 PDF,在侧边栏直接提取具体的财务数字,和文档对话。

用户提供文本,机器胡说八道(hallucinate)的概率小一些,我觉得确实能提高以下“文字研究者”的工作效率:

  • 读公司 PDF 财报、Word 会议记录的分析师
  • 需要读电子书、PDF 论文的人文、社科研究人员
  • 在意信息提取效率的非虚构读者
  • 需要处理大量非敏感文件的政府、公司工作人员

之所以强调“文字研究者”,是因为机器从图示(figures 和 diagrams)、公式中提取信息的能力还是很差,而理工研究人员看的内容,信息量主要来自图示和公式。

AI 工具有限的使用场景

可能和你印象中不同,“从 PDF 中提取信息”这项任务,目前最厉害的模型仍做的不好。微软的产品展示中,总结 GAP 公司财报就出了错。机器输出:

Gap Inc. reported operating margin of 5.9%, adjusted for impairment charges and restructuring costs, and diluted earnings per share of $0.42, adjusted for impairment charges, restructuring costs, and tax impacts.

但实际上,这两个数字是 4.6% 和 $0.71。

这么简单的问题它都答错,那它的使用场景究竟在哪里呢?我目前的想法是:

  1. 当输出结果质量不重要的时候。例子:

    1. 观众不在意:文章使用的配图是用来吸引注意、填充空间的,所以图片里人的瞳孔、手指看起来是否真实不重要。粉丝互动、擦边球内容同理。
    2. 观众没有能力去分:专业用户可能可以分辨一段动画、音乐是否是机器生成的。但普通人已经无法分辨机器生成的贝多芬和真的贝多芬。用户用来娱乐消遣的文字,例如八卦新闻,可能也会被机器占领,因为观众没有能力区别人写的和机器生成的。
    3. 委托人对代理人工作的质量没有信息:例如,你只会说汉语,你花重金让人把你的文字作品翻译成阿拉伯语。可能你永远无法知道有多少内容是机器生成、没经过任何人工检查的。
  2. 当输出结果可以快速、低成本被检查的时候。例子:

    1. 如果你想问有确定答案的问题,而且你知道 PDF 里会有你想要的信息,你可以让机器给你答案、告诉你出处,你自己再去检查一下。(在这个 GAP 财报的例子里,你直接去搜索 diluted earnings 或者 0.42 就能检查机器输出的对错了。)
    2. 你掌握的信息是包含你想让机器输出的信息:例如,你想让机器帮你出一些考题。因为你已经是这个领域的专家,所以机器如果开始瞎说,你一眼就可以看出、纠正。
    3. 在软件里,你可以直接跑机器输出的代码,直接检查输出的内容是否符合要求。(比特世界做实验的成本之低,也是比特世界进步比原子世界进步快多了的原因。)
    4. 机器做一些比较简单的低级别任务,可以告诉你它究竟做了什么:例如,低代码产品 Akkio 把你输入的自然语言数据处理指令翻译成 SQL,再把 SQL 转化为自然语言让你检查它有没有理解你的意思。
  3. 当“机器提取+人检查”的组合,成本小于“人手动看”的时候。这是我想象中上述“文字研究者”会觉得机器有用的地方。机器会提供很多假阴、假阳结果,但如果人以前要看 200 页的文字,机器还是能提高人的效率:

    1. 机器可以提供粗略总结,人可以决定是否需要细读。
    2. 人提问,机器可以给出内容可能出现的页码、行数,人去看那些结果。(需要注意的是,包括 Bing 在内的尖端产品还是会凭空编造,把明明不符合要求的段落标记为资料来源。所以人的检查工作不少。)(如果机器还是现在这个准确度,欧美法律、金融、咨询的初级工作,以及大公司客服可能还会继续外包到印度、尼日利亚。不过知名经济学家 Daron Acemoglu 担心我们以后会活在客服地狱,即公司为了降低成本,让机器人完全替代人工客服。新的、服务质量高的公司又很难进入市场。)

基于我目前的使用经验,我觉得第三个场景替代的只是非常初级的实习生。而且关键问题是,人类实习生有强动机改进,但机器目前的商业模式,无法让回答准确度和公司收益挂钩。可能最终的解决方案是每个细分领域有自己的信息提取机,根据自己领域文件的结构、文字风格训练,而且公司的收益和自己是否能满足行业客户直接挂钩,行业客户也不担心机密文件泄露。这样的发展符合之前文章里介绍过的:

Stable Diffusion 背后公司的投资人 Jim O'Shaughnessy 认为,生成模型更像是咨询公司而不是 SaaS 公司。Disney、Sony 这样的公司需要根据他们自己的版权内容来生成新内容,但他们并不愿意自己的版权内容流出,所以 Stable Diffusion 这样的公开模型提供一个基础,他们再在此基础上销售 finetune 模型的咨询服务。

https://yiqinfu.zhubai.love/posts/2237145668873822208?continueFlag=40a9ffb16e1ac8e0805883d2f81a3216