我们是KMind,志在发明个人AI计算机

个人AI计算机

https://kmind.com/news

我们是KMind,志在发明个人AI计算机

摘要

本文的主要贡献在于首次提出了:

  1. 个人 AI计算机的概念和 kOS架构。
    
  2.  AI精度的概念和数据脱水与浸泡技术。
    
  3.  ACT的概念和可编程 AI的实现。
    
  4.  AI互联网的概念和信息反向流动的实现。
    
    
    
    
     特别的,本文还明确指出了企业垄断数据对社会的危害,并从技术变革上提出了建立一个更健康网络经济环境的可能性。
    

    本文长达三万字,读者可以选择感兴趣的部分自行阅读:

  5. 对技术浪潮的独家剖析在“第1章 计算机的两次革命”。
    
  6. 原创技术发明在“第2章 我们的答案: kOS-1.0”。
    
  7. 我们的使命愿景和对未来的判断在“第3章 AI互联网:连接所有个人 AI计算机”。
    
  8. 我们要推出的产品在“第4章 半个宇宙诞生:人工智能的中国方案”。
    

目录

   两个月前,我和公司新来的实习生杨子乐进行了首次谈话,我对他说的第一句话是:“我们是一家伟大的公司”。子乐看了一眼公司里正在工位上埋头敲代码的十多个员工,面部肌肉开始扭曲,然后再也憋不住,捧腹大笑起来。他的反应把我也逗乐了,我马上意识到了他的想法,和他一起足足笑了五分钟才喘过气来。

   我们是一家成立了仅仅 4个月,只有 16个员工,但是却很“伟大”的公司。伟大的公司不在于能赚多少钱,而在于我们的目标很伟大,一旦实现,世界将因此而改变。而我作为创始人,将确保公司会一直在实现这个伟大目标的道路上坚持下去。

第1章 计算机的两次革命

   数字计算机自 1946年诞生以来,在不到一百年的历史上,有两次大的革命深深震撼着我的心灵。这两次革命都有一个共同的使命:让先进技术的大型计算机实现小型化和普惠化,使得人人拥有一台个人计算机。

1.1 第一次革命:人人有台计算机

1.1.1 个人计算机的发明

   第一次革命发生在 20世纪七八十年代,以苹果公司发明一体化的个人计算机为标志。在苹果公司发明个人计算机之前,计算机是只有政府、银行或大企业才买得起、用得起的大型专用设备, IBM把计算机卖到了几百万美元一台。在那个年代,计算机是一个庞然大物,人们需要通过在纸片上打孔来编写程序,排队去机房操作大型计算机。计算机当时主要用于处理一些大公司、银行的账目数据,或者是政府、高校的一些科研数据。  

   此后有三项关键技术在 20世纪七十年代出现,带来了改变的契机,成为个人计算机出现的基础。首先是在 1969年,英特尔( Intel)公司接受了日本一家做计算器的公司 Busicom的订单,要求制作一个用于计算的处理器,而此前 Intel的业务仅限于存储器。当时 Intel的董事长摩尔要求这个产品不能只服务于一家公司,应当尽可能的通用。这激发了当时 Intel的马西安·霍夫设计了世界上首个微处理器结构,最后在费根带领的团队下完成了实现,即称为 Intel 4004的首块 CPU,它将一个完整的计算机结构做到了一块芯片上,拥有将近 3000个晶体管,具有通用编程的能力。此后几年英特尔陆续研发了 Intel 8008和 Intel 8080型号的微处理器,并基于这些芯片,推出了 x86指令集,在市场上大获成功。微处理器的出现也启发了乔布斯和沃兹尼亚克发明一体化的个人计算机。因此个人计算机又叫微机。(计算机领域里“小型机“一般特指 IBM小型机,它的体积依然很庞大,造价昂贵)



   另一项关键技术是图形化的人机交互界面( GUI, Graphic User Interface),它由施乐公司发明。施乐公司最早是做复印机的,他们发明了多项相关专利。在 20世纪七十年代,施乐集中了大量计算机科学人才,并在实验室中制造出来了个人计算机,它包含完整的微处理器、鼠标、显示器,甚至还出现了互联网的雏形。 1979年乔布斯在参观完施乐的实验室后大感震惊,立刻将苹果的研发方向调整为了图形界面,并一举挖角了施乐公司的大量人才。两年后,比尔盖茨也借鉴施乐的思路推出了图形化界面的操作系统。可惜的是施乐公司缺乏足够的眼光,始终未进入个人计算机领域,从而将这个巨大的机会拱手让给了苹果和微软。可以说,苹果公司和微软公司都是抄袭了施乐的图形界面这一发明,应用在自己的操作系统中。尤其是微软后来的 Windows 3.0和 Windows 3.1在市场上大获成功,从而证明了图形界面( GUI)的易用性对个人计算机来说是至关重要的。  

   此外 Intel 8080微处理器的出现还激发了比尔·盖茨和保罗·艾伦为它写一个高级编程语言 BASIC语言的编译程序。 BASIC语言是一个对新手友好的简单易用的高级编程语言,苹果最早的个人计算机产品 Apple II也搭载了 BASIC语言作为编程语言。一个简单易用的高级编程语言,可以带来丰富的软件开发生态,是个人计算机所需要的第三项关键技术。  

   因此个人计算机的发明,有三个主要的关键技术基础:微处理器、图形界面、高效的编程语言。它们分别代表了计算能力的普惠化(普通人买得起了)、使用简单(普通人能看懂、用懂)、可编程的通用计算平台(功能灵活以及强大)。没有这三个关键技术作为前提,个人计算机是无法被发明的。  

   也因此最终在 1977年,苹果公司的乔布斯和沃兹尼亚克将所有的计算机相关组件、技术组合封装为一个整体,发布了最早的一体化个人计算机产品: Apple II,它将计算机的运算器件装在一个盒子里,并带有独立显示器和键盘。这是一台完整的个人计算机。而比尔·盖茨和保罗·艾伦在那个年代则创立了微软公司,以开发软件为主,通过售卖软件授权的方式,微软公司最终成功的让每个家庭拥有了一台计算机,家喻户晓。



   可以说,诞生自 20世纪七八十年代的个人计算机,让以前只能服务于大企业的计算机走向了普惠,最终让每个家庭拥有了一台计算机,计算机从此能够为每一个人创造价值。先进技术从高端走向了民用,带来了深远的影响。

1.1.2 互联网的诞生:连接所有个人计算机

   有了海量用户为基础,将所有的个人计算机连接起来,才诞生了今天的互联网。谈到互联网的诞生,往往会追溯到 ARPANET、 Web的诞生、 TCP/IP协议、以及 GNU自由软件运动等伟大创举。但是我想强调的是,如果仅仅只是一些高校和科研机构连接起来,是无法形成今天意义上的互联网的。截止到 2023年,全球互联网上的用户规模达到了 48.8亿。互联网也成为了电报网、电话网之后最重要的信息高速公路,彻底的改变了人类世界的面貌。如果只有几百个科研节点连接到一起组成的网络,必然曲高和寡,是不可能达到这种影响力的。所以个人计算机的普及直接促成了互联网的蓬勃发展。也就是说,把所有的个人计算机连接起来,就形成了今天的互联网。  

   在这里尤其值得一提的是,在历史上苹果公司两度发明了个人计算机。第二次是在 2007年 1月 9日苹果发布了第一代智能手机 iPhone,互联网迎来 iPhone时刻。 iPhone拥有先进的触控屏操作,搭载了 iOS操作系统。到了 2008年 AppStore出现后,在新型的移动计算机上开发 App变得蓬勃发展起来。  

   iPhone的优雅体验带动了一个时代,众多手机厂商纷纷效仿,最终成功的让每个人拥有了一台智能手机,即人人有了一台个人计算机,这台计算机是可移动的,小到能装进口袋。除了能打电话外,还包含了摄像头和地理位置定位系统,能够便捷的采集全新的数据,因此有了全新的应用场景。最终将智能手机全部连接起来,就形成了移动互联网。  

   如果说微软成功的让每个家庭拥有了一台计算机,那么由于苹果公司的贡献和影响力,在 21世纪的前二十年成功的让每一个人拥有了一台计算机。如果以前的互联网只需要连接每个家庭的计算机,那么现在的互联网就需要连接到每一个人,互联网里的节点数因此成倍增长,于是有了“移动互联网”的说法。全球的数字化信息在互联网里高速流动,出现了前所未有的盛况。

1.1.3 当前互联网的主要矛盾:数据垄断必将走向崩溃

   互联网改善了人类的生活水平,纵观历史,在拥有互联网的今天确实是人类最好的时代。但是互联网依然存在着许多结构性的设计缺陷。比如在技术上,作为互联网心脏的域名根节点相对脆弱; TCP/IP协议设计的缺陷导致了拒绝服务攻击频出; IPv4地址资源耗尽,等等。但在这里,我想重点讨论一个更加隐蔽、更加本质,且更加致命的结构性设计缺陷:信息的流动方向带来的数据垄断问题。  


   当把所有的个人计算机连接到一起互联互通以后,人们很自然的有了信息访问的需求。那么人们怎么找到所需的信息呢?早期的互联网公司发现了这个商机,无一例外都提供了某类的信息的聚集服务。 Yahoo的类目聚合了当时的互联网里的主要网站和网页,同时它还发明了搜索引擎; Google发扬光大了 Yahoo的搜索技术,并开创性的提出了新的排序算法和大规模计算技术,它聚合了全世界的公开网页;在中国,第一代互联网公司搜狐、新浪、网易都是新闻聚合为主的门户网站,此后百度学习了 Google的搜索引擎,开展了全网搜索业务,阿里巴巴则推出了电商业务,聚合了全网的商品信息。  


   因此可以说,早期的互联网公司,提供了信息聚集的服务,方便人们在互联网上快速找到信息,这种模式我称之为 “人找信息”。在这个模式下,久而久之,互联网上的信息在某些超级节点形成了聚集,最终导致了数据垄断。一旦数据积压在某一点,数据量一大,访问的人也多,信息检索结果的排序就会成为一个关联着巨大商业利益的问题,那么最自然而然能想到的赚钱模式就是卖信息检索的排序结果,也就是广告。因此在互联网信息流动方向为“人找信息“的模式下,必将导致信息聚集,以及由此带来的广告商业模式。信息聚集的极端情况,就是数据垄断。这个模式直到今天依然无比强大,诸如 Facebook、字节跳动这些数千亿美金市值的商业帝国,依然是走的垄断数据,广告盈利这个路线。



   客观的说,信息聚集这条路在互联网发展的早期确实提供了很大的价值,方便了所有网民。但是一旦信息聚集走向了垄断,就导致了失控。简单来说,有以下几个非常明显的弊端:  

   首先,大互联网公司垄断了数据,但数据都是老百姓们贡献的,最典型的比如用户的访问行为偏好数据,所有互联网公司都需要依赖这份数据来实现广告的精准投放,可是最终广告变现的钱却跟老百姓们一毛钱关系都没有,都被大公司赚走了。可以说老百姓们被收了一道数据税,这道数据税是广告主出的,但是羊毛出在羊身上,这抬高了所有商品的售价。如果这个钱是合理区间内的中介费还能说得通,但目前却是一种暴利。就好比高速公路建设完,一般二十年收回成本,三十年后就免费了,结果投资方在这里把两百年后的钱都收完了,这就是互联网流量生意被称为“印钞机模式”的由来,一旦垄断了数据,就垄断了用户流量,这些公司就等同于躺着印钞票。  

   其次,数据垄断带来了互联网的割裂。现在的互联网和十年前的互联网有着巨大的区别,变得越来越地盘化,泾渭分明。最典型的比如视频网站,想看一部电影,往往是找了优酷没有,再去爱奇艺、腾讯视频找,还没找到,再继续去其他视频网站挨个找。所有内容提供方都得给这些渠道平台交高额的内容分发费用,这些掌控了流量的渠道平台互相之间森严的数据壁垒把互联网拆的支离破碎,他们在自己的地盘边界上竖起了一道道的高墙,让数据不再互联互通,最终影响的是老百姓们的效率和体验。  

   最后,垄断一旦形成,就将瓦解互联网的自由属性,在互联网上不再有自由和平等可言。小的个体在互联网上永无出头之日,而大的巨无霸公司因为垄断了资源,也将失去进取的动力,最终腐朽。这就是为什么一个自由职业者或者是小微企业在流量型平台上越来越难做生意的原因,赚的那点钱还不够交流量费。  

   比如 2017年暴露出来的天猫和京东为了大促活动争夺商家,逼迫商家签订排他协议,就限制了商家的自由。类似的,近日李佳琦借助流量优势,控制商品的市场价格,属于典型的店大欺客行为。互联网本应是用户做主,但用户却做不了主。数据都是用户创造的,但最后用户变成了被数据操弄的对象。就像你买了套房子,请了个装修队来装修,但是里面怎么装却不是你说了算,而是由装修队来控制。  

   所以当李佳琦在直播间对消费者说出的那句:“有时候找找自己原因,这么多年了工资涨没涨,有没有认真工作?”的话时,就扯下了资本在数据垄断上的最后一块遮羞布。这句话深深的刺痛了广大网民的心。同样都是劳动者,同样的付出了努力,有的人因为垄断了数据资源、垄断了流量,就赚到了普通人一辈子都花不完的钱,而有的人却只能挣扎在养家糊口上。既不公平,也不合理。李佳琦现象背后本质的原因,是因为他依托的直播平台完成了短视频的信息聚集,从而垄断了数据,进而垄断了流量,而李佳琦是这种流量红利的既得利益者。他身处其中而不自知,所以才会说出这么幼稚的话。数据垄断让互联网里的人们不再平等。  

   一个社会的财富总量在一定时期内总是有限的,有人靠垄断资源攫取了暴利,那么普通老百姓得到的财富自然就少了,这就是为什么现在工作越来越难找,老百姓收入一直高不起来的原因。互联网产业是近 20年来全球 GDP增长的强劲动力来源,但互联网巨头和背后的资本攫取了过多的暴利,从公开的财报就可以看到这些数据,新闻里每日鼓吹某某互联网公司上市又诞生了多少个千万富翁。而中国有 14亿人,超过一半的老百姓的月收入不到 2000块,他们的千万富翁越多,老百姓就越穷。这些暴利已经远远高于社会人均收入值,超出了合理范围。

( 2022年全国及分城乡居民人均可支配收入与增速,数据来源 www.gov.cn

   由此可见,原本自由的互联网,不再是净土。通过信息聚集这一手段,在资本的加持下,一旦互联网公司形成了数据垄断,也就形成了市场垄断,而最终受苦的是所有网民。垄断数据和垄断土地没有本质区别,高净值财富都是来自于垄断资源,而非劳动。因此可以说,数据垄断是资本在互联网时代的剥削行为,剥削了所有网民。  


   我们不反对用数据来赚钱,互联网的价值来自于数据,我们鼓励数据创造价值。但我们反对用数据垄断来赚钱,尤其反对垄断数据后,还利用垄断地位阻止和打压其他人提供同类服务。因为一旦无法遏制资本对利润不断攫取的贪婪,垄断的最终结果,贫者愈贫,富者愈富,必将导致崩溃。因此我认为,当今互联网最深层次的主要矛盾在于:“信息聚集导致的数据垄断”和“人们对自由、开放、共享、平等的网络环境的向往”之间的矛盾。  


   为了解决这一矛盾,实现资源的重新分配,有许多工作需要做。首先可以想到的是调节网络结构。现代网络科学的结论告诉我们(请参考拙作《计算》),在一个无标度网络中,其规律服从幂律分布,有着“富者愈富”的现象,自由发展则必将涌现出超级节点。而在一定初始化规则的约束下,则可以涌现出我们想要的任何网络结构。这意味着宏观调控的手段是有效且必要的,需要制衡资本的无序扩张。  


   从网络结构的角度来看,将互联网设计成一个类似于人类社会关系网络的模型,将会是一个更加公平的网络,因为这种网络是去中心化的,是局域化的,通过长程连接把各个局域连接起来,不存在超级节点。事实上微信就是这样的网络结构,在微信里一个人只能加几千个好友,而不可能用一个微信号加 1000万人。这种网络模型称为“小世界网络”,在小世界网络里,没有超级节点可以影响大部分的其余节点,因此它更加的稳定,适应性强。但小世界网络损失了效率,因此可能需要找到小世界网络和无标度网络之间的某种网络结构,这是宏观调控的艺术。  


   但调节网络结构,以抑制或迟缓超级节点的出现,是治标不治本。我认为还有做出更加彻底的改变的可能性,因为最近这五年的技术发展,已经让我们站在了一个百年一遇的十字路口上:我们有机会改变互联网的信息流动方向,从而消除信息聚集。

1.1.4 技术垄断:大型专用AI计算机

   大互联网公司之所以能够做到信息聚集,是因为在传统的互联网结构里,用户有一个需求之后,无法高效的找到对应信息,而互联网公司提供的信息聚集,恰好满足了这种高效寻找信息的需求。从这个角度来说,我从未否定信息聚集的价值。  


   但这样的模式存在两个问题,第一个问题是数据垄断问题,如前所述;第二个问题是“人找信息”的模式效率依然低下。由于互联网已经被大公司之间的数据壁垒割裂了,人们不得不耗费更多的时间在不同的平台上寻找他们想要的结果;同样的,由于受到了商业广告的干扰,人们不得不从一大堆检索结果中排除这些干扰,从而找到他们需要的那个最优答案或者近似最优答案。  


   如果能改变信息的流向,就能解决这些问题。即从“人找信息”,向“信息找人”发生转变。当人有一个需求之后,应当是信息主动找上来,自动给出一个全网最优解,而节约大量的时间和精力。这个最优解,不应该有商业广告的干扰。  


   这在以前是天方夜谭,但现在是有可能的。因为这些年的技术进步,我们有了 AI这一新工具来实现这件事情。如果互联网中的每个节点(每个企业、组织、以及个人)都拥有一个 AI, AI知道它的主人拥有什么样的信息和数据,再通过一个中立的搜索推荐算法,当人有任何需求时在网络内进行“广播”,询问每个节点的 AI是否有所需的答案,一旦有,就由中立的推荐算法将其推送给需要的人。这样就实现了“信息找人”。当然一切过程需要在安全的情况下完成,需要建立完善的隐私保护、授权、内容安全机制。  


   这样的“ AI互联网”是一次大的飞跃,将提升人类社会的整体效率,我们将在第三章讨论。但实现这样的AI互联网的前提是每个人或组织都拥有了AI计算机,现在先把注意力放到 AI计算机本身上来。  


   在做创新时,遇到的诸多困难中的一个,就是很多概念缺乏精确的定义。 AI(人工智能)就是一个没有被精确定义过的概念。自从 1956年达特茅斯会议上,麦卡锡创造了 AI( Artificial Intelligence)这一名词以来, AI依然是一个综合且模糊的概念,它综合了许多学科,包括计算机科学、心理学、神经科学、认知科学、逻辑学、数学等等。在此我并不打算对 AI下一个精确的定义,那只会把我拖入无止尽的辩论中。在此,我所指的 AI特指那一类具备自动化、自适应能力,尤其是在数据处理上具备这种能力的系统。  


   如果从这个概念出发,那么这样的 AI系统已经出现了很多年了。大型互联网公司如 Google、 Facebook、百度、淘宝、抖音等在处理信息聚集的大数据时,尤其是他们在做广告的推荐算法时,就已经建立了一套这样的系统。广告的精准投放和“千人千面”都已经做到了可以基于用户的实时访问行为,改变接下来用户会看到的推荐结果。这是一种自适应能力,基于输入的变化而改变自身的行为,这就是 AI的能力。  


   因此可以说,大型互联网公司在处理大数据的能力上,已经建立了“大型专用 AI计算机”。首先它是大型的,数据量很大,可能大至上百 PB;用到的服务器数量很多,一个集群可能有上千台高性能服务器。其次它是专用的,因为这样的系统只能用在搜索、推荐、广告投放的特定场景,而无法实现对于任意任务的通用计算。最后它是智能的,基于环境的自适应能力是一种被称为 Agent(在人工智能领域 Agent不应当被翻译为“代理”,翻译为“智能体”勉强可以接受)的能力,而且麦卡锡正是用搜索路线来做人工智能的先驱,因此将搜索推荐技术纳入到 AI领域本身是合理的。  


   这样的大型专用 AI计算机,帮助互联网公司完成了信息采集和聚集,高效的处理了大数据,提高了商业效率,榨取了数据创造出的价值。由于大型专用 AI计算机的成本高、实现门槛高,因此这种先进技术创造出来的价值,被这些大公司垄断了。他们既垄断了数据资源,又垄断了处理数据资源的所需要的技术,最终垄断了数据创造的价值。一个耳熟能详的比喻是“数据是石油”,那么“大型专用 AI计算机”就是石油开采、提炼的整套技术。在我国早期的一些油田探明了巨大的储量,但是当年却只能和欧美的拥有石油开采技术的公司合作开采、利润分成,就是吃了没有先进技术的亏,所以坐拥资源,只能任人宰割。  


   现在连普通老百姓都已经知道了数据是石油,意识到了数据的价值。但是非常奇怪的一点是,在一个路人皆知“数据有价值”的社会里,普通老百姓却从来没有用数据赚到过钱。所有的数据都是老百姓们创造的,但最后数据赚到的钱和老百姓们一毛钱关系都没有。数据只是大公司的石油,不是老百姓的。原因在于老百姓们被技术剥削了。



   因此我们就有了变革的动机:互联网从诞生之日起就代表着平民的胜利,而不应该被垄断,因此为了维护这个良好的网络环境,回归初心,就迫切的需要有一个新工具,来帮助个人用户、小微企业用户能够处理数据、创造价值。这个新工具应该是开放、自由、共享、平等的,即“个人 AI计算机”。这个新型的计算机将再一次把大公司垄断的“大型专用 AI计算机”给小型化、普惠化,让每个人都用得起。在这样的“个人 AI计算机”模式下,人的在线时间不再受制于睡眠和休息, AI会帮你时刻在线,只要提供了数据, AI就能开放式的回答所有问题,永不停歇的服务、沟通、协同。  

   一个可预见的结果是“AI互联网”将消灭精准营销广告,把精准营销广告商榨取的万亿级别人民币利润返还给供应商和老百姓。相当于以后在互联网上买所有东西应当会免除一道广告税。对于那些希望通过看广告来免费获取服务的用户来说,需要认识到广告的隐蔽危害最终抬高了商品和服务的价格。而想免费获取某些商品和服务其实有其他办法,比如通过自己的分享来换取,就是一个健康的机制,它提倡和鼓励人们分享,而非攫取。因此最终 AI互联网会更省时、更便宜、更丰富。  

   恰如四五十年前苹果对 IBM发起了挑战,最终完成了大型计算机的普惠化这一革命。当下第二次革命的条件也已经成熟,发明“个人 AI计算机”的时机已经到来。

1.2 第二次革命:人人有台AI计算机

1.2.1 个人AI计算机的使命

   一种新的技术,如果不能解决过去的历史问题,就不能称之为革命。但反过来说,如果它真的给出了有效的解决方案,那么其存在就是合理的。个人 AI计算机( PAIC, Personal Autonomous Intelligence Computer)的合理性即基于此。它的使命,是为了打破互联网里大公司对于数据的垄断,让个人用户、小微企业用户有能力利用数据创造价值,最终实现 AI互联网,极大的提高人类之间的沟通、协同的效率。  


   阿里云的创始人王坚博士曾经做过一个形象比喻,云计算是电, AI大模型是电动机。在历史上,发电机、电动机、电网三者共同构成了完整的电力基础设施。在我看来,云计算、 AI计算机、 AI互联网三者将共同构成完整的算力基础设施,将人类带入到算力时代。  


   在 20世纪七八十年代的那场发明个人计算机的革命中,有三个重要的技术基础:微处理器、图形界面、高级编程语言,它们分别解决了算力的普惠、简单易用的操作体验、丰富的软件应用生态这三个问题。在当下,个人 AI计算机的技术基础也已经成熟,分别是:数据和算力的普惠、自然语言大模型( LLM)实现新型的人机交互方式,以及呼之欲出的新型编程范式。

1.2.2 个人AI计算机的三个技术基础

1.2.2.1 数据无处不在,算力随手可得

   随着集成电路的发明,计算机工业界在摩尔定律的影响下,芯片的单位面积计算能力以年为单位指数级增长,这极大的增强了单机的处理能力。随着智能手机的发明,以及互联网上需求的爆发,个人和组织开始沉淀数据,数据无处不在。此外云计算的出现让大算力实现了普惠,它对 AI计算机有两方面的意义,其一是并行计算能力是 AI大模型得以成功训练的前提,其二是让个人使用大算力成为可能。  


   云计算的使命是让计算成为公共服务。它的做法是将数据中心(为了避免歧义,用土话解释一下就是机房)变为一台计算机。在历史上, Google和 Amazon的贡献为云计算奠定了基础。其中 Google在 2003到 2006年陆续发布了三篇论文,分别是 GFS( Google的分布式文件存储)、 MapReduce(分布式计算架构)、 BigTable( Google的分布式数据库),从而奠定了大规模数据计算的基础,实际上这三篇论文就是 Google拥有的“大型专用 AI计算机”的主要实现原理,又被称为 Google的三驾马车。  


   而 Amazon在 2006年推出的 AWS EC2(弹性计算服务)、 S3(云存储服务),则被视为云计算的开端。尤其是 EC2,成功的实现了计算服务的租用模式,将高性能服务器的使用成本分摊到了小时和分钟的粒度,用户可以按需租用,从而让用户可以用低廉的价格在短时间内获得强大的计算能力。  


   在中国则是由 2009年创立的阿里云开启了云计算的道路。阿里云的飞天云操作系统是一个按照计算机体系结构设计的操作系统,它融合了 Google的大规模数据计算和 Amazon的按需租用的思想,尝试将数据中心变为一台计算机,同时让个人开发者能够用低廉的价格按需租用这种计算服务。  


   云计算的梦想是要服务于海量用户,走的是通用计算的道路。而过去大互联网公司只需要服务好自己的需求,因此很难把自己做成通用计算。因为他们很有钱,所以压根儿不需要做通用计算机,给自己量身定制一个专用计算机就好了。这也是为什么现在试图服务于大企业的公司不可能做出来通用计算机的原因。只有个人计算机,因为要服务于海量用户,遇到的需求注定千奇百怪,所以必须做成通用计算。价格还得足够亲民,用户才用得起,云计算通过按需租用的模式实现了这一点。有了云计算以后,算力不再是约束创意的瓶颈,任何人有了一个好的想法,都可以用可接受的价格在一个大规模计算集群上进行验证。  


   因此云计算就像当年 Intel发明的微处理器,微处理器第一次将计算做到了一块芯片上,价格也是普通人负担得起,云计算则在当下实现了大算力的普惠。

1.2.2.2 人机对话的新交互(LUI)

   2023年是人工智能的奇迹年, OpenAI的 ChatGPT横空出世,在自然语言的人机对话领域首次实现了突破性的智能表现。在此我作为一名计算机工程师,发自内心的向 LLM这项技术致以敬意。关于自然语言大模型( LLM)这项突破性技术的介绍和评价,网上已经很多了,我在新书《计算》中也做了详细的点评,在此不再赘述。  


   LLM这项新技术将在个人 AI计算机中发挥关键作用。可以说,如果没有这项技术的突破,个人 AI计算机的实现可能还得晚上许多年。因此也可以将个人 AI计算机看作是 LLM这次技术浪潮的一个直接成果。  


   LLM在个人 AI计算机中主要用到的地方有两个,一是它将成为人机交互的新入口。在苹果、微软发明的个人计算机中,图形界面( GUI)占了主导地位;而在个人 AI计算机中,基于自然语言对话的交互形态会出现,因此定义一个 LUI,即 Language User Interface就变得有道理了。用户可以用自然语言和计算机交流, LUI会理解用户的意图,同时将计算机的执行结果以自然语言的方式回复给用户,这是一种全新的体验。  


   二是它将在系统中发挥类似于心脏的作用,大部分的原子调用都离不开它。关于这一点,我们容后再叙。  


   但是 LLM技术,包括 ChatGPT本身也存在很多问题,远非自媒体所鼓吹的无所不能。事实上我们在实践中发现了 GPT相当大的局限性,在本文稍后我会详细叙述问题在哪里,以及我们的解决思路是什么。  


   备注:本文发布时, Google发布了它最新的大模型 Gemini,主要亮点为原生多模态的理解能力。尽管如此,语言的使用依然是未来人机交互中最重要的一种方式,有着极其广泛的应用场景。

1.2.2.3 从“可编程AI”到“AI可编程”

   有了 LUI以后,一个最大的好处,就是用户对计算机的直接操作可以通过自然语言完成了。在个人计算机时代,想直接操作计算机,用的是形式化的编程语言,如汇编语言、 FORTRAN、 LISP、 BASIC、 C、 JAVA、 Python等等。据统计。世界上可能有超过 2000种计算机编程语言,但无一例外都是形式化语言。  


   形式化语言的学习成本高。据统计,在中国只有 700万的开发者,假设他们都至少掌握了一种编程语言,那么这个群体的数量相对于中国的人口基数来说依然是微不足道的。也就是说在个人计算机时代,在中国懂得直接操作计算机的创作者只有 700万人,是他们创造了中国软件产业的万亿市值。  


   而在个人 AI计算机时代,这个数字有可能变成 7000万。由于 LUI的存在,有可能降低用户学习计算机语言的门槛,而且至关重要的是,让 AI编程已经近在眼前。如果形成了“人来描述需求, AI完成编程”这一新的范式,就迈出了一大步的跨越,也将真正完成发明个人 AI计算机所需要的第三项关键技术基础:基于自然语言的可编程平台。这个中间尚存在一些难点,比如自然语言中存在着隐性的逻辑特征,这意味着我们无法直接用自然语言构成演绎规则公式。我们将在本文的后半部分给出一种解决思路。  


   最终将回归计算机编程语言的初心。计算机编程语言的先驱, FORTRAN语言的发明者,图灵奖得主约翰·巴库斯曾经指出:程序员应该只需要表达出他们“要什么”,而无需知道“怎样做”。他毕生为此追求和努力。时至今日,在 AI的加持下,我们看到了巴库斯梦想实现的曙光。  


   也因此,在个人 AI计算机的背景下,估算一下中国未来能够直接操作计算机的创作者,应该从 700万开发者,变成 7000万的专业工作者,最终使得至少 7亿老百姓受惠。各行各业的专业工作者如作家、画家、美食家、律师、医生、教师、学者等等通过自然语言描述需求, AI计算机自动完成任务。

第2章 我们的答案:kOS-1.0

   因此,为了完成上述使命,抓住时代的机遇,我和另外两位联合创始人,以及 13名初创团队的同事,一起在 2023年 7月 1日创立了 KMind。 KMind的使命,就是要发明这台新型的个人 AI计算机,打破互联网里大公司的数据垄断,让数据能够为个人、小微企业创造价值,最终实现一个自由、开放、共享、平等的 AI互联网。  


   这五个月以来,我们做了诸多尝试,并迅速积累了超过十万用户。一开始我们基于 GPT来实现我们的 AI,在国内的监管要求出台后,我们切换到了国产 LLM和开源 LLM的路线上。由于有着真实的用户基础,因此我们很清楚 LLM的能力和缺陷。能力是我们要充分发挥的,这是时代红利;缺陷是我们要弥补的,这是建立核心技术壁垒的机会所在。这样我们在创业三个月后,越来越清楚我们的目标到底是要做什么。于是在两个月前,我们在公司内部明确了“个人 AI计算机”这一理念,并提出了 kOS-1.0新型计算机架构设计。

   我们将通过 kOS这一新型计算机操作系统,来实现这一伟大使命。

2.1 扩展的冯·诺依曼架构:为什么这是台计算机?

2.1.1 从数字计算机(Digital Computer)到数据计算机(Data Computer)

   计算机发展到今天,所有的数字计算机都基于图灵在 1936年论文中提出的图灵机模型。在图灵机上实现通用图灵机,就可以模拟任意的可计算模型,完成任何可计算函数的计算。由此图灵提出了“存储式程序”的思想,即图灵机的描述数既是数据,可以被存储,又是程序,可以被通用图灵机读取和执行。此后在 1946年,冯·诺伊曼受到图灵思想的影响,在 EDVAC项目中引入了存储式程序的思想,并和埃克特、莫奇利一同设计出了存储、计算分离的结构,被称为冯·诺伊曼架构。它奠定了当今可制造的物理计算机的主体结构,可以说,当今的计算机基本上都是冯·诺伊曼架构。



   在冯·诺伊曼架构中,实现了图灵机模型,并在运算器中引入了算术逻辑单元可以进行算术运算。而计算机的另一位先驱香农关于逻辑电路的研究则清晰的指出,电路设计可以抽象为逻辑代数,两者本质是一回事,从而大大简化了电路设计的复杂度。最终的一个重要结论是,基于逻辑的与、或、非,就可以实现出完备的通用图灵机,可以计算所有可计算函数。  

   因此凡是实现了通用图灵机的物理装置,尤其是证明了该物理装置的计算能力是图灵完备的,就都可以称之为计算机。通用图灵机确保了计算的通用性,也就意味着有可能在物理世界的任何尺度上实现图灵机。小到纳米尺度、大到宏观宇宙,都有可能实现一个通用图灵机的物理结构。十多年前出现的云计算技术,尝试将数据中心变为一台计算机,就是在一个大规模服务器集群上实现了类似冯·诺伊曼架构。因此数据中心是一台计算机,阿里云的飞天是云操作系统,这个说法不是媒体炒作的口号,而是有坚实的理论依据的。  

   今天我们用到的所有电子计算机,小到一部手机,大到大型机和超级计算机,都是数字计算机。用机器设备处理数字信号的叫数字计算机。在图灵和冯·诺伊曼那个年代,计算机发明出来主要是用于做算术的,处理一些科学数据中的简单算术问题,因此他们的焦点主要聚焦在数字信号的处理上,数字计算机最重要的功能是要实现数字信号的算术和逻辑运算。在那个年代,没有数据的概念,所以计算机的结构、微处理器、指令集这些都是为处理数字信号而设计的。  

   而今天我们要发明的个人 AI计算机,是一种数据计算机。用机器智能系统处理数据的叫数据计算机。它是以数据单元为基本操作对象,实现逻辑运算,最后达到图灵完备的一种机器装置。数据计算机当然是基于大量的数字计算机组成的,它是一种比数字计算机宏观得多的计算机,主要用途是操作数据。正如普通用户在使用笔记本电脑时,不会去关注它内部的 CPU一样,尽管 CPU从结构上来说已经是一个完整的计算机了,但人们日常提到“计算机”这一概念时,通常指的是那台笔记本电脑。因此我们从数据计算机的尺度上,并不太关心系统底层的某台具体数字计算机是如何工作的。  

   当我们尝试要实现数据计算机时,才发现“数据”这个概念根本没有被精确定义过。这给我们造成了一些困扰,不过问题不大。因为当前在计算机世界里的所有数据都可以归纳为文本、图像、语音三类。出于效率考虑,我们把视频独立了出来,所以是四类数据:文本、图片、视频、语音。(这里没有把编译后的二进制程序视为数据,因为程序是用来操作数据的)  

   个人 AI计算机的使命是要让数据为个人用户创造价值,个人用户的数据在哪里呢?最显而易见的,每天你手机里拍照、录像的图片和视频,都是数据。其次,你在互联网上的所有访问行为,你和其他人交流与沟通、对话信息都是数据,这类数据未来在 AI互联网上会自动沉淀下来,成为你的资产。最后,每个人还可以采集数据,比如看到一篇好的文章,可以保存下来作为自己的素材,以备后用。所以每个人实际上会产生大量的数据,现在一个人一生中可能会有意识的保存几个 TB的数据,未来这个数据存储量还会翻许多倍。  

   在过去,处理数据只是数字计算机的一种应用形态,而非底层逻辑。而在当下,形势和环境都与八十年前发明数字计算机时相比有了巨大的变化,大量数字信号聚合后产生了数据,尤其是个人计算机普及、软件产业兴起,互联网繁荣,带来了数据大爆发。因此我们认为有必要设计一种新的计算机架构,用来处理数据,它比数字计算机在数据的处理上会更加的高效。这就是 kOS要实现的目标:个人 AI计算机。  

   所以个人 AI计算机在我看来主要实现两类任务,一是自动化的处理数据,二是学会使用工具。而软件和 App本质上可以视作数据的通道,因为任何对软件的输入、输出,都可以转化为数据。从而个人 AI计算机要完成的本质工作只有一个:操作数据。在当前 AI的大背景下,过去的数据仓库技术有可能会被取代或者消亡,而新的数据技术会出现,它有着新的交互体验和自动化的数据治理方法,从而带来一场数据技术的革命。

2.1.2 基于人工智能扩展的冯·诺依曼架构

   功能来源于结构。在今年 9月 25日,我在电子阅读器上用电子笔画出了 kOS的第一张架构图,它实现了个人 AI计算机的通用计算架构:



   经过和团队的反复讨论后,在 10月份确定了当前版本的架构图:



   首先这是一张计算机的架构图,因为它保留了冯·诺伊曼架构的主要部件:输入输出模块、控制器、运算器、存储器,因此 kOS是一台计算机。输入输出模块中包含了 LUI,它基于 LLM对用户的自然语言做意图分类,然后触发控制器执行相应的动作。  

   其次在这张图中新增了记忆器用于处理短时记忆,比如对话时 AI必须能够记得之前用户说了什么。在短时记忆和长时记忆之间会有联动,某些反复强调的短时记忆应该转化为用户的长时记忆。此外我们还将用户的个性化知识、私有资料、记忆,以及最终每个 AI的不同性格,会保存在存储器中。  

   再次, LLM和提示词框架放到了运算器中,它在系统中处于心脏的位置,大量的原子调用需要用到 LLM以简化编码逻辑、提高系统的整体效率和泛化能力。但是由于这样的架构设计,也就明确了这个系统并非只是一个提示词工程。因为“心脏”不可能真正理解用户的意图。  

   最后,控制器是我们要建设的核心能力,相当于整个系统的“大脑”。大脑是真正理解用户的意图,并对复杂任务做拆解,以及调度不同的执行单元来完成用户任务的过程。在控制器中,设计了评估器和决策器两个关键模块,同时做了一个数据流自闭环以及任务递归执行的设计,这是在模拟人类大脑在解决任务时的心理活动过程:评估、决策、不满意的话调整策略后重新执行,再评估,再决策是否返回结果 ……如此往复。我在《计算》这本书的第374页中曾简单的提到我构思了一个解决任务的通用框架, kOS的架构设计图可以说是这个通用任务框架的一个具体实现。  

   最终可以说,我们对于 LLM的依赖是非常薄的。我们主要通过 LLM在 LUI中完成用户对话里的意图分类,以及在运算器的位置通过 LLM提高效率。我们并不需要 LLM的逻辑推理能力,因为这是我们控制器要建设的核心能力。我们也不需要 LLM的常识,因为我们的存储器将让用户建设自己的私有知识库。  

   我们之所以作出这样的设计,一方面是我们希望构建一台通用计算机,另一方面是我们看到 LLM在使用上还存在大量的不足,这给我们留出了巨大的创新空间。事实上, LLM这种一次训练海量数据进行压缩的做法是一种速成,它离人脑的学习原理更遥远了,所付出的代价就是 LLM其实不具备任何的成长性,它的知识增长都需要重新训练更多数据,而人类的婴儿却可以从零知识开始学习这个世界,最终发育成高智慧的大脑。此外 LLM的幻觉问题从原理上思考的话,我高度怀疑其复杂度超出了当前所谓超级对齐技术能覆盖的范围,这都是 LLM拔苗助长的代价。因此我认为一个结合了神经网络存储知识的递归累积学习的结构,可能更接近人脑的智能,这是我们架构设计的基础。尽管 LLM是一种速成的幻觉智能,但 LLM的优点和任何技术进步,都将成为我们系统的增量,因为我们的架构已经站在了巨人的肩膀上。

2.2 AI精度:为什么仅有大模型是不够的?

   大模型从 2023年的年初火到了年尾,但是身为 AI领域的一线工作者,我们用实践经验体会了 AI大模型当前的实际情况是叫好不叫座。投资人往往会问 AI创业者目标市场、目标人群是谁,为什么价值付费?我想说的是,这个市场压根不存在,今天 AI的成熟度还没有成熟到用户愿意持续付费从而取得商业成功的阶段。这中间存在 AI大模型的许多体验问题,必须解决掉这些问题,才能迎来商业成熟的到来。要证明这一点很简单,如果这个市场存在,百度的文心一言、科大讯飞的讯飞星火等大模型 App已经卖爆掉然后一统天下了,但事实是并没有。  


   这恰恰也是创业者的机会所在。下面我将简述这些问题的症结在哪里,以及我们如何解决它。事实上所有的成功技术变革,都是创造和激发了新的市场,微软如此、苹果如此、 AWS和阿里云也如此。

2.2.1 大模型的幻觉问题

   LLM的首个严重问题是它一直被吐槽的幻觉问题,这直接导致了 LLM在实际生产应用上用不起来。  


   比如用户让大模型写一首李白的诗出来,然后大模型胡编了一个,用户说这不是李白的诗,你重写,大模型继续胡编乱造。在我们早期积累的 10万用户里,我们发现了大量类似的 bad case。信息的真实性是沟通中的一个至关重要的基本问题,没有人喜欢和一个满嘴谎话、不懂装懂的人沟通。尤其对于那些从来没有接触过 AI,不知 AI为何物的人,在第一次面对大模型这样的 AI时,往往会将其当作一个真实的人来进行对话,但发现不靠谱之后马上就放弃了。我们早期的用户流失率相当之高,大部分原因就是因为大模型的幻觉问题,让用户觉得 AI不可靠。  


   后来我看到一份报告,提到 ChatGPT的用户里 40%是程序员,剩下 20%是学生,我大概就明白为什么这个东西无法在全社会推开了。除了发烧友,普通人还真用不起来,玩几次过了新鲜度就不喜欢玩了。所以现在的大模型在我看来更像是一个人在睡梦里说梦话,梦话看起来像那么回事,但却经不起推敲,也时常会有常识性错误。事实上,大模型的原理和人类做梦是差不多的。我们无法把一些重要的工作寄托在一个叫不醒整天说梦话的人身上。  


   后来我做了一份对比测试,从我们的日常用户提问中匿名抽取了 100个问题,用 LLM总结来自互联网的搜索结果(不用 LLM的常识),对比 GPT-4本身的回答(用 LLM的常识),发现有 60个问题的答案两者都答对了,但剩下 30个的问题前者答对了, GPT-4完全答错了,还有 10个问题两者都没答对。前者对后者是压倒性的胜利。也基本上可以下个结论 GPT-4的对话功能由于幻觉问题,还无法代替搜索引擎这样的信息检索服务。  


   目前 LLM在解决幻觉问题上主要还是靠对齐,来源于它的提示词工程和微调,但这类技术治标不治本,无法从原理上根治幻觉问题。要想彻底解决这个问题,我认为还得从 LLM之外寻求答案。

2.2.2 大模型缺乏“精确控制”的能力

   大模型的第二个严重问题是缺乏“精确控制”的能力。在这个问题上所有的大模型全部都躺下了。  


   比如这个问题:“在《甄嬛传》这本书中,‘甄嬛’这个名字一共出现了多少次?”,或者更难一点的问题“在《甄嬛传》这本书中,一共出现了多少个女人?多少对夫妻?”,所有的大模型都无法回答。再比如,用大模型文生图画了一张图,然后跟它说“请把背景里天上的那个月亮改成紫色的”,这时候所有的大模型也都歇菜了,它们只会给你重画一张不一样的,而不会在现有图片上做细节修改。因此你看到的所有媒体宣传给出的大模型的种种“神奇演示”,他们都只敢给你看第一步的内容生成结果,而不敢给你看如果想