我用过非常多的笔记软件、读书软件、rss软件、稍后阅读软件,有的是因为软件越来越复杂,有的是因为停止更新了,还有的是收费政策发生了变化,总是,我在积累自己知识库的过程中,这些软件不断的更换。所以,当chatgpt出现之后,我的第一个反应是,AI能为个人知识库做些什么?
明确个人知识库的定义
一定要为个人知识库做个定义,那就只有这个词了:第二大脑。
解释起来也很好理解:存储和理解知识。
存储的意思:像电脑硬盘一样,可以装载无数的知识(硬盘便宜)。
理解的意思:可以通过AI来简单理解这些知识。
当然这只是字面意思,在我看来,随着AI的到来,我们学习的知识结构和学习方式已经发生了变化。
知识结构
通识不再有意义,因为每个人都可以随身带着第二大脑,除了一些特殊岗位有可能需要学习这些,我很难想想还有什么必要去学习一些通识。真正要学习的是原理性的东西,例如勾股定律,二八原则,马太效应等等,这类原理性的知识,将会帮助我们来做决策。
假设人生就是不断的去做选择,那做选择时,最重要的就是:目标、思维模式、信息;假设信息都是公开获取到的,例如AI都能获取到,那做选择的关键就在于思维模式了。而思维模式,就是不同的原理甚至原理的组合,所以,如何从越来越多的信息中总结出来规律,再利用这些规律,结合之前已经学会的规律帮助自己做决策,将成为作对选择的关键。
学习方式
填鸭式的教学将随着第二大脑与人类大脑接入的亲密性而越来越没有意义。设想一下,当第二大脑随时对滴访问的时候,为什么还需要用填鸭式的方式来学习没有什么意义的知识呢(防止抬杠,这里说的没有意义的知识,泛指除了基础知识之外的哪些初高中的学科知识)?
有了第二大脑,我们更需要的是在某一方面超越第二大脑的智力水平,也就是要在某个领域或技能方面,超越AI。只有这样,我们才能判断出来,AI在这个领域的回答,是否有效。
所以,基于兴趣的主动学习,才是最有效的。我们在这里做个假设,从小学开始,成为一个博士,需要22年;有了AI的加持,只保留主要领域的学习,可能只需要5-10年,就能成为一个博士,在某一方面成为超越AI的存在。那一个人十几岁的时候,就可以拥有以前30岁左右的才华,这将对众多需要科研人才的科学,产生非常大的影响,1)可以拥有年轻+精力充沛的科研人才;2)这些科研人才投入工作的周期将延长10多年。这么说可能不直观,让我们举一个具象的例子,假如,爱因斯坦提前10年发明了相对论,寿命又延长了10年,会对这个世界产生什么影响呢?放开你的想象力,好好琢磨琢磨。
基于AI的知识库的可行性方案
聊了点没用的废话,现在开始步入正题,如何打造基于AI的知识库?
方案一:基于向量数据库+chatgpt
4月14日,openAI的cookbook更新了一条内容,大意是说,基于向量索引库和chatgpt的内容质量要略高于自己微调语言模型的方案。
所以,大概率可以用类似gpt_index这样的开源方案+chatgpt解决这个问题,大致的原理:
- 把知识库的文档向量化,并创建索引;
- 提问时,找出相关性的文档,并截取相关性高的文字(可以按照一定的权重来进行搜索排序和截取内容);
- 讲这些文字用prompt包装后,通过api提交给chatgpt;
- 给出回答;
这个方案的问题在于:AI并不是真的理解了全部文档,只是理解了你通过prompt提交的这些相关内容,然后给出的回答。官方的看法是:
Below are a few more examples of the system in action. Feel free to try your own questions, and see how it does. In general, search-based systems do best on questions that have a simple lookup, and worst on questions that require multiple partial sources to be combined and reasoned about.
(翻译:下面是系统运行的更多示例。随意尝试自己的问题,看看效果如何。一般来说,基于搜索的系统在具有简单查找的问题上表现最好,而在需要组合和推理多个部分来源的问题上表现最差。)
但是,这个方案省钱,而且可以快速用起来。
方案二:自己训练或微调
目前开源的大型语言模型,评价比较高的是facebook泄露的以及清华大学的,基于这两个大型语言模型,再加上准备的语料库,就可以进行训练了。只不过,需要花钱买算力,而且结果也不可知,需要不断的“训练-测试-微调”这样的循环。
除了费钱,最大的优点就是效果会好一点(没有试过,只是猜测)。
测试
准备把第一个方案流程再细化一点,搭建一个这样的方案试试,可能解决不了什么大的问题,但如果能解决一些小的问题,也算是给大脑减负了。活了这么多年了,也让大脑放松一下,看点乱七八糟的。