The Bitter Lesson是Sutton在2019年发布的一篇文章。文章指出“充分运用计算量的方法终能胜出”,“在通用方法中,学习(learning)和搜索(search)是两种能随著计算力增长发挥更强能力的方法。”
过去GPT系列模型的成功已经体现了learning的规模效应。近来openai发布的o1模型是The Bitter Lesson思想的又一实践,我认为它体现了search在大规模数据合成方面的作用。
The Bitter Lesson笔记
能充分利用算力的通用方法最终是更有效的。根本原因在于摩尔定律,以及计算代价的指数下降。大多数AI研究限制可用的计算量为一常数,从而公平比较不同方法。在这一前提下,一般越多引入人类见解效果越好。但是长期来看,随著计算成本的下降,能够充分利用算力的通用方法终能胜出;而过多引入人类知识,使模型复杂化,不能适应算力增长的方法终究会落后。
一些例子:1997年,许多研究人员沮丧地看到,那个击败了国际象棋冠军的算法是基于“暴力搜索”的,而非基于人类的象棋知识。类似的,在围棋领域,当计算量上来以后,那些依赖人类知识减少搜索,利用游戏的特殊特征的方法就失去优势。这时通过自我博弈(self-play)学习价值函数的方法也显示出重要性,体现出学习和搜索是能够充分利用大规模算力的两种方法。20世纪七十年代,基于统计学和大规模计算的隐马尔科夫模型主导了语音识别领域。后来深度学习推动了语音识别效果,又再次印证了这一规律。在计算机视觉领域,人们早期构造和识别各种人造特征,例如SIFT特征。但现在人们基本已经淘汰了这些方法。用简单的基于卷积的模型就能表现得更好。
即使是现在,人们还是经常犯同样的错误,试图在方法中加入更多人类知识和规则。这样做短期有用,但随著算力的增长,总是会有能充分利用算力的通用方法出现,从而改变局面。
Sutton还认为人类的心智是无比复杂的,其内容规模是巨大的,不能用简单的方法去解释。世界的复杂度是无穷的,我们应该寻找一种元方法来发现和建模任意的复杂度,去自己寻找对世界的一个良好的近似,而不是仅仅灌输人类认识到的规律。
读后感
The Bitter Lesson指出的一些规律在文章发布后还一直起著作用。犹记得CLIP和SAM这些文章发布后,我的研究生导师抱怨著这对现在的工作有著多么重要的影响,研究方式要改变,许多已有的工作变得不再重要了……大模型的出现尤其如此,颠覆了许多旧的工作方式。这样的颠覆对大家来说常常是带来困扰的,因为超大算力往往是大公司、大实验室才能拥有,而小实验室、小公司或者个人只能做些低成本的工作。
O1的发布也许意味著OpenAI在探索如何大规模利用合成数据。许多人认为O1的推理能力提升意味著我们距离AGI(通用人工智能)又近了一步。
我乐观的认为,一方面,大模型的发展速度很快,但短期内我们还是可以通过在其中引入一些人类规则或者外部工具来提升它的能力;另一方面,目测O1的推理能力虽然很强,但代价也很高。推理能力也不是目前大模型距离AGI的最后一道鸿沟,例如持续学习能力、感知外界事物的能力等等都还是现有大模型的短板。最后,目前大模型的训练方式是低效率的,几乎用上了世界上所有的文本,消耗昂贵的电力——而人类从婴儿到成人十八年所学习的材料应该堆不满一间屋子。我想如何实现更高效率的学习这一问题值得思考。总的来讲,我们还是有很多事情可以做,有很多事情值得期待。