算法,还是数据
2006 年,计算机视觉研究仍然是一个缺乏资金,且很少收到外界关注的学科。许多研究人员专注于构建更好的算法。他们坚信,算法是计算机视觉的中心,如果把机器智能与生物智能做类比,那么算法就相当于机器的突触,或者说是大脑中错综复杂的神经回路。有什么比让这些回路变得更好、更快、更强大还要重要的呢?
但李飞飞并不这么认为。彼时,她刚刚获得加州理工大学的博士学位,在伊利诺伊大学厄巴纳-香槟分校担任助理教授的职位。在攻读博士期间,李飞飞意识到了这种研究思路的局限性:如果训练算法的数据不能很好地反映现实世界,那么即使是最好的算法也无法很好地完成工作。
李飞飞的想法是:构建一个能够完全反映真实世界的数据集。
在一个偶然的机会中,李飞飞结识了语言学家克里斯蒂安·费尔鲍姆,WordNet 项目的领导者。费尔鲍姆向李飞飞介绍了 WordNet —— 由心理学和认知科学领域的先驱乔治·阿米蒂奇·米勒创立的项目。米勒在心理学研究中对语言的结构及其在人类认知过程中的所扮演的角色产生了浓厚的兴趣,设想在更大规模上描绘出语言的结构图。
WordNet 的设计理念是基于语义关联而非拼写相似性,例如,“apple”(苹果)与“appliance”(器具)虽拼写接近,但在 WordNet 中,“apple”会与“food”(食物)、“fruit”(水果)、“tree”(树)等相关词汇形成关联。这样构建的词汇网络,就像一幅庞大的地图,将人类语言中的概念连接成一个有机整体。
自1985年诞生起,WordNet 已经发展成为一个庞大的数据库,包含超过14万个英文单词,并且还在不断扩展至其他语言。
在交谈中,费尔鲍姆提及了一个计划,旨在通过视觉示例,如照片或图表,来阐释WordNet 中的每一个概念。尽管这个计划最终未能实现,但它激发了李飞飞的兴趣,成为了后来 ImageNet项目的灵感来源。
几个月后,李飞飞回到了她的母校普林斯顿大学,并在2007年初启动了ImageNet项目。ImageNet的宏伟目标是为每个类别收集1000张独特的图片,从小提琴到德国牧羊犬,再到抱枕,涵盖了22000个类别,总计需要约2000万张图片。这个数字仅代表最终数据库的规模,实际上,团队可能需要从数亿甚至十亿张图片中进行筛选。
起初,李飞飞采用的策略是支付本科生每小时10美元的报酬,手动搜索并添加图片到数据库。但她很快意识到,以这种方式收集图片,完成整个项目需要19年的时间。
随后,李飞飞和她的团队考虑使用机器辅助人工标注,但这引发了一个悖论:如果机器能够准确识别物体并协助标注,那么ImageNet本身就变得多余了。
更重要的是,对自动化标注过程的反对不仅仅是技术上的问题,而是哲学上的考量。ImageNet的使命是在每张图片中嵌入纯粹的人类感知,以期在整个图像集上训练出的计算机视觉模型能够展现出类似人类的智慧。使用机器可能会削弱这一目标。
在一次偶遇的走廊对话中,一个最终的解决方案诞生了。一位名叫孙民的研究生向李飞飞介绍了亚马逊土耳其机器人(Amazon Mechanical Turk),这是一个允许全球用户通过完成小型在线任务来赚取报酬的众包平台。
亚马逊土耳其机器人彻底改变了游戏规则,将原本的大学生标注团队转变为一个由数十、数百、甚至数千人组成的国际团队。随着支持的不断扩大,ImageNet的预计完成时间大幅缩短,极大地提高了项目的成本效益。在ImageNet发展的高峰期,李飞飞的团队成为了土耳其机器人平台上最大的雇主之一。
2009年6月,ImageNet的初始版本正式发布,收录了1500万张图片,覆盖了22000个不同类别。这些图片从近10亿张候选图片中筛选出,并由来自167个国家的近5万名贡献者进行标注。每张图片都经过了手工标注,并在层次结构中进行了组织,经过三重验证,ImageNet成为了世界上最大的图像标记数据集。
尽管如此,ImageNet并没有立即在计算机视觉领域引起轰动。在2009年的计算机视觉与模式识别大会上,ImageNet仅以海报形式展示,只能在会场的指定区域展示项目摘要,希望能吸引过路人的注意。在那次大会上,ImageNet的影响力微乎其微,学界对其实际价值仍持怀疑态度。
转折点
2010年,为了提升 ImageNet的名气,李飞飞举办了ImageNet 大规模视觉识别挑战赛(ILSVRC)。参赛者需要在经过精简的1000 个ImageNet 类别列表、140万张图片中训练自己的算法。最后用一组算法从未见过的图像对其进行测试,评估算法对图像标注的准确率,以此计算排名,总错误率最低的算法胜出。
然而,现实却与李飞飞团队的期望背道而驰。获胜算法来自一个由 NEC 实验室、罗格斯大学和伊利诺伊大学的研究人员组成的联合团队。他们采用的是支持向量机算法——此前被李飞飞认为无法驾驭ImageNet 的一种算法。
事实上,支持向量机算法在那几年非常流行,到 2010 年,它似乎已经成为物体识别的实际标准。这种算法的表现确实可圈可点,不过,与计算机视觉领域其他方面的前沿工作相比,这些算法只能算略有改进,很难说开启了新的时代。
2011 年,ImageNet 大规模视觉识别挑战赛的获胜者是法国施乐研究中心,他们也采用了一种支持向量机算法,识别表现虽然比前一年有所提高,但也只是将准确率提高了 2 个百分点左右。
虽然大多数算法都难以应对 ImageNet,但支持向量机比她想象的要强大,它为参赛者提供了安全的避风港。由于一直没有什么实质性上的突破,ImageNet大赛的参赛人数开始出现急剧下降:报名人数从 150 人减少到 96 人,参赛算法也从 35 个减少到15 个,愿意为此付出努力的人似乎越来越少。
转折点发生在 2012 年。
2012年 9 月30 日,一个名为 AlexNet 的算法成为了新一届ImageNet 大规模视觉识别挑战赛的冠军。
但AlexNet 与之前几届冠军有着明显的区别,它的识别准确率高达 85%,比上一年的冠军高出 10 个百分点,创造了计算机视觉识别领域的世界纪录。虽然这个算法还没有达到人类的水平,但已经比其他任何算法都更加接近,而且差距已经小到惊人。
更令人惊讶的是,AlexNet 采用的算法是计算机视觉领域的老古董——神经网络算法。到了21世纪初,大多数科学家已经把神经网络看成是尘封已久的艺术品,包裹在玻璃罩中,四周用天鹅绒绳索保护,闲人勿近。
AlexNet 是卷积神经网络(Convolutional Neural Network,CNN)的一个实例。卷积神经网络的叫法源于图形卷积过程。在这个过程中,一系列滤波器在图像上扫过,寻找与网络所识别事物相对应的特征。
这是一种独特的有机设计,灵感来自休伯尔和威塞尔对哺乳动物视觉系统的观察,即视觉处理在多个层次上进行。就像在自然界中一样,卷积神经网络的每一层都会逐渐整合更多的细节信息,从而形成越来越高层次的感知,最终将真实世界的物体完整地呈现在我们的视野中。
这样就形成了一种类似视网膜的算法,凝视着周围的环境。就像真正的眼睛一样,算法的最外层把成千上万个感受野应用于图片的像素,每个感受野都经过特定调整,能够识别出独特的微小图案,并在遇到这种图案时被激活,比如以一定角度倾斜的对角线边缘、两种色调之间的模糊混合、条纹图案或明暗交替等等。
在这种感知水平上,滤波器可以对任何事物做出反应,比如小狗皮毛的图案、厨房柜台的边缘,或者阳光下玫瑰花瓣轮廓上的闪光。
研究团队没有预先决定网络应该寻找哪些特征,而是让数十万个神经元在没有人工干预的情况下,完全依靠训练数据逐渐学习到自己的敏感度。AlexNet 就像生物智能一样,也是自身所处环境的自然产物。
接下来,来自成千上万个感受野的信号会深入神经网络,汇聚融合成更加丰富、清晰的提示信息。最终,经过各层过滤后,仅剩下少数几个信号被融合成识别对 象的详细图像,进入网络的最后阶段:识别阶段。摩托车、豹子、算盘、母鸡、电视机,或是其他上千种选择中的任何一个。所有这些都来自同一种算法,其精确度越来越接近人类水平。
神经网络的世界
AlexNet 的成功,催生了新一代神经网络的热潮,每年都取得令人惊叹的飞跃。像任何占主导地位的生物一样,这种新型神经网络几乎垄断了它们所处的环境。它们是如此有效而优雅,适用范围又如此之广,几乎所有其他技术都在一夜之间被淘汰出局。
很快,AlexNet 被更强大的卷积神经网络(CNN)取代。微软亚洲研究院在 2015 年击败了 AlexNet,成为ImageNet大赛的获胜者。
此前,支持向量机等算法还是学术界的宠儿、研究人员的迷恋对象,而 AlexNet 诞生后,这些算法几乎从会议讲座、发表的文章甚至实验室里的谈话中消声遗迹了,所有人都只想谈论神经网络的最新发展。
自 2009 年 ImageNet 数据集在计算机视觉与模式识别大会首次亮相以来,五年多时间里,ImageNet 挑战赛已经发展成为计算机视觉领域的基础赛事,为该领域的技术进步提供了共同的基准。每年都有新的进展,机器表现与人类表现之间的差距不断缩小。机器的误差率越来越小,越来越接近人类的水平,甚至正在超过人类的水平。
人类的能力维度是丰富多样的,远非任何单一指标所能衡量。但人类的缺点和优点一样具有启发性。例如,人类可以用各种常识、视觉线索和直觉来解释为什么自己认为附近树上的鸟是沿海蓝鸦,在这方面,人类比机器做得更好。但人类识别鸟类的能力是非常有限的,即使是经验丰富的鸟类观察者,也很少能识别出几百种以上的鸟类。因此,对普通的观察者来说,绝大多数鸟类是未知的。
在一般物体分类方面,计算机已与人类水平相差无几。当人工智能努力克服相差的最后几个百分点时,它似乎又在其他方面超越了我们,而且超越幅度极大,因为计算机在知识储存方面的能力让人类大脑望尘莫及。
但人工智能技术的发展远比人们预想中的快,一种称为 Transformer 的新型机器学习模型成为自 2012 年的 AlexNet 以来神经网络设计中最大的进化飞跃。Transformer 具备了所有让大型语言模型成为可能的必要特性:规模庞大,通过处理大量并行数据块来加速训练,并拥有极其复杂的注意力机制。
不管怎么看,Transformer 都是一个里程碑,甚至可以说是一个转折点;它一经发布,就立刻展示出了惊人的能力,甚至连其背后的专家们都感到震惊,而这些进展至今都没有放缓。
可以肯定的是,基于 Transformer 的大型语言生成模型再次展现了大规模数据的力量。AlexNet 首次亮相时,网络参数为 6000 万个,刚好足以对 ImageNet 数据集进行合理解释,至少可以解释部分子集。相比之下,Transformer的参数已经增长到数千亿个,足以利用文本、照片、视频等形式的数据进行训练。这无疑带来了无尽的工程挑战,但其中所体现的科学性却出奇的优雅。
可以确定的是,高质量数据正在变得前所未有的重要,也变得越来越珍贵。谷歌、Facebook和亚马逊等一众科技巨头已将开始根据在其平台上输入和共享的数百万张图像、语音剪辑和文本片段创建自己的内部数据集。
2023年4月,拥有超 7600 万用户的社交网站 Reddit 宣布不再允许其他公司免费抓取其网站。多年以来,Reddit 被谷歌、微软等公司用作机器学习的重要数据来源。故事的另一边,OpenAI 正与全球数千家媒体以及几十家出版商就其作品授权进行谈判,用来训练其人工智能模型。
ImageNet 在人工智能领域改变的一件事是,它让人们意识到,创建高质量的数据集是人工智能研究的核心,尽管这项工作往往不为人所知,这种认识的转变标志着数据在人工智能发展中的起到的关键作用。