本字幕由TME AI技术生成
嗯
在那个夏天
谷歌大脑的团队已经扩展到十几名研究人员
他们搬进了一栋大楼
该大楼与拉里佩奇和其他高管团队所在的大楼隔着一个院子
辛顿认识其中一位名叫马克
奥雷利
奥兰扎托markaralioranzsattle给研究人员
他曾是多伦多大学的博士后
他还对接夫
迪恩因相声克
他把迪恩比作巴恩斯
沃里斯barrenswallace
后者是因国警点赞真电影窥霸者thedambusters中描绘的一位二零世纪的科学家和发明家
在影片中
沃利斯向一名政府官员索要一架惠灵顿轰炸机十三
他需要一种测试炸弹在水面弹跳的方法
这是一个看似荒谬的想法
没有人认为会奏效
这位官员拒绝了
解释说正在打仗
惠灵顿轰炸机很难找到
这位官员说他们的价值甚至超过同等重量的黄金
但当沃利斯透露是他设计了惠灵顿轰炸机时
这位官员终于给了他想要的东西
在辛顿进行暑期实习期间
有一个项目遭遇了谷歌对可用计算能力的限制
于是研究人员告诉杰夫
迪恩
迪恩又订购了价值两百万美元的设备
是他创建了谷歌的基础设施
这意味着他可以在他认为合适的时候使用
辛顿说
他打造了一种可以让谷歌大脑的团队运作起来的机制
我们不用担心其他任何事情
如果你需要什么
你找迪恩
他就能给你
辛顿认为迪恩的奇怪之处在于
与大多数如此聪明
如此强大的人不用
他不是自我驱动型的
但总是愿意合作
星顿把它比作埃萨克
牛顿只不过
牛顿是个混蛋
大多数聪明人
比如牛顿这样的人都会记仇
杰夫
迪恩的个性中似乎没有那种元素
具有讽刺意味的是
实验室的方法完全错了
他们使用了错误的计算能力
他且运行了错误的神经网络
纳夫 迪普
贾特律的语音系统是在GPU芯片上成功训练出来的
然而迪恩和谷歌大脑的其他创始人是在支撑谷歌全球数据中心网络的机器上训练系统的
这些机器使用了成千上万个CPU
这种芯片是计算机的核心
而不是GPU
十四
赛巴斯蒂安
特隆曾游说谷歌的基础设施主管在其数据中心内安装配备GPU的机器
但遭到了拒绝
理由是这将使该公司的数据中心运营复杂化
并推高成本
当杰夫
迪恩和他的团队在一次大型人工智能会议上展示他们的方法值
当时还是蒙特利尔大学学生的伊恩
古德
费洛就从观众席的座位上站起来
斥责他们没有使用GPU
尽管他很快就会后悔自己如此轻率的公开批评杰夫
迪恩
当时我不知道他是谁
古德 费洛说
而现在
我有点崇拜他了
那个被称为diisbelief的系统也运行了错误的神经网络
通常研究人员必须先给每幅图像贴上标签
然后才能帮助训练神经网络
他们必须将每只猫识别为一只猫
并在每只动物周围画一个数字边界框
但是谷歌的小猫论文详细介绍了一个系统
该系统可以学习从未标记的原始图像中识别猫和其他物体
尽管迪恩和他的合作者展示了他们可以在不标记图像的情况下训练一个系统
但事实证明
如果给神经网络的数据是被标记过的
系统就会更加准确
可靠和高效
那年秋天
辛顿在谷歌短暂实习后回到多伦多大学
他和他的两名学生非常清楚的证明了谷歌走错了路线
于是他们创建了一个系统
这个系统可以分析标记过的图像
并学会识别物体
其准确度远远超过任何人以前打造的任何技术
这表明
当人类将其指向正确的方向时
机器的效率会更高
如果有人给神经网络指明猫的确切位置
神经网络就会以更加强大的方式进行学习
二零一二年春天
杰夫
辛顿打电话给加州大学伯克利分校的教授及腾格拉
玛利克
后者曾公开抨击过吴恩达的一个观点
深度学习是计算机视觉的未来
尽管深度学习在语音识别上取得了成功
但玛利克和他的同事质疑这项技术能否掌握识别图像的艺术
因为玛利克通常把陌生来电当做试图向他推销东西的推销员打来的
所以他能接起辛顿的电话倒是令人惊讶
电话接通后
辛顿说
我听说你不喜欢深度学习
玛利克说
是的
当辛顿问及原因时
玛利克说
任何关于深度学习在计算机视觉方面可能优于其他任何技术的说法
都缺乏科学证据支持
辛顿指出
最近的论文表明
深度学习在多个基准测试中识别物体的效果都很好
玛利克说
这些数据集太陈旧了
没人关心他们
这无法说服任何一个与你的意识形态偏好不一致的人
他说
辛顿于是问
怎样才能说服他
起初
玛利克说
深度学习必须掌握一个名为pascal的欧洲数据集
pasce的体量太小了
辛顿告诉他
要让系统有效
我们需要大量的训练数据
imagenenet何何马利克答应了
imagenet进是是一年度度赛
尤斯坦福大学的一间室验室举办
那克立方位位伯克利南约斯十英里十五
该实验室已经汇编了一个巨大的数据库
里面有被精心标记的照片
从小狗
鲜花到汽车
不一而足
全球的研究人员每年都在竞争中打造系统
鄙视哪个系统能够识别出最多的图像
星顿认为
如果能在imagenet竞赛中脱颖而出
他就肯顶会赢得着场征论
他没有告诉玛利克的是
他的实验室已经在为即将到来的比赛打造一个神经网络
多亏了他的两名学生
伊利亚
萨特斯基弗和亚里克斯
克里泽夫斯基
这个系统快要完工了
萨特斯基夫和克里泽夫斯基是人工智能研究国际化的典型代表
两人都出生在苏联
随后移居以色列
在之后到了加拿大多伦多
但除此之外
他们之间的差异很大
野心勃勃
略显急躁
甚至爱出风头的萨特斯基夫早在九年前就敲开了辛顿办公室的大门
当时他还是多伦多大学的本科生
他通过在当地一家快餐店炸薯条来挣外快
当门打开时
他立立即抄着短促的东欧口音问他能否加入辛顿的深度学习实验室
你为什么不约个时间
这样我们可以谈谈
辛顿说
好的
萨特斯基弗说
现在怎么样
于是辛顿邀请他进来
萨特
斯基福是一名数学系的学生
在那几分钟里
他看起来像一个敏锐的人
辛顿给了他一篇反向传播论文的复印件
这份论文在二十五年前揭示了深层神经网络的潜力
并告诉他读完之后再回来
几天后 萨特
斯基弗回来了
我不明白
他说
这只是基本的微积分
辛顿说
他既惊讶又失望
哦 不是的
我不明白的是
你为什么不求导
并采用一个合理的函数优化器
我花了五年时间才想到这一点
辛顿对自己说
于是他递给这名二十一岁的学生第二篇论文
一周后 萨特
斯基弗又回来了
我不明白
他说
为什么呢
你训练一个神经网络来解决一个问题
然后如果你想解决一个不同的问题
你又就要用另一个神经网络重新开始
继续训练它来解决一个不同的问题
其实
你应该训练一个神经网络来解决所有的问题
辛顿意识到萨特
斯基弗有一种得出结论的方法
即使经验丰富的研究人员
也需要花数年时间才能得到这些结论
于是辛顿邀请他加入自己的实验室
当他刚刚加入时
他的受教育水平远远落后于其他学生
辛顿认为可能落后了几年
但他在几周之内就赶上了
辛顿把他视为自己教过的唯一一个比自己有更多好想法的学生
而萨特
斯基福
他总是把自己的黑发剪得很短
似乎总是愁眉苦脸
并以一种近乎疯狂的能量去尝试这些想法
当一些伟大的想法出现时
他会在与乔治
达尔合租的多伦多大学公寓的中央
用倒立俯卧撑的方式来强调这一时刻
成功有保障了他会说
二零一零年
在阅读了瑞士的与尔根斯米德
胡贝的实验室发表的一篇论文后
他和其他几位研究人员站在走廊里宣布神经网络将解决计算机视觉问题
并坚称这仅仅是由谁去做这项工作的问题
清顿和萨特斯基夫这些有想法的人看到了神经网络要如何在imagenet竞赛中胜出
但他们需要亚里克斯
克里泽夫斯基的技能才能实现
言简意赅且腼腆的克里泽夫斯基并不赞成这个伟大的想法
但他是一位非常有才华的软件工程师
拥有创建神经网络的诀窍
依靠经验
直觉和一点运气
像克里泽夫斯基这样的研究人员
通过反复试验打造这些系统
通过几个小时甚至几天的计算机计算
他们努力从中得到一个结果
而这些计算是他们永远无法自行完成的
他们将微小的数学运算工作分配给数十个数字神经元
将数千张小狗的照片输入这个人工神经网络
并希望经过数小时的计算
他能学会识别小狗
如果没有成功
他们就调整数学公式
然后一次又一次的尝试
直到成功
科里泽夫斯基是一些人口中的黑暗艺术大式
但更重要的是
至少在目前
他有办法从一台装有GPU芯片的机器中炸出最后一点速度
而GPU芯片仍然是一种不寻常的计算机硬件
他非常擅长神经网络研究
辛顿说
但他也是一位了不起的软件工程师
在萨特斯基夫提到imagenet竞赛之前
克里泽夫斯基盛至没有听说过他
在了解这个计划的内容之后
他也不像是厌石伙伴那样对他的可能性充满热情
萨特斯基福花了几周时间修改数据
这样处理起来就会特别容易
而辛顿告诉克里泽夫斯基
每次将神经网络的性能提高百分之一
他就可以有额外的一周时间来写他的深度论文
这是一个全校知名的项目
已经晚了几周
那是个玩笑
克里泽夫斯基说
他可能以为这是个玩笑
但并非如此
辛顿说
克里泽夫斯基仍然跟父母住在一起
他在卧室的计算机上训练他的神经网络
几周过去了
他从机器的两个GPU显卡中挖掘了越来越多的性能
这意味着他可以将越来来越的数数据输入他的神经络络
新顿常常多伦多大学甚至都不用支付电费
每周
克里泽夫斯基都会启动训练
随着时间的推移
在他卧室计算机的屏幕上
他可以看到训练元代展
黑色的屏幕上写满了网上技术的白色数字
一周之后
他用一组新的图像测试该系统
但是没有达到目标
所以他修改GPU代码
并调整神经元的权重
然后再训练一周
再一周 每周
星顿都会在他的实验室里监督学生们的聚会
这些聚会就像贵格会的教友聚会一样
大家只是坐在那里
直到有人决定畅所欲言
分享他们正在做的工作和看到的进展
克里泽夫斯基很少说话
但是当辛顿让他说出训练结果时
房间里爆发出一种真正的兴奋感
每周他都会试图让亚历克斯
克里泽夫斯基多说一点
他知道这有多么了不起
亚历克斯
格雷夫斯回忆道
他是那些年实验室里的另一名成员
到了秋天
克里泽夫斯基的神经网络已经超过了当时最先进的技术水平
他的精确度几乎达到了全世界第二好的系统的两倍
十六
他赢得了imagenet竞赛
克里泽夫斯基
萨特斯基弗和辛顿接着发表了一篇论文来描述他们的系统
后来被命名为alexnet
克里泽夫斯基时约定在以大利佛罗伦萨举行的计算机师学会议上功布料这篇论文
面对一百多名研究人员
他用典型的柔和且近乎带有歉意的语气描述了这个项目
当他发言结束时
会场里爆发出一些争论
一位名叫阿列克谢
埃弗罗斯alexcirose的家州大学博克里芬肖教授从会场前排着座位上站起来
告诉会场里的其他人
imagenet竞赛不是一种可靠的计算机视觉测试
它不像真实世界
他说
其中可能包括数百张t恤的照片
alexnet可能已经学会了时别这些t恤
但这些t恤是整齐的摆放在桌子上的
没有一丝皱纹
不是穿在真人身上的
也许你可以在亚马逊的目录中检测到这些t恤
但这无助于你检测真实世界里的t恤
埃弗罗斯在伯克利分校的同事吉滕德拉
玛利克曾告诉辛顿
如果一个神经网络能赢得imagenet竞赛
那么这将改变他对深度学习的看法
玛利克说他对此印象深刻
但在这项技术被应用于其他数据集之前
他不会给出自己的判断
克里泽夫斯基没有机会为自己的工作辩护
辩护工作是由杨丽坤来承担的
他站出来说
这是计算机视觉历史上一个明确的转折点
这就是证据
他的身声音从房间的另一头传来
它是对的
在面对多年来对神经网络未来的怀疑之后
事实证明它是正确的
在赢得imagenet竞赛的过程中
辛顿和他的学生们使用了杨丽坤在二十世纪八十年代后弃创新成果的一个修改版本
卷积神经网络
但对杨丽坤实验室的一些学生来说
这也是一种失落
在辛顿和他的学生们发表了alexnet的论文之后
杨丽坤的学生们感到一种生深得以寒降临在他们的实验室
一种感觉
经过三十年的奋斗
他们跌跌撞撞的走到了最后一关
多伦多大学的学生比纽约大学的学生行动更快
杨丽坤在当天晚上讨论这篇论文时
这样对埃弗罗斯和玛利克说
在随后的几年里
辛顿将深度学习比作大陆漂移理论
阿弗雷的魏格纳affredwagener第一次提出这个理论是在意就易二年十七
几十年来
这个理论不断的被地质学界驳回
部分原因是魏格纳不是地质学家
辛顿说
魏格纳有证据
但他是一名气候学家
不是我们中的一员
所以他被嘲笑了
神经网络的情况也是如此
有大量的证据表明
神经网络可以在各种各样的任务中取得成功
但他被忽视了
如果你从随机权重开始
且拥有大量的数据
那么你会实现所有这些美妙的结果
要我们相信这个
简直是太过分了
你做梦去吧
一厢情愿
最终
阿尔弗雷德
维格纳被证明是正确的
但是他没有活到享受被认可的那一刻
他死于去格林兰探险的途中
在深度学习领域没有活到见证这一刻的先驱是戴维
鲁梅尔哈特
在二十世纪九十年代
他患上了一种叫皮克病的大脑退行性疾病
这种疾病开始破坏他的判断力
十八在被确诊之前
他在一段漫长而幸福的婚姻后与妻子离婚
并为了另一段不太幸福的婚姻而辞职
他最终搬到了密歇根州
他的哥哥在那里照顾他
他与二零一一年去世
比alexnet出现的时间早了一年
如果还活着
辛顿说他会是一位重要人物
alexnet的论文成逻辑算计科学史上最有影响力的论文之一
被其他科学家引用超过六万次
辛顿常常说
这篇论文被引用的次数至少比他父亲写过的任何一篇论文都多五点九万次
但是谁会数呢
他会问
alexnet不仅是深度学习的转折点
也是全球科技行业的转折点
他表明神经网络可以在多个领域取得成功
不仅仅是语音识别
而GPU对于这一成功至关重要
他改变了软件和硬件市场
在百度认识到其重要性后
深度学习研究员余凯向李彦宏解释了这一时刻
在邓丽赢得时任执行副总裁陆奇的支持后
微软也认识到了
谷歌同样如此
正是在这个关键时刻
星顿创建了DNNresearch公司
那年十二月
他们在太皓湖酒店的房间里以四四百万美元的价格拍卖了这家公司
在分配收益的时候
星顿的计划一直是三人评分
但辛顿的两名研究生告诉他
他应该得到更大的份额
百分之四十
你们这是在放弃一大笔钱
他告诉两名学生
你们先回房间睡觉去吧
第二天早上回来时
他们依然坚持要辛顿拿更大的份额
这体现了他们是什么样的人
辛顿说
但没有体现出我是什么样的人
记得点赞关注哦