金出武雄和他的中国学生们计算机视觉五十载风云

来源:爱游戏app官网在线登录入口    发布时间:2024-02-01 14:41:16  提示:点击图片可以放大

  自上世纪八十年代以来,金出武雄(Takeo Kanade)一直是卡内基梅隆大学的基础。

  他发起、领导、合作了几个主要的自主移动机器人和各种应用系统,譬如该校的无人驾驶汽车(NavLab)、自主直升机(Robocopter)、计算机辅助髋关节置换手术系统(HipNav)和视频监控系统(VSAM),只要是与计算机视觉技术的相关项目,总能看到金出武雄的名字。

  但这并非关键,当他在这所学校工作了十多年后,一则所长的任职才将他的后半生拉开帷幕。

  这涉及卡内基梅隆大学的机器人研究所,能否将技术创新推向高潮。1992年,金出武雄从创始所长罗杰·瑞迪(Raj Reddy)手中接过任命函,意味着这位从日本而来最初只有研究员身份的学者,彻底被美国敞开怀抱。

  一用灯塔光环招揽全世界精英,二以本所为纽带,联合匹兹堡大学等多校学术资源开展跨学科研究,自身的技术探讨研究与人才教育培训水准从此进入全球前列。

  用金出武雄的话说:“作为机器人研究所的所长,我得到了一个机会--把研究所发展成拥有200多位研究专家、在整个世界最具盛名的机器人研究所的机会。”

  多米诺骨牌般的连锁效应一旦开启,卡内基梅隆大学的机器人研究所变成了繁华的学术中心。

  水涨船高,慢慢的变多的美国科技公司毗邻而建,投资机会和可用人才也开始增加,形成了一个生态系统。

  传言里Uber花大价钱在该校旁买下一栋楼几乎挖尽机器人研究所教授,美国通用汽车甚至啤酒制造厂这种体量的企业都与该所保持着多年合作。那些富有经济头脑的人,靠着从机器人研究所挖掘学生项目包装成公司往外卖,一夜暴富的事情隔三差五就会上演。

  纵观整个计算机视觉、机器人、AI领域的风云人物,里面一定那些有耳熟能详的名字:

  沈向洋、韩玫(平安硅谷研究院院长)、陈梅(微软云与AI首席科学家)、张冬梅(微软亚洲研究院副院长)、柯启发(Uber高级工程总监)、田英利(纽约市立大学教授)、肖京(平安集团首席科学家)、钟华(文远知行工程资深副总裁)、李岩(文远知行CTO)、康洪文(慧川智能创始人),再加上那些与金出武雄合作过的博士后、访问学者,更是不胜枚举。

  作为金出武雄的学生,他们既标志着金出武雄的过去,又和金出武雄形成了流动的对照。“学生们”的身份,俨然成了他们的一个符号,相比很多人而言他们起点颇高。

  金出武雄的人生分成了三段,前段留在了日本,中段留在了美国,现在七十多岁这段才又回到了日本。

  他三段经历都值得说道,因为归根到底都是一个主题,让计算机“看”世界。但放在20世纪60年代,这不是一件轻而易举的事情,那时的计算机处理图像速度很慢,半间屋子是计算机,另外半间是空调,用来散热,数据处理速度更是与今天不可相提并论。

  1968年,金出武雄本科毕业于京都大学工学部电气电子工学系,随后六年硕博进入该校堺实验室的“计算机化图像识别”研究小组,师从酒井敏之教授。

  金出武雄对计算机图像和声音处理与识别进行了研究。这是当时世界上最先进的研究,也引出了后来的研究课题--创建世界上第一个全面的基于计算机的面部识别程序。

  事实上,开发这样一个前所未有的面部识别程序需要很大的勇气。金出武雄曾表示过,“我不想被问到我是不是能够做到,当我进入博士课程时,使用计算机处理图像的想法慢慢的开始出现,我认为这是一种应该可行的技术。”

  可以大胆想象,金出武雄一切构想的根源都是“我想要这样”,而并不是“能不能够实现呢”,他始终抱着一种“能实现”的积极态度。

  但是,当时还没有数字图像,没有很好的方法将胶片上拍摄的照片数字化。他不得不使用标尺在纸质照片上整齐地绘制网格线,将其与标准的亮度模式进行视觉匹配,并手动对每个像素进行编号。紧接着,他又不得不在打字机上重新输入,并将其放入计算器中以创建数字图像。这是一项非常耗时的任务,可以称它为“人类数字化图像”。

  金出武雄设计了一套装置。观众在镜头前坐上3秒钟,等待面部扫描,计算机会将他/她的眼睛、脸颊大小和五官比例与当时的名流对比。作为比对基准的名人大约有5个,约翰·肯尼迪(美国前总统)、温斯顿·丘吉尔(英国前首相)、玛丽莲·梦露(美国女星)。扫描后,屏幕会显示测评结果,“您拥有一张梦露同款脸型”。

  这台装置在世博会上大获成功,金出武雄在一次演讲中回忆,约有数千人进行了扫描。但他的两位指导老师酒井敏之教授和长尾真教授(后任京都大学校长)有些遗憾,未能将所有的数据保留形成数据库。

  1970年大阪世博会上大获欢迎的人脸扫描仪装置,一名东亚老年男性被判定为“丘吉尔同款脸型”

  1977年,金出武雄出版了自己的博士论文,《Computer Recognition of Human Faces》,将基于神经网络的人脸检测技术将检测率提高到前所未有的水平。他因此收到了大多数来源于美国的采访请求,如《连线》杂志。而且这项前所未有的研究成果,经美国国家科学委员会报告验证,也变得稍稍为人所知。

  大概过了三十年后金出武雄对此表态,“我的研究生时代,还好提早拿出了漂亮的成果。”

  1980年,当金出武雄获得博士学位,并从助教成为助理教授时,随后便被罗杰·瑞迪(Raj Reddy)招聘到了美国匹兹堡的卡内基梅隆大学(CMU),担任计算机科学学院当时新成立的「机器人研究所」(CMU RI)的高级研究科学家。

  罗杰·瑞迪(Raj Reddy) (左)、酒井敏之(中),金出武雄(右)(约1990年在京都大学)

  实际上瑞迪的名声在外,他就是李开复在CMU的博士导师,该校机器人研究所的首任所长,1994年图灵奖获得者,也是美剧《生活大爆炸》中能说一口地道的印式英语的主角Raj的人物原型。

  当金出武雄来到美国两个月后,在一次项目会议上,瑞迪突然告知:“视觉是金出武雄的专长,从今天开始,他将成为首席研究员,负责DARPA(国防高级研究计划局)发起的图像理解项目。”

  通常,在美国,除非研究员编写自己的提案并获得预算,否则就没办法成为项目负责人。但当时如果瑞迪本人或CMU有任何其他人是成像方面的专家,这个机会一定不会如此轻松拿到。同时这也间接证明,瑞迪眼光毒辣,用人大胆,当初把金出武雄招来就计划让他挑起大梁。

  但要说为何金出武雄提拔如此迅速,还有一个人不可以忽视--艾伦·纽厄尔(Allen Newell)。

  纽厄尔最大的名号是人工智能的创始人物,五十年代参加了具有历史意义的会议达特茅斯会议,六十年代离开业界,正式加盟CMU,主要精力放在了筹建和发展该校的计算机科学系。刚好在长假的一天,纽厄尔来到京都大学酒井教授的实验室。当时金出武雄是一名助理教授,相当主动地向纽厄尔介绍起正在做的研究。第二天,纽厄尔要去东京参观皇居,酒井教授提议让金出武雄带他参观,促使两人的关系迅速升温。

  不过这还得说,金出武雄总是擅长把握机会和更优秀的人聊天,“我在日本的时候,要是有名字在论文或者报纸上出现过的人来,我一定会见面谈一下,这样的机会一年最多就两三回。”

  当金出武雄八十年代来到CMU,赶上了匹兹堡“锈带经济区”转型浪潮,该校机器人研究所抓住当地建立先进的技术中心的契机,鼓励师生将其优秀技术商业化运营,与英特尔、苹果、谷歌、IBM、西门子、NEC研究院的合作由此开始。

  在这样一个时期,金出武雄等一众研究员被彻底放开手脚,推动计算机视觉技术从实验室走向应用。

  事实上,无论是在日本还是美国,金出武雄都严格遵循了日本研究人员的典型道路--在同一所大学建立自己的职业生涯。

  但当周围的人问他:“你为何需要离开日本的大学去美国?”这样的一个问题一经问出便意味着,还有一部分人认为美国大学的工作是没有保障的。

  然而,金出武雄说道:“我知道美国大学拥有美妙的计算机环境,就像天堂一样,我保证在CMU待上5年,就可以做3倍于日本的研究。现在我35岁,如果加上15年,将是50岁。我想那时我不会再想任何新的事情,我的生命可以结束了。”

  金出武雄最终在这所学校待了40多年,带领出一支高水准的计算机视觉研究队伍,而他本人也成为了CMU“吉祥物”地位的中心人物。

  在美国期间,金出武雄参与了带有人工智能的摄像眼的机器人及其系统的开发等各种各样的研究。

  1981年,金出武雄与团队设计出世界上第一个直驱机械臂,包含机器人组件内的所有电机,从而消除了长传动轴。这个研究当时被多家机器人制造商使用,被公认为最先进的机械臂技术之一。

  但金出武雄的机器人梦想并不止步于此。自20世纪80年代中期以来,他发起、领导、合作了几个主要的自主移动机器人和各种应用系统,包括CMU的无人驾驶汽车(NavLab)、自主直升机(Robocopter)、计算机辅助髋关节置换手术系统(HipNav)和视频监控系统(VSAM)。

  金出武雄在卡内基梅隆大学,拍摄时间约为1985年,这年他拿到CMU终身教授职称

  就拿无人驾驶汽车(NavLab)项目来说,这是一个开创性项目,旨在开发基于视觉的无人驾驶汽车技术,包括车道保持、自动平行泊车和物体检测。

  1984年,在GPS还没有被发明的时候,金出武雄和团队在一处废弃的停车场测试了他们的第一辆无人驾驶汽车。在今天看来,当时的水准不值一提,但从那时起,在美国DARPA(国防高级研究计划局)等机构的资助和推动下,这一个项目在1995年夏天一炮而红。

  那一轰动性事件就是横穿美国的越野旅行。一辆代号为“NAVLAB 5”的小型货车从美国的东海岸驶到西海岸,它以约100公里/小时的速度从匹兹堡行驶到圣地亚哥,全程大概2849英里(约4587公里),其中自主驾驶部分达到了98.7%。

  据Navlab 5的研发成员之一,这趟旅行中乘坐NavLab 5的两名学生,迪安·波默洛(Dean Pomerleau,Navlab小组的联合主任)和托德·约赫姆(Todd Jochem,两人为师生关系)回忆:他们当时花了4个月时间完成车辆的改装和软件调试,总成本不超过2万美元。所有装备包括一台计算机、一台640×480像素的彩色照相机、GPS,以及一台光纤陀螺仪。

  最终驾驶方式是用挡风玻璃的摄像头来寻找车道线,人类负责踩油门和刹车。但这已经很棒了,为了标记这一事件,团队借鉴了1986年“携手美国” (Hands Across America)慈善活动的名称,将这次旅行称为“无手横穿美国”(NO Hands Across America)。

  值得一提的是,当时他们的GPS并不是用来定位,而是测速。托德·约赫姆说,那时GPS还没有开放高精度定位功能,若使用这种服务价格会十分高昂,同时,就算用GPS进行高精度定位,他们也没有匹配的地图。

  不过这反而开辟了无人驾驶的一套范式。当诸多无人驾驶汽车依赖于3D地图来进行环境自适应之时,不需要地图来做决策的方式,意味着可以将一辆车辆扔到一个它绝对没去过的地点,它可以通过学习人类以往的驾驶经验来进行操控,而且表现很出色。

  如今以特斯拉为代表的纯视觉方案,只靠摄像头,再加算法,来进行无人驾驶,走的就是这条路线年的庞蒂亚克运动款轿车改装的无人驾驶车NavLab 5(1995年)

  照片中的两位是CMU研究员,迪安·波默洛(Dean Pomerleau)和托德·约赫姆(Todd Jochem)

  就以拉吉·拉库马来说,此后他创办了Ottomatika公司(主攻无人驾驶软件和系统开发),2015年该公司被世界第三大汽车零部件制造商德尔福收购。到了2020年安波福(从德尔福分拆出来)和现代汽车共同出资40亿美元,成立了现在的Motional,与Lyft、Uber、Via等公司都有合作。

  21世纪之前,金出武雄已经功成名就:CMU最高荣誉Helen Whitaker讲座教授、CV领域最高荣誉之一Marr奖、美国国家航空航天局(NASA)先进技术咨询委员会顾问、美国两院院士、IEEE / ACM fellow,诸如此类......

  1992年,金出武雄从罗杰·瑞迪(Raj Reddy)手中接过了第二任所长一职,从此奠定了CMU机器人研究所的江湖地位。

  “橄榄球比赛的时候要过那条线,过去是一堆人挤在那盯着,有了那个系统之后,就是‘啪’把那个时间停住,所有摄像机都转过来看。例如,在四分卫投球的那个瞬间,和传统的单向拍摄不同,我们的摄像机一起旋转,一起拍摄投球人的方向。对于是否触底得分的微妙情况,我们大家可以自由地将视点变换360°,一目了然并做出裁决。那个效果就像电影《黑客帝国》中的‘子弹时间’镜头一样。”

  他打趣道,“EyeVision是与世界上任何人开启精彩对话的门票。”在EyeVision之前, 当他在飞机上与旁边的人交谈,会说自己是CMU从事机器人技术探讨研究的教授,仅此而已。 但是那场比赛后,当告诉别人建立了EyeVision时,所有人都说“哦,那个我知道,就是你做的啊。”那时金出武雄就会非常自豪。

  在准备安装EyeVision的工作人员的陪同下(美国佛罗里达州,2001年)

  他们是研制完全自动飞行直升飞机项目的成员,而且在图像处理、计算机系统、通信软件、电路等方面能说是专家中的专家。其中一位来自中国,如今谷歌资深软件工程师(principle level)滑蔚。管理Google Cloud AI的多个团队,也是平安硅谷研究院院长韩玫的先生。当初韩玫博士师从金出武雄(1995--2001),滑蔚从临校匹大毕业后进入金出武雄团队(1999--2001),一边等待韩玫毕业。

  不过两人的方向稍有不同,滑蔚参与了金出武雄发起的多个大型项目,如EyeVision、虚拟化现实,重点研究了多摄像头标定、图像配准、面部表情分析、视觉跟踪和模式识别等问题。韩玫选的是导师金出武雄的强项--三维重建,博士论的是经典的Structure from Motion (SfM) 方法研究。

  此后,两人几乎在2001年初同一时间拿到NEC美国实验室的offer。同期华人有龚怡宏、朱胜火、余凯、王进军、王孝宇、林元庆、徐常胜、吕凤军、杨铭、徐伟、贾扬清等等,此后他们中陆续有人回国,余凯2012年加入百度、王进军2013年跟着龚怡宏回了西安交大、王孝宇在2017年10月加入云天励飞、林元庆2017年11月创立Aibee......撑起了中国计算机视觉的半壁江山。(这段故事请看:硅谷NEC Lab往事:将中国企业拽进AI时代的人。后续本文作者吴彤将推出韩玫的个人故事。欢迎添加微信交流:icedaguniang)

  除了之前提到的韩玫,还有陈梅(微软云与AI首席科学家)、张冬梅(微软亚洲研究院副院长)、柯启发(Uber高级工程总监)、田英利(纽约市立大学教授)、肖京(平安集团首席科学家)、钟华(文远知行工程资深副总裁)、李岩(文远知行CTO)、康洪文(慧川智能创始人)等等。

  他们大多数人大都是跟着沈向洋(曾任微软全球执行副总裁,当年是视觉计算组负责人)在微软亚洲研究院(MSRA,当时还叫微软中国研究院)实习,开始对图像感兴趣,又追随着沈向洋的脚步到CMU机器人研究所,慢慢都成为了金出武雄的学生。

  1997年,柯启发来到CMU,1998年和1999年田英利、肖京也来了。

  Jeffrey Cohn是隔壁匹兹堡大学的心理学系教授,擅长微表情计算。他与金出武雄的认识却颇为有趣,据田英利所说,“巧就巧在Jeffrey Cohn的儿子和金出武雄的儿子是同学,一次约在一起做作业,Jeffrey Cohn发现金出武雄儿子用的那张草稿纸的背面,就是他爸爸做的人脸识别的演算,便直接约了金出武雄见面。”

  2001年9月11日,一场有目的的自杀式撞机事件在美国发生,其中第四架被劫持的飞机坠落在匹兹堡。当天,机器人研究所的电话响了,是美国联邦调查局(FBI)打来的。

  2001年,田英利加入IBM研究中心计算机视觉研究组,迅速将研究重心转向了视觉监控,研究怎么样自动检验测试不安全和不规则的行为并发出警报,与语音语义背景的高雨青也多有接触。如今在纽约市立大学生则和医疗走得紧密,最近正在建立一个手语视觉识别的系统,帮助那些想要学习手语的人自动判断自己的手语准确度,并在出错时给予提醒。

  同年,他在日本东京成立了“数字人类研究中心”,担任了首任主任。该中心观察,测量和模拟人类功能,以努力理解许多系统中这个最重要,但最不被理解的组成部分。2006年,他又在CMU成立“生活质量技术工程研究中心”,同样是担任首任主任。该中心由美国国家科学基金会(NSF)资助,旨在开发智能系统以帮助老年人和残疾人。

  实际上,在钟华入学之前,沈向洋就早已为他写好推荐信。虽然钟华是沈向洋在微软的第二个实习生,却是最早跟着他发展微软亚研的人,前十五号员工。当时沈向洋在微软亚研专门创立了一个“assistant researcher”的title给本科生,钟华是第一个。那么自然,在推荐信中沈向洋对他不吝赞赏。

  李岩提到,汽车是一个新的领域,也是一个能够充足表现计算机视觉和人工智能的最佳平台。无论是从手机、增强现实还是虚拟现实,它们可能都不是真正集大成的产品。钟华也没犹豫。他和李岩知根知底,两人都是清华计算机系,在微软亚研时都是沈向洋的实习生,后面都拿到沈向洋的推荐信后踏进CMU,前后脚都到了金出武雄门下。两人一拍即合。

  那会百度也在硅谷也在做无人驾驶,两拨人经常这么来往,后来不知道谁起的头,“要不咱们别这么吹了,一起干算了。”后来就创立了景驰科技。当然无人驾驶圈的争议一直都不少,说的最多的是谁跳槽谁空降谁挖人,背后牵扯一缆子事情。直到2017年,事情终于告一段落,公司改名文远知行,李岩担任CTO,钟华担任工程资深副总裁,韩旭担任CEO、吕庆担任CFO。故事回归到最应该讨论的技术轨道上。

  值得一提,在这张合照的左边,也是金出武雄的一个学生,顾烈。以前是西安交大少年班的,早年和钟华和李岩都在微软亚洲研究院共事,做的是图像和视频检索,人脸检测和对齐,2002年几人约莫着同一时间拜入金出武雄门下。毕业后顾烈去了华尔街做量化基金,那地正是全世界最聪明的量化投资者的聚集地--WorldQuant(世坤投资)。

  哈工大金融智能量化投资研究中心的罗勇曾在知乎有一段细节描述--“世坤就是全球量化界的黄埔军校,加上它背后的千禧基金(Millennium),培养出了一批顶级的Quant人才,其中就包括九坤投资的创始人王琛、合伙人姚聪,诚奇资产创始人何文奇,均投资马志宇,明汯投资创始人裘慧明等。2017年时世坤的北京分公司就已达到了月薪10万。”

  康洪文算得上是金出武雄与Martial Hebert联合培养的“关门弟子”,等到康洪文博士毕业后Martial晋升了CMU的院长。

  敏锐捕捉到当时市场的增量需求,康洪文提出了一种算法,“文字生成视频——Text to Video”,将一维文字数据自动生成三维视频数据。用户只要输入脚本文字,直接通过云端生成相应的视频内容,自动配音,并且能进行在线进行编辑和修改,同时预览、渲染、视频文件导出和下载等全部在平台云端完成。

  在过去几年中,智影服务包括了湖南卫视、芒果TV、浙江卫视等省级上星频道,这些第一批吃螃蟹的媒体,通过智影成为最早与AIGC商业化应用接触的频道。他们借助智影的工具也完成了众多在当时看来不可能的任务,包括央视2019国庆七十周年大阅兵短视频自动化生产、以及2020疫情期间湖南卫视歌手云录制。

  康洪文说,“早在2018年就与腾讯开始接触,通过两年的双方沟通和考察最终在2021年完成全现金收购。腾讯给智影的定位是‘AI视频中台’,支持内部各个业务线,如qq视频、腾讯会议。等到2022年底AIGC概念铺天盖地火起来时,腾讯突然意识到,原来买的是一个AIGC公司,累积突破千万级营收。”

  “博士论文开题就像是你的商业计划书:为什么这样的一个问题存在、为什么这样的一个问题值得解决、为什么是我能解决、我用什么方式去解决、解决这一个问题之后能够给用户和社会创造什么样的价值。开题后,进入论文的正式研究,学生需要开发新技术,和创业时候的产品研制、技术创新和迭代一样。另外学生需要学会团队合作,这就是创业时与合作伙伴、投资方的协作。最后如果幸运通过论文答辩,就等同于市场愿意买单了。”

  当今天全球各地热烈地讨论大模型、无人驾驶、AIGC、数字人、虚拟现实......憧憬着未来各种研究合作的时候,金出武雄在做什么?

  2023年的11月初,卡内基梅隆大学举行了一次盛大的计算机视觉研讨会,回顾了最近50周年来的CV发展变革。到场的不仅有金出武雄和他的诸多学生们、他大半个人生中的重要合作者,过去他从世界各地挖来的精英学者、还有如今在计算机视觉前沿的各类项目发起人。

  会议开始,所有人都安静下来,金出武雄快步走上台。台下的人身体微微前倾,大家都知道,待会金出武雄第一句话一定不会铺垫,而是直切正题。

  他有一个很重要的策略,就是“先出手中最好的牌”,无论过去在大型国际会议上的演讲,还是机器人研究所开的研讨发言,他都会从听众最关心的结论开始。

  2023年 CMU RI 开展了CV研讨会,从左到右 田英利、钟华、李岩、沈向洋、金出武雄、康洪文、韩玫

  “金出武雄的成就清单很长、种类非常之多且独一无二。”“他是计算机视觉领域的第一批研究人员。他的研究方法不受限制,与如今业界主流的模仿人类视觉特征的方法不同。”“你没法给他贴个标签,究竟是深度学习的人、还是做工程的人。未解决问题,他不限定用任何算法,不限定用任何学科,”“他是出了名的‘争强好胜’,熬一个通宵后第二天还会和学生们在球场打车轮战。”

  本文作者吴彤长期关注人工智能、医疗领域,热衷于系统完整地记录故事。欢迎同道微信交流,icedagunian

  人工智能与机器人研究国际期刊(IJAIRR)正式成立,着重关注AI、机器人及基础科学交叉学科丨 GAIR 2023

  港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

  2023 IJCAI YES 青年精英学术大会圆满落幕,三人荣获“学术新星”