CVPR2010 旧金山游记

Table of Contents

④ 八方诸侯齐登场 ④

上午

今天是CVPR正式会议的第一天。

我们早晨七点多来到会场,就被汹涌的人流吓住了。底楼的早餐服务区几乎是挤满了人,不愧为盛会之 名。底楼另一边是海报区,虽然poster session是下午5点20才开始,但已经有好些人把自己的poster贴 上去了,以最大限度地宣传自己的工作。早餐还是一成不变的面包圈和各种佐料。

我们四处逛逛,看到了很多以前认识的同学,还有我的老板。我老板是个印度人,英俊儒雅,总是面带 微笑,喜怒不形于色,做事情慢条斯理很有耐心,和我基本上处于两个极端。记得上半年他刚升副教授 的时候,我很兴奋地向他道贺,他却一点也没有显出高兴的样子,只是语气平淡地说:“如果你工作努 力,总有一天会拿到的。”让我着实大吃一惊,这种事前低调,事后装逼的态度,实在是令人觉得可 恶--。

我和他的研究方向并不完全一致,他在博士生阶段的工作是vision in bad weather(“坏天气下的视 觉”),是研究physics-based vision(基于物理的视觉)的;而我做的则是image alignment/registration(图像校准/对齐)这一块,主要还是解决两张图如何找对应点为主。虽然方向 不同,但合作得还是很愉快的,他的演讲和写作功底相当好,正好补上我在这一块的缺陷,至于idea方 面还是我自己去想,他则完成监工的职责,保证任务完成(笑)。要说他是否pushy,当然是的,曾有过 一周五天来我办公室找我的记录;不过他不直接干涉我想要做的东西,如果我有一些成果,他会积极地 帮忙宣传,不自己居功,这一点是很赞的。

因为明天早晨我就要上台演讲,他昨天要求我今天背着笔记本,在下午三点多的时候乘着会间休息找个 地方排练一下。我依言而行,今天又见到了,便只是打了声招呼。和他同行的是个中国人,也是很年轻 的助理教授,我曾和他有过合作,于是就找了个地方聊起来了。

聊完了各自现在做的方向之后,我突然想起有位学弟拿了他学校的PhD offer,并且和他套磁过了,但现 在都没有回音,于是顺便问起。他们学校是属于轮班制(rotation),先让学生们和各个不同的老师共事 一段时间,之后再选。他明显是知道这位同学的,但只是说“没有当成他的学生”而已,至于个中原 因,他说得非常含糊。

这便是称作“商务聊天”的谈话吧。聊到八点,我先告辞,和爱德华、峰、威一起去听本次CVPR第一场 oral presentation,其主题毫无悬念是object recognition(物体识别)。进了演讲大厅之前,我看了 看厅里能容纳的人数,是1604人,顿时心里一紧。

sanfransisco/IMG_4818.jpg

这个演讲厅里的最大容纳人数,说是千人大会毫不为过。

明天这个时候,我就要面对那样多的观众了,还要面对着有史以来第一次的专业摄像机镜头——在这个信 息时代,今天的演讲,明天就会被放到网上,或是供人欣赏,或是被当成反面教材。在镜头面前,注定 不会有默默无闻,要么流芳百世,要么遗臭万年。

不知道明天的我,会属于哪个?

我不知道。我们四人找了靠前的位置坐下。厅里的人越来越多,有很多是带着行李揉着眼睛,一大早从 飞机场赶来的。八点半,演讲正式开始。

sanfransisco/IMG_4835.jpg

演讲开始时,满员的大厅。

sanfransisco/IMG_4828.jpg

第一位演讲者。

上午的第一个session给人的感觉是object recognition(物体识别)这个方向越来越向着context发 展,即通过物体周围而不是物体本身的信息来推测物体的位置和类别,比如说通过天空、大地和公路来 判断图里是否有汽车,通过建筑,道路和透视位置来判断某处是不是会有行人。因为相比汽车和行人这 两个外表变化可能非常剧烈的物体,它们周围的东西可能更容易识别。同样,网球运动员和网球的位置 也是相辅相成的,因此同时识别和定位这两样东西会比单独定位一样东西效率要高得多。不过,虽然这 些概念听起来非常有创意,但是使用的数学方法还是老方法,比如graphical model(图模型),遇到的 问题还是老问题,比如说模型过于复杂不可解要做近似;参数估计要用什么方案以加快速度,等等。

哦,至于我老板人现在在哪儿?他对这些都不感兴趣,一定在另一个做颜色和光照的另一个平行的 session吧。CVPR与ICCV不同,是采用双轨制,也就是说有两个演讲厅同时在做不同子领域的演讲,这样 可以让节奏变快,三天之内能够刷过所有的五百多篇文章。

第一批四篇oral结束之后,是本届大会新创的poster spotlight的时间。每位论文接受为poster的作者 会有90秒的时间上台介绍自己的工作。因为时间太短,所以基本上无法阐明技术细节,而只能把最吸引 人眼球的一部分亮出来,让观众们有兴趣在傍晚时分慢慢地听作者将来龙去脉细细讲来。可惜的是,大 部分人还是选择了把文章摘要读一遍的习惯性思维,让人有昏昏欲睡的冲动。

下一个oral session我们选择了去听shape representation and matching(形状表示和匹配),爱德华 正在做这个方向,而我做的东西也和图像匹配息息相关。不过事实上这个session的四篇oral paper都是 和三维重建相关,而把图像匹配和形状表示的文章都放到了poster里面去了。难道是说这个方向现在出 不了好文章了么?呵呵。事实上这个问题是千年老问题了,非常难,要有突破几乎不太可能,大多是沿 用原有的框架进行改进,所以中oral比较困难。

过了这个session之后,又到了中午吃饭的时间。大厅里再现人山人海的壮观景象,嘈杂得几乎无法对话。 我无意中拿出手机,发现一个未接电话,啊,是一位久违的mm打来的呢。

午饭

在确认了各自的方位之后,七拐八弯在人群里穿行,总算见到了林同学。她是昌同学的校友,现在在华 盛顿大学读博士,曾到cmu来实习过,因此我们认得。她这次来CVPR是因为同样拿到了一篇oral,将在明 天下午作演讲。

一番寒暄之后众人就出发了。爱德华说是要找老板,在人群之中不知去向,剩下一干人等在门外,有学 弟沐和晨,昨天的羽同学、昌同学,早上刚做完演讲的鹏同学和刚才找到的林同学,还有同样也在cmu读 机器人系博士的吉同学,及一些新认识的朋友一共九人。峰和威似乎被老板叫走,都不在。本来大家商 议要去中国城,但昌同学因为下午有oral talk,建议大家去近些的地方。于是大家就决定去就近的海 滩,尝一尝海鲜。

大军于是向北行进,走过宏伟的钟楼,来到旧金山港的一处美食街。这里虽然没有渔人码头那样妆点华 丽,但依然人流如织。这附近有另一座跨海大桥——海湾大桥。

sanfransisco/IMG_4512.jpg

钟楼

sanfransisco/IMG_4513.jpg

远远地可以看见海岸

sanfransisco/IMG_4522.jpg

美食街

sanfransisco/IMG_4528.jpg

海湾大桥

相比金门大桥,海湾大桥虽然跨度更大,却没那么有名,我想很大的原因是因为它没有被漆成朱红色吧。 大家随意逛了一阵,选了一家卖牡蛎(Oyster)的海鲜店进去了。服务员见有九人大军入内,连忙摆手让 我们在外面稍等片刻。十多分钟之后,总算找到四人桌,三人桌和两人桌让我们所有人都坐下了。

我和沐坐了两人桌,服务员上了菜单,定睛一看,原来价格比昨天更猛。六只牡蛎竟然就开价$17,并且 除此之外,并没有其它能果腹的东西。我们两人在菜单上扫来扫去,终于看到一个9块多的便宜色拉,试 着点了,结果等到上菜一看,原来就是些青菜叶子加些作料而已;而在漫长的等待之后送上来的特色菜 牡蛎,煞有其事地盛放在一个硕大的盘子里,却只有两根手指大那么一点。小心地选了一个,慢慢滑进 嘴里,口感清爽,可是毫无味道。

sanfransisco/IMG_4841.jpg

蔬菜色拉

sanfransisco/IMG_4842.jpg

牡蛎,尺寸太令人失望了。

还好在这个餐厅吃饭会无限量附送面包,不然实在吃不饱啊。两人吃完结账,一人$20。饭桌上我和沐讨 论学术,沐年纪轻轻,但视野比我开阔,特别是在机器学习领域,知道很多有趣且可做的东西。今年他 不仅中了一篇CVPR还有ICML,NIPS也已投了出去静候佳音,若是中了,对他今年年底的申请更是锦上添 花。和他聊,我觉得将来不仅要做现在的视觉题目,还要向机器学习方向发展,只有接触到更多的思 想,才有更多的题目可挖。至于这一届ICML,他是不会去开了,因为在以色列的城市海法,不仅机票 贵,也毕竟不太安全。(在此祝我两位在哥大的同学ICML开会顺利~)

吃完饭已是快两点了,想不到昌同学挑了那么近的地方,结果还是那么地慢。众人赶回会场,第三个 oral session已经开始了。

下午

下午我最感兴趣的部分是Human pose estimation and tracking(人体姿态估计和跟踪),这是个很难 很实在也很有意思的题目,并且有广阔的应用前景。在我摸进会场的时候,那位来自德国图达姆斯塔特 (TU Darmstadt)的帅小伙正在做演讲。虽然还是用经典的模型,但他是目前把这个问题做得最好的人。 记得我曾经在周五的例会上放过他网上的结果视频,引得台下听众们一阵惊呼,一时竟以为这个问题已 经解决了呢——其实还早呢。

什么时候自己的东西能做得像他那样呢?那时候,才有资格说自己是做计算机视觉的吧。之后的演讲仍 很有趣,有用混合图模型建模人体行走动力学的,还有和我一样做非刚性物体形变重建的。模型各有创 新,效果都很不错。

等到这个session下午三点结束,老板按时打电话过来,我们一起到三楼大厅,寻了一处僻静的所在,打 开笔记本电脑,开始练习。大概是因为身处开放环境,或是因为大战前的紧张,我这一次说得相当地快。 老板连连摇头叹气,这一次远不如上周在cmu讲得好,吐字不清晰,表情不自信;他希望我今天晚上回去 再练几遍,千万千万要把速度降下来,说一万字不清楚的,不如说一百字清楚的。

然后他有事便走了。我当时唯唯诺诺,收了电脑,想着一定要慢些再慢些,胡乱地在三楼逛了几圈,又 回到了会场。这次我直接去了Shape from X这个session,为的是听昌同学的报告。昌同学这次做的是利 用一张薄薄的optical diffuser(光学扩散器)来估计场景的深度。optical diffuser本身有将光源发 出的光线模糊化的效果。固定相机,拍一张普通的照片,把optical diffuser放在场景面前,再拍一张 照片。把这两张照片合在一起经过处理,就能估出场景的深度信息。咋一听这和通过照片上每个位置上 对焦的模糊程度(camera defocus)来估计深度信息没什么两样,但关键是这样做的精度非常高,甚至能 估计五张扑克牌展成扇形之后,相邻两张的深度差别。

我听完报告,不由得感叹这小子果然厉害。他做的东西风格与绝大多数视觉的研究者不同,不像很多还 处在实验室阶段的算法,他的东西可以说是极实用极干脆利落的,完全可以直接申请专利并且付诸产品。 相比之下,我做的玩意儿还是嫩了些呢。

傍晚poster session

开了整整一天的会,听了四个oral session,终于迎来了晚上的poster session。所谓poster session,就是各位作者把自己的工作做成海报展示出来,自己则站在一旁,负责介绍及回答有关提问。 过去被接受的文章,要么上台作演讲,要么贴成海报,而这次则给两类文章同样的贴海报的机会。这对 oral来说是比较合算的,白天作宣传,而晚上则回答问题。只是明天经历过了才知道,这样非常累。

这次会议的poster session是从下午五点到晚上九点,中间会有晚饭供应,大家可以边吃边聊。因为上 次ICCV开会时忘记拍poster的照片,这次我特意提前来到展厅,乘着还没有多少人,拍了一些照片。

sanfransisco/IMG_4846.jpg

Poster

sanfransisco/IMG_4853.jpg

Poster

sanfransisco/IMG_4856.jpg

Poster

sanfransisco/IMG_4877.jpg

盛况

sanfransisco/IMG_4879.jpg

盛况

sanfransisco/IMG_4878.jpg

好吃的点心

没过多久,人群便开始涌来。粗粗算来,平均每个poster前面会站三至四个人,如果作者开始解释,则 会有更多人旁听,并有提问。这时若是再想拍照可就为时已晚,只会拍到人而拍不到海报了。

我在人群中努力穿梭,找了几个有兴趣的看了看,问了一些问题。今天晚上的poster session主要是做 跟踪,匹配或是物体识别,有很多不错的工作。有个做covering tree的挺有意思,与TRW同属图模型近 似算法这一大类下的variational method子类,但它是TRW的精简版本,variational的参数更少,但好 处在于他能证明他的模型和TRW的模型所能达到的最优下界是一样的,这样便完胜了。另一篇文章做的是 两张图怎么做morphing,即如何求得一系列中间图片,使得一张云的图片能很光滑地转变成一张人脸的 图片。这篇文章妙的地方在于虽然说是做morphing,但没有用任何的扭曲模型,而是用像素之间的适当 线性组合去模拟morphing的效果,出来的东西实在是惊人的漂亮。

不知不觉一小时过去了,正腹中饥饿之时,正碰到了林同学手上拿着吃的,方才醒悟过来,原来已经开 饭了!这次开会的服务还是挺周到的,有宾馆人员来回穿梭手上拿着盛有小点心的托盘,与会人员不必 远离会场就能吃到可口的食物。当然,正餐时还是要自己去选的,至于吃多少是自助式的,随意。主食 可算是西餐,新鲜蔬菜和水果,大块肉,各种西式调料,也有适当米饭,饭后还有可口甜点。

既然是晚饭,就应该好好品尝。我和林同学找了一个地方坐下,随便聊了起来。她这次的文章是去年在 cmu旁边的intel实验室实习所做的工作,是关于快餐食品识别的——一定会有读者问为什么会去做这个题 目,那是因为美国人太懒,懒到想自动地知道吃下某个汉堡会不会长胖,而不是去查营养条目,搞清楚 那些trans fat(饱和脂肪酸),cholesterol(胆固醇)或者sodium(钠)都是些什么,对健康分别有 什么影响。

唉~有时候真觉得懒惰是一种美德,人类的技术进步正源于此。相比中国人是太勤奋太任劳任怨了,所以 两千年都只在原地踏步呢(笑)。

因为明天都有演讲,我和她就聊起准备工作来了,相比我老板的穷追猛打,她的老板则完全采取相反的 态度,放任自流,甚至还说“明天我一定到场来听你的报告”,极其让人无语。毕竟是美国人,对自己 的学生完全没有自觉,更多的是一种平等的态度。这样做有好有坏,或许没有外界的鞭策,大多数人都 只是因循过去的习惯,永远不能改变自己,但是总会有几个天才跳出来推动世界的。

聊着聊着,有一位法国中年男人坐到同一张桌上来了,很热情主动地向我们打招呼。他是来自法国丰田 研究所的研究员,做汽车无人驾驶这个方向的。这次到CVPR上来,想必是寻求合作伙伴,考察计算机视 觉领域进展的吧。我说现在无人驾驶都是用的各类传感器,比如说激光测距,比如说GPS,几乎没有视觉 的一席之地。他则笑着说正因为这样才有研究机会,毕竟不像飞机驾驶,路上的不可测因素太多,如果 视觉能投入使用,那就可以去掉各类传感器只用摄像头,极大地降低成本,以后升级也比较容易。

然后我便问了个非常尖锐的问题——丰田公司是日本公司,那是不是本土的法国人在升到某个级别之后, 就再也没办法上去了呢?法国人一脸苦笑,说这是对的,但子公司的业务还是相对独立,丰田总部只会 派最高层的人过来而已。看来我以前听到的这种类似的传言,还是有点道理的呢。

吃完饭,我们和他礼貌拜别,又回头去看poster了。只是见夜幕临近,想起明天自己要上场,终究还是 没有心情,去了二楼另一个poster地点,走马观花地看了几眼之后,就告别问林同学,自己乘地铁回去 了。

宾馆

回到宾馆,已是晚上九点多。峰和威在看电视,我置若罔闻,打开电脑又把明天的演讲从头到尾地练习 了两遍,努力将语速调慢。其实做到这一点并不难,只要把起首的两句话练好,控制住节奏,之后就会 自然而然了。之后为了缓解紧张的心情,还破天荒地玩了King of Fighters,只是明显不在竞技状态, 双手不听使唤,实验室里的泱同学若是在场,一定能把我打得大败而归。

哼哼,等我把明天的演讲做完再来报仇吧。

明天早晨,在1604人面前,我是第二个。

【八方诸侯齐登场 完】

Author: Yuandong Tian

Date: 2010-07-01 12:53:37

HTML generated by org-mode 6.36 in emacs 23