|
我宁愿自己的生命火花能以熊熊烈焰之势燃烧殆尽,而不是在干枯腐烂中窒息而灭。
有些人是幸运的,从一开始就走在自己喜欢的道路上,做着自己喜欢的事情。但更多人却没有这么幸运,他们做着生活所安排的事情,尽管并不喜欢;初始时还想着要挣扎一下,但渐渐地却习惯了这种生活,不想再有任何的改变;偶尔翻起旧日笔记,木然地看到曾经的渴望已渐渐成为越来越遥远的回忆。
却只有极少数人成功做出了改变。
站在 AAAI 演讲台上,玖强只有 15 分钟的时间向听众讲述他的论文《Stack-Captioning: Coarse-to-Fine Learning for Image Captioning》内容,这篇文章中他提出了一种基于 stack attention 和增强学习的语言模型。当然这不是他的第一篇顶会论文,更不会是最后一篇,而只是他现在生活的一个剖面。
- Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models. Jiuxiang Gu, Jianfei Cai, Shafiq Joty, Li Niu, Gang Wang.
- Stack-Captioning: Coarse-to-Fine Learning for Image Captioning. Jiuxiang Gu, Jianfei Cai, Gang Wang, Tsuhan Chen. Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence (AAAI, Oral). New Orleans, USA. February 2–7, 2018.
- An Empirical Sftudy of Language CNN for Image Captioning. Jiuxiang Gu, Gang Wang, Jianfei Cai, Tsuhan Chen. Proceedings of the IEEE International Conference on Computer Vision (ICCV, Poster). Venice, Italy. October 22-29, 2017.
- Recent Advances in Convolutional Neural Networks. Jiuxiang Gu, Zhenhua Wang, Jason Kuen, Lianyang Ma, Amir Shahroudy, Bing Shuai, Ting Liu, Xingxing Wang, Gang Wang, Jianfei Cai, Tsuhan Chen. Pattern Recognition, 2017.
目前玖强在其不到两年的博士生生涯中已经发表了 3 篇顶会(期刊)文章(另一篇还在审核中),其中关于CNN的综述《Recent Advances in Convolutional Neural Networks》Google Scholar 引用次数已经达到 85。
玖强现在是南洋理工大学的一名博士生,在其不到两年的博士生生涯里,曾先后师从 Gang Wang(对,就是那个入选 MIT TR 35,现在就职于阿里 AI Lab 首席科学家的王刚)、 Tsuhan Chen、Jianfei Cai等知名教授。他表示:「他们都是很杰出的科学家,我很幸运能够有机会在他们的指导下开展研究工作。」
之所以这样说,是因为玖强博士原本只是王刚老师从小木虫上召到实验室的一个研究助理,主要做一些计算机视觉产品的实现工作,纯硬件,在人工智能方面几乎没有基础。然而经过一年的工作后,却得到导师的认可,招收其加入实验室攻读博士。
小木虫的一则招聘广告,就此改变人生轨迹
2010 年,玖强本科专业是电子信息科学与技术,由于是硬件专业,很自然的,当他考研进入中科院遥感地球所攻读硕士时,选择了硬件方向 。
但是玖强个人更喜欢的是软件开发,所以硕士毕业后他并没有想去继续读博,而是选择了工作。但是很遗憾,由于专业背景过「硬」,投了很多互联网公司都被拒了;反而是许多硬件类的公司却陆续给他发了许多 offer。此外还有中科院信工所给的一份 offer,当时信工所给他提供了一个基于龙芯的安全芯片项目,也即国产处理器的研发。
他最终不得不「认命」,认为反正转行一时半会也没戏,倒不如好好做做硬件,毕竟做了这么多年硬件,现在眼前有一个机会能够让他把一个芯片从开始设计一直做到成功流片,可能以后再也没有这样的机会了。
做事极为认真负责的玖强,以一个硕士的身份入职信工所,成为项目组的第一名员工 。经过 2 年的时间,逐渐成长为团队的带头人。
在研发芯片的工作之余,玖强也像很多想要转型到其他行业的人一样,空闲的时候会看一些计算机视觉的文章,或者做一些自己的 project。但据他所说,其实这没有太大的效果,因为每天工作下班都会到很晚,真正能够利用的时间每天也就一个小时左右,而且没有人指导,不知道什么是重点,经常会在无意义的事情上浪费大量的时间。「拖着也不是办法,再拖一两年,可能自己的工作干不好,转型也没有成功。」
所以在芯片设计的后期,玖强开始有意无意地看一些招聘启事。有一天在逛小木虫的时候,他看到了王刚老师(当时还在 NTU)发布的一则招聘研究助理的广告,要求有硬件背景,懂一点程序。因为有机会接触到计算机视觉领域的大牛,所以抱着试试的态度,玖强就发了封邮件。没想到的是,很快就得到了回复。两人相谈甚欢,玖强作为研究助理去了 NTU。
当然这个决定也是有代价和风险的,他需要交大量的违约金不说,NTU 也只签了一年的合同。一年之后怎么办呢?玖强表示:「虽然只有一年合同,但有个机会有懂的人带你,总比你自己在那一步一步的,今天看一点,明天看一点,还不知道对不对强很多。所以我就一狠心离职了。」
在 NTU 期间,一开始他主要做一些计算机视觉算法的工程化。在不忙的时候,有心的他就看点 paper。 有一天导师看到他看了不少文章而且有了自己的理解,就表示,「既然你看了这么多,就写个 survey 吧。」这个决定开启了他步入人工智能领域的大门,也促使他发表了第一篇关于 CNN 的综述文章《Recent Advances in Convolutional Neural Networks》。
按说,综述文章一般只有一个领域的大牛(组)才能够把握得很好,但是玖强本着出生牛犊不怕虎的闯劲,前后花了 2 年的时间,从开始写到最后录用,这个过程几乎把 CNN 所有的最新 paper 都看了一遍。通过点滴的积累,最终让他从一个 0 基础的硬件工程师转变成了一个有着强硬基础的人工智能研究学者。
玖强谦虚地说:「我们是比较幸运。我们想做这件事的时候,还没有人想到去写。所以有些东西下手一定要快。」
做了一年的研究助理,很自然地,玖强就被王老师招进自己的实验组里,成为他的一名博士生。玖强对此的总结是:只有你准备好,当机会来了才不会错失。想得到别人的认可,首先要证明自己。
CV+NLP 结合才是真正的 AI
据玖强介绍,在国外一般导师会尽量避免同一个组里人员研究之间的重复,所以基本上每个人都在做独立的方向。由于组里人很多,而计算机视觉就那么几个大方向,例如检测、识别、分割等。所以当时玖强有些迷茫,如果接着做 CV,很难有很大突破。不过当读了很多文章后,他渐渐有了更广阔的认识。
他当时觉得 AI 的发展一定是为了方便人类的生活,而大部分场景下跟人交互最直接、有效的方式是文本,市场空间高下立判。作为 AI 的分支领域,CV 和 NLP 根本上来说就是代表了人希望机器能「代替自己看」和「代替自己读和写」。如果把图像识别看做眼睛的话,自然语言则是耳朵和嘴巴,缺少了任何一项都不能构成一个完整的人工智能。所以他决定探索如何将 CV+NLP 结合起来。
他举例说,家庭用能够互动对话的人工智能玩具,它能够和你对话,但你是看着他说话的,它却没有看你;所以机器就丢了很多的信息没有利用。人与人的沟通,是通过看着你的表情、听着你说的话来进行的,所以 CV+NLP 结合起来才叫做真正的 AI。
谈到他对 CV 和 NLP 的看法时,他认为 CV 方面已经发展得很好了,尤其是检测和识别已经商用。所以玖强认为人们的下一个目标应该是走出物体本身,关注更为广泛的对象之间的关系和语言等,也就是理解,而理解和对话则是自然语言处理的优势。NLP 是直接在语言上处理,而语言是更高层次的提炼,基于自然语言处理的应用他认为更容易落地。当然,虽然深度学习给 NLP 带来了机遇,挑战也是并存的。
首先第一个问题,也是普遍的问题,就是缺乏理论基础和模型可解释性。玖强表示,他在做ICCV 的文章的研究工作中深有体会:实验结果是很好,而且他写的分析也不错,但是却无法对模型为什么好进行理论证明。因此他也就很诚实地把论文标题带上了「empirical study」。
还有一个问题是现在人们训练一个网络或模型都需要很多数据,然后用网络去学习,这需要大量数据和强大的计算资源。如果一直依靠标注数据,那么以后的研究可能会变得更加困难。如何针对特定问题进行无监督学习,这是人们需要考虑和研究的。
此外他认为,将深度学习和机器学习的其他技术结合,比如强化学习,会进一步扩展 NLP 的边界。
最后他说,目前 NLP 的不错的一个方式就是和 CV 结合。他很愉快地说,现在看来两年前做出的这个决定是对的,已经有越来越多的人员在往 CV+NLP 这个方面探索了。
玖强对此表示:「在研究方面,要抓紧时间占坑,反应慢了坑就会被占完。」
每发一篇论文,其实就是在等着被人超越
谈到他在 NTU 学习到的经验,玖强说,最开始做研究的时候他和大部分入门者一样,都喜欢写点代码,总觉得不写代码不踏实。还有就是总觉得得做应用,要做出个能用的。但常常是他把代码调试出来了,paper 却没有看懂。而现在他则渐渐开始把重心放在 paper 的理论上。
另外师从名师,他表示在这个过程中学习到很多东西。导师对前沿的把握非常准确,之前他们每周都会开一次甚至几次会议。玖强举例 ICCV 的那篇文章,他说:
「当时做自然语言模型 90% 以上都是用 RNN,从来没有人想过用 CNN。有一次我给Prof Wang看了一些文章,他就说你应该用 CNN 做 language model,而不用 RNN。我也没有把握,但他说这篇工作实际上很有影响力。后来一点一点做,最后发现也真能做出一点东西,我们最后也把它发表出来。」
后来跟随Prof Cai,他说,学到的很大一点就是,教授要求他每次先用一句话将自己的 idea 讲出来,然后再说出哪些是自己的 contribution,哪些是借用的别人的。玖强回忆说:「每次当我把别人的东西剔除掉之后,发现我自己啥都没有,实际上我只是把别人的方法 combine 了起来,并没有什么新意。所以我渐渐就形成了这种思维,首先把自己的方法和思想提出来,然后有需要的话再围绕自己的想法去扩展。」
玖强身处一个 CV 的大组,但是目前他的研究工作却主要偏向自然语言处理。他在 ICCV(2017)的论文中提出了基于 CNN 的 language model,在 AAAI(2018)的论文中他提出了基于 stack attention 和增强学习的语言模型,最近的论文中他提出了基于生成模型的文本到图像检索。
他说,之所以投在 CV 会议上,主要是和实验室传统有关系,在他之前他们实验室没有人像他这么侧重 NLP,如果只有他一个人投 NLP 的会议,就会太孤单了。不过最近他也在打算投 NLP领域的会议。他告诉 AI 科技评论,目前手头的工作大部分都是 NLP 的研究。
谈到毕业后是否会去企业工作,他表示还在考虑中。他解释到:
「如果你没有紧跟前沿,而仅仅在一个职位上把你的本职工作做好,我觉得对职业发展并不是什么好事。做研究会让你时刻保持那种危机感,因为你每发一篇文章,其实就是在等着被人超越,不可能永远做到最好,所以总会不停地去更新知识。我觉得这是我个人来说希望达到的一个状态,不停地去提高自己。我很害怕待在一个地方,天天做重复性的工作而没有提高,渐渐丧失了自己的优势。」
|