距离2024年已经差不多过去五个月,而我终于有时间、有精力、有心情写写2024年的年终总结。回看了一遍2023年的年终总结,一股阴冷焦虑感溢出屏幕。毫不意外地,2024年命运也没有亏待我,淹没我于浓厚黏稠的焦虑之中,只是偶然抖落出几颗草莓色的糖果。
流水账
回看了一下2024年的日志,意外发现自己还是做了挺多事情的。
1月: 写代码,做实验,申请&面试实习。想学滑冰;但作为一个囊中羞涩的PhD,一直在犹豫是去买双全新的冰鞋,还是淘双二手的。然后命运来敲门,在公交车上刷到了奖学金的通知邮件,于是转头就跑去西茂买了双全新的冰鞋,开开心心地报了学校的滑冰课,真是毛孔舒畅!男人还是得对自己好一点! 这个月还去听了Ennio Morricone音乐会,热泪盈眶。作为一位伟大的作曲家和配乐大师,他用音乐展示了命运的激荡起伏,爱情的酸甜苦辣,和人生的深远辽阔。
2月: 写代码,做实验,申请&面试实习。继续开开心心学滑冰,进步飞快。除夕夜和朋友们去郊外农场放了烟花,很开心。
3月: 写代码,做实验,申请&面试实习,学滑冰。 因为学签即将到期,续签手续时间又长,算了算大概率赶不上5月份在维也纳召开的ICLR会议了,只能遗憾放弃,忍痛去续了学签。 好在托校友的福,这个月幸运地收到了Meta实习offer,开始办理J1签证。去听了Bach的音乐会。
4月: 写代码,做实验。滑冰课正式结束,和课友&老师拍了合照之后互相告别。气温回升,开始学游泳。 和朋友去了破破烂烂的动物园,但玩得还算开心。去卡尔加里进行J1签证面试。
5月: 做实验,写论文,学游泳,准备Candidacy,参加Upper Bound。 春日来临,屯里终于绿了起来。和印度朋友去看了极光。 出门逛逛,去了飞机博物馆,意外发现了埃德蒙顿的天际线。 回过头来看,这段日子是2024年里我过得最快乐的一个月。生活步入正轨,一切平稳运行。白天起床都觉得活力四射,生活充实且有希望,走在路上心里都是美滋滋的;晚上有说不完的话,看光芒在杉树丛中闪烁,轻声唤我的名字,开始喜欢上Lana Del Rey。
但很快,上半年的快乐日子就要被命运收回,焦虑阴郁的下半年即将开启。

6月: 好朋友即将搬家离开埃德蒙顿,而我也马上前往湾区实习;于是趁着最后的时光,一起在郊区转了转。夏天的大草原可真美啊,天可真蓝呐。 不久之后我便出发去湾区,正式开启硅谷生活! 初到湾区的那几天,一边听着Lana的California,一边在加州的街头摇头晃脑地走着。 喜欢Redwood City的免费露天演唱会,看人们在广场上随音乐起舞。 顺利通过Candidacy Exam。 生活逐渐安定下来,实习也步入正轨。 月底坐小火车去了三番市区,参观盛大的San Francisco Pride游行,近距离感受美国特色文化 —— 开眼了,真是开了眼了。
7月: Meta实习生大会上,见到了老板兼蜥蜴人小扎。 川普遇刺但刺杀未遂;从那一刻起,世界、国家和无数的普通人的命运都被一颗射偏了的子弹改变。 趁着实习还没有开始折磨我,在群里摇人去了Half Moon Bay徒步;和在Meta Reality Lab一起实习的美国小哥去观鲸 —— 伟大生灵! 因为蹭到了Nature论文,被导师通知回加拿大拍宣传照片。于是花了一千多刀买了机票,只为了回去拍一张照片。这应该是我人生中拍过的最贵的照片了,好在有导师报销。
8月: 实习开始变得难以忍受,在各种屎山bug和负面结果中挣扎。 中途去UMass参加了RLC,见到了RL祖师爷、David Silver、Sergey Levine等一众大佬,还有许久未见的朋友们。 8月开始有HR陆陆续续reach out,但彼时的我甚至连Attention Is All You Need都没读过,被HR催着裸面了Minimax和小鹏汽车,秒拒。 接着看了一圈市面上的招聘岗位,发现凡是跟RL有关的岗位,几乎全都跟LLM相关。 实习受挫,前途未卜 —— 我随即陷入了自本科毕业以来,最严峻的一次(也是唯一一次)存在主义危机:我开始犹豫要不要违背祖宗、出卖灵魂,转向LLM。 挣扎之中,我去找了许多前辈和朋友请教经验,特别感谢他们! 后来我还看了Zeyuan Zhu的ICML 2024 Tutorial: Physics of Language Models,惊呼原来LLM research还可以这么做(也确实应该这么做)! 于是,生存的压力、前辈的教诲、重新燃起的学术热情等因素共同推着我向前 —— 我决定All in LLM。内耗也就此结束。

9月: OpenAI发布了最新的reasoing model —— o1。虽然没有公布细节,但外界都猜测RL在其中扮演了重要的角色,功不可没。 于是RL的就业市场瞬间好了起来,我也接触了一些startup。值得一提的是,当时DeepSeek的HR也找到了我,邀请我面试。 彼时的DeepSeek还不出名,但在读完它们的论文并看完梁文峰的采访之后,我立即意识到这确实是一家有潜力并且适合做科研的公司。 匆忙之中我被HR赶着上架,为了准备面试,开始学习LLM和RLHF。 事后来看,这是一个极为错误的决定 —— 在两三周内,一个零LLM经验的RL researcher仅靠实习之余的下班时间匆忙学习LLM,只读paper没跑实验,是很难深入理解LLM的。 最终,我在DeepSeek终面结束后遗憾被拒,喜提一句面试评语:“RL基础扎实,但LLM经验不足。” 后来DeepSeek发布DeepSeek-R1,惊艳全球,最终活成了高不可攀的样子 —— 当然这些都是2025年的事情了。

这个月,在实习小伙伴的强烈推荐下,抽空去三番看了音乐剧Wicked。
10月: 实习已接近尾声。 回望这几个月的硅谷生活,我对硅谷的了解逐渐加深,但也开始对硅谷祛魅。综合考虑各种因素,待在美国已不再是最优选择,我逐渐萌生了回国的想法。 虽说人只有亲身经历才知道适合自己的是什么,但做出这个决定依然颠覆了我之前很多的设想。
不要高估一年的积累,也不要低估十年的改变。
2017年,当我还是个大三本科生时,某天在知乎日报上刷到了描述Meta楼顶花园的一个回答,震撼至极。然而那时的我并未想过自己会和Meta有什么交集。 2018年,本科毕业的那个暑假,我在家里刷完了整整六季《硅谷》。 后来,我去加拿大读书,2023年去美国开会&旅游,顺便去Menlo Park见见在Meta实习的朋友。我们一起在Meta的楼顶花园散步闲聊,眺望着远方的戈壁荒原,而身旁是茂密的灌木丛和盛开的花坛。 再后来,2024年夏天我也去了Meta实习,和mentor坐在楼顶花园的桌子旁一边吃午饭,一边吐槽Rich的supervision风格。
这一切都令我难以置信,但却实实在在地发生了。

整个PhD期间,我一直把去美国工作和生活当作我的人生目标 —— 我坚定地笃信着,我应该去往那里,我也必将去往那里。 后来我的确做到了。 那些我如今习以为常、视若等闲的一切,都是那个课间刷知乎的大三本科生所无法想象的:那可是硅谷啊,是互联网的发源地,信息革命的摇篮! 而我,竟然来到了这?而我,竟要选择离开! 我此后的生活必将因这段经历而变得不同,这个决定也必然成为我整个人生的分水岭。 每每想起这一切,我都唏嘘不已。
实习结束之后,我立即返回加拿大继续读PhD。 DeepSeek的拒绝对我打击较大,但也很快让我认清了现实:想要拿到满意的LLM offer,我必须认认真真地去学习LLM,去形成对这个领域的深入理解。我也立即制定计划,开始系统的学习。 期间,受邀参加了Openmind Research Retreat;和一哥来了一次cave tour,再游Banff。夏天的Banff真美,随便找的一个小湖就美得摄人心魄。 旅游回来,一边改简历/投简历/面试,一边因为house manager的骚操作被迫极限找房搬家。好在塞翁失马,非常幸运地找到了性价比极高的住处,一个人住真是太爽了!
这个月还发生了两件必将载入史册的事情。 当地时间10月8日,瑞典皇家科学院宣布,将2024年诺贝尔物理学奖授予John J. Hopfield和Geoffrey E. Hinton,以表彰他们“为利用人工神经网络进行机器学习做出的基础性发现和发明”。原来搞计算机做AI还能拿诺贝尔物理学奖?! 紧接着10月9日,DeepMind的AlphaFold工作也获得了诺奖 —— 瑞典皇家科学院宣布,将2024年诺贝尔化学奖授予David Baker、Demis Hassabis和John M. Jumper,以表彰他们在蛋白质设计和蛋白质结构预测领域作出的贡献。可喜可贺! AI for Science大有革新现有科学范式的趋势。
11月: 一边学LLM,一边面试。Kimi的面试最终也是被杨植麟挂在了最后一面;虽有遗憾但很快接受,继续铆足劲学LLM。美国总统选举出炉,不出意外,川普胜了,还是大胜;世界线又要发生剧变了。
12月: 一边学LLM,一边面试。去温哥华参加NeurIPS,见故人。回来之后面了Mistral和字节,结果依然不理想。从总的面试体验来看,业界懂RL的人确实不多,而我的过往研究又和LLM没有直接联系,导致我的研究价值不容易被业界看见价值。后来我决定放弃申请国外岗位,初步确定了回国工作的计划。 月末,读到了启玄的文章《聊聊分离,横跨美国和梭罗的湖》,深受触动。这里摘录其中一段留作纪念:
听《纵横四海》听到一个逻辑,说我们可能已经跟父母见完这辈子90%的面了:从出生到18岁,每天见面;之后18岁到22岁上大学,每个月回家一次,每年在家30天。22岁之后,每年跟他们见10天。
假设在我们60岁的时候父母去世,一共是:18 * 365 + 4 * 30 + 38 * 10 = 7070,今年我29岁,还剩310次,310 / 7070 = 4.38%,我已经见完95%的面了。
正好我也即将步入29岁。对于出现在我生命中的绝大多数人,上一次见面大概率就是人生最后一次见面了。每每想到这里,顿觉人生残酷。

碎碎平安!
至此,忙碌的、焦虑的、加速的、跌宕起伏的2024年,终于结束!
书文影乐
2024年,我一共观看了117部电影/电视剧/动漫/各类视频。其中纪录片只有6部,看了更多动漫和电视剧。印象比较深刻的有2003版的《白色巨塔》、《周处除三害》、《葬送的芙莉莲》、《绝命毒师》。 今年最喜欢的歌手是Lana Del Rey,她的声线令人沉醉,恍若黄粱一梦。 跟去年相比,我听了更多的博客,尤其是张小珺的商业访谈录,每一集质量都很高。 书只读完两本,但都是极好的书:《大国大城》和《美国反对美国》。 前一本主要论述人口集中到大城市的益处和挑战,马督工推荐的。后一本是王沪宁先生在上世纪80年代末赴美观察写作的,具体描绘了他在美国的观察和见闻,详细记录了美国社会的政治运行和社会治理。虽然距离书本发表已经过去了三四十年,但书本中描述的美国和我亲眼见到的今日美国却并无本质区别;许多美国社会的内部矛盾其实当时就已初见端倪。 王先生在书中写下的分析和反思也是鞭辟入里,发人深思;更重要的是,这些反思并没有只是停留在纸面上,已经成为当代中国社会治理的出发点和落脚点。
The Final Year
9月,PhD的最后一年正式来临。
先说坏消息,这一年尝试了几个月的新项目终以失败告终,不得不放弃。
好消息是,积攒了几年的其他论文终于陆续发表出来。
LMCDQN和续作发表,被Haque带飞。
Weight Clipping被RLC接收,被Mohamed带飞。
斐波那契好几次的一作论文Optim4RL也终于发表,感谢RLC救我狗命。
最令人激动的是Loss of Plasticity被Nature正刊接收了,蹭到了蹭到了!
这篇命途多舛的文章,在被顶会拒麻了之后,本来作者们都已经不抱希望了,只想找个地方草草发表。结果开会讨论的时候,Marlos突然来了一句:“为什么不试试Nature呢?”
于是无奈只能投Nature。命运的齿轮就此开始转动,一切都变得不同。
现在想起来,依然难以置信: 为了完成这个项目,文章的第一作者Shibhansh从硕士毕业一直坚持不懈地做到快博士毕业,一晃四五年过去了。在这种三个月发一篇顶会论文的年代,他承担了多么巨大的风险,又有多少辛酸苦楚,怕是只是他自己知道。好在最后也是happy ending,不负多年的付出。
我也从来没想过自己也能发Nature。虽然只是三作,但还是很开心能做一点微小的贡献,抱大腿的感觉真好!
与此同时,ICML和NeurIPS等各大顶会的论文submission数量都已破万,审稿的质量也是参差不齐。 可以预见的是,发表一篇顶会论文的价值已经越来越低。作为敲门砖,普通的顶会论文不再像以前那般有用了(当然还是有用的)。 作为一个即将毕业的PhD,一个厌倦了和reviewer吵架但依然有研究热情的researcher,未来该何去何从? 在论文通货膨胀的背景下,做什么才更有价值?
除了论文发表之外,我也用Jax将Explorer重新写了一遍 —— Jaxplorer!Jax虽然还是小众框架,但确实比PyTorch快一些,我也逐渐喜欢上functional programming的简洁优雅。
加速时代
There are decades where nothing happens and there are weeks where decades happen.
2024年,最后一个室友也毕业,去了其他城市工作;曾经的三人如今只剩我一人在北美宁古塔独自前行,顿显孤单落寞。 其他老朋友们也陆陆续续从埃德蒙顿离开,各奔前程。 仿佛连空气里都弥漫着离别的味道,提醒着我:“够久了,够久了,是离开的时候了。”
这一年,无论是学术界还是工业界,甚至是整个世界,都在加速。政治风险不再能被忽视,火中取栗不可取。 时代的力量正无情地将所有的所有推向未知的前方,真真是“百年未有之大变局”! 在这样的时代背景下,刻意追求稳定和安全反而成为了一件高风险低收益的事情。没有什么是安全而牢不可破的,沉浸在虚假的安全感中就如同温水煮青蛙,只会在大厦倾塌之时被压得粉碎。拥抱不确定性,走出舒适区,接受暴风雨的洗礼并不断成长,才是我唯一的正途。
那么,2025年见!