两周前自己订阅的ChatGPT到期,这一次自己没有再进行续费,而是直接选择把日常大模型的使用切换到了DeepSeek上(自己同时也在使用其他几款国内出产的大模型应用)。希望以DeepSeek为代表的国产大模型的工作能够不断推进技术边界,让自己能够保持持续使用国内大模型的习惯。
这段时间也看到了大量的中国乃至海外媒体关于DeepSeek的报道,也有一些自己的思考。
我个人的观点是,硬核技术的发展历程里,任何结果的形成都不是一蹴而就的。现在媒体行业对DeepSeek的关注过度,和之前对DeepSeek的关注较少,可能是一体两面,其实都属于有一定over-react的行为。我比较认同梁自己所说的,DeepSeek目前的成果,以国际行业标准来看,确实是取得了不错的成绩,值得认可,但如果放大时空,相似成绩放在美国科技行业,相当于只不过是诸多不错的技术创新中的一个。我们既不应该因为美国科技领先的优势(目前这还是一个我认为的客观现实)而觉得中国人就只能做follower,不能做太多硬核创新;也不应该只是因为一个来自中国公司的单点的技术成果就把制作这个成果的团队和公司捧到天上。这两种极端作法一体两面,对于硬核技术创新都有着极大的破坏性。
曾经有机会听一位行业里非常资深的华人前辈在介绍其创立的公司的组织设计理念时,他专门highlight说会在美国物色从事基础模型技术研究的人才,国内的团队做偏应用层的模型技术研究。虽然自己的从业经验并不能直接对于大模型的建模技术提出很强的洞见,也会承认整体来说美国的科技水准要领先于中国,特别是IT技术领域(包括芯片和人工智能)。但对于这种让美国团队从事基础技术,中国团队从事应用技术的职能设定,还是让自己非常的不舒适,因为这隐含了一种强烈的价值能力的推断。特别是看到一位资深前辈有这样的认知,还是让自己有些感叹,因为这样的人往往对行业资源的分配有着更强的影响力。当时自己的感觉是如果按这个逻辑,OpenAI的那帮人在微软或Google的资深大佬面前就是一堆小屁孩,完全不应该拿到那么多的社会资源来做出现在的OpenAI。DeepSeek的工作成果某种程度上,以一个非常直接的示例来证伪了这种技术判断的不合理性,也给中国的技术圈带来了一些潜在的影响,我自己是非常欣慰的。
我没有直接的一手经验,但从一些草蛇灰线的背景链路,加上自己的一些从业经验来看,我会倾向于认为DeepSeek的成果很大程度上取决于他们的核心决策流程能够基于足够hands-on的技术细节,在不需要考虑短期KPI压力的情况下,进行着有清晰远大终端目标(AGI)设定的技术探索。有清晰的宏大目标来提供反馈指引,又不像是纯基础科学那样完全不能规划(我本人认为大模型技术突破本质上还是工程技术的突破,而不是自然科学的突破,所以虽然具备很强的不确定性,但其实是那种通过工程技术组织实施可以解决的不确定性,而并不是那种人类历史上小概率产生的天才人物才能推进的自然科学进步),再加上有足够hands-on的核心决策流程和团队,同时又有着足够开放包容的工作氛围,就能让技术团队不断地一点点根据外部反馈来调整策略,逼近设定目标。当然在这个过程中,能够超越当前主流建模技术,提出新的模型基础部件,是值得称赞的工作。但如果我们仔细思考一下,忽略大模型训练所需要耗费的巨大硬件成本,在pre-LLM时代,设计浅层模型的时候,引入一些特殊的模型结构的设计,并不是本质难的事情。对于有着扎实的数理逻辑基础和机器学习素养的工程师来说,其实对模型的建模公式进行调整,是优秀的算法工程师自然该具备的能力。大模型时代每次迭代的巨量计算资源,使得实验成本上升,而如果有了“弱KPI"导向的文化保证,其实能够很大程度上还原浅层模型时代的模型创新能力。很多时候,可能是人性上对失败和成本的畏惧增加了”布朗运动式“的反复,看似动作很快,反而降低了创新的迭代效率。我们既应该欣赏认可DeepSeek团队的成果,也应该理性地分析其中值得学习借鉴的地方。这恐怕也是DeepSeek所取得的成果背后我个人觉得更有价值的东西。因为一代模型技术总会被新的模型技术取代。支撑这一代模型技术的AI系统的成果也会被新一代的AI系统的进步替换,但背后那个本质性,规律性的东西,才是最关键的值得维系的。因为那才是保持技术创新突破的源泉。
另一个我们不能忽略的是,在这个创新过程中,DeepSeek目前其实仍然享受了OpenAI带来的技术红利。对于硬核技术公司来说,这种技术红利未必直接以开源代码或开放模型权重的方式展现,而是一种指向未来的可能性的强提示就已经足够了。这就好比奥运会的百米赛跑,在刘易斯跑进10秒之内的成绩之前,人们普遍认为人类的生理极限就是百米10秒,但是在刘易斯跑进10秒之后,陆续会有其他运动员跑出10秒之内的成绩。人类作为潜力巨大的智能物种,需要方向感的指引好让其在某个方向能够专注其精力,形成压强突破。所以看到媒体说DeepSeek如何打败OpenAI之类的描述,一方面觉得国内其实做出了质量不错的硬核技术工作值得欣慰,另一方面也真心希望国内的媒体们能够多一些正面客观的引导,不要捧杀一支有潜力的技术团队。也希望DeepSeek的团队成员能保持初心,不断推进技术边界的探索。
另外一个不能忽略的事实是,DeepSeek以及几乎所有大模型技术团队所使用的核心技术栈,目前仍然是由西方的科技公司或团队来设计和生产的。包括PyTorch这样的底层训练软件,所依赖的建模基础组件库,也包括其使用的训练及推理硬件加速器以及网络设备,等等。我们需要保留敬畏之心。我们在肯定DeepSeek取得的成绩的同时,一定不能忽略对这些支撑其运作的底层技术的产出公司的尊重。我不知道DeepSeek团队的核心决策逻辑,只是隐约觉得选择把DeepSeek背后的技术以这么细致的方式开放给全行业,可能也有类似的考虑?技术突破在结果上可以出现跳跃性,但其演化过程不可能完全脱离过往的行业技术积累,真心希望这种跨越国界的技术创新的衍生能一直保持。
我个人是纯技术背景的出身。虽然多年以前就已经踏上了技术管理者的岗位,但骨子里还是把自己定位成一个工程师。2022年自己还曾经hands-on地调试过一些小的codegen系统的bug,2023年开始之后几乎主要以项目协同,邮件总结,slides整理为主,虽然自己还会努力安排出时间来做code review和参与技术讨论,但也大体是以让自己不要太脱离技术细节为主,便于支撑自己做出质量高一些的技术协调决策和规划,不再是那种hands-on性质的深度建设性的参与。也很感谢自己在服务的NVIDIA这家公司,能够给自己提供这样的土壤,使得自己在繁重的项目压力之下,几乎绝大多数时间还都能分配在技术性质的协调和管理工作上。而自己之前曾经在一家很出色的国内企业服务的时候,有一段时间自己会有些困惑,因为除了自己的直属主管以外,周围的很多人,会不断告诉自己你的技术能力足够了,要多关注其他能力,而在那个时候,对自己所在的领域自己能清晰地感觉到在哪些方面还存在和行业顶尖水准的差距。所以自己其实一直希望能够看到国内出现更多尊重硬核技术,尊重工程师的文化土壤。从我自己了解到的情况来看,DeepSeek似乎具备了这方面的特质。这是我个人非常欣赏也觉得珍贵的地方。多年以前,在我选择离开EDA行业,转型到互联网行业的时候,那家EDA公司的创始人,也是我现在也非常尊敬的老大哥说他就是想在EDA这种硬核行业一直工作,站着把钱赚了。当时的自己年少懵懂,不太理解这句话背后的含义。多年以后,也有了不同的经历,对他的观点才算是有了更多深刻的理解和认识。希望未来国内能够出现更多可以靠硬核技术,站着把钱赚了的公司。
中国是一个人口基数巨大的国家,并拥有着相同的语言和文化凝聚力(不论我们怎么吐槽各类社会问题,但从客观性的角度,绝大多数个体是很难从根本上断裂开自己和自己所生存长大的环境之间的联系,这种联系会以各种直接间接的方式影响着我们的生活和选择)。这样大的人口基数,在具备相同的语言和文化凝聚力的背景下,一方面出现小样本性质talents的绝对数量会增加(最简单的一个例子,看看AI领域顶尖工作里华人名字出现的频率),另一方面一但出现这种小样本talent,其可以借助这种集中的语言和文化凝聚力的优势去调动更多资源的可能性也相应增加。某种程度上,DeepSeek这样的公司的产生不应该是一次性的现象,而应该是越来越多的现象才合理。在过往的一些特殊历史阶段,我们会看到中国的土地上出现一些在人口数量偏小或缺乏向心语言和文化凝聚的国度里很难想象出现的人才井喷,力挽狂澜的现象,可能只不过是这里我所猜测的现象的一种体现罢了。
最后是一些非常容易跑偏的乱想了。改革开放让中国人过上了在绝对物质水准上,几千年来几乎最好的生活。但同时改革开放所鼓励的”实干主义“也可能不经意间滋生了”实用主义“(一个极端的比方,”学好数理化“就是典型的实用主义),这种”实用主义“恐怕不会是顶层设计者希望长期看到主导社会运行的规则,但一个国家,一个社会,和一个人,一个组织一样,都会有着惯性或"ego”,一但产生了这种惯性,想要克服这个惯性就需要艰苦的代价。因为在这个国家和社会里取得成就和拥有话语权的很多个体乃至组织都是这种惯性的受益者。这就需要有新的范式,作法,通过一个个新的个体和组织的出现,给这个群体带来新的反馈变量,驱动其升级和变革。自己在过往的工作经历中,看到过公司里或行业里出现类似变革的艰难。但同时自己也谨慎的保持着乐观的心态,认为这种变革总会不断发生,推动进步。希望DeepSeek这样的公司能够成长为推动这种变化的一分子。这恐怕是超过其在具体大模型技术领域贡献的更大的一个潜在影响了。
防水图[40P]