自有歪果仁为DeepSeek「辩经」:揭露环抱DeepSeek的

日期:2025-02-06 08:37 浏览:

选自 tanishq.ai作者:Tanishq Mathew Abraham呆板之心编译缭绕 DeepSeek 的谎言切实太多了。面临 DeepSeek R1 这个仿佛「一夜之间」呈现的进步年夜模子,全天下曾经堕入了没日没夜的年夜探讨。从它的模子才能能否真的进步,到是不是真的只用了 550W 停止练习,再到奥秘的研讨团队,每个角度都是话题。固然 R1 是开源的,缭绕 DeepSeek 的种种夸大猜想仍是层出不穷,有人说练习 R1 现实上应用的算力远超论文所说的,有人质疑 R1 的技巧翻新,乃至另有人说 DeepSeek 现实的目的是做空……克日,著名天生式 AI 创业公司 Stability AI 的前研讨主管 Tanishq Abraham 终于坐不住了,他撰文戳穿了缭绕 DeepSeek 的一系列谬论。行文直接了当,让人很快就能够懂得现实情形。让咱们看看海内一线 AI 研讨者是怎样说的。往年 1 月 20 日,DeepSeek 开源的强推理模子 R1 震动了众人,与其余全部开源年夜言语模子(LLM)比拟,该模子的差别之处在于以下多少点:机能现实上与 OpenAI 的 o1 一样好,这是一个进步的模子,标记着开源初次真正遇上闭源;与其余进步模子比拟,R1 是在绝对较低的练习估算下实现的;易于应用的用户界面,加上其网站跟利用顺序中存在可见思绪链的精良用户休会,吸引了数百万新用户。鉴于 DeepSeek(深度求索)是一家中国公司,美国及其一众科技公司纷纭责备新模子存在种种「国度保险成绩」。因而,有关该模子的过错信息众多成灾。这篇博文的目标是辩驳自 DeepSeek 宣布以来很多与人工智能相干的极端蹩脚的批评,并以一名任务在天生式人工智能前沿的 AI 研讨职员的身份供给客不雅的见解。让咱们开端吧!曲解 1:DeepSeek 是一家忽然冒出来的中国公司完整过错,到 2025 年 1 月,寰球多少乎全部天生式 AI 研讨职员都据说过 DeepSeek。DeepSeek 乃至在 R1 片面宣布前多少个月就曾经预报了宣布!传布这种曲解的人很可能不是从事人工智能任务的人,假如你不踊跃参加某个范畴,就以为你对这个范畴正在产生的事件一目了然,这是荒诞且极端狂妄的。DeepSeek 的第一个开源模子于 2023 年 11 月宣布,它们是开始进的代码 LLM(DeepSeek-Coder)。如下图所示,DeepSeek 在一年的时光里连续宣布新产物,R1 只是此中的一个:DeepSeek 的模子停顿。罗马不是一天建成的,从 AI 创业公司的角度来看 DeepSeek 的提高速率也不什么可疑的。人工智能范畴所有都开展得如斯之快,并且他们领有一支显然很杰出的团队,一年内获得如斯年夜的提高在我看来是公道的。假如你想晓得另有哪些团队不为大众所知,但在人工智能圈却备受看好,这外面能够包含 Qwen(阿里巴巴)、YI(零一万物)、Mistral、Cohere 跟 AI2。我要指出的是,它们都不像 DeepSeek 那样连续推出 SOTA 模子,但它们都有潜力宣布一流的模子,正如它们从前所展现的那样。曲解 2:练习模子弗成能只破费 600 万美元,DeepSeek 在扯谎这个说法很有意思。有人宣称 DeepSeek 在扯谎,瞒哄了实在的练习本钱,以此掩饰他们经由过程合法道路获取了因为出口控制本不应取得的算力。起首,咱们要懂得这 600 万美元的数字从何而来。这个数字最早呈现在 DeepSeek-V3 的论文中,该论文比 DeepSeek-R1 的论文早一个月宣布:DeepSeek-V3 的技巧讲演,宣布于 2024 年 12 月 27 日DeepSeek-V3 是 DeepSeek-R1 的基本模子,这象征着 DeepSeek-R1 就是在 DeepSeek-V3 的基本上增添了一些强化进修练习。从这个角度来说,这个本钱确切不敷正确,由于还未计入强化进修练习的额定本钱。不外,强化进修练习的本钱可能也就多少十万美元。那么,DeepSeek-V3 论文中提到的这个 550 万美元能否正确呢?依据 GPU 本钱、数据集范围跟模子范围的多项剖析都得出了相似的预算成果。值得留神的是,固然 DeepSeek V3/R1 是一个领有 6710 亿参数的模子,但它采取了混杂专家体系 (MoE) 架构,这象征着每次函数挪用 / 前向传布只会用到约 370 亿参数,练习本钱的盘算也基于这个数值。DeepSeek 讲演的是基于以后市场 GPU 价钱的预算本钱。英伟达 AI 盘算卡的价钱并不牢固,咱们并不晓得他们的 2048 块 H800 GPU 集群 (不是 H100!) 的现实本钱。平日情形下,团体购置 GPU 集群会比零碎购置廉价,以是现实的算力本钱可能更低。要害在于,这只是终极练习运转的本钱,另有很多小范围的试验跟融化试验,这也是一笔开支,但每每不会被盘算在练习本钱内。别的,另有研讨职员的薪资等其余本钱。据 SemiAnalysis 报道,DeepSeek 的研讨职员年薪据传高达 100 万美元,这与 OpenAI 或 Anthropic 等顶尖 AI 试验室的高薪资程度相称。在比拟差别模子的练习本钱时,人们平日只存眷终极练习运转的本钱。但因为不实信息的传布,有人开端用这些额定的本钱来质疑 DeepSeek 的低本钱跟经营效力。这种比拟是极不公正的。其余 AI 前沿试验室在融化试验等种种试验跟研讨职员薪资方面的额定付出同样宏大,但在这些探讨中每每不会被说起!曲解 3:价钱太廉价了,全部美国 AGI 公司都在挥霍钱,这对英伟达来说极为倒霉这又是一个相称笨拙的观念。DeepSeek 在练习效力上确切比很多其余 LLM 要高得多。不只如斯,可能很多美国的前沿试验室在盘算资本的应用上效力都不高。但是,这并不料味着领有更多的盘算资本是一件好事。近来,如许的观念比拟风行,这种观念可归因于他们并不睬解扩大率(scaling laws),也不睬解 AGI 公司 CEO 的头脑方法(任何被视为 AI 专家的人都应当懂得这些)。近来多少年 AI 范畴的 Scaling Laws 曾经证实了,只有咱们连续向模子中投入更多的盘算资本,机能就会一直晋升。固然,跟着时光推移,扩大的详细方式跟着重点也在变更:最初是模子范围,而后是数据集范围,当初是推理时的盘算资本跟分解数据。只管如斯,自 2017 年 Transformer 架构问世以来,「更多盘算资本 = 更好机能」的总体趋向仿佛始终建立。更高效的模子象征着在给定的盘算估算下,你能够压迫更多的机能,但更多的盘算资本依然会带来更好的成果。更高效的模子象征着你能够用更少的盘算资本做更多的事件,但假如有更多的盘算资本,你还能做得更多!当初,你可能对扩大律有本人的见解。你可能以为行将呈现一个瓶颈期,也可能像金融范畴常说的那样,从前的机能并不代表将来的成果。但假如你想要懂得最年夜的 AGI 公司正在做出的举动,这些见解实在并不主要。全部最年夜的 AGI 公司都在逃注扩大律可能连续充足长的时光,以便实现 AGI 跟 ASI。这是他们动摇的信心。假如他们坚信不疑,那么独一公道的举动就是获取更多的盘算资本。你可能会说英伟达的 GPU 很快就会过期,看看 AMD、Cerebras、Graphcore、TPU、Trainium 等等新产物的机能。市道上无数不清的 AI 公用硬件都在与英伟达竞争。将来可能会有一家公司胜出。到当时,AI 公司可能会转向应用它们的产物。但这都与 DeepSeek 的胜利完整有关。(凭心而论,斟酌到英伟达现在的市场主导位置跟连续翻新的才能,我还不看到其余公司可能撼动英伟达在 AI 减速芯片范畴霸主位置的无力证据。)总的来说,我以为不来由由于 DeepSeek 而不看好英伟达,用 DeepSeek 来论证这一点仿佛并不适当。曲解 4:DeepSeek 不任何有意思的翻新,只是在剽窃美国公司过错。在言语模子的计划及其练习方法上,DeepSeek 有很多翻新之处,此中一些翻新比其余更为主要。以下罗列了局部(并非细致列表,概况请参阅 DeepSeek-V3 跟 DeepSeek-R1 论文):1.Multi-latent 留神力(MHA)—— 平日情形下,LLM 是基于多头留神力机制(MHA)的 Transformer 架构。DeepSeek 团队开辟了一种 MHA 机制的变体,这种变体不只愈加节俭内存,并且机能表示也更为杰出。2.GRPO 与可验证嘉奖。自从 o1 宣布以来,AI 社区始终在实验复现其后果。因为 OpenAI 对其任务道理坚持高度关闭,社区不得不摸索种种差别的方式以实现相似 o1 的成果。有很多研讨偏向,比方蒙特卡洛树搜寻(Google DeepMind 在围棋中得胜所应用的方式),但这些方式终极被证实不如最初预期的那么有远景。另一方面,DeepSeek 展现了一个十分简略的强化进修(RL)流程现实上能够实现相似 o1 的成果。更主要的是,他们开辟了本人版本的 PPO RL 算法,称为 GRPO,这种算法更高效且机能更优。AI 社区的很多人都在思考,为什么咱们之前不实验过这种方式呢?3.DualPipe—— 在多 GPU 上练习 AI 模子时,须要斟酌效力成绩。你须要断定模子跟数据集怎样在全部 GPU 之间调配,数据怎样在 GPU 之间活动等。还须要只管增加 GPU 之间的数据传输,由于这种传输速率很慢,最好尽可能在每个独自的 GPU 长进行处置。总之,设置这种多 GPU 练习的方法有良多种,DeepSeek 团队计划了一种名为 DualPipe 的新方式,这种方式愈加高效且速率更快十分荣幸的是,DeepSeek 完整开源并具体记载了这些翻新,这与美国的 AGI 公司差别。当初,每团体都能够应用这些提高来受益并改良本人的 AI 模子练习。曲解 5:DeepSeek 正在从 ChatGPT 汲取常识OpenAI 已经宣称,DeepSeek 经由过程一种称为蒸馏的技巧从 ChatGPT 中汲取常识。但在这里,蒸馏一词的应用显得有些奇异。平日情形下,蒸馏指的是基于全部可能的下一个词(token)的完全概率(logits)停止练习,但 ChatGPT 乃至不公然这些信息。OpenAI 及其员工宣称 DeepSeek 应用 ChatGPT 天生的文本对其停止练习。但他们不供给任何证据,假如这是真的,那么 DeepSeek 显然违背了 ChatGPT 效劳条目。不外咱们对这一行动的执法成果尚不明白。须要留神的是,这仅在 DeepSeek 本人天生用于练习的数据时才建立。假如 DeepSeek 应用了来自其余起源的数据(现在有很多公然的数据集),这种情势的蒸馏或分解数据练习并不违背效劳条目(TOS)。只管如斯,这并不会减损 DeepSeek 的成绩。对研讨职员来说,DeepSeek 更令人印象深入的不是其效力方面,而是他们对 o1 的复现。别的,有研讨者高度猜忌对 ChatGPT 停止蒸馏能否会有辅助,由于 o1 的 CoT(Chain-of-Thought)头脑进程从未公然表露,那么 DeepSeek 是怎样可能进修到它的呢?别的,很多 LLM 确切在 ChatGPT(以及其余 LLM)天生的分解数据长进行练习,并且在任何新的互联网上抓取的数据中天然也会包括 AI 天生的文本。总的来说,对 DeepSeek 的模子表示优良仅仅是由于它蒸馏了 ChatGPT 的这一观念,确切疏忽了 DeepSeek 在工程、效力跟架构翻新方面的现实结果,这些都在 DeepSeek 的技巧讲演中有具体阐明。咱们应当担忧中国在 AI 范畴的当先位置吗?或者有一点吧?诚实说,从前两个月里,中美在 AI 范畴的竞争态势并不太年夜变更。反却是外界的反映相称剧烈。中国在 AI 范畴始终很有竞争力,但 DeepSeek 的呈现让中国变得不容疏忽。对于开源,罕见的观念是:既然中国 AI 比拟落伍,美国就不应公然分享技巧,免得他们奋起直追。但显然,中国曾经遇上来了,并且现实上他们早就做到了,乃至在开源范畴处于当先位置。因而,关闭咱们的技巧能否真的能带来明显上风,这一点尚不明白。值得留神的是,像 OpenAI、Anthropic 跟 Google DeepMind 如许的公司,其模子确切比 DeepSeek R1 更强盛。比方,OpenAI 的 o3 模子在基准测试中的表示十分杰出,并且他们很可能曾经在开辟下一代模子了。别的,跟着「星门打算」等年夜范围投资的推动,以及 OpenAI 行将实现的融资,美国的前沿 AI 试验室将有充足的盘算资本来坚持当先。固然,中国也会在 AI 开辟上投入大批资金。总体来看,竞争正在加剧!但我以为,美国的通用人工智能(AGI)前沿试验室持续坚持当先的远景仍然非常光亮。论断一方面,局部人工智能从业者(尤其是 OpenAI 员工)正试图锐意淡化 DeepSeek 的成绩;另一方面,某些专家跟自封威望人士对 DeepSeek 的反映又显得适度夸大。须要明白的是:OpenAI、Anthropic、Meta、Google、xAI、英伟达等公司的开展远未闭幕;DeepSeek 对其结果的描写(很可能)并无虚伪。但必需否认,DeepSeek 值得取得应有承认,其推出的 R1 模子确切令人印象深入。原文链接:https://www.tanishq.ai/blog/posts/deepseek-delusions.html

0
首页
电话
短信
联系