DeepSeek,搅了谁的局?

作者: [db:作者] 分类: 娱乐 发布时间: 2025-02-11 08:35
不要神化DeepSeek,但必需拥抱AI海潮。上一次AI行业惹起全平易近震撼仍是2022年11月ChatGPT的横空降生,尔后AI行业每逢严重变更,都被称为是“ChatGPT时辰”。这个词在2024年岁尾被改写,“DeepSeek时辰”呈现,被看作是AI汗青上的新转机点。2025年春节后期,中国杭州的一家AI企业DeepSeek(深度求索)接连宣布了V3(2024年12月26日)跟R1(2025年1月20日)两年夜开源模子。此中,DeepSeek声称V3在机能上濒临闭源模子OpenAI的GPT-4o与Anthropic的Claude-3.5-Sonnet,优于开源模子Meta的Llama 3,且总练习本钱仅为557.6万美元。推理模子R1的后果则迫近OpenAI o1,同时API(利用顺序编程接口)价钱仅为OpenAI o1的3.7%。这是一家建立于2023年7月17日的始创公司,手上却握着万张英伟达芯片,以海内AI巨子们7%阁下的本钱练习出了机能不错的年夜模子。这家公司早在2024年5月宣布V2模子后,正式打响中国年夜模子价钱战,被字节、阿里、百度等至公司盯上,岁尾又胜利将价钱战烧到海内。DeepSeek的呈现,一度让寰球算力观点股暴跌,叠加美股科技股普跌的影响,英伟达股价下跌近17%,市值蒸发近6000亿美元,范围创美股史上最年夜。OpenAI跟谷歌也在近期紧迫上线最新模子,AI行业可谓猛火烹油。DeepSeek爆火之后,硅谷巨子们开端掀桌,OpenAI表现曾经发明证据,证实DeepSeek“蒸馏”OpenAI模子的迹象,Anthropic开创人跟CEO Dario Amodei发文否定R1获得的冲破,并呐喊增强对中国的算力出口控制。抛开这场盛宴背地的情感,本文试图理清,DeepSeek究竟有不被“高估”,以及DeepSeek将会对海内外AI工业带来哪些荡漾效应。1、欲戴其冠,必承其重DeepSeek-R1上线20多天,接收了几多掌声,就蒙受了几多压力。AI行业从业者林抱负「定焦One」总结了DeepSeek口碑的起源:1、完整无偿使用。2、在跟用户谈天时会展现头脑进程,如许也能反向优化用户的发问情势,晋升对话休会,而o1就不颁布思考进程,起因可能是怕竞争敌手将进程拷贝后练习本人的模子。3、将技巧论文跟模子停止毫无保存的开源,局部开源年夜模子仍是会将最好的版本留给本人。但前多少天由于热度前来的用户发明,DeepSeek频仍呈现宕机,多少乎无奈畸形应用,起因是公司效劳器遭到了年夜范围DDoS歹意攻打,停止发稿,DeepSeek已规复畸形应用。固然,上述特点只是让DeepSeek有了用户自发传布的基本,DeepSeek之以是火爆,必定水平上是由于它让海内AI巨子“破防”,呈现了“掀桌子”的行动。面临不少人士“DeepSeek能否有翻新”的质疑,DeepSeek在其表露的V3跟R1的技巧论文中曾经有过回应:1、V3模子采取多项自研技巧停止架构翻新,包含DeepSeekMoE+DeepSeekMLA架构、MTP多Token猜测技巧,使低本钱练习成为可能;2、R1模子废弃了传统RLHF(人类反应强化进修)中的HF局部,经由过程纯强化进修(RL)直接练习,验证了RL的优先级跟无效性,进一步优化了练习效力。这也象征着,DeepSeek证实了本人确实能够做到“以不到600万美元的练习本钱(能够懂得为净算力本钱),实现一特性能濒临巨子的模子”。不外,半导体市场剖析跟猜测公司SemiAnalysis指出,557.6万美元这个数字重要指的是模子预练习的GPU本钱,斟酌到效劳器资源付出、经营本钱等要素,DeepSeek的总本钱在4年内可能到达25.73亿美元。弗成疏忽的是,翻新本钱降落的趋向早已开端,DeepSeek只是减速了这一过程。方舟投资治理公司的开创人兼CEO“木头姐”指出,在DeepSeek之前,人工智能练习本钱每年降落75%,推理本钱乃至降落85%到90%。英诺天使基金合资人王晟也有雷同见解,比方年终宣布的模子,到岁尾再宣布同样的模子,本钱都市有年夜幅度降落,乃至有可能降至1/10。并且OpenAI作为闭源模子,对外表露的算力本钱也有虚高的可能性,由于要留局部利润空间,也要一直对资源市场强化本钱很贵的故事,以此失掉更高的投资。不外,DeepSeek的宝贵性并不只仅在于“廉价”,更在于它是一个“屠龙少年”的故事。在ChatGPT横空降生之前,在中国面对算力控制之前,DeepSeek就曾经领有了超万张的GPU贮备。这关系到DeepSeek的开创人梁文峰从2008年开端摸索的量化买卖,由于要将深度进修模子利用于实盘买卖,必需贮备大批算力,2019年至2021年间,梁文峰的另一家公司幻方接踵自立研发了“萤火一号”与“萤火二号”AI集群,囤积大批芯片跟技巧人才。幻方为梁文峰供给了良多货色,充足的卡、对AI的sense以及模子层面的工程化才能,梁文峰也为DeepSeek供给了良多货色,不以红利为导向,对AGI纯洁的猎奇心跟摸索欲,以及充足开放的心态。有参加者表现,幻方曾用很低的价钱将卡供给给算法研讨机构应用。如许的故事存在弗成复制性跟美感,这也使得DeepSeek凑集了全平易近性的热度。2、DeepSeek让谁慌了?DeepSeek火了之后,一石激发千层浪,中美AI工业链高低游的企业都遭到了打击。首当其冲的要数chatbot类(谈天呆板人)AI利用,依据AI产物榜的数据,DeepSeek在2025年大年节前后,日活超越2000万,超出海内的豆包跟Kimi登顶中国第一。同时,DeepSeek仅用一周就用户破亿,而ChatGPT用时2个月。现实上,在DeepSeek宣布R1的多少乎统一天,月之暗面推出了本人的Kimi k1.5思考模子,并在Kimi收费开放应用,豆包APP也更新及时语音通话功效,面向全部用户开放,然而两者声量均被盖过,日活也遭到影响。林志以为,这件事充足展现了用户对chatbot这种形式的虔诚度是很低的,一旦呈现了更强盛更廉价更快的模子,各人就会迁徙从前。不外,从产物状态来看,豆包曾经在产物中接入多模态年夜模子,而DeepSeek现在还只有对话,且休会不稳固。固然DeepSeek在大年节当天(1月28日)宣布了开源笔墨天生图像(文生图)年夜模子Janus-Pro 7B,然而临时还不接入DeepSeek网页跟APP中应用。在真正的杀手级利用呈现之前,比拼的仍是背地的年夜模子才能。在这个层面下去看,现在遭到DeepSeek直接影响的第二批公司是自研年夜模子公司。从投资人的视角动身,王晟指出,从2024年5月DeepSeek宣布V2模子打响中国年夜模子价钱战时,圈内基础告竣一个共鸣——海内巨子中,最好用的年夜模子是阿里的Qwen,豆包在2023年还不敷好用但在2024年下半年晋升很快;创业公司里DeepSeek跟月之暗面(Kimi)增加最快,其他五小龙(零一万物、MiniMax、百川智能、智谱AI、阶跃星斗),有的转型、有的废弃、有的背靠国资,但增加逐步慢下去了,六小龙的格式也基础崩溃。某种水平上,这些闭源年夜模子公司也要面对跟外洋巨子一样的拷问:练习本钱能不克不及降上去?有不更高效的练习方法?API价钱战还打不打?至于DeepSeek能否会转变芯片市场的格式,多位行业人士则表现,算力之争不会消散,然而当初到了一个重估的阶段。之前英伟达的热渡过高,当初股价只是回归到了公道区间,然而终极英伟达的代价仍是会上去。也就是说,英伟达并非DeepSeek的受害者。反而是跟着模子利用场景的扩大,模子越“平权”,对算力的需要越年夜。DeepSeek把各人从一腔热血只寻求AGI的下限,拉回到转向存眷工业落地的事实里,它用很低的本钱给到绝对高的才能,能增进工业链上的翻新,将利好AI原生利用跟AI硬件的开展。“2025年将是AI贸易化落地元年”,林志称。同时,DeepSeek验证了海内AI工业从芯片到模子是能够局部实现国产替换的,提振了工业信念。春节时期,海内云效劳厂商跟GPU厂商纷纭安排DeepSeek。不外,跟着一步步被推向“神坛”,DeepSeek的最年夜打击或者未来自于本身的抉择。有信源称,阿里正打算以100亿美元的估值,投资10亿美元认购DeepSeek10%的股权。这一估值曾经超越月之暗面(33亿美元)跟智谱AI(20亿美元)。这一新闻被阿里方面否认,也有人指出背靠幻方的DeepSeek始终不追求过融资,但市场仍担忧另有其余策略朴直在打仗DeepSeek。这或者是市场最不想看到的终局,在这个春节接到“泼天贫贱”的DeepSeek,底本是一家自在的公司,梁文锋也曾对媒体提到,与年夜厂模子的最年夜差别是,“年夜厂会跟平台或生态绑缚,而咱们是完整自在的”。有人担忧假如DeepSeek此次拿了任何策略投资方的钱,AI六小龙的故事或者将在它身上重现。3、DeepSeek的新范式,另有生长空间放到更年夜视角来看,DeepSeek的突起之以是被海内巨子如斯器重,背地是两种门路的对照。王晟说明,AI工业在跑通AGI偏向上每每有两种差别的门路抉择:一个是“算力武备”范式,堆技巧堆钱堆算力,先把年夜模子机能拉至一个高点,一直推高AGI的才能下限,再斟酌工业落地;别的一个是“算法效力”范式,一开端就以工业落地为目的,经由过程架构翻新跟工程化才能,推出低本钱高机能模子。能够看到,以往年夜模子公司之间的竞争,基础都是押注“算力武备”范式。在这种范式下,OpenAI、Anthropic、谷歌,包含海内AI六小龙等企业,都是重资源投入型企业。由于须要宏大的资金量,这象征着资源市场只能支撑多数多少家企业,AI巨子的市场会合度远高于其余行业。DeepSeek-R1宣布之际,美国总统特朗普发布了一个总额达5000亿美元的AI基本设备名目“星际之门”,OpenAI、软银跟甲骨文等都已许诺参加此中。稍早前,微软表现2025年将在AI基本设备上投入800亿美元,扎克伯格则打算在2025年为其AI策略投资600多亿美元。一个无奈疏忽的市场情况是,从前各人都在寻求AGI才能的一直增加,只有模子机能增加的够快,竞争敌手在前面无论怎样停止数据工程优化都追不上头部企业。然而到2024年11月阁下,“高品质文本练习数据行将被耗费殆尽”的论调敲响了行业警钟,假如数据供给停止,模子练习也可能停止,各人认识到之前比拟集约的练习形式确切可能存在瓶颈,即便往上堆算力,延伸练习时光跟增年夜数据量级,才能增加也多少乎到头了。在这个时光点,实在也有企业以为“算法效力”范式是当下可行的范式,只是DeepSeek先做出来了。“它的一系列模子也证实了,在天花板涨不动的情形下,把重点放在优化效力而非才能增加上的范式也存在可行性。”王晟称。如许的配景下,DeepSeek以一个“搅局者”的身份呈现,美国AI巨子“费钱砸模子很值”的资源故事逐步不建立了。DeepSeek以开源模子入场,被视为是靠生态的力气去挑衅当先者,而当先者为了怕被搅局,平日会越来越关闭。“实在中美的主流道路曾经完整反过去了”,林志称。在阿里Qwen机能追逐下去之前,寰球最主流的开源模子是Meta的Llama,在海内市场,Llama一度落伍于OpenAI跟Claude等闭源模子,但在海内,现在在年夜模子上支年夜旗的反而是开源模子。不外,也有不少业内子士以为不该该过火悲观,由于DeepSeek只能说是给2025年开了个好头,竞争还在持续,差距仍旧存在。近期,多少年夜海内巨子就推出了新模子。2月1日,OpenAI宣布最新推理模子o3-mini系列,这是OpenAI首个开放给收费用户的推理模子。2月6日,谷歌官宣Gemini 2.0家属更新,此中Gemini 2.0 Flash-Lite版本被称为谷歌现在为止性价比最高的模子。正如梁文锋本人所说,固然详细技巧偏向始终在变,但模子、数据跟算力这三者的组合是稳定的。数据工程也是此中很主要的一环,OpenAI固然面对侵权成绩但积聚了本人的数据库,豆包由于TikTok变乱影响也声称本人不会停止数据蒸馏,“原生搭建的数据库”成为年夜厂的护城河之一。别的,王晟提到,依据Trade-off Curves(弃取曲线),DeepSeek抉择的门路象征着它的精神重点在于工程优化,那就很难在才能下限上获得冲破,“它用现无方法持续迭代新版本,才能能晋升几多?这是个成绩。”从先生时期起,梁文锋就展示出摸索AGI的热忱跟一直翻新的寻求,DeepSeek此前只是躲开了有效或掉败的实验,但咱们也不该该否定前一种门路中,巨子们不吝价值,经由过程种种未知的实验来拓宽AGI界限的尽力。DeepSeek搅动的这一片汪洋,荡漾还在持续扩展。应受访者请求,文中林志为假名。

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!