在中国的大模型市场,DeepSeek(深度求索)这家较为低调的创业公司却以惊人的方式引起了各方的关注。它的背后是量化私募巨头幻方,备受瞩目的A100芯片库存让它在市场中占据了一席之地。尤其值得一提的是,DeepSeek在五月发布的DeepSeekV2开源模型,以极具竞争力的推理成本,瞬间点燃了整个行业的价格战,成为AI界的拼多多。
DeepSeekV2的发布,将推理费用降低至每百万token仅需1元,这一价格使得它的性价比达到了Llama370B的七分之一,甚至是GPT-4 Turbo的七十分之一。这样的成本引发了字节、腾讯、百度和阿里的纷纷跟进,市场竞争格局瞬间改变,在这场激烈的价格战中,DeepSeek却依旧实现了盈利。
这并非偶然,DeepSeek对模型架构的创新奠定了其成功的基础。其独特的MLA(多头潜在注意力机制)架构将显存占用率减少至以前结构的5%-13%,并且它的DeepSeekMoESparse结构进一步降低了计算量,最终实现了成本的优化。在硅谷,DeepSeek被称为“来自东方的神秘力量”,其创新的架构引起了众多前沿人士的关注。业界专家们一致认为,DeepSeekV2的论文可能是今年最出色的研究之一。
在中国的大模型创新舞台上,DeepSeek的选择显得与众不同:专注于研究与技术开发,而非直接追求商业化。这种对技术潜力的深刻理解让DeepSeek在行业中脱颖而出。相比于其他公司选择了“既要又要”的路线,DeepSeek始终坚持开源,并将研究视为首要任务,形成了社区中独特的用户口碑。
创始人梁文锋在技术领域的持续贡献和独特视角使DeepSeek始终走在潮流的前沿。他认为,中国在技术创新上的长期缺失,已经迫使企业必须重新审视自身的发展战略。DeepSeek的目标并非仅仅是盈利,而是希望凭借原创技术将中国带入全球技术创新的中心。
随着科技行业的不断演变,DeepSeek将如何继续推动AI发展,并在未来的竞争中保持领先,值得我们持续关注。返回搜狐,查看更多
0 条