DeepSeek（深度求索）火爆的背后是创新

DeepSeek（深度求索）是一家成立于2023年7月17日的中国公司，专注于开发先进的大语言模型（LLM）和相关技术。公司总部位于中国杭州，致力于探索通用人工智能（AGI）的实现路径。

技术创新

DeepSeek的技术创新主要体现在以下几个方面：

模型架构创新：DeepSeek提出了多头潜在注意力（MLA）架构，显存占用降低到传统多头注意力（MHA）架构的5%-13%。此外，DeepSeek独创的DeepSeek MoE sparse结构将计算量降到极致，推理成本大幅下降。

训练方法创新：DeepSeek-R1采用纯强化学习（RL）方法，摒弃了传统的监督微调（SFT）和思维链（CoT）训练。这种“冷启动”方法使得模型能够自主学习，从海量数据中学习逻辑与因果关系。

多Token系统：DeepSeek引入“多Token”系统，模型能够一次性读取整个短语甚至句子，提升了推理速度和准确率。

产品体系

DeepSeek的产品体系包括多个版本的AI大模型，如DeepSeek-LLM、DeepSeek-V2、DeepSeek-V3和DeepSeek-R1。其中，DeepSeek-V3在多个评测中表现出色，训练成本仅为557.6万美元，性能媲美闭源模型。

市场表现与行业影响

DeepSeek的模型在多个领域展现了强大的能力，甚至在某些任务上超越了国际顶尖模型。其低成本和高性能的模式打破了传统AI开发的高门槛，吸引了广泛的关注和讨论。

开源生态

DeepSeek采用完全开源的模式，允许用户自由使用和部署其模型，促进了更广泛的应用和创新。这种开放的态度使得DeepSeek在技术迭代和应用拓展方面发展迅速，形成了一个活跃的开源社区。

创始人及团队

DeepSeek的团队主要由顶尖高校的应届硕博毕业生和年轻研究员组成，平均年龄28岁。公司强调创新驱动和普惠AI的理念，致力于通过降低大模型的API价格，推动AI技术的普及。

DeepSeek的创始人是梁文锋

梁文锋，1985年出生于广东省湛江市，17岁时以吴川市第一中学“高考状元”的成绩考入浙江大学电子信息工程专业，后获得信息与通信工程硕士学位。在大学期间，他开始对金融市场产生兴趣，并探索全自动量化交易的应用潜力

。

毕业后，梁文锋与同学徐进共同创立了杭州雅克比投资管理有限公司，随后于2015年成立杭州幻方科技有限公司，专注于通过数学和人工智能进行量化投资。幻方科技迅速发展，成为国内量化投资领域的领先企业之一

。

2023年，梁文锋进军通用人工智能领域，创办了DeepSeek，致力于开发先进的大语言模型和相关技术。DeepSeek的模型在多个领域表现出色，尤其是在降低成本和提高性能方面，打破了传统AI开发的高门槛，吸引了广泛的关注和讨论。

넳 넲

首页标题 ꄲ DeepSeek（深度求索）火爆的背后是创新

创建时间：2025-01-28 09:41

넶浏览量：0