
在当今人工智能飞速发展的时代,新的参与者不断涌现,为这个领域带来新的活力与变革。深度求索DeepSeek便是其中备受瞩目的一家公司,它以独特的技术和创新的理念,在全球人工智能市场中崭露头角。
一、DeepSeek公司概况
深度求索(全称杭州深度求索人工智能基础技术研究有限公司),是一家专注于开发先进的大语言模型(LLM)和相关技术的企业,主要业务集中在研究和试验发展领域 。公司于 2023 年 7 月 17 日正式成立,坐落于浙江省杭州市拱墅区环城北路 169 号汇金国际大厦西 1 幢 1201 室。法定代表人是裴湉,其背后有着知名量化资管巨头幻方量化的身影。幻方量化不仅在金融量化领域成绩斐然,也积极投身人工智能技术研发,深度求索在其支持下,得以迅速开展人工智能相关的研究与产品开发工作。公司的管理人员架构中,执行董事兼总经理为裴湉,监事是王苗军。股东信息显示,宁波程恩企业管理咨询合伙企业持股 99%,认缴出资额 990 万元,认缴出资日期为 2073 – 12 – 31 ,而梁文锋持股 1%,认缴出资额 10 万元 ,认缴出资日期同样为 2073 – 12 – 31 ,梁文锋通过间接持股,其比例达到 83.2945% ,首次持股日期为 2023 – 07 – 17。梁文锋毕业于浙江大学,他还曾参与创立中国的量化对冲基金幻方量化,有着丰富的金融和科技领域经验,这些经验为深度求索的发展奠定了坚实的基础。
二、DeepSeek创立背景
随着人工智能技术,尤其是大语言模型的快速发展,全球各大科技公司纷纷投入大量资源进行研发。此前,行业内普遍认为开发领先的大语言模型需要巨额的技术和资金投入,这也使得许多初创企业望而却步。例如美国政府承诺支持特朗普总统宣布的 5000 亿美元的 “星门计划”,旨在推动人工智能等先进技术的发展。在这样的大背景下,深度求索决心打破这一传统观念,以创新的方式和高效的策略进入大语言模型开发领域。幻方量化在金融领域积累了大量的数据处理和算法优化经验,看到了人工智能在更广泛领域的巨大潜力,决定全力支持深度求索的创立,希望能在人工智能技术研发上取得突破,为行业带来新的变革。
三、核心产品
DeepSeek LLM
2024 年 1 月 5 日发布的首个大模型,包含 670 亿参数,从零开始在一个包含 2 万亿 token 的数据集上进行训练,数据集涵盖中英文。该模型将 7B/67B Base 和 7B/67B Chat 全部开源,供研究社区使用。在性能表现上,DeepSeek LLM 67B Base 在推理、编码、数学和中文理解等方面超越了 Llama2 70B Base;DeepSeek LLM 67B Chat 在编码和数学方面表现出色,具有显著的泛化能力,在匈牙利国家高中考试中取得了 65 分的成绩,并且在中文表现上超越了 GPT-3.5 。
DeepSeek Coder
这是由一系列代码语言模型组成的产品,每个模型均从零开始在 2 万亿 token 上训练,数据集中 87% 为代码,13% 为中英文自然语言。模型尺寸从 1B 到 33B 版本不等,通过在项目级代码语料库上进行预训练,采用 16K 的窗口大小和额外的填空任务,支持项目级代码补全和填充,在多种编程语言和各种基准测试中达到了开源代码模型的最先进性能。
DeepSeek-V2
2024 年 5 月发布,拥有 2360 亿参数,其中每个 token 有 210 亿个活跃参数。该模型中文综合能力(AlignBench)在众多开源模型中最强,超过 GPT-4,与 GPT-4-Turbo、文心 4.0 等闭源模型在评测中处于同一梯队;英文综合能力(MT-Bench)与 LLaMA3-70B 处于同一梯队,超过最强 MoE 开源模型 Mixtral8x22B 。其训练参数量达 8.1 万亿个 token,展现出了极高的训练效率,计算量仅为 Meta Llama 3 70B 的 1/5,只有 GPT-4 的 1/20 。
DeepSeek Coder-V2
2024 年 7 月推出,是一个开源的混合专家(MoE)代码语言模型,在代码特定任务中达到了与 GPT4-Turbo 相当的性能。它从 DeepSeek-V2 的一个中间检查点开始,进一步预训练了额外的 6 万亿 token,显著增强了编码和数学推理能力,同时在通用语言任务中保持了相当的性能。此外,它将支持的编程语言从 86 种扩展到 338 种,并将上下文长度从 16K 扩展到 128K,在标准基准测试中,在编码和数学基准测试中表现优异,超越了 GPT4-Turbo、Claude 3 Opus 和 Gemini 1.5 Pro 等闭源模型。
DeepSeek-V3
2024 年 12 月 26 日上线首个版本并同步开源,是一个 6710 亿参数的专家混合(MoE)模型,激活参数 370 亿,在 14.8 万亿 token 上进行了预训练。多项评测成绩超越 Qwen2.5-72B 和 Llama-3.1-405B 等开源模型。在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3 大幅超过了其他所有开源闭源模型,在生成速度上也有不错的表现。
DeepSeek-R1
2025 年 1 月 20 日正式发布,该模型基于 DeepSeek-V3 ,在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。1 月 24 日,在国外大模型排名 Arena 上,DeepSeek-R1 基准测试已经升至全类别大模型第三,其中在风格控制类模型(StyleCtrl)分类中与 OpenAI o1 并列第一,其竞技场得分达到 1357 分,略超 OpenAI o1 的 1352 分。
四、技术亮点
训练方法创新
在训练 R1 模型时,采用了与 OpenAI 不同的方法。通过大规模的强化学习方法专注于推理任务,开发了基于规则的奖励系统(奖励工程),该系统优于常用的神经奖励模型。利用高效的知识转移技术(蒸馏),成功将能力压缩到只有 15 亿参数的小模型中。还发现了复杂推理模式可以通过强化学习自然发展,而无需显式编程的 “涌现行为网络” 。
低训练成本与高效性
以较低的成本完成模型开发,例如 DeepSeek-R1 的开发成本不到 600 万美元,相比 OpenAI 开发 o1 模型估计需要数亿美元的成本大幅降低。同时,在训练过程中使用的时间更短,所需的 AI 加速器数量也更少,在保证模型性能的同时,大大提高了训练效率。
五、市场影响
产品应用与普及
深度求索为其模型提供了多种服务,包括网页界面、移动应用和 API 接入。其开发的 DeepSeek AI 助手,作为为 DeepSeek R1 提供聊天机器人界面的移动应用,在发布后的几天内就登上了苹果应用商店排行榜的榜首,超越了 OpenAI 的 ChatGPT 移动应用,这充分显示了其产品在用户中的受欢迎程度和市场潜力。
对行业格局的冲击
深度求索的崛起,尤其是 R1 模型发布后,在全球范围内引发了广泛关注,对人工智能行业格局产生了重要影响。2025 年 1 月 27 日,投资者对美国大型人工智能供应商的价值产生怀疑,引发了股市抛售,包括英伟达、微软、Meta 平台、甲骨文、博通等科技巨头的股价都出现了显著下跌。这表明深度求索的技术和产品已经对行业内的老牌巨头构成了挑战,改变了投资者对人工智能市场的估值和预期,促使整个行业重新审视技术发展方向和市场竞争态势。
六、新闻事件
2025 年 1 月 27 日,DeepSeek 在中国区及美区苹果 App Store 免费榜均占据首位,这是中国应用首次同期在中国和美区苹果 App Store 占据第一位,超越了 ChatGPT 及 Meta 公司旗下的社交媒体平台 Threads,以及 Google Gemini、Microsoft Copilot 等美国科技公司的生成式 AI 产品,成为当时人工智能领域的热门话题,进一步提升了深度求索在全球的知名度和影响力。从创立到如今在全球 AI 领域崭露头角,深度求索凭借独特的技术、创新的产品和对行业的深刻理解,已经成为一股不可忽视的力量。
商派官方订阅号
领取相关报告
近期文章
- 2024年美国品牌价值排行榜深度剖析:亚马逊居榜首,多芬(Dove)紧跟其后
- 商派助力上海恩斯凯集团搭建工业品采购与供应平台—“捂金网”,已成功上线运营!
- 2025: Consumption Upgrade Driven by the Expansion of Domestic Demand in China, and the Luxury Goods Industry Ushered in New Dividends
- 2024 年中国香水消费市场洞察:增长率接近 30%;定制香、小众香受欢迎;闻献和观夏热度高
- ShopeX OMS Operational Middleware Drives Dual Upgrades of 「Channel Expansion + Refined Operations」for Branded Enterprises
- 商派OMS运营中台驱动品牌企业「渠道扩张+精细化运营」双升级
- Analysis of the Development Trends of China’s Omnichannel Retail Digitalization from 2024 to 2025
- 2024-2025年中国全渠道零售数字化发展趋势分析
相关文章
产品推荐
- OMS全渠道智能运营中台 公私域连通/多系统集成/全渠道订单智能路由