SheepNav
精选今天0 投票

DeepSeek V4 为何重要?三个关键原因

上周五,中国人工智能公司 DeepSeek 发布了其备受期待的新旗舰模型 V4 的预览版。与上一代相比,V4 能够处理更长的提示词,这得益于一项帮助模型更高效处理大量文本的新设计。像 DeepSeek 之前的模型一样,V4 也是开源的,任何人都可以下载、使用和修改。

V4 是 DeepSeek 自 2025 年 1 月推出推理模型 R1 以来最重要的发布。R1 在有限的计算资源上训练,凭借其强大的性能和效率震惊了全球 AI 行业,几乎一夜之间将 DeepSeek 从一个鲜为人知的研究团队变成了中国最知名的 AI 公司。它还引发了其他中国 AI 公司发布开源模型的热潮。此后,DeepSeek 一直保持相对低调——但本月早些时候,它为其在线版本增加了“专家”和“快速”模式,暗示着一次更大的发布。

尽管该公司已成为中国 AI 雄心的强大象征,但它的这次回归是在数月的审视之后——包括重大人员离职、之前模型发布的延迟以及中美政府的日益关注。那么,V4 会像 R1 那样震撼 AI 领域吗?几乎不可能,但以下是这次发布重要的三个原因。

1. 为开源模型开辟新天地

与之前的 R1 一样,DeepSeek 声称 V4 的性能可与最好的模型媲美,但成本却低得多。这对开发者和使用该技术的公司来说是个好消息,因为他们可以按自己的方式访问前沿 AI 能力,而无需担心成本飙升。新模型有两个版本,均可通过 DeepSeek 网站和应用程序获得,API 访问也对开发者开放。V4-Pro 是一个更大的模型,专为编码和复杂的智能体任务而设计;V4-Flash 则是一个更小的版本,旨在更快、更便宜地运行。两个版本都提供推理模式,模型可以仔细解析用户的提示,并在处理问题时逐步展示每个步骤。

对于 V4-Pro,DeepSeek 收费为每百万输入 token 1.74 美元,每百万输出 token 3.48 美元,仅为 OpenAI 和 Anthropic 同类模型成本的一小部分。V4-Flash 更便宜,约为每百万 token 0.14 美元。这种价格差异意味着,即使预算有限的小型团队也能使用顶级 AI 能力,从而降低创新门槛。

2. 长上下文处理能力大幅提升

V4 最显著的技术进步是其处理超长提示的能力。得益于新的架构设计,V4 可以高效处理大量文本,这对于需要分析完整文档、长对话或复杂代码库的任务至关重要。例如,用户可以直接输入整本书或大量代码文件,模型仍能保持连贯的理解和推理。这种能力将 DeepSeek 推向了长上下文模型的领先行列,与 Google 的 Gemini 1.5 Pro 等模型竞争。对于需要处理大量信息的企业和研究机构来说,这是一个重要的实用功能。

3. 开源生态的持续推动

DeepSeek 坚持开源策略,V4 的发布将进一步推动开源 AI 生态的发展。与闭源模型不同,开发者可以自由下载 V4 的权重,在自己的硬件上运行,甚至进行微调以适应特定任务。这促进了透明度和协作,允许学术界和工业界深入研究模型的行为,并在此基础上构建应用。DeepSeek 的成功也激励了其他中国公司,如阿里云和百川智能,纷纷发布开源模型。V4 的发布可能会加速这一趋势,使开源模型在性能上更接近闭源对手。

尽管 V4 可能不会像 R1 那样引发轰动,但它在成本、上下文长度和开源方面的突破,对 AI 行业具有深远意义。它证明了高效、低成本的模型开发是可行的,为更广泛的 AI 应用铺平了道路。

延伸阅读

  1. AI驱动的诈骗新时代:更快速、更廉价、更危险
  2. 医疗AI已落地,但我们不知道它是否真的对患者有益
  3. Tyndale:用你已付费的AI翻译你的应用
查看原文