2025/01/27 09:46:42
近日,通用人工智能模型AGI研发商DeepSeek受到了广泛关注。1月26日,DeepSeek相关话题已位列东方财富热榜话题榜第二名。27日,DeepSeek应用登顶苹果中国地区和美国地区应用商店免费App下载排行榜,在美区下载榜上超越了ChatGPT。
近日,通用人工智能模型AGI研发商DeepSeek受到了广泛关注。1月26日,DeepSeek相关话题已位列
27日,DeepSeek应用登顶苹果中国地区和美国地区应用商店免费App下载排行榜,在美区下载榜上超越了ChatGPT。
据悉,DeepSeek于2025年1月发布了性能比肩OpenAI o1正式版的DeepSeek-R1模型,该模型在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。
模型发布后引起了广泛热议,CNBC称:“一家鲜为人知的中国人工智能实验室发布了人工智能模型,尽管其搭建成本更低,但性能却超越美国最好的人工智能模型,这引发了整个硅谷的恐慌。”
1月26日,有消息称DeepSeek出现闪崩,提示服务器繁忙。当日16点,上证报记者实测发现,DeepSeek大模型已可以正常使用。
公开信息显示,DeepSeek所属企业为杭州深度求索人工智能基础技术研究有限公司,该公司由梁文锋间接控股83.2945%。据悉,梁文锋出生于广东,毕业于浙江大学,此前曾从事量化投资工作。
低成本、高性能
DeepSeek-R1模型最显著的特点是较强的性能与较低的成本。
公开信息显示,DeepSeek-R1的性能可对标OpenAI o1正式版,但DeepSeek-R1 API服务定价为每百万输入tokens1元(缓存命中)/4元(缓存未命中),每百万输出tokens16元。有业内人士向记者表示,这个收费标准大约是OpenAI o1运行成本的三十分之一。
DeepSeek-AI团队的论文显示,DeepSeek R1的技术关键点在于其创新的训练方法——DeepSeek-R1-Zero路线,传统LLM的推理能力通常需要大量人工标注的监督数据,而该路线直接将强化学习(RL)应用于基础模型,无需依赖监督微调(SFT)和已标注数据。
事实上,低成本、高性能一直是DeepSeek模型的“卖点”。
DeepSeek曾于2024年12月推出DeepSeek-V3模型,其多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
值得注意的是,该模型仅用了两个月的时间和不到600万美元就开发完成,且模型训练使用的是性能受限的英伟达H800显卡。与之相对的,Meta的Llama-3.1-405B的训练成本高达6000万美元,使用的计算资源是 DeepSeek-V3的11倍。
在美国匿名职场社区teamblind上,已有Meta员工表示DeepSeek的低成本和高效能让团队面临预算合理性的问题:“生成式AI开发团队中的每个领导的薪酬都比整个DeepSeek-V3的成本还要高,而我们有好几十个这样的领导。”
市场反响激烈
DeepSeek-R1模型的发布引起了激烈的讨论。有关业内人士表示,市场反响如此剧烈的原因在于,DeepSeek的实例表明,AI技术并不存在明显的“护城河”,模型技术的相互超越已成为常态。
微软首席执行官萨提亚·纳德拉(Satya Nadella)在达沃斯世界经济论坛上表示:“DeepSeek的新模型令人印象深刻,他们不仅有效地开发出了一个能够进行推理时计算的开源模型,而且计算效率极高。”
经济学人指出,目前美国训练一个大语言模型要花费数千万美元,而DeepSeek的支出不到600万美元。这种廉价训练正随着模型设计的发展改变整个行业,可能导致更多针对特定用途的专业模型涌现,打破赢者通吃的市场格局。
此外,AMD宣布DeepSeek-V3模型已集成至Instinct MI300X GPU上,并借助SGLang进行了性能优化。AMD还表示,此次集成将有助于加速尖端人工智能应用的发展。
DeepSeek的热度高涨也引起了国内资本市场的关注。相关业内人士表示,人工智能有望在春节前后继续成为资本市场追逐的热点板块。