一、事件概述
最近,在人工智能领域掀起了一场不小的风波。DeepSeek V3.1 Base突然上线,而且表现相当出色,直接击败了Claude 4。
这一消息迅速在全网传播开来,大家都在蹲守着即将面世的R2和V4版本。
二、性能对比
从目前的数据来看,DeepSeek - V3相较于之前的版本有着显著的提升。
- DeepSeek - V3:从31.6%提升至54.8%(+73%相对提升)
- Qwen - 2.5 - 72B:从18.8%提升至38.8%(+106%相对提升)
- Llama - 3.1 - 70B:从15.4%提升至32.6%(+112%相对提升)
这些数据表明,DeepSeek - V3在性能上有了巨大的飞跃。
三、市场影响
DeepSeek - R1的发布就已经对智谱的商业化空间造成了挤压。
一些B端服务提供商透露,很多定制化项目客户的注意力都转向了DeepSeek的模型。
而在C端市场,智谱的步伐相对较慢。
四、竞争局势
在之前的一些比赛中,像OpenAI的o3和o4 - mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4等模型进行了较量。
其中,Grok 4表现出色,而DeepSeek也有不错的表现。
另外,关于DeepSeek - R1 - 0528,它支持工具调用,测评成绩虽然与某些顶级模型有差距,但也达到了不错的水平。
五、技术基础
AI编程工具的能力很大程度上取决于背后的大型模型。
资深程序员陆通提到,AI编程的底层技术原理是大语言模型加上针对代码的特定训练优化。
在国内,DeepSeek和Qwen系列是比较适合AI编程的大模型,国外则是Claude等。
六、硬件支持
尽管RTX 4090在某些方面与数据中心级别的GPU存在差距,但它在消费级价位上能提供足够的算力和显存资源来支持DeepSeek V3的高效推理。
这也证明了在性能和成本之间可以实现有效的平衡。
七、未来展望
R2被认为可能成为最重要的开源推理模型之一。
有传言称R2将在4月份发布,如果按照之前的发布规律,它的到来备受期待。
而对于DeepSeek的新版v3,虽然在某些方面还存在不足,但它的完成度已经很高了。
相信随着后续版本的推出,DeepSeek将会越来越强大。

发表评论 取消回复