一、震撼发布

昨天18:45,界面新闻报道,8月21日,从DeepSeek官方公众号传来重大消息——其最新大语言模型DeepSeek-V3.1正式发布。

这距离前一版本DeepSeek-V3-0324的推出仅仅过去了5个月的时间呢。这次新升级版本带来了诸多令人瞩目的变化。

二、迈向Agent时代的革新

8月21日下午,澎湃新闻网指出,DeepSeek发布了DeepSeek-V3.1,并宣称这是“迈向Agent(智能体)时代的第一步”。8月20日晚间,DeepSeek低调上线了DeepSeek V3.1,这一升级推出的新功能引发了广泛的关注。

V3.1已经在HuggingFace与魔搭社区上发布,这也意味着DeepSeek继续着它的开源策略。华尔街见闻透露,此次发布的模型参数量达到了惊人的685B,Base模型在V3的基础上额外进行了840B token的训练。

三、开源与功能提升

手机凤凰网报道,Model V3.1 的 Base 模型在 V3 的基础上重新做了外扩训练,共增加了840B tokens的训练量。Base模型与后训练模型均已在Huggingface与魔搭开源。

而根据金融界的消息,DeepSeek - V3.1具备混合推理架构,一个模型能同时支持思考模式与非思考模式;相较于之前的DeepSeek - R1 - 0528,DeepSeek - V3.1 - Think能够在更短的时间内给出答案,思考效率得到了极大的提高;此外,还拥有更强的Agent能力,通过Post - Training等方式进一步增强了模型的功能。

四、与竞品的较量

值得一提的是,此次DeepSeek - V3.1的发布似乎有着与GPT5对垒的意味。正如财联社所言,DeepSeek - V3.1被官方称为“迈向Agent时代的第一步”,与以往的大模型迭代不同,它最大的特点是混合推理架构,一个模型同时支持思考模式与非思考模式。这意味着模型在保持性能稳定的同时,能够根据不同场景的需求灵活切换模式。

DeepSeek-V3.1架构示意图

从目前的情况来看,DeepSeek - V3.1在很多方面都有着不错的表现。不过,在人工智能领域,竞争是非常激烈的,未来还会有很多新的技术和产品不断涌现出来。DeepSeek要想在这个领域持续领先,还需要不断地努力创新和完善自己的产品。

点赞(0)

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部