导读
在AI模型开源浪潮中,一个意想不到的名字悄然登场——小红书。这个以“种草”闻名的生活方式社区,竟推出了多模态深度思考模型 DeepEyes,并采用端到端强化学习的方式,完全跳过监督微调(SFT),引发业界广泛关注。
本文将带你深入了解DeepEyes的技术亮点、背后的团队协作机制,以及它为何能成为当下最令人惊喜的开源模型。

1. 小红书也能做硬核AI?DeepEyes横空出世

提起小红书,大多数人脑海中浮现的是美妆教程、旅行攻略和生活方式分享。但就在最近,这家看似“文艺范儿”的平台,却悄悄干了一件技术圈的大事:
与西安交通大学联合发布多模态深度思考模型 DeepEyes,并选择开源!

不同于传统依赖监督微调的训练方式,DeepEyes采用了端到端强化学习,从零开始激发大模型的“以图深思”能力。

小红书与西安交大合作研发DeepEyes模型

2. 端到端强化学习:没有SFT,也能玩转视觉推理

大多数主流大模型都会经历一个叫做监督微调(Supervised Fine-Tuning, SFT)的阶段,也就是通过人工标注的数据来“教”模型回答问题。

而DeepEyes则大胆地跳过了这一步,直接进入端到端强化学习流程,让模型在不断试错中自我优化。

  • 无需大量人工标注数据
  • 更接近人类的学习方式
  • 具备更强的泛化与推理能力

这种做法虽然风险高、成本大,但也正是因为它不走寻常路,才让人眼前一亮。

3. 多模态深度思考:不只是看图说话

DeepEyes之所以被称为“深度思考模型”,是因为它不仅仅停留在识别图像内容,而是能进行逻辑推理、情境理解甚至生成连贯的解释

比如输入一张街景照片,它可以分析出:

  • 街道类型(商业区/住宅区)
  • 交通状况(拥堵/顺畅)
  • 天气情况(晴天/雨天)
  • 甚至还能推测出当前的时间段(早晚高峰/午间)
DeepEyes对街景图片进行深度分析和推理

4. 开源背后的野心:不只是技术输出

DeepEyes的开源,不仅仅是代码的释放,更是小红书在AI生态布局上的重要一步。

作为一家用户量超亿级的内容平台,小红书每天都在处理海量图文信息。这次开源DeepEyes,也意味着它愿意将自己在视觉理解和多模态交互上的积累开放出来,推动整个行业的进步。

有业内人士评论说:“这不是一次简单的技术展示,而是一次生态构建的尝试。

5. 与其他开源模型的对比:DeepEyes有何不同?

我们来看看目前几个主流开源模型的特点:

模型名称 核心技术 是否开源 应用场景
DeepEyes 端到端强化学习 + 多模态深度思考 ✅ 完全开源 图文理解、视觉推理、智能问答
MiniMax-01系列 语言+视觉双模态 ✅ 权重开源 通用对话、图像描述生成
HiDream-I1 文生图能力强 ✅ 开源 创意设计、图像生成

可以看出,DeepEyes在技术创新性应用潜力上都表现突出。

6. 深度思考背后的技术挑战

要实现真正的“深度思考”,并不是一件容易的事。

DeepEyes团队在开发过程中面临了多个技术难点:

  • 如何在没有监督信号的情况下引导模型学习?
  • 如何确保模型在复杂场景下的稳定性?
  • 如何平衡计算资源与模型性能之间的关系?

最终,他们通过引入一种新型的奖励函数机制,结合大规模真实数据集进行训练,成功解决了这些问题。

DeepEyes训练过程中的奖励函数机制示意图

7. 未来展望:DeepEyes将走向何方?

目前,DeepEyes已经在GitHub上开源,并获得了不少开发者的好评。

接下来,团队计划进一步优化模型的实时性跨语言支持,让它不仅能在高端设备上运行,也能适配更多轻量级终端。

此外,小红书还表示会继续加大在AI领域的投入,探索更多基于视觉和语言融合的应用场景,比如:

  • 智能推荐系统升级:根据用户上传的图片自动匹配相关内容
  • 虚拟购物助手:通过图像识别帮助用户找到相似商品
  • 内容审核增强:提升图文内容的安全性和合规性

结语:谁说生活平台不能做硬核AI?

DeepEyes的出现,打破了人们对小红书的固有印象,也让大家重新思考:
AI技术的创新,其实可以发生在任何一个角落。

无论是互联网巨头还是垂直平台,只要敢于突破、勇于尝试,都有机会成为AI变革的推动者。

或许不久之后,我们会看到更多像DeepEyes这样的项目,从我们意想不到的地方诞生。

点赞(0)

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部