英伟达开源新王登顶！14万H100小时训练细节曝光，DeepSeek-R1再掀AI风暴

73 阅读 0 评论 0 点赞 AI原创

导读：在AI模型竞赛愈发白热化的今天，英伟达开源的最新模型 Perception-R1 成为了焦点。它不仅挑战了 DeepSeek-R1 的霸主地位，还带来了全新的强化学习技术 GRPO。本文将从核心技术、训练成本到行业影响，带你全面了解这场 AI 领域的新风暴。

一、Perception-R1 登场：GRPO 技术的实战突破

近日，英伟达开源了一款名为 Perception-R1 的全新模型，并迅速引发了业界关注。这款模型最引人注目的地方在于其采用的新型强化学习算法——Group Relative Policy Optimization（GRPO）。

“GRPO 不是简单的优化策略，而是一种通过多次尝试和反馈来不断调整输出的智能机制。” —— 来自 ZAKER 的报道

GRPO 的核心思想是让模型在生成过程中进行多次“Rollout”尝试，利用温度参数引入随机性，从而在多轮反馈中不断优化策略。这种机制曾在 DeepSeek-R1 中大放异彩，如今被英伟达进一步深化应用，成为 Perception-R1 的关键技术支撑。