导读:在AI模型竞赛愈发白热化的今天,英伟达开源的最新模型 Perception-R1 成为了焦点。它不仅挑战了 DeepSeek-R1 的霸主地位,还带来了全新的强化学习技术 GRPO。本文将从核心技术、训练成本到行业影响,带你全面了解这场 AI 领域的新风暴。
一、Perception-R1 登场:GRPO 技术的实战突破
近日,英伟达开源了一款名为 Perception-R1 的全新模型,并迅速引发了业界关注。这款模型最引人注目的地方在于其采用的新型强化学习算法——Group Relative Policy Optimization(GRPO)。
“GRPO 不是简单的优化策略,而是一种通过多次尝试和反馈来不断调整输出的智能机制。” —— 来自 ZAKER 的报道
GRPO 的核心思想是让模型在生成过程中进行多次“Rollout”尝试,利用温度参数引入随机性,从而在多轮反馈中不断优化策略。这种机制曾在 DeepSeek-R1 中大放异彩,如今被英伟达进一步深化应用,成为 Perception-R1 的关键技术支撑。
点赞(0)
发表评论 取消回复