DeepSeek再放大招!V3/R1训练细节全面揭秘 在36KR平台上,DeepSeek最新发文,全面公开了V3/R1的训练细节。从美团开源的龙猫大模型,到OpenAI的GPT - 5,再到DeepSeek的新品,顶尖玩家都在关注'混合推理'与'自适应计算',这标志AI发展方向转变。DeepSeek - V3.1模型采用混合推理架构,经Post - Training优化后Agent能力增强,Base模型已开源且增加训练量,在价格方面也将调整API接口调用费用。 36KR热点 2025年09月01日 23:40 0 点赞 0 评论 34 浏览
震惊!谷歌开源史上最小Gemma 3,手机轻松运行,超省电 昨天,谷歌发布了史上最小的Gemma 3开源模型,仅有2.7亿个参数。它以特定任务微调为目标,具备强大指令跟踪和文本能力,在手机上能轻松运行,进行25次对话耗电不到1%,非常省电。 36KR热点 2025年08月16日 16:20 0 点赞 0 评论 29 浏览
MiniMax开源M1推理模型,456B参数碾压DeepSeek-R1?技术细节曝光 MiniMax发布并开源首个大规模混合架构推理模型M1,参数量达456B,性能超越DeepSeek-R1,支持100万token上下文输入,训练成本仅53万美元。 36KR热点 2025年06月18日 11:23 0 点赞 0 评论 45 浏览
没想到,最Open的开源新模型,来自小红书?深度解析DeepEyes如何打破边界 小红书与西安交通大学联合推出的多模态深度思考模型DeepEyes,采用端到端强化学习,首次实现不依赖监督微调的视觉推理能力,成为近期最受关注的开源AI模型之一。 36KR热点 2025年06月08日 18:06 0 点赞 0 评论 42 浏览
DeepSeek-R1-0528 更新揭秘:推理革命背后的技术飞跃 DeepSeek-R1-0528 更新详解,揭示其在推理能力、训练方法、性能优化等方面的突破性进展,结合第三方技术报告与社区反馈,展现国产大模型在全球 AI 竞争中的独特优势。 IT热点 2025年05月30日 06:37 0 点赞 0 评论 53 浏览
DeepSeek-Prover-V2-671B 新模型开源发布:AI 推理领域迎来新变革 DeepSeek 最新推出的 DeepSeek-Prover-V2-671B 开源模型正式上线 Hugging Face,采用高效 safetensors 格式,引发 AI 社区广泛关注。 IT热点 2025年05月01日 11:50 0 点赞 0 评论 44 浏览
OpenAI开源大模型来了!轻量版Deep Research免费可用 作为一名热爱技术的探索者,他深入研究了OpenAI最新发布的开源大模型及其轻量版Deep Research。从图像生成到开源模型,再到免费使用的轻量版,每一项技术都展现了OpenAI对未来AI发展的深刻理解与战略布局。 36KR热点 2025年04月26日 04:07 0 点赞 0 评论 50 浏览
Meta发布Llama 4,实际体验如何? 作为一名开发者,他深入体验了Meta最新发布的Llama 4大语言模型。从MOE架构的应用到实际操作中的优缺点,再到对未来发展的展望,他的分享为我们揭示了这款开源模型的真实面貌。 知乎热点 2025年04月06日 13:37 0 点赞 0 评论 44 浏览
深度解析Meta发布的Llama 4大模型:技术革新与未来展望 作为一名AI行业的观察者,他深入分析了Meta发布的Llama 4大模型。从技术革新到商业化探索,再到未来展望,他揭示了这款模型的潜力与挑战。他认为Llama 4虽然在某些方面存在不足,但其技术创新和商业化策略为未来发展提供了广阔空间。 知乎热点 2025年04月06日 12:42 0 点赞 0 评论 41 浏览
中国大模型密集开源:一场AI行业的“安卓时刻” 作为一名关注AI领域的观察者,我发现中国大模型开源热潮正在深刻改变整个行业。从DeepSeek到阿里巴巴、百度和腾讯,这些企业的开源举措不仅降低了技术门槛,还推动了AI技术在各行业的广泛应用。然而,我们也需要正视其中存在的风险与挑战。 百度热点 2025年03月26日 13:25 0 点赞 0 评论 53 浏览