DeepSeek R1升级引爆AI圈,Time-R1或将重塑时间理解能力? DeepSeek R1完成R1-0528版本升级,Time-R1引发热议,大模型是否真的理解了时间?本文从技术升级、行业影响、未来趋势三个角度深入剖析。 36KR热点 2025年06月10日 08:04 0 点赞 0 评论 64 浏览
国产GPU助力,摩尔线程实现对DeepSeek蒸馏模型推理服务部署 本文详细介绍了国产GPU与AI模型的结合,尤其是摩尔线程如何成功实现对DeepSeek蒸馏模型的推理服务部署,以及这一成就对国内AI产业的影响。 IT热点 2025年02月04日 23:06 0 点赞 0 评论 117 浏览
DeepSeek V3如何做到极致性价比?技术大揭秘+成本狂降60%的背后故事 本文以DeepSeek发布V3版本为契机,深入解析其如何通过MLA+MoE架构、FP8训练等技术创新,实现参数减少60%,API定价低至1元/百万Token的极致性价比。结合平台运营数据,揭示其日均成本仅87K美元却净赚47万的商业逻辑,并探讨该模式对AI产业格局的影响。 36KR热点 2025年05月16日 05:35 0 点赞 0 评论 79 浏览
宇树科技王兴兴:智驾领域的新启发? 宇树科技CEO王兴兴发表关于智驾的观点引发热议。他强调端到端的具身智能AI模型的重要性,指出模型架构比数据更重要。这对智驾领域有何启示?一起来看看吧。 36KR热点 2025年08月12日 20:46 0 点赞 0 评论 74 浏览
如何评价DeepSeek预发布的DeepSeek-R1? DeepSeek预发布的DeepSeek-R1模型在多个方面进行了重大升级,包括通用能力提升、代码生成能力增强、对话交互优化和多语言支持。本文将从实际应用案例出发,详细探讨DeepSeek-R1的核心优势,并与其他AI模型进行对比。 知乎热点 2024年11月21日 01:40 0 点赞 0 评论 134 浏览
Qwen3-0.6B这种小模型有什么实际意义和用途吗? Qwen3-0.6B虽然参数量只有6亿,但在实际应用中展现出强大的性能。本文从模型架构、开源策略、应用场景等多个角度解析小模型的价值。 知乎热点 2025年05月02日 22:10 0 点赞 0 评论 58 浏览