DeepSeek-R1 持续刷屏,连 Open R1 都来了!抱抱脸发起,1 天狂揽 1.9k 星 DeepSeek-R1 开源大模型在 GitHub 上一夜走红,1 天内获得 1.9k 标星。该模型不仅在多项基准测试中表现出色,还在开源社区中掀起了巨大波澜。 IT热点 2025年01月27日 13:10 0 点赞 0 评论 76 浏览
深度解析DeepSeek新成果:实习生如何挑大梁,加速AI训练推理 DeepSeek团队发布新论文,介绍改进的稀疏注意力机制NSA,显著加速AI训练推理。梁文锋亲自参与研发,实习生挑大梁,实现技术突破。 36KR热点 2025年02月19日 16:31 0 点赞 0 评论 76 浏览
古董GPU也能跑DeepSeek同款GRPO,显存只需1/10,上下文爆涨10倍! 文章探讨了如何通过优化GRPO算法,让老旧GPU也能高效运行DeepSeek同款模型,显存需求仅为原来的1/10,上下文长度提升10倍,极大降低了AI开发门槛。 36KR热点 2025年03月11日 12:50 0 点赞 0 评论 76 浏览
OpenAI发布三大新模型,构建未来AI Agent的基石 OpenAI一次性发布三个新模型,涵盖GPT-4.5、Assistants API升级计划及全新Agent开发工具,标志着AI Agent开发进入新阶段。 36KR热点 2025年03月21日 10:52 0 点赞 0 评论 75 浏览
直逼DeepSeek-R1-32B,碾压李飞飞s1-32B:UC伯克利等开源全新SOTA推理模型 本文详细介绍了由斯坦福、UC伯克利等机构联合发布的全新开源推理模型OpenThinker-32B,分析了其性能优势和技术特点,并探讨了其在实际应用中的潜力及未来发展方向。 36KR热点 2025年02月14日 12:52 0 点赞 0 评论 75 浏览
DeepSeek NSA技术:低成本高效率的AI推理革命 DeepSeek推出的NSA技术是一种硬件对齐且原生可训练的稀疏注意力机制,专为超快速长上下文训练与推理设计。该技术通过动态分层稀疏策略、粗粒度token压缩和细粒度token选择等核心组件,在降低成本的同时保持高性能,为AI领域带来了一场真正的降本增效革命。 IT热点 2025年02月19日 05:23 0 点赞 0 评论 75 浏览
探索高维空间:为什么距离度量会逐渐失效? 本文从小明的角度出发,详细介绍了高维空间中距离度量逐渐失效的原因及其带来的挑战,并探讨了多种替代方案及实际应用中的思考。 知乎热点 2024年12月24日 12:36 0 点赞 0 评论 74 浏览
全球AI竞赛再升级:Claude 3.7与DeepSeek R1的巅峰对决 全球首个混合推理模型Claude 3.7震撼发布,与DeepSeek R1展开激烈竞争。本文从技术特点、应用场景等方面对两款模型进行了详细对比分析,探讨AI未来发展趋势。 36KR热点 2025年02月25日 17:58 0 点赞 0 评论 74 浏览
股指量化策略的奥秘:从数据到财富 本文以个人视角深入探讨股指量化策略的核心思路,涵盖多因子模型、套利策略、机器学习等关键内容,帮助读者全面了解量化投资的魅力。 简书热点 2025年02月20日 23:06 0 点赞 0 评论 74 浏览
从零开始:如何用PyTorch开启深度学习之旅 本文通过讲述一位初学者如何从零基础逐步掌握PyTorch的故事,分享了他在学习过程中遇到的挑战及解决方案,旨在帮助更多人顺利踏入深度学习领域。 知乎热点 2024年12月28日 02:35 0 点赞 0 评论 74 浏览