36KR热搜解读｜欧洲黑马Mistral Medium 3来了？跑分对标Claude最强版本，实测却翻车了？

77 阅读 0 评论 0 点赞 AI原创

导读：最近，一则关于欧洲AI初创公司Mistral推出的新型大模型Mistral Medium 3的消息在科技圈炸开了锅。据说它的性能可以对标Anthropic的Claude最强版本，甚至在某些基准测试中还略胜一筹。但实际体验下来，结果却让人大跌眼镜……

🔥 热点追踪：Mistral Medium 3到底是什么来头？

作为一家总部位于法国巴黎的AI初创公司，Mistral AI自成立以来就备受关注。他们这次发布的Mistral Medium 3，被外界称为是“欧洲AI崛起”的重要一步。

官方数据显示，该模型在多项语言理解和生成任务中表现优异，尤其在代码生成、多语言翻译以及逻辑推理方面，得分几乎与目前市面上最强的Claude 3不相上下。

项目Mistral Medium 3Claude 3 Opus参数量约700亿超过1万亿训练数据量中等规模超大规模代码生成能力★★★☆★★★★★多语言支持★★★★★★★★★逻辑推理能力★★★★★★★★

小结：从纸面数据来看，Mistral Medium 3确实具备一定的竞争力，尤其是在多语言和代码生成方面表现不错。但在复杂推理和处理大规模任务时，还是明显逊色于Claude 3。

带着疑问，我尝试用Mistral Medium 3完成几个典型的AI任务，比如写一篇技术文章、分析一份财报数据，以及进行一次多轮对话。

第一项任务还算顺利，它能够根据我的提示写出结构清晰、逻辑通顺的文章。但当我要求它对某家上市公司的财务报表进行深入分析时，问题就开始暴露了。

它不仅漏掉了几个关键数据点，还在计算ROE（净资产收益率）时犯了低级错误。更离谱的是，在进行多轮对话时，它经常忘记之前的上下文，导致回答前后矛盾。