一、引言
在当今这个科技飞速发展的时代,人工智能领域的大模型正经历着一场前所未有的变革。其中,“离线+记忆”的概念成为了大模型进化过程中的一个重要分水岭。
二、离线大模型的优势
视频中展示的那个灵巧手就是一个很好的例子。它由一个离线的多模态大模型所驱动,尽管模型仅有3B大小,但在部署到端侧之后,无论是在对话效果方面,还是在延迟方面,几乎都能与那些在云端运行且规模更大的模型相媲美。
RockAI表示,端侧大模型不应该只是云端大模型的缩水版本。端侧大模型应该是具备创新架构的模型,可以在终端设备上进行本地私有化部署。其核心能力就在于能够基于多模态感知实现自主学习与记忆,从而提升性能。
三、早期实践与挑战
早在之前,就有模型能在算力有限的树莓派上完整运行。树莓派由于体积小巧,在端侧部署方面一直被视为严峻的考验,许多同类型模型在此常常只能运行几句就会卡住。然而,今年在WAIC推出的Yan 2.0却取得了不错的成果。
四、历史发展节点
2018年被视作大模型发展的首个重要分水岭。当时,Google的BERT模型与OpenAI的GPT - 1纷纷面世。这两个模型分别采用了双向Transformer编码器架构和自回归预训练方式,在小样本学习上实现了突破,同时也奠定了“预训练 + 微调”的基本模式。
五、记忆机制的问题与改进
不过,大模型的记忆机制也存在着一些问题。例如,有些大模型记性太好,难以忘掉旧记忆,也无法准确地区分新记忆。基于工作记忆的认知测试表明,LLM的上下文检索存在局限性。在某些人类能稳定保持高正确率的简单检索任务中,模型的表现却不尽如人意。
六、未来的发展趋势
随着基础大模型在通用能力方面的边际效益逐渐降低,大模型技术红利开始向产业端渗透,AI的技术范式也发生了转变,从注重“预训练”转向注重“后训练”。这也就意味着,未来的研发重点可能会更多地放在如何让大模型更好地适应实际应用场景,提高其在特定领域的性能和效率。
同时,像MemOS这样的新型操作系统思路也在涌现。它把“记忆”视为与算力同样重要的系统资源,对大模型的长期记忆进行持续更新管理,将明文、激活状态和参数记忆统一在一个框架里进行调度。这种面向AI长期记忆的操作系统思路,有望重塑智能系统的应用边界,使大模型从“静态生成器”转变为能够陪伴用户长期成长的“数字同事”和“数字助理”。
发表评论 取消回复