首页 资讯 分类信息 商家 房产 驾考手机端

Meta发布革新性强化学习工具SWEET-RL,提升AI理解人类意图的能力

admin 2025-03-24 12:46 阅读数 208 #科技

3月24日,科技媒体MarkTechPost报道,Meta AI公司联手加州大学伯克利分校共同推出了一个名为SWEET-RL的强化学习框架,并发布了CollaborativeAgentBench(ColBench)基准测试。这个创新项目旨在提升大语言模型(LLMs)在多轮人机协作任务中的性能,尤其是在后端编程和前端设计领域。

随着大语言模型逐渐具备执行复杂任务的能力,它们在多轮决策任务中仍存在挑战。传统的单轮反馈或模仿策略难以处理长期依赖和累积目标,导致在协作环境中表现欠佳,尤其在理解人类意图和多步骤推理上表现不足。

SWEET-RL的独特之处在于采用非对称的“演员-评论家”结构,评论家在训练过程中利用额外信息(例如正确答案)对演员的决策进行更精准的评估。这种框架通过逐轮优化决策,显著提升了模型任务完成率,并展现出在开源模型(如Llama-3.1-8B)和专有模型(如GPT-4)之间的竞争优势。

实验数据显示,SWEET-RL在后端编程任务中的通过率提升到了48.0%,而在前端设计任务中,余弦相似度达到了76.9%,明显优于其他多轮强化学习方法。这些成果得到了验证。

ColBench基准测试包含超过10000个训练任务和1000个测试案例,模拟真实的人机协作场景,涉及Python函数编写等后端编程任务以及HTML代码生成等前端设计任务,每个交互限制在10次以内。通过单元测试通过率(代码)和余弦相似度(设计)来评估模型的表现,为多轮任务的评估提供了一个可靠的标准。

Meta AI与加州大学伯克利分校的合作展示了他们对提升人工智能在协作环境下的智能水平的持续关注和努力,SWEET-RL和ColBench的发布标志着在这一领域的重大进展。

版权声明

部分文章来自互联网,版权归原作者所有,文章内容仅代表作者观点,不代表本站立场,本平台仅提供信息存储服务。

热门