时间:2024-08-03 来源:网络搜集 关于我们 0
强化学习(RL)通过与环境交互的试错反馈来优化顺序决策问题。
虽然RL在允许大量试错的复杂电子游戏环境中实现了超越人类的决策能力(例如王者荣耀,Dota 2等),但很难在包含大量自然语言和视觉图像的现实复杂应用中落地,原因包括但不限于:数据获取困难、样本利用率低、多任务学习能力差、泛化性差、稀疏奖励等。
大语言模型(LLM),通过在海量数据集上的训练,展现了超强的多任务学习、通用世界知识目标规划以及推理能力。以ChatGPT为代表的LLM已经被广泛应用到各种现实领域中,包括但不限于:机器人、医疗、教育、法律等。
在此背景下,LLM可以提高强化学习在例如多任务学习、样本利用率、任务规划等方面的能力,帮助提高强化学习在复杂应用下的学习表现,例如自然语言指令跟随、谈判、自动驾驶等。
为此,来自香港中文大...