Submitted to Tiny Papers @ ICLR 2023
基于文本的游戏 (TBG) 是一种解谜的交互式对话语言任务,有可能成为大型语言模型 (LLM) 具有挑战性的智能基准。TBG 类似于交互式对话,因为它们需要以自然语言进行双向交流的能力,同时在性能方面易于直接评估,因为分数清楚地表明了 TBG 进行到了哪一步。本文在部分大语言模型进行了初步实验,以使用名为“Detective”的TBG 测试它们的解谜能力。结果表明,与人类的表现相比,LLM 的表现不佳。并一步讨论了性能差距背后的潜在原因,例如将 TBG 转化为提示的复杂性、LLM 没有从过去的训练数据中学习、缺乏记忆以及 LLM 生成的文本依赖于统计预测而不是游戏目标的导向。
引言
作者指出LLM在许多语言类的任务上已经显示出显著的效果,而模型在类似人类思考的能力上还并不清楚。本文认为基于文本游戏(TBG)是通用人工智能发展的重要标杆,可以专门用与大模型的改进。TBG也称为互动小说,用自然语言描述环境和故事,需要自然语言命令。TBG 可以作为衡量 LLM 思维能力的有效测试。这些游戏通常涉及语言理解和生成组件以及解谜元素,使其成为评估模型的理想场景。TBG 的语言方面使 LLM 可以与之交互,而谜题方面增加了模型无法通过记忆训练数据来克服的复杂性。
分析
通用交互式对话是一项核心 NLP 任务,因为它密切代表并需要人类水平的语言。TBG有两个关键方面类似于交互式对话:
(1)TBG 的叙述是以自然语言传递的。玩家键入文本命令以在游戏中前进,游戏会根据玩家的动作返回文本反馈。这种类型的交互可以看做游戏和玩家之间的交互。
(2)两个游戏都需要对语言的理解,记忆以及推理的能力。但从难易程度来讲,TBG可以说是交互式对话的一个简单版本。在TBG中,需要的是与具有明确评分标准的预定义游戏进行交互,而对话中可能需要与真实用户进行交互,在这些交互中用户的输入通常是无法的预测的,因而没有办法对对话进行预定义,而且没办法获得可靠的评估指标。
实验结果
实验结果表明,TBG对于LLM来说是较难的任务。主要原因包括三点:无法从过去的试验中学习,内存或者说记忆的欠缺,以及没办法很好的意识到TBG的目标,这些也都可以被归结到【缺乏学习玩游戏的有效策略】