当前位置: 代码迷 >> 综合 >> RL:《End-to-End Optimization of Task-Oriented DialogueModel with Deep Reinforcement Learning》论文研读记录
  详细解决方案

RL:《End-to-End Optimization of Task-Oriented DialogueModel with Deep Reinforcement Learning》论文研读记录

热度:35   发布时间:2023-12-14 00:21:33.0

论文地址:https://arxiv.org/abs/1711.10712
论文主要研究如何通过深度强化学习策略与监督学习训练出来的模型交互来优化模型参数。监督学习模型主要是通过已有带标签数据训练出来的,模型参数优化主要是通过和用户交互进行优化。本文几个亮点:
A. 基于深度强化学习对模型的优化提升了对话任务完场的成功率和缩短了对话论述相比于监督学习没有优化的模型。
B. 使用LSTM对当前第K turn user utterance和上一轮agent执行action进行编码的到状态Sk,之后Sk进过一个MLP以及softmax为所有goal slots计算概率分布达到自动填槽效果,通过网络进行对话状态追踪。 在这里插入图片描述
C. 论文结构图如下:
在这里插入图片描述
D. 论文的几个优化目标函数,参数更新的依据:
在这里插入图片描述
这个函数包含两项,前一项是对话转态追踪网络的目标函数,后一项监督学习网络agent预测action的目标 。
在这里插入图片描述
这个函数是deep-RL优化模型时的目标函数。类似policy gradient算法的目标函数。
思考:是否可以借鉴这种思路在rasa tracker进行对话追踪的过程中使用网络进行自动填槽,进行状态跟新,以此减少action 服务的逻辑工作。是否可以在rasa 做inference时候(即与用户交互时候)添加这种对已有模型的优化策略。

  相关解决方案