论文地址:https://arxiv.org/abs/1711.10712
论文主要研究如何通过深度强化学习策略与监督学习训练出来的模型交互来优化模型参数。监督学习模型主要是通过已有带标签数据训练出来的,模型参数优化主要是通过和用户交互进行优化。本文几个亮点:
A. 基于深度强化学习对模型的优化提升了对话任务完场的成功率和缩短了对话论述相比于监督学习没有优化的模型。
B. 使用LSTM对当前第K turn user utterance和上一轮agent执行action进行编码的到状态Sk,之后Sk进过一个MLP以及softmax为所有goal slots计算概率分布达到自动填槽效果,通过网络进行对话状态追踪。
C. 论文结构图如下:
D. 论文的几个优化目标函数,参数更新的依据:
这个函数包含两项,前一项是对话转态追踪网络的目标函数,后一项监督学习网络agent预测action的目标 。
这个函数是deep-RL优化模型时的目标函数。类似policy gradient算法的目标函数。
思考:是否可以借鉴这种思路在rasa tracker进行对话追踪的过程中使用网络进行自动填槽,进行状态跟新,以此减少action 服务的逻辑工作。是否可以在rasa 做inference时候(即与用户交互时候)添加这种对已有模型的优化策略。
详细解决方案
RL:《End-to-End Optimization of Task-Oriented DialogueModel with Deep Reinforcement Learning》论文研读记录
热度:35 发布时间:2023-12-14 00:21:33.0
相关解决方案
- jbpm 怎么实现多个 task assignee
- learning content in All Star 一
- learning content in All Star 1,该怎么处理
- 任务调度-task schedular
- Learning JQuery 读书笔记――第四章 成效-为艺术添加艺术性(CSS)
- Learning PHP -数据的储存与检索
- Follow your heart(114)-the first day of learning php
- Learning Dojo - 5. Remote Scripting (AJAX)
- Learning Dojo - 4. DOM APIs
- Learning Dojo - 7. dojo.data
- Learning Dojo - 3.1 Core features of the Dojo language
- 回本JQUery的书《Learning JQuery 1.3》
- Learning Dojo - 3.2 OO APIs
- Learning Dojo - 1. Introduction
- Learning Dojo - 2. A quick tour
- Learning Website Development with Django译文-序言
- Learning Website Development with Django译文-第一章:Django引见
- javascript高端程序设计札记三 object-oriented terminology
- webistrano 三 task 代码
- activiti webservice task 的一个容易执行和配置实例
- 设计一个容易的service-oriented(面向服务)的J2EE应用
- 在Eclipse顶用TODO、FIXME等标签管理任务(Task)
- Eclipse任务视图的用法(Task View) (一部分转载)
- Task's如何插到字符型里
- Learning Cocos2D 课程 + 实例游戏 + 源代码
- Task.Factory.StartNew()跟Task.Run()有什么区别
- task 栏里面点icon的位置取得解决方法
- : 一个 Execute SQL Task 的 ResultSet 怎么传递到一个 For-each Container 中使用
- SQL2005为什么安装后在“事件察看->应用程序”那里会不断产生.NET Runtime Optimization Service的时间的?该如何解决
- Android中Activity的启动流程跟组织管理方式(Backstack、Task)