当前位置: 代码迷 >> 综合 >> 【论文笔记】dialog system related with keywords: hierarchical reinforcement learning, context-aware, EVPI
  详细解决方案

【论文笔记】dialog system related with keywords: hierarchical reinforcement learning, context-aware, EVPI

热度:52   发布时间:2023-12-14 11:00:21.0

本次论文目录

[1]Context-Aware Symptom Checking for Disease Diagnosis Using Hierarchical Reinforcement Learning
[2]Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information


[1]Context-Aware Symptom Checking for Disease Diagnosis Using Hierarchical Reinforcement Learning

剖出的问题

1. 许多人会在网络上查找特殊症状从而进行自我诊断,但网络查找的 信息质量得不到保证
2. 一个好的在线诊断系统需要:

  • 达到 较高的疾病诊断准确率
  • 为了提供更好的用户体验,系统只做 有限数量的询问
    先前的一些工作提出的方案要么是导致结果陷入局部最优,使准确性受损,要么没有考虑与用户进行尽量简短的交互。

创新点/贡献

文章提出了两种增强诊断准确率的创新方法:
1. 使用分级强化学习来实现联合决策进行诊断,采用了分而治之的思想,即将人的身体分成若干部分(这里是分为:胸部、手臂、背部、臀部、头部、腿部、颈部、骨盆、皮肤、一般症状),相当于为每一部分创建一个分模型,每一分模型有自己的symptoms,这里是用主模型在每一步选出一个分模型去与病人进行交互,即是如下图的的一个两级模型。
在这里插入图片描述
训练主模型前需要先训练分模型,因为训练主模型需要分模型的推理结果,这里依旧采用DQN作为模型去逼近Q函数。

2. 提出 策略转换实现上下文感知(context-aware)。
通过证明给出了两个引理,即在action分别是诊断行为和询问行为时,策略转换的公式(对上下文无感的最优策略——>上下文感知的最优策略)
Lemma2:ifπc?(s)∈D,then(action为诊断行为)πc?(s)=argmaxa∈DQ?(s,a)p(c∣a)Lemma 2: if\ \pi_c^*(s) \in D, then(action为诊断行为) \\ \pi_c^*(s) = arg\ max_{a \in D}Q^*(s,a)p(c|a) Lemma2:if πc??(s)D,thenactionπc??(s)=arg maxaD?Q?(s,a)p(ca)
Lemma3:assumeγ=1.ifπc?(s)∈L(sym集合)then(action为询问行为)πc?(s)≈argmaxa∈LQ?(s,a)p(c∣s′)p(s′^∣s,c,a)p(s′^∣s,a)Lemma 3:assume\ \gamma = 1.\ if\ \pi_c^*(s) \in L(sym集合)\ then(action为询问行为) \\ \pi_c^*(s) \approx arg\ max_{a \in L}Q^*(s,a)p(c|s^{'}) \frac{p(\hat{s^{'}}|s,c,a)}{p(\hat{s^{'}}|s,a)} Lemma3:assume γ=1. if πc??(s)L(sym) then(action)πc??(s)arg maxaL?Q?(s,a)p(cs)p(s^s,a)p(s^s,c,a)?

实验结果

在这里插入图片描述
在这里插入图片描述


[2]Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

剖出问题

文章认为一个好的问题其 预期答案是有用的,所以这里定义了所谓的 “澄清问题”:询问当前文本未给出的信息的问题。给出的模型是基于EVPI(完全信息期望值)的决策理论框架,通过EVPI来衡量那个问题最可能引出更有用的信息。
数据来源于StackExchange,就那种在网站上发帖求助的数据,如下:
在这里插入图片描述

创新点/贡献

1. 提出了一个基于EVPI框架的新的神经网络模型,用于对澄清问题进行排序。

建模过程:
一个问题qiq_iqi?的值可以在基于所有可能回答的基础上用期望效用来表示:
EVPI(qi∣p)=∑aj∈AP[aj∣p,qi]U(p+aj)(1)EVPI(q_i|p) = \sum_{a_j\in A}P[a_j|p,q_i]U(p + a_j)\tag{1} EVPI(qi?p)=aj?A?P[aj?p,qi?]U(p+aj?)(1)
其中ppp表示的是所发的帖子,即预先给的信息,qiq_iqi?是备选问题集QQQ里选的潜在问题,aja_jaj?是备选答案集AAA里选的潜在答案,P[aj∣p,qi]P[a_j|p,q_i]P[aj?p,qi?]代表在给定原始贴ppp和一个澄清问题qiq_iqi?的前提下获得答案aja_jaj?的概率,U(p+aj)U(p+a_j)U(p+aj?)则是衡量p+ajp+a_jp+aj?的信息有多完备。问题在于:

  • P(aj∣p,qi)P(a_j|p,q_i)P(aj?p,qi?)的概率分布
  • U(p+aj)U(p+a_j)U(p+aj?)的效用函数
    在这里插入图片描述

模型的主要思路:

1.每当给定一个帖子,就用Lucene检索十个与ppp相似的帖子,针对这十个帖子提问的问题就作为候选问题集QQQ,而针对问题对帖子所做的修改则作为的候选答案集AAA

2.对于每一个候选问题qiq_iqi?,都会产生一个 答案表征F(p,qi)F(p,q_i)F(p,qi?),并计算候选答案aja_jaj?F(p,qi)F(p,q_i)F(p,qi?)的距离。
(注:dist(Fans(p?,qi?),aj^)=1?cos_sim(Fans(p?,qi?),aj^)dist(F_{ans}(\overline{p},\overline{q_i}),\hat{a_j}) = 1 - cos\_sim(F_{ans}(\overline{p},\overline{q_i}),\hat{a_j})dist(Fans?(p?,qi??),aj?^?)=1?cos_sim(Fans?(p?,qi??),aj?^?),该距离可用来计算P[aj∣p,qi]P[a_j|p,q_i]P[aj?p,qi?],即找到与问题更为匹配的answer)

3.如果答案aja_jaj?更新了帖子ppp的效用,则计算U(p+aj)U(p + a_j)U(p+aj?)
(注:U(pi+aj)=σ(Futil(pi?,qj?,aj?))5U(p_i + a_j) = \sigma(F_{util}(\overline{p_i},\overline{q_j},\overline{a_j}))^5U(pi?+aj?)=σ(Futil?(pi??,qj??,aj??))5)

4.最后根据式(1)计算各问题的EVPI,进行排序。
(注:FansF_{ans}Fans?FutilF_{util}Futil?分别由一个有五个隐层的前向神经网络计算得出)

2. 给出了一个源自StackExchange的新的数据集,使我们能够通过查看人们提出问题的类型来学习提问澄清问题的模型。

实验结果

对专家标注进行评估&对初始问题进行评估(最后一列):

在这里插入图片描述

  相关解决方案