Chapter 2 情感分析面临的问题_The Problem of Sentiment Analysis
- 2.1 问题定义
-
- 2.1.1 观点定义
- 2.1.2 情感分析任务
- 2.2 观点摘要
- 2.3 不同类型的观点
-
- 2.3.1 常规和比较观点
- 2.3.2 显式和隐式观点
- 2.4 主观性与情感
- 2.5 作者和读者的立场
- 2.6 总结
在本章中,我们定义了情感分析或观点挖掘问题的抽象概念。从研究的角度来看,这种抽象为我们提供了问题的陈述,并使我们能够看到构成情感分析问题的大量相互关联的子问题。人们常说,如果我们无法构造问题,那么我们很可能不理解问题。因此,定义的目的是从复杂而令人生畏的非结构化自然语言文本中抽象出一种结构。它们还用作统一各种现有研究方向的通用框架,并使研究人员能够通过利用子问题的相互关系来设计更可靠,更准确的解决方案技术。从实际应用的角度来看,这些定义使从业人员可以看到在实际系统中需要解决哪些子问题,它们如何关联以及应该产生什么输出。
与事实信息不同,观点和情感具有重要特征,即,它们是主观的。因此,重要的是要检查来自许多人的观点集合,而不是仅检查来自一个人的单个观点,因为这样的观点仅代表该单个人的主观观点,通常不足以应用。由于网络上收集了大量的观点,因此需要某种形式的观点摘要(Hu and Liu,2004)。问题定义指出可能需要哪种摘要。除了问题定义外,本章还将讨论一些相关的概念,例如主观性和情感。
请注意,在本章甚至整本书中,我主要以评论和评论中的句子为例来介绍思想和定义关键概念,但是这些思想和由此产生的定义是通用的,适用于所有形式的正式和非正式观点文本例如新闻文章,tweet(Twitter帖子),论坛讨论,博客和Facebook帖子。由于产品评论高度集中且观点丰富,因此与其他形式的观点文本相比,它们使我们能够更清楚地看到不同的问题。从概念上讲,它们之间没有区别。这些差别主要是表面的,在处理它们的困难程度上也不同。例如,Twitter帖子(推文)简短(最多140个字符)且非正式,并且使用许多网络俚语和表情符号。实际上,由于篇幅限制,Twitter帖子更易于分析,因为作者通常直截了当。因此,通常更容易实现高情感分析的准确性。评论也更容易,因为它们高度集中,几乎没有无关的信息。论坛讨论可能是最难处理的,因为那里的用户可以讨论任何内容,也可以互相交流。就难度而言,还存在不同应用程序域的维度。有关产品和服务的观点通常更易于分析。由于复杂的话题和情绪表达,讽刺和反语情绪,社会和政治讨论要困难得多。
2.1 问题定义
如第一章开头所述,情感分析主要研究表达或暗示正面或负面情感的观点。因此,本节定义了这种情况下的问题。
2.1.1 观点定义
我们使用以下有关佳能相机的评论来介绍这个问题(每个句子都有一个ID号,以供参考):
通过这个评论,我们注意到一些重要点:
-
这次回顾对佳能G12相机有很多正面和负面的看法。句子(2)对佳能相机整体表示正面评价。句子(3)对其照片的质量表达了积极的看法。句子(4)对其电池寿命表示肯定。句子(5)对相机的重量表示负面观点。从这些观点中,我们可以得出以下重要发现:
Observation: 观点包含两个关键组成部分:目标g和目标上的情绪s,即
( g , s ) (g, s) (g,s),
其中g可以是表达观点的任何实体或实体的某个方面,而s是正面,负面或中立的情感,或表示情感力度/强度的数字评分(如1~5星)。积极,消极和中立被称为情感(或观点)取向(或极性)。
例如,句子(2)中观点的目标是佳能G12,句子(3)中观点的目标是佳能G12的画质。目标在文学中也称为topic主题。 -
这条评论来自两个人的观点,这两个人被称为观点来源或观点持有者(Kim and Hovy,2004; Wiebe,Wilson和Cardie,2005)。句子(2),(3)和(4)中观点的持有者是评论的作者(“约翰·史密斯”),但对于句子(5),则是作者的妻子。
-
评论日期为2011年9月10日。在实践中,该日期很重要,因为人们经常想知道观点是如何随时间和观点趋势而变化的。
我们现在准备将观点定义为四元组。
Definition (Opinion): 一个观点是一个四元组
( g , s , h , t ) (g, s, h, t) (g,s,h,t),
其中g是观点(或情绪)的目标,s是关于目标的情绪,h是观点持有者,t是表达观点的时间。
这个定义虽然很简洁,但在实践中可能不容易使用,尤其是在产品,服务和品牌的在线评论领域,因为目标的完整描述可能很复杂,甚至可能不在同一句话中出现。例如,在句子(3)中,观点对象实际上是“佳能G12的图像质量”,但是该句子仅提及“图像质量”。在这种情况下,观点目标不只是“图片质量”,因为在不知道句子正在评估佳能G12相机的图片质量的情况下,仅句子(3)中的观点就没有多大用处。在实践中,目标通常可以以结构化的方式分解并描述为多个级别,这极大地促进了观点的挖掘和以后挖掘观点结果的使用。例如,“佳能G12的图片质量”可以分解为一个实体和该实体的一个属性,并以一对来表示:
(Cannon-G12,图片质量)
让我们使用术语“实体”来表示被评估的目标对象。实体可以定义如下(Hu和Liu,2004; Liu,2006和2011)。
Definition (entity): 一个实体e是产品,服务,主题,问题,人员,组织或事件。用一对e:(T, W)进行描述,其中T是其组成部分,子组成部分等层次结构,W是e的一组属性。每个部分或子部分也都有自己的一组属性。
Example 1: 特定型号的相机是一个实体,如Canon G12。它具有一组属性,例如图像质量,尺寸和重量,以及一组零件,例如镜头,取景器和电池。电池还具有自己的一组属性,例如电池寿命和电池重量。主题也可以是一个实体,例如,税收增加,其子部分包括“穷人的税收增加”,“中产阶级的税收增加”和“富人的税收增加”。
此定义本质上描述了基于组成部分关系的实体的层次分解。根节点是实体的名称,例如上述评论中的佳能G12。所有其他节点都是组件和子组件等等。可以在任何节点和该节点的任何属性上表达观点。
Example 2: 在我们上面的例子评论中,句子(2)表达了对实体佳能G12相机作为一个整体的积极看法。第(3)句表达了对相机图像质量属性的肯定。显然,一个人也可以对相机的组成部分或零部件表达观点。
这个实体作为任意数量级别的层次结构,需要一个嵌套关系来表示它,这对于应用程序来说通常太复杂了。主要原因是由于NLP是一个非常困难的任务,在不同层次的细节上识别实体的部分和属性是非常困难的。大多数应用程序也不需要如此复杂的分析。因此,我们将层次结构简化为两个级别,并使用术语aspects(方面)来表示部分和属性。在简化树中,根节点仍然是实体本身,但是第二级(也是叶级)节点是实体的不同方面。这种简化的框架是实际情感分析系统中通常使用的框架。
请注意,在研究文献中,实体也称为对象,而方面也称为特征(如产品特征)。但是,此处的特征可能会与机器学习中使用的特征相混淆,在机器学习中,特征意味着数据属性。为避免混淆,近年来,方面(aspects)变得越来越流行。请注意,一些研究人员还使用术语“facets方面”,“attributes属性”和“topics主题”,在特定的应用程序中,基于应用程序域约定,实体和方面也可以称为其他名称。
分解观点目标后,我们可以重新定义观点(Hu and Liu,2004; Liu,2010)。
Definition (opinion): 观点是一个五元组, ( e i , a i j , s i j k l , h k , t l ) (e_i, a_{ij}, s_{ijkl}, h_k, t_l) (ei?,aij?,sijkl?,hk?,tl?)
其中 e i e_i ei?是实体名, a i j a_{ij} aij?是 e i e_i ei?的一个方面, s i j k l s_{ijkl} sijkl?是对实体 e i e_i ei?的方面 a i j a_{ij} aij?的情感, h k h_k hk?是情感持有者, t l t_l tl?是 h k h_k hk?发表观点的时间。情感 s i j k l s_{ijkl} sijkl?是正面,负面或中立的情感,或表示情感力度/强度的数字评分(如1~5星),如网上大多评论网站采用的一样。当对实体本身整体有观点时,将使用GENERAL的特殊方面来表示它。在这里, e i e_i ei?和 a i j a_{ij} aij?一起代表观点目标。
关于此定义的一些重要说明如下:
- 在此定义中,我们故意使用下标来强调五元组中的五个信息必须彼此对应。也就是说,观点 s i j k l s_{ijkl} sijkl?必须由观点持有人 h k h_k hk?在时间 t l t_l tl?对实体 e i e_i ei?的方面 a i j a_{ij} aij?给出。任何不匹配都是错误的。
- 五个要素至关重要。忽视它们中的任何一个通常都会出现问题。例如,如果我们没有时间部分,就无法根据时间来分析实体的观点,这在实践中通常非常重要,因为两年前的观点和昨天的观点是不同的。没有观点持有人也是有问题的。例如,在“市长受到市民的爱戴,但他受到了州政府对他的批评”这句话中,“市民”和“州政府”这两个观点持有者显然对应用很重要。
- 该定义涵盖了观点语义含义的多数但不是所有可能的方面,这可能是任意复杂的。例如,它没有涵盖“取景器和镜头太近”中的情况,这表示了两个部分的距离。它也没有涵盖观点的上下文,例如“对于一个高个子的人来说,这辆车太小了”,这并不意味着该车对于每个人来说都太小了。 “高个子”是这里的上下文。还要注意,在实体的原始定义中,它是零件,子零件等的层次结构。每个部分都可以具有其一组属性。由于简化,五元组表示法可能导致信息丢失。例如,“墨水”是打印机的零件/组件。在一份打印机评论中,一个人写道:“这台打印机的墨水很贵。”这并不是说打印机很贵(指其价格的方面)。如果不关心墨水的任何属性,则此句子仅对墨水给出否定观点,墨水是打印机实体的一个方面。但是,如果还想研究有关墨水不同方面的观点,例如价格和质量,则需要将墨水作为单独的实体来对待。然后,五元组表示法仍然适用,但是部分关系需要保存。当然,从概念上讲,我们还可以使用嵌套关系来扩展观点目标的表示形式。尽管有限制,但该定义的确包含了对于大多数应用程序而言足够的观点的基本信息。正如我们上面提到的,定义太复杂会使问题极难解决。
- 该定义提供了将非结构化文本转换为结构化数据的框架。上面的五元组基本上是数据库模式,基于此模式,提取的观点可以放入数据库表中。然后,可以使用整套数据库管理系统(DBMS)和OLAP工具对观点进行定性,定量和趋势分析。
- 这里定义的观点只是观点的一种,称为常规观点。另一种类型是比较观点(Jindal和Liu,2006b; Liu,2006和2011),这需要不同的定义。 2.3节将讨论不同类型的观点。第8章定义并分析了比较观点。在本节的其余部分,我们仅关注常规观点。为了简单起见,我们简单称它们为观点。
2.1.2 情感分析任务
通过定义,我们现在可以介绍情感分析的目标和关键任务(Liu, 2010; Liu, 2006和2011)。
情感分析的目标:给定观点文档d,在d中发现所有观点五元组 ( e i , a i j , s i j k l , h k , t l ) (e_i, a_{ij}, s_{ijkl}, h_k, t_l) (ei?,aij?,sijkl?,hk?,tl?)。
关键任务来自五元组的5个组成部分。第一个组件是实体。也就是说,我们需要提取实体。该任务类似于信息提取中的命名实体识别(NER)(Hobbs和Riloff,2010; Mooney和Bunescu,2005; Sarawagi,2008)。因此,提取本身就是一个问题。提取后,我们还需要对提取的实体进行分类。在自然语言文本中,人们经常以不同的方式书写相同的实体。例如,摩托罗拉可以写为Mot,Moto和Motorola。我们需要认识到它们都指向相同的实体。
Definition (entity category实体类别 and entity expression实体表示): 实体类别表示唯一的实体,而实体表示是出现在文本中的表示实体类别的实际单词或短语。
每个实体类别(或简称为实体)在特定应用中应具有唯一的名称。将实体表达式分组为实体类别的过程称为实体分类。
现在我们来看实体的各个方面。问题基本上与实体相同。例如,picture,image和photo 对于相机而言是相同的方面。因此,我们需要提取方面表示并将其分类。
Definition (aspect category方面类别 and aspect expression方面表示): 实体的方面类别表示实体的唯一方面,而方面表示是出现在指示方面类别的文本中的实际单词或短语。
每个方面类别(或简称为方面)在特定应用中也应具有唯一的名称。将方面表示分组为方面类别(方面)的过程称为方面分类。
方面表示通常是名词和名词短语,但也可以是动词,动词短语,形容词和副词。以下定义是有用的(Hu and Liu,2004)。
Definition (explicit aspect expression显式方面表示): 作为名词和名词短语的方面表示称为显式方面表示。
例如,“本相机的图像质量很好”中的“图像质量”是明确的外观表达。
Definition (implicit aspect expression隐式方面表示): 不是名词或名词短语的方面表达称为隐式方面表示。
例如,“昂贵”是“此相机很昂贵”中的隐式外观表达。它暗示了价格方面。许多隐含的方面表达是形容词和副词,用于描述或限定某些特定方面,例如昂贵(价格)和可靠(可靠性)。它们也可以是动词和动词短语,例如“我可以轻松安装软件”。“install”表示安装方面。隐含的方面表达不仅是形容词,副词,动词和动词短语。它们也可能非常复杂,例如,“此相机不容易放在大衣口袋中。”在此,“适合放在大衣口袋中”表示外观尺寸(和/或形状)。
观点定义中的第三部分是情感。此任务对方面的情绪是正面,负面还是中立进行分类。第四部分和第五部分分别是观点持有者和时间。还需要根据实体和方面对它们进行提取和分类。请注意,观点持有者(Bethard等,2004; Choi等,2005; Kim和Hovy,2004)(在(Wiebe,Wilson和Cardie,2005)中也称为观点来源)可以是表达观点的个人或组织。对于产品评论和博客,观点持有者通常是帖子的作者。对于新闻报道,观点持有者更为重要,因为它们经常明确声明持有观点的人或组织。但是,在某些情况下,识别观点持有者在社交媒体中也很重要,例如,识别来自广告商或引用公司广告的人的观点。
基于以上讨论,我们可以定义一个实体模型和一个观点文档模型(Liu,2006和2011)。
Model of entity实体模型: 实体 e i e_i ei?整体上由自身表示,并且表示为有限的一组方面 A i = { a i 1 , a i 2 , … , a i n } A_i = \{ai1,ai2,…,ain\} Ai?={ ai1,ai2,…,ain}。 e i e_i ei?可以用它实体表示的有限集合 { e e i 1 , e e i 2 , … , e e i s } \{eei1,eei2,…,eeis\} { eei1,eei2,…,eeis}中的任何一种形式表示。实体 e i e_i ei?的每个方面aij∈Ai都可以用其有限的方面表示集 { a e i j 1 , a e i j 2 , … , a e i j m } \{aeij1,aeij2,…,aeijm\} { aeij1,aeij2,…,aeijm}来表示。
Model of opinion document观点文档模型: 观点文档d在某个特定时间点包含一组实体 { e 1 , e 2 , … , e r } \{e_1,e_2,…,e_r\} { e1?,e2?,…,er?}的观点以及来自一组观点持有者 { h 1 , h 2 , … , h p } \{h_1,h_2,…,h_p\} { h1?,h2?,…,hp?}的各个方面的观点。
最后,归纳起来,给定一套观点文档D,情感分析包括以下6个主要任务。
任务1(实体提取和分类):提取D中的所有实体表示,并将同义实体表示分类或分组为实体簇(或类别)。每个实体表达簇指示唯一的实体 e i e_i ei?。
任务2(方面提取和分类):提取实体的所有方面表示,并将这些方面表示归类为簇。实体 e i e_i ei?的每个方面表示簇代表一个唯一方面 a i j a_{ij} aij?。
任务3(观点持有者的提取和分类):从文本或结构化数据中提取观点持有者以获取观点并将其归类。该任务类似于以上两个任务。
任务4(时间提取和标准化):提取给出观点的时间并标准化不同的时间格式。该任务也类似于上述任务。
任务5(方面情感分类):确定对方面 a i j a_{ij} aij?的观点是肯定,否定还是中立的,或者为方面指定数字情感等级。
任务6(观点五元组生成):根据上述任务的结果,生成文档d中表示的所有观点五元组 ( e i , a i j , s i j k l , h k , t l ) (e_i, a_{ij}, s_{ijkl}, h_k, t_l) (ei?,aij?,sijkl?,hk?,tl?)。这个任务看似非常简单,但实际上在许多情况下都非常困难,如下面的示例4所示。
基于这种框架的情感分析(或观点挖掘)通常被称为基于方面的情感分析(或观点挖掘),或基于特征的情感分析(或观点挖掘)(Hu and Liu,2004; Liu,2004)。胡和程,2005)。
现在,我们使用一个示例博客来说明任务(句子ID再次与每个句子相关联)和分析结果。
Example 4: Posted by: bigJohn Date: Sept. 15, 2011
(1) I bought a Samsung camera and my friends brought a Canon camera yesterday. (2) In the past week, we both used the cameras a lot. (3) The photos from my Samy are not that great, and the battery life is short too. (4) My friend was very happy with his camera and loves its picture quality. (5) I want a camera that can take good photos. (6) I am going to return it tomorrow.
任务1应该提取实体表达式“ Samsung”,“ Samy”和“ Canon”,并将“ Samsung”和“ Samy”分组在一起,因为它们表示同一实体。任务2应该提取方面表示“picture”、“photo”和“battery life”,并将“picture”和“photo”分组在一起,因为它们对照相机来说是同义词。任务3应该找到句子(3)中持有观点的人是bigJohn(博客作者),而句子(4)中持有观点的人应该是bigJohn的朋友。任务4还应该找到发布博客的时间是2011年9月15日。任务5应该发现句子(3)对Samsung相机的图像质量有负面评价,而对电池寿命也有负面评价。句子(4)对佳能相机整体以及它的图像质量给出了积极的评价。句子(5)似乎表达了肯定的观点,但事实并非如此。要生成句子(4)的观点五元组,我们需要知道“his camera”和“its”指的是什么。任务6最终应生成以下四个观点五元组:
(Samsung, picture_quality, negative, bigJohn, Sept-15-2011)
(Samsung, battery_life, negative, bigJohn, Sept-15-2011)
(Canon, GENERAL, positive, bigJohn’s_friend, Sept-15-2011)
(Canon, picture_quality, positive, bigJohn’s_friend, Sept-15-2011)
2.2 观点摘要
与事实信息不同,观点本质上是主观的。单个观点持有人的一个观点通常不足以采取行动。在大多数应用中,需要分析大量人员的观点。这表明需要某种形式的观点摘要。尽管观点摘要可以采用多种形式之一,例如结构化摘要(请参阅下文)或简短文本摘要,但摘要的关键组成部分应包括对不同实体及其方面的观点,并应具有定量观点。定量分析观点尤其重要,因为20%的人对产品持肯定态度与80%的人对产品持肯定态度很不一样。我们将在第7章中对此进行进一步讨论。
上面定义的观点五元组实际上提供了很好的信息来源,同时也提供了生成定性和定量摘要的框架。摘要的常见形式是基于方面的,称为基于方面的观点摘要(或基于特征的观点摘要)(Hu和Liu,2004; Liu,Hu和Cheng,2005)。在过去的几年里,关于观点摘要已经进行了大量研究。它们大多数与此框架相关(请参见第7章)。
让我们用一个例子来说明这种形式的总结,该总结在(Hu and Liu,2004; Liu,Hu and Cheng,2005)中提出。我们总结了一组称为“digital camera 1”的数码相机的评论。该外观类似于图2.1中的内容,它与从一个或多个长文档生成的短文档的传统文本摘要形成对照,被称为结构化摘要。在图中,GENERAL代表摄像机本身(实体)。 105条评论对该相机表示正面评价,12条正面评价。图像质量和电池寿命是相机的两个方面。 95条评论对图片质量表示正面评价,另有10条反对。 是指向给出观点的语句和/或整个评论的链接。有了这样的摘要,就可以轻松了解现有客户对这款相机的感受。如果您对某个特定方面和其他细节感兴趣,则可以通过点击链接进行深入研究,以查看实际的评论句子或评论。
2.3 不同类型的观点
到目前为止,我们已经讨论过的观点类型称为常规观点(Liu,2006和2011)。另一种类型称为比较观点(Jindal和Liu,2006b)。实际上,我们还可以根据观点在文本中的表达方式,显式观点和隐式(或隐含)观点进行分类。
2.3.1 常规和比较观点
Regular opinion常规观点: 常规观点在文献中通常被简单地称为观点,它有两个主要的子类型(Liu,2006和2011):
*直接观点:*直接观点是指直接在实体或实体方面表达的观点,例如“图片质量很好”。
*间接观点:*间接观点是基于对实体或实体某些方面的影响而间接表达的观点。这种子类型通常发生在医学领域。例如,句子“注射药物后,我的关节感觉更糟”描述了药物对“我的关节”的不良影响,这间接地给药物带来了负面的看法或情绪。在这种情况下,实体是药物,而方面是对关节的影响。
当前的许多研究都集中在直接观点上。它们更易于处理。间接观点通常更难处理。例如,在药物领域,人们需要知道在使用药物之前或之后是某种理想状态还是不良状态。例如,“由于我的关节疼痛,我的医生让我服用了这种药物”这句话没有表达对该药物的看法或看法,因为在使用该药物之前发生了“疼痛的关节”(这是负面的)。
Comparative opinion比较观点: 比较观点表达了两个或多个实体之间的相似性或差异性关系和/或基于实体某些共享方面的观点持有人的偏好(Jindal和Liu,2006a; Jindal和Liu,2006b)。例如,“可口可乐比百事可乐好”和“可口可乐最好”这句话表达了两种比较观点。比较观点通常是使用形容词或副词的比较形式或最高级形式表达的,尽管并非总是如此(例如,prefer)。比较观点也有很多类型。我们将在第8章中讨论和定义它们。
2.3.2 显式和隐式观点
Explicit opinion显式观点: 显式观点是一种主观陈述,可提供常规或比较性观点,例如:
“可口可乐很棒,”和
“可口可乐比百事可乐更好。”
**Implicit (or implied) opinion隐式(或隐含)观点:**隐式观点是一种客观陈述,暗示了常规或比较观点。此类客观陈述通常表示理想或不希望的事实,例如:
“我一周前买了床垫,形成了山谷。”和
“诺基亚手机的电池寿命比三星手机更长。”
显式观点比隐式观点更易于检测和分类。当前的许多研究都集中在显式观点上。隐式观点方面的工作相对较少(Zhang和Liu,2011b)。在一个稍微不同的方向上,(Greene和Resnik,2009)研究了句法选择对隐式情感感知的影响。例如,对于同一故事,不同的标题可能暗示不同的情感。
2.4 主观性与情感
有两个与情感和观点密切相关的重要概念,即subjectivity 和 emotion。
**Definition (sentence subjectivity):**一个客观句表达了有关世界的一些事实信息,而一个主观句则表达了一些个人的感受,观点或信念。
一个客观的例子是“ iPhone是苹果产品。”主观句子的一个示例是“我喜欢iPhone”。主观表达有多种形式,例如观点,指控,欲望,信念,怀疑和推测(Riloff,Patwardhan和Wiebe,2006; Wiebe,2000)。研究人员在将主观性与观点性划等号时存在一些混淆。所谓观点性,是指文档或句子表达或暗示正面或负面的情绪。尽管这两个概念有很大的交叉点,但它们并不等价。确定一个句子是主观还是客观的任务称为主观分类(Wiebe and Riloff,2005)(参见第4章)。在这里,我们应该注意以下几点:
- 主观句子可能无法表达任何观点。例如,“我认为他回家了”是一个主观的句子,但没有表达任何情感。示例4中的句子(5)也是主观的,但它对任何事物都没有正面或负面的情绪。
- 客观的句子可能会由于合意和不合意的事实而暗含观点或情感(Zhang和Liu,2011b)。例如,以下两个陈述某些事实的句子显然暗含了对其各自产品的负面情绪(它们是隐含的观点),因为这些事实是不合需要的:
“耳机在两天内坏了。”
“一周前我带了床垫,形成了山谷”
除了带有主观表达的明确观点外,许多其他类型的主观性也得到了研究,尽管没有那么广泛,例如,affect影响,judgment判断,appreciation欣赏,speculation投机,hedge对冲,perspective观点,arguing争论,agreement & disagreement同意与不同意,political stances 政治立场其中也可能隐含着情感。(Alm, 2008; Ganter and Strube, 2009; Greene and Resnik, 2009; Hardisty, Boyd-Graber and Resnik, 2010; Lin et al., 2006; Medlock and Briscoe, 2007; Mukherjee and Liu, 2012; Murakami and Raymond, 2010; Neviarouskaya, Prendinger and Ishizuka, 2010; Somasundaran and Wiebe, 2009)
Definition (emotion): 情感是我们的主观感受和思想。
情感已经在多个领域进行了研究,例如心理学,哲学和社会学。研究范围很广,从生理上的情感反应(例如,心率变化,血压,出汗等),面部表情,手势和姿势,到个人心理状态的不同类型的主观体验。科学家将人们的情感进行了分类。但是,研究人员之间还没有达成共识的基本情绪。基于(Parrott,2001),人们有六种主要的情感,即love爱,joy喜悦,surprise惊奇,anger愤怒,sadness悲伤和fear恐惧,这些情感可以细分为许多第二和第三情感。每种情感也可以具有不同的强度。
Emotions 与sentiments密切相关。Sentiments或观点的强度通常与某些emotions的强度相关,例如喜悦和愤怒。我们在情感分析中研究的观点大多是evaluations 评估(尽管并非总是如此)。根据消费者行为研究,评估可以大致分为两类:理性评估和情感评估(Chaudhuri,2006)。
**Rational evaluation理性评估:**这样的评估来自理性的推理,切实的信念和实用主义的态度。例如,以下句子表达了理性的评价:“这部手机的声音清晰,”“这辆车值这个价钱”和“我对这辆车感到满意”。
**Emotional evaluation: 情绪评价:**这样的评估是从对实体的深入了解和情感反应中得出的。例如,以下句子表达了情感上的评价:“我爱iPhone”,“我为他们的服务人员感到非常生气”和“这是有史以来制造的最好的汽车”。
要在实践中使用这两种类型的评估,我们可以设计5个情感等级,情绪否定(-2),理性否定(-1),中立(0),理性肯定(+1)和情绪肯定(+ 2)。在实践中,中立通常意味着不表达观点或观点。
最后,我们需要注意的是,emotion 和opinion 的概念显然并不等同。理性的观点可能不会表达任何情绪,例如“此电话的声音很清晰”,许多感性的句子没有对任何内容表达观点/情感,例如“在这里见到您真让我感到惊讶”。更重要的是,emotion可能没有目标,只是人们的内在感受,例如,“我今天感到非常难过。”
2.5 作者和读者的立场
我们可以从两个角度看待一个观点,即表达观点的作者(观点持有者)和阅读观点的读者。例如,有人写道:“房价下跌了,这对经济不利。”显然,作者谈到了房价下跌对经济的负面影响。但是,读者可以用两种方式来理解这句话。对于卖方而言,这确实是消极的,但对于买方而言,这可能是个好消息。再例如,一个人写道:“我很高兴今天Google股价飞涨。”如果读者昨天亏本出售了他的Google股票,他将不会很高兴,但是如果读者昨天购买了很多Google股票,他几乎肯定会和句子的作者一样高兴。
我不了解有关此问题的任何报道研究。在当前的研究或应用中,研究人员要么忽略该问题,要么在分析中假设一个立场。通常,除非另有说明(如美国的总统),观点持有人均被假定为消费者或公众。如果产品制造商或服务提供商的观点被明确标记,则被视为广告;如果未被明确标记,则被视为伪造的观点(例如,与消费者的观点混在一起)。
2.6 总结
本章在情感分析的背景下定义了观点的概念,情感分析的主要任务以及观点总结的框架。伴随着它们,还引入了两个相关和重要的主观性和情感性概念,它们与观点高度相关但并不等同。现有的研究大多集中在它们与观点的交叉点上(尽管并非总是如此)。但是,我们应该意识到,所有这些概念及其定义都是相当模糊和主观的。例如,仍然没有所有研究人员都同意的一组emotions。观点本身也是一个广泛的概念。情感分析主要处理观点的评价类型或暗示正面或负面情绪的观点。如果您不完全同意本章中的所有内容,我不会感到惊讶。本章的目的是对情感分析及其相关问题给出一个合理准确的定义。我希望我在某种程度上成功了。