当前位置: 代码迷 >> 综合 >> Watson Explorer 入门(2):创建集合(Collection)
  详细解决方案

Watson Explorer 入门(2):创建集合(Collection)

热度:33   发布时间:2023-12-12 16:37:46.0

(许野平的Watson Explorer 学习笔记)

ETL 与集合(Collection)

非结构化数据分析,和传统的结构化数据分析有不少相似的地方。第一步,我们需要把原始数据导入到 Watson Explorer 中。这个步骤在传统的数据分析中称为ETL。

ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。目前,大多数企业花费大量的资金和时间来构建联机事务处理OLTP的业务系统和办公自动化系统,用来记录事务处理的各种相关数据。据统计,数据量每2~3年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只占在总数据量的2%~4%左右。因此,企业仍然没有最大化地利用已存在的数据资源,以至于浪费了更多的时间和资金,也失去制定关键商业决策的最佳契机。于是,企业如何通过各种技术手段,并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。而ETL则是主要的一个技术手段。

Watson Explorer 在分析数据之前,首先需要定义这个 ETL 过程。这个过程的源端有业务系统提供,Watson Explorer 能够从包括文本文件、Word文档、Excel文档、各种数据库等一百多种不同的数据源中自动抓取数据,这为我们快速构建分析系统提供了很大的便利。

ETL 的目的端是 Watson Explorer 的集合,对应的英文说法是 Collection。原始数据经过整理进入 Collection 之后,才可以进行数据分析。下面我们来构建 NHTSA 的 Collection,这里给出操作界面,Watson Explorer 能够很好地支持简体中文,对我们来说是一个很好的消息。

这里写图片描述

接下来还有些高级选项,这个基本上都是选用默认设置,我不再罗嗦了。下面我只简要介绍几个术语,方便大家操作的时候理解这些提示。

集合(Collection)选项

  • 集合类型:两个选项,企业搜索集合、内容分析集合。据说,Watson Explorer 的搜索和分析是两套相对独立的系统,虽然里面有很多概念是一样的,但是软件系统的实现并没有整合在一起。因此,搜索功能可能出现在企业搜索部分,也可能出现在内容分析部分。这两部分的搜索功能是不一样的,如果有些搜索功能不符合你的设想,不妨切换到另外一个搜索功能,或许就能实现你的想法。
  • 文档重要性:依据其重要性,确定其中分析挖掘出来的内容的重要性权重。例如可以利用文档被引用的次数、文档日期、文档所在字段的重要程度等进行排序。
  • 观点分析:来自英文 sentiment analysis,意思是感情分析。严重怀疑软件的中文是不是请日本人翻译的。
  • 基于规则的分类:自然语言的分类,是说可以把一句话映射到某个ID上。例如,设计简单的对话系统时,需要知道用户问的是什么问题。把用户的问题映射到问题ID,这个过程称为分类。Watson Explorer 提供了用户自定义规则的机制,允许按照一定的规则模式,把自然语言句子进行分类。
  • 文档集群:原文是document clustering。我认为这又是一个翻译错误,应该翻译为“文档聚类”,意思是根据内容把文档聚类、分类。
  • 叠加索引:原文是overlay index。应该翻译成“覆盖索引”,是数据库的重要概念。覆盖索引是select的数据列只用从索引中就能够取得,不必读取数据行,换句话说查询列要被所建的索引覆盖。
  • N-Gram分段:该选项仅用于中文、日文和韩文,在这些语言中,词汇之间没有空格分隔。
  • 集合分区:可以把集合存储在多个分区,以便提升访问效率。分区本身是透明的,从外部看起来,即使多个分区,数据也是采用同一个索引来进行访问的。

明白上述概念后,可以进行适当的选择配置,最后点击界面左下角的“确定”按钮,一个新的集合就产生了。但是目前集合还是空的,如何让 Watson Explorer 自动把原始文档资料导进来?我们下一个练习解决这个问题。

(未完待续… …)

  • -
  相关解决方案