当前位置: 代码迷 >> SQL >> SQL Server 2012 数据品质服务实战简介(Data Quality Services)
  详细解决方案

SQL Server 2012 数据品质服务实战简介(Data Quality Services)

热度:175   发布时间:2016-05-05 13:03:52.0
SQL Server 2012 数据质量服务实战简介(Data Quality Services)

    数据质量服务是包含在SQL Server 2012中的一个组件。我们需要安装数据质量服务端和客户端,这些在sqlserver 2012的安装文件中都可以找到。安装服务端以后,在我们sqlserver数据库中会出现3个新的以DQS开头的数据库

这三个数据库分别用来存储数据质量服务的知识库,总体和临时数据。

安装完成以后,我们可以用客户端来打开数据质量服务的管理界面

总体分三个大类,

知识库的管理(Knowledge Base Management)

数据质量项目(Data Quality Projects)

管理(Administration)

上图为创建知识库的界面,所有的数据质量项目都是基于知识库的,知识库里面包含具体的“域”(Domain),针对域来设定数据清理的规则。知识库我们可以看成是个表结构,域相当于字段。对域的规则可以是单独字段的也可以是组合字段的。

上图为域的管理,我们可以添加域,设置域的格式,数据类型,规则,引用等等。

当知识库建立以后,我们需要对知识库进行训练(Knowledge Base Discovery),一般情况下,我们可以取小部分真实数据来对知识库来进行训练,训练的次数越多,涵盖的情况越多,知识库也就越丰富越具体。

上图为知识库训练的界面,数据源可以是excel或者SQL Server数据库,下方设置相应的字段映射之后,就可以开始进行训练了。训练完之后,我们可以根据训练的结果可以进行设置,添加域的规则,修改域的引用等操作。

当一个知识库完成以后,我们就可以正式的使用数据质量项目来进行数据的清理。

而且在SSIS 2012中也添加了相对应的数据质量服务的组件,这样我们就可以很方便在SSIS 包中使用数据质量服务来完成数据的清洗。

当前世面上有很多行业的标准的第三方的知识库,我们也可以直接导入这些已经很成熟的知识库来对我们的数据直接进行清洗,大大的方便了我们操作一致性和准确性。

 

注意:当前版本下,DQS服务端不支持卸载,需要卸载的时候,需要手动删除那三个数据库,两个相对应的instance的login,master database中的一个存储过程。

 

  相关解决方案