DIH介绍
DIH(Data Import Handler)数据导入处理程序简写,常见的做法大部分应用将数据都是以结构化的方式存储,例如存储在数据库中。DIH其实就是将这些内容导入solr中,方便日后索引使用。同时它还可以导入基于HTTP的数据源(RSS源、ATOM源,电子邮件存储库和结构化XML)。
术语
- 数据源:数据源定义了感兴趣的数据的位置。对于数据库,它是一个DSN。对于HTTP数据源,它是基本URL。
- 实体:从概念上讲,处理实体以生成一组文档,其中包含多个字段(在可选地以各种方式进行转换之后)被发送到Solr以进行索引。对于RDBMS数据源,实体是视图或表,它将由一个或多个SQL语句处理,以生成一组包含一个或多个列(字段)的行(文档)。
- 处理器:实体处理器执行从数据源提取内容,转换数据并将其添加到索引的工作。可以编写自定义实体处理器来扩展或替换所提供的处理器。
- 转换器:可以可选地转换由实体提取的每组字段。此过程可以修改字段,创建新字段或从单个行生成多个行/文档。DIH中有几个内置的变换器,它们执行修改日期和剥离HTML等功能。可以使用公共可用的界面编写自定义变换器。
官方DIH示例启动
1.启动
E:\Solr\solr-7.3.1\bin>solr.cmd -e dihStarting up Solr on port 8983 using command:
"E:\Solr\solr-7.3.1\bin\solr.cmd" start -p 8983 -s "E:\Solr\solr-7.3.1\example\example-DIH\solr"Waiting up to 30 to see Solr running on port 8983
Started Solr server on port 8983. Happy searching!Solr dih example launched successfully. Direct your Web browser to http://localhost:8983/solr to visit the Solr Admin UI