数据挖掘简略快速方法_数据仓库

数据挖掘简单快速方法

估计上csdn找资料的也不会搞的太深，所以我这套入门级的方法应该够用了。很简单方便。

用spoon搞定一切（基于kettle）。

spoon的文档比较恶心。好多东西得自己去摸索。

Perspective实际上把spoon分成了不同的3个软件，做预提取用第一个，做分析用第二个（Model），第3个是从第二个跳过去的。

第一个就别管job这种东西了。直接新建一个转换，框图的每一步叫step，step列表在左边核心对象那。

用输入模块的组建读取数据（我一般用文本文件），里面各个按钮的设置得自己摸索，文档有说，建议对着官方文档来摸索，注意正则表达式在spoon中到处都是。例如匹配所有字符串 .* 具体的网上有个20分钟学会正则表达式。

转换模块的各个组建都该自己挨个摸索一下，这种主要用到的。主要包括域（field）操作和字符串操作两种，建议不要过早把字符串转换成数值类型（字段选择），多用字符串操作。

还有就是整个系统最有用的是flow里面的过滤记录组件和脚本里面的正则表达式计算。一个能过滤你不想要的记录，或者是选出某种符合条件记录进行特殊操作，一个能在原field很方便的产生新field（通过正则表达式匹配，用括号括起来的部分就是新field，例如.*（\d\d\d\d_\d\d）.* ，中间括号里的数字序列就是新域。

输出的很简单，建议用数据库表输出。挨个研究下那个表输出组件的里面的意思吧。建议在组建里执行sql语句建表，别在数据库里。还有spoon默认的sql语句对大小的分配不是很好，记得自己调整。

model域，直接读入数据进行分析的，界面很简单，一看一般用analyzer不用report，文件那新建一个model后，傻子都会操作啦。

model添加完属性，点go，就跳转到第三个perspective分析了，几乎能得出任何你想要的信息的。除非你要查关联、聚类或分类啥的数据挖掘操作，如果真要用到的话，查查weka有没有，不过没有专业背景很难入手的，而且weka的算法很少，rapidminer好很多。不过还是用matlab吧。