-
[数据仓库] 数据仓库应用(2):数据抽取、转换、加载(ETL)
数据仓库应用(二):数据抽取、转换、加载(ETL)关联文章:数据仓库应用(一):数据仓库模型设计数据仓库应用(三):SQLServer2005的数据仓库应用–联机分析OLAP一、问题背景某电子商务网站主要销售电子类产品,产品又分为几个大类别,包括:电脑类、手机类、键盘类等,每个类别内又细分为几个小类...
79
热度 -
[数据仓库] 海量数据挖掘——第一讲.MapReduce and PageRank
海量数据挖掘——第1讲.MapReduceandPageRank本栏目(数据挖掘)下海量数据挖掘专题是个人对Coursera公开课海量数据挖掘(2015)的学习心得与笔记。所有内容均来自Coursera公开课MiningMassiveDatasets中JureLeskovec,AnandRajara...
471
热度 -
[数据仓库] BI 支座——数据仓库技术(Data Warehouse)
BI底座——数据仓库技术(DataWarehouse)在开始喷这个主题之前,让我们先看看数据仓库的官方定义:数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time-Vari...
50
热度 -
[数据仓库] 刚接触数据仓库,些有关问题
刚接触数据仓库,弱弱的问些问题有一些数据文件,需要做统计分析,可是不明白在数据仓库中应该怎么做,是不是建一张表跟数据文件里的列一一对应,把数据先导入到这张表里,把这张表作为事实表,然后再根据统计分析的需求,去建需要的纬度?还是说在数据导入之前,就需要根据统计分析的需求,设计好事实表,和纬度表?看了一...
85
热度 -
83
热度 -
104
热度 -
[数据仓库] 第三届泰迪杯全国大学生数据挖掘竞赛通报
第三届泰迪杯全国大学生数据挖掘竞赛通知各院校数学、计算机、经管及相关院系:为推广我省高校数据挖掘实践教学,培养学生数据挖掘的应用和创新能力,增加校企交流合作和信息共享,提升我省高校的教学质量和企业的竞争能力,由广东省工业应用数学学会发起的面向全省高校的第三届数据挖掘竞赛如期举行。本届竞赛是由广东省工...
132
热度 -
[数据仓库] KNIMI数据挖掘建模与分析系列_001_利用KNIMI干演员关系网络分析
KNIMI数据挖掘建模与分析系列_001_利用KNIMI做演员关系网络分析利用KNIMI做演员关系网络分析老帅20150407一、测试数据二、演员社会关系网络可视化1.读入"演员社会关系.csv"读取列标题2.识别社会关系网络节点一个关系是由两个节点组成的,设置关系的第一个节点和...
150
热度 -
[数据仓库] 纵谈数据挖掘从入门到进阶(转)
漫谈数据挖掘从入门到进阶(转)Innoparticularorder:?FoundationsofMachineLearning,MehryarMohri,AfshinRostamizadeh,AmeetTalwalkarAnambitiousbookthatcoversanimpressivesu...
115
热度 -
[数据仓库] 数据挖掘基础:在数据中寻觅相关的项目 Apriori算法
数据挖掘基础:在数据中寻找相关的项目Apriori算法Ck:CandidateitemsetofsizekLk:frequentitemsetofsizekL1={frequentitems};for(k=1;Lk!=?;k++)dobeginCk+1=candidatesgeneratedfrom...
86
热度 -
[数据仓库] 做银行的数据仓库工作如何样
做银行的数据仓库工作怎么样?做银行的数据仓库工作怎么样?发展前景如何?相比java开发怎么样?还有工作强度怎么样?谢谢大牛回答。------解决思路----------------------其实单就银行数据仓库和JAVA开发,两者无法比较。例如你做一个小小银行的数据仓库,和在BAT做JAVA开发完...
143
热度 -
[数据仓库] 数据仓库课题(3)-分布式数据仓库事实表设计思考
数据仓库专题(3)-分布式数据仓库事实表设计思考一、前言最近在设计数据仓库的数据逻辑模型,考虑到海量数据存储在分布式数据仓库中的技术架构模式,需要针对传统的面相关系型数据仓库的数据存储模型进行技术改造。设计出一套真正适合分布式数据仓库的数据存储模型。二、事实表设计基础事实表记录发生在现实世界中的操作...
122
热度 -
[数据仓库] 数据仓库课题(2)-Kimball维度建模四步骤
数据仓库专题(2)-Kimball维度建模四步骤一、前言四步过程维度建模由Kimball提出,可以做为业务梳理、数据梳理后进行多维数据模型设计的指导流程,但是不能作为数据仓库系统建设的指导流程。本文就相关流程及核心问题进行解读。二、数据仓库建设流程以下流程是根据业务系统、组织结构、团队结构现状设定的...
153
热度 -
[数据仓库] 数据仓库课题(1)-数据仓库生命周期模型
数据仓库专题(1)-数据仓库生命周期模型一、前言工作内容的变更,导致重新回到数据仓库模型的架构和设计,于是花点时间比较系统的回顾数据仓库建模和系统建设的知识体系,记录下来,作为笔记吧。二、模型无论数据仓库技术如何变化,从RDBMS到NoSQL,从传统技术到大数据,其实只是实现技术手段的变化,数据仓库...
149
热度 -
[数据仓库] 数据仓库课题(4)-分布式数据仓库事实表设计思考-讨论精华
数据仓库专题(4)-分布式数据仓库事实表设计思考---讨论精华一、前言上一篇分享博文《数据仓库专题(3)--分布式数据仓库事实表设计思考》后,陆续有各位兄弟参加大讨论,提出了各种问题,关于分布式环境下,维表和事实表设计,进行了比较深入的探讨,在此汇集整理,分享给大家。希望能有更多人参与尽力啊,共同探...
79
热度 -
[数据仓库] 数据仓库专题(5)-怎么构建主题域模型原则之站在巨人的肩上(二)NCR FS-LDM主题域模型划分
数据仓库专题(5)-如何构建主题域模型原则之站在巨人的肩上(二)NCRFS-LDM主题域模型划分一、前言分布式数据仓库模型的架构设计,受分布式技术的影响,很多有自己特色的地方,但是在概念模型和逻辑模型设计方面,还是有很多可以从传统数据仓库模型进行借鉴的地方。NCRFS-LDM数据模型是金融行业事实上...
87
热度 -
139
热度 -
[数据仓库] 数据仓库专题(5)-怎么构建主题域模型原则之站在巨人的肩上(一)IBM-FSDM主题域模型划分
数据仓库专题(5)-如何构建主题域模型原则之站在巨人的肩上(一)IBM-FSDM主题域模型划分一、前言如何构建主题域模型原则是构建企业级数据仓库重要的议题,最好的路径就是参照成熟的体系。IBM金融数据模型数据存储模型FSDM,是金融行业应用极为广泛的数据模型,可以作为我们构建企业级数据仓库主题域模型...
138
热度 -
[数据仓库] 急kettle 运行一段时间,报数据库连接异常
急kettle运行一段时间,报数据库连接错误Unexpectederrorrollingbackthedatabaseconnection.org.pentaho.di.core.exception.KettleDatabaseException:Errorperformingrollbackonc...
154
热度 -
[数据仓库] 数据挖掘算法之关联规则开掘(二)FPGrowth算法
数据挖掘算法之关联规则挖掘(二)FPGrowth算法之前介绍的apriori算法中因为存在许多的缺陷,例如进行大量的全表扫描和计算量巨大的自然连接,所以现在几乎已经不再使用在mahout的算法库中使用的是PFP算法,该算法是FPGrowth算法的分布式运行方式,其内部的算法结构和FPGrowth算法...
131
热度