当前位置: 代码迷 >> 综合 >> Python DM Learning Intro
  详细解决方案

Python DM Learning Intro

热度:35   发布时间:2024-01-11 02:05:54.0

Python数据分析和数据挖掘学习路线图

[日期:2016-05-25] 来源:PPV课  作者: [字体:大 中 小]

  Python是一种面向对象、直译式计算机程序设计语言,由Guido van Rossum于1989年底发明。由于他简单、易学、免费开源、可移植性、可扩展性等特点,Python又被称之为胶水语言。由于Python语言的简洁、易读以及可扩展性,在国外用Python做科学计算的研究机构日益增多,一些知名大学已经采用Python教授程序设计课程,并且也广泛用于商业领域。

  下图为主要程序语言近年来的流行趋势,Python受欢迎程度扶摇直上,十年的时间一直是徐徐上升,最近大数据的兴起,Python作为数据挖掘编程语言备受数据科学家们的青睐。

  PYPL——编程语言流行指数。

  今天,PPV课Gary老师针对Python在数据分析领域的应用,从数据分析师从业者的角度为大家整理了一份Python数据分析入门学习路线图和相关课程,以供大家学习和参考。课程分为4个模块:

  Python语言基础

  Python数据挖掘基础

  Python文本挖掘基础和实例

  Python数据挖掘案例应用

  此学习路线由浅入深,从基础到案例实践,手把手教你如何用Python做数据分析和数据挖掘。

  python数据分析学习路线图

  第一部分是Python基础部分,主要是环境的搭建,库的安装,基础语法的了解,学习时间2周

  包括Python开发环境的搭建(使用Anaconda+pycharm,安装该环境包含了上课所需要的所有库,即包含numpy、pandas、scipy、matplotlib、scikit-learn等等,网上搜索Anaconda、pycharm即可获取安装。)基础语法的了解,语言的示例和规范,变量、常量、运算符、表达式相关基础知识。

  第二部分是Python数据挖掘的基础,主要是python数据分析相关库的学习和应用,学习时间2周

  Python数据挖掘基础主要是对数据分析相关库的使用,比如数据整理需要用到numpy和pandas库,数据描述与分析分析则主要用到pandas库,用Scipy处理非结构化数据,使用回归线性模型和回归树模型进行预测等等用python做数据分析和数据挖掘的库的应用。

  第三部分是Python做文本挖掘及案例分析,主要是python爬虫的学习和应用,学习时间2周

  数据分析离不开数据采集和爬取。第三部分主要是教如何利用Python进行网络爬虫,以及通过案例学习文本分类和聚类相关知识。学习时间2周

  第四部分是Python数据挖掘案例,主要通过讲解案例和动手实践案例,达到知识的融会贯通的应用。学习时间2周

  第四部分主要是动手、实践,将上面学习到的理论知识得以应用。第四部分案例覆盖决策树、朴素贝叶斯、最近邻、随机森林、支持向量机、神经网络等重要的数据挖掘方法。拟完成的案例包括不限于以下:使用关联规则进行购物篮分析、垃圾邮件的识别、图像识别、Iris数据挖掘的各种方法比较、电影或者图书推荐系统构建、屏蔽网页内容、街景识别和分类、手写文字的识别、最近邻回归进行预测、降维的各种方法、k-means聚类和中位数聚类等等。含经典编程写算法和scikit-learn等。

  最后,除了系统的学习上述相关知识之外,最主要的还是要复习,实践,实践,实践,最后才能真正出师,成为Python数据分析和数据挖掘高手。关于本课程的系统学习,大家可以跟着Gary一起学习《Python数据挖掘实战》课程,系统的学习上述内容,到时候老师会通过直播互动的形式跟大家一起探讨学习。

  相关中文资源如下:

  1.python工作集成环境包

  Python(x,y):下载地址:http://python-xy.github.io/downloads.html

  Pycharm:下载地址:http://www.jetbrains.com/pycharm/download/#section=windows

  2.python数据分析相关库(Pandas/Numpy/Scipy/Matplotlib)

  如果安装了上面集成工作包,则下面的包不需要重新安装了。关于包的安装方法在学习资源图书中都有介绍,通常安装库采用pip方法,也可以用pip list查询系统安装了哪些库