《利用Python进行数据分析》
这是一本非常好的使用python语言进行数据分析的入门书,既有基本理论讲解,也有实战代码示例。
我将认真阅读此书,并为每一章内容做一个知识笔记。
我会摘录一些原书中的关键语句和代码,若有错误请为我指出。
目录
- 第一章
-
- 1 本书主要内容
- 2 为什么要使用Python进行数据分析
- 3 重要的Python库
- 4 安装和设置
- 5 社区和研讨会
- 6 使用本书
- 7 致谢
第一章
1 本书主要内容
本书讲的是利用Python进行数据控制、处理、整理、 分析等方面的具体细节和基本要点。
2 为什么要使用Python进行数据分析
自从1991年诞生以来,Python现在已经成为最受欢迎的动态编程语言之一。
Python最大的特点是拥有一个巨大而活跃的科学计算社区。
作为一个科学计算平台,Python的成果部分源于其能够轻松集成C、C++以及Fortran代码。
大多数软件都是由两部分代码组成的:少量需要占用大部分执行时间的代码,以及大量不经常执行的“粘合剂代码”。
最近几年,Cython以及成为Python领域中创建编译型扩展以及对接C\C++代码的一大途径。
人们逐渐意识到,Python不仅适用于研究和原型构建,同时也适用于构建生产系统。
由于Python是一种解释型编程语言,因此大部分Python代码都要比用编译型语言(如Java和C++)编写的代码运行慢得多。
使用什么语言取决于侧重于编程还是运行的时间消耗。
对于高并发、多线程的应用程序而言,Python并不是一种理想的编程语言。它无法同时执行多条Python字节码指令。
3 重要的Python库
- Numpy
科学计算的基础包。
它提供了:
- 快速高效的多维数组对象naarray
- 用于对数组执行元素级计算以及直接对数组执行数学运算的函数
- 用于读写硬盘上基于数组的数据集的工具
- 线性代数运算、傅里叶变化,以及随机数生成
- 用于将C\C++、Fortran代码集成到Python的工具
它可以作为在算法之间传递数据的容器。
对于数值型数据,numpy数组在存储和处理数据时要比内置的Python数据结构高效的多。
- pandas
提供了使我们能够快速地处理结构化数据的大量数据结构和函数。
pandas兼具numpy高性能的数组计算功能以及电子表格和关系型数据库灵活的数据处理功能。
pandas提供了大量适用于金融数据的高性能时间序列功能和工具。
3.matplotlib
最流行的用于绘制数据图表的Python库。
它非常适合创建出版物上用的图表。 - Ipython
Python科学计算标准工具集的组成部分,它将其他所有的东西联系到了一起。
它是一个增强的Python shell,目的是提高编写、测试、调试Python代码的速度。 - Scipy
一组专门解决科学计算中各种标准问题域的包的集合。
4 安装和设置
略
5 社区和研讨会
略
6 使用本书
http://github.com/pydata/pydata-book
7 致谢
略