Python笔记第一弹

Python进行数据科学

最近打算快速入门Python进行数据分析,争取能做些比较有趣的小项目。搜索YouTube还有一些网络课程,发现讲的侧重不一致,难易程度不同,甄别成本高,遂放弃。最后采取了选择看书来学习,看了下知乎推荐,准备以下O’Reilly 家的两本书《数据科学入门》、《利用Python进行数据分析》来进行学习:

  1. 《利用Python进行数据分析》感觉本书章节清楚,主要侧重数据分析方面的处理和库的使用,逻辑清楚,更重要的是作者也是R语言用户,本书提供了一些两种编程语言的对比。

  2. 《数据科学入门》强调怎么从整体的视角运用Python进行数据科学学习,重点是数学科学的理论实践和讲解。

  3. 所以一本是Python手册大全,一本是数据科学框架。

  4. 我的策略:

    • 能开始用:我看中《数据科学入门》第2章的Python速成,《利用Python进行数据分析》的第一章安装准备、附录Python语言精要,保证快速能上手。
    • 参考数说工作室微信公众号的《Python统计师日记》系列辅助。
    • 能练中学:参考知乎你用Python做过什么有趣的数据挖掘项目开始做些分析,不会的代码实现过程查询《利用Python进行数据分析》,模型参考就看《数据科学入门》。
    • 陆续以小项目为主要输出形式,形成良好循环。

只想加载点儿数据,做点计算,再画点图。

好了,开始抄笔记。

主要Python库

  • NumPy(Numerical Python的简称)科学计算的基础包
  • pandas: 处理结构化数据的大量数据结构和函数,包含大量金融数据时间序列处理工具
  • matpolotlib: 绘制数据图表
  • IPython:为交互式和探索式计算提供友好的环境
  • SciPy:一组专门解决科学计算中各种标准问题域的包的集合,如 scipy.stats提供标准连续和离散概率分布、统计检验方法、描述统计方法。与NumPy结合可以代替MATLAB计算功能

安装与配置

Anaconda 2.7版本,Python 3与Python 2 不能兼容,使用2.7版本是数据科学的主流版本。