附录一、有用的 Python 数据科学包
原文:Useful Python Packages for Data Science
译者:飞龙
以下是 Python 中可能对数据科学有用的包一般概述。
有关更广泛/更全面的 Python 生态系统列表,请查看 Awesome Python 列表。
数据科学模块
这些包都包含在 anaconda 发行版中。
核心包
- scipy - 数学,科学和工程。
- numpy - 数组和数组运算的数值计算。
- pandas - 数据结构和数据分析。
- scikit-learn - 机器学习和数据分析。
文本挖掘
数学和统计学
- sympy - 符号数学。
- statsmodels - 统计建模。
网络爬虫
可视化库
- matplotlib - 2D 绘图库。
- seaborn - 可视化(基于 Matplotlib)
- bokeh - 交互式可视化。
图论/网络
- networkx - 网络分析
- graph-tool - 图的操作和分析
深度学习
- theano - 多维数组的数学运算。
- tensorflow - 使用数据流图进行数值计算。
- keras - 高级神经网络库。
标准库的有用部分
标准库中的完整软件包列表在这里。
基本工具
实用函数
文件格式
数据对象
- collections - 容器数据类型。
- pickle - 序列化和反序列化(保存和加载复杂对象)。