附录一、有用的 Python 数据科学包

原文:Useful Python Packages for Data Science

译者:飞龙

协议:CC BY-NC-SA 4.0

以下是 Python 中可能对数据科学有用的包一般概述。

有关更广泛/更全面的 Python 生态系统列表,请查看 Awesome Python 列表。

数据科学模块

这些包都包含在 anaconda 发行版中。

核心包

  • scipy - 数学,科学和工程。
  • numpy - 数组和数组运算的数值计算。
  • pandas - 数据结构和数据分析。
  • scikit-learn - 机器学习和数据分析。

文本挖掘

  • nltk - 自然语言处理。
  • gensim - 主题建模。

数学和统计学

网络爬虫

可视化库

图论/网络

深度学习

  • theano - 多维数组的数学运算。
  • tensorflow - 使用数据流图进行数值计算。
  • keras - 高级神经网络库。

标准库的有用部分

标准库中的完整软件包列表在这里

基本工具

  • os - 杂项操作系统操作。
  • sys - 系统操作。
  • datetime - 日期时间操作。
  • glob - 搜索路径名称。

实用函数

  • math - 数学函数。
  • random - (伪)随机数生成器。
  • re - 正则表达式。

文件格式

  • json - 支持处理 JSON 文件。
  • csv - 支持处理 CSV 文件

数据对象

  • collections - 容器数据类型。
  • pickle - 序列化和反序列化(保存和加载复杂对象)。