自然语言处理

用来处理人类语言的库。

  • NLTK:一个先进的平台,用以构建处理人类语言数据的 Python 程序。官网
  • jieba:中文分词工具。官网
  • langid.py:独立的语言识别系统。官网
  • Pattern:Python 网络信息挖掘模块。官网
  • SnowNLP:一个用来处理中文文本的库。官网
  • TextBlob:为进行普通自然语言处理任务提供一致的 API。官网
  • TextGrocery:一简单高效的短文本分类工具,基于 LibLinear 和 Jieba。官网
  • thulac:清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包官网