文本处理

用于解析和操作文本的库。

  • 通用
    • chardet:字符编码检测器,兼容 Python2 和 Python3。官网
    • difflib:(Python 标准库)帮助我们进行差异化比较。官网
    • ftfy:让 Unicode 文本更完整更连贯。官网
    • fuzzywuzzy:模糊字符串匹配。官网
    • Levenshtein:快速计算编辑距离以及字符串的相似度。官网
    • pangu.py:在中日韩语字符和数字字母之间添加空格。官网
    • pypinyin:汉字拼音转换工具 Python 版。官网
    • shortuuid:一个生成器库,用以生成简洁的,明白的,URL 安全的 UUID。官网
    • simplejson:Python 的 JSON 编码、解码器。官网
    • unidecode:Unicode 文本的 ASCII 转换形式 。官网
    • uniout:打印可读的字符,而不是转义的字符串。官网
    • xpinyin:一个用于把汉字转换为拼音的库。官网
    • yfiglet-figlet:pyfiglet -figlet 的 Python 实现。
    • flashtext: 一个高效的文本查找替换库。官网
  • Slug 化
    • awesome-slugify:一个 Python slug 化库,可以保持 Unicode。官网
    • python-slugify:Python slug 化库,可以把 unicode 转化为 ASCII。官网
    • unicode-slugify:一个 slug 工具,可以生成 unicode slugs ,需要依赖 Django 。官网
  • 解析器
    • phonenumbers:解析,格式化,储存,验证电话号码。官网
    • PLY:lex 和 yacc 解析工具的 Python 实现。官网
    • Pygments:通用语法高亮工具。官网
    • pyparsing:生成通用解析器的框架。官网
    • python-nameparser:把一个人名分解为几个独立的部分。官网
    • python-user-agents:浏览器 user agent 解析器。官网
    • sqlparse:一个无验证的 SQL 解析器。官网