DocHub 程序是开源免费的,不存在,所以没有所谓的售后,所以凡是遇到问题,请到GitHub或者Gitee提交issues,以便问题存档以及在有空的时候查看和排查,不接受除此之外的任何答疑求助。每天上班要工作,下班要生活、休闲、学习以及对开源项目做改进和优化…请理解和见谅,谢谢。

pdftotext

作用

提取 PDF 中的文本内容

安装

Windows

Windows 下不需要安装,因为我目前也没有发现存在Windows的版本。

不安装这个工具,对程序有影响,但是影响不大,因为从PDF中提取txt文本内容,还可以使用 calibre 进行提取。

Linux

  1. [sudo] apt install poppler-utils

Mac

  1. [sudo] brew install poppler-utils

是否安装成功

执行如下命令:

  1. pdftotext --help

看到如下结果,则表示安装成功。

  1. pdftotext --help
  2. ------
  3. pdftotext version 0.41.0
  4. Copyright 2005-2016 The Poppler Developers - http://poppler.freedesktop.org
  5. Copyright 1996-2011 Glyph & Cog, LLC
  6. Usage: pdftotext [options] <PDF-file> [<text-file>]
  7. -f <int> : first page to convert
  8. -l <int> : last page to convert
  9. -r <fp> : resolution, in DPI (default is 72)
  10. -x <int> : x-coordinate of the crop area top left corner
  11. -y <int> : y-coordinate of the crop area top left corner
  12. -W <int> : width of crop area in pixels (default is 0)
  13. -H <int> : height of crop area in pixels (default is 0)
  14. -layout : maintain original physical layout
  15. -fixed <fp> : assume fixed-pitch (or tabular) text
  16. -raw : keep strings in content stream order
  17. -htmlmeta : generate a simple HTML file, including the meta information
  18. -enc <string> : output text encoding name
  19. -listenc : list available encodings
  20. -eol <string> : output end-of-line convention (unix, dos, or mac)
  21. -nopgbrk : don't insert page breaks between pages
  22. -bbox : output bounding box for each word and page size to html. Sets -htmlmeta
  23. -bbox-layout : like -bbox but with extra layout bounding box data. Sets -htmlmeta
  24. -opw <string> : owner password (for encrypted files)
  25. -upw <string> : user password (for encrypted files)
  26. -q : don't print any messages or errors
  27. -v : print copyright and version info
  28. -h : print usage information
  29. -help : print usage information
  30. --help : print usage information
  31. -? : print usage information

测试

使用如下命令,测试文本提取结果。

  1. pdftotext -f 1 -l 5 example.pdf example.txt

如果提取到 txt 文件中的文本内容没有出现乱码,则表示内容提取成功。如果出现乱码,需要从字符编码和中文字体排查。