点此查看飞牛NAS部署各种Docker应用通用教程
项目简介
Stirling PDF 是一个开源、功能强大的 PDF 操作工具,专为需要高效处理 PDF 文件的用户设计。它的核心功能包括 PDF 的合并、拆分、文本提取、OCR(光学字符识别)等。通过 Docker 容器化部署,它提供了简单易用的环境设置方式,并支持多种语言的 OCR 识别。
项目主要特点
-
多语言 OCR 支持
通过集成 Tesseract OCR 引擎,支持多种语言(例如中文、英文、日文等)的文字识别。 -
PDF 处理功能丰富
- 合并和拆分 PDF 文件。
- 从 PDF 或图片中提取文字。
- 将文件转换为其他格式或生成 PDF。
-
易于部署和集成
- 使用 Docker 部署,即开即用。
- 提供 RESTful API,方便开发者集成到自己的应用程序中。
-
高度可配置性
- 支持挂载自定义配置文件和日志文件。
- 通过环境变量设置语言和功能开关。
-
跨平台兼容
- 在 Windows、Linux 和 macOS 上均可运行。
services: # 定义服务
stirling-pdf: # 服务名称
image: stirlingtools/stirling-pdf:latest # 使用 Stirling PDF 的最新镜像
ports: # 配置端口映射
- '5104:8080' # 将主机的 5104 端口映射到容器的 8080 端口
volumes: # 配置挂载的数据卷
- /vol2/1000/docker2/stirling-pdf/trainingData:/usr/share/tessdata # 挂载 OCR 语言包目录,用于支持额外语言
- /vol2/1000/docker2/stirling-pdf/extraConfigs:/configs # 挂载额外的配置文件
- /vol2/1000/docker2/stirling-pdf/customFiles:/customFiles/ # (可选)挂载用于自定义操作的文件目录
- /vol2/1000/docker2/stirling-pdf/logs:/logs/ # (可选)挂载日志文件目录
environment: # 定义容器运行时的环境变量
- DOCKER_ENABLE_SECURITY=false # 是否启用安全模式,默认关闭(false)
- INSTALL_BOOK_AND_ADVANCED_HTML_OPS=false # 是否安装高级功能,默认关闭
- LANGS=zh_CN # 设置语言为简体中文(可更改为其他语言代码)
上面是配置文件,修改端口5104为你要使用的端口即可,也可以不做修改。 挂载的目录修改为你的真实路径。
项目的目录结构如上图所示。
部署好的应用效果,功能很全。详细的使用和配置教程可查阅官方文档。https://docs.stirlingpdf.com/