离线英文 PDF 翻译工具使用说明

奇树谦

519人浏览 · 2026-05-13 19:00:00

奇树谦 · 2026-05-13 19:00:00 发布

文章目录

离线英文 PDF 翻译工具使用说明

为了方便我在离线电脑上看英文pdf做了一个翻译工具，好用谈不上，能用；

离线英文 PDF 翻译工具使用说明

1. 软件用途

本文档介绍一套可在离线 Windows 电脑上运行的英文 PDF 翻译工具。它基于 Argos Translate 离线翻译模型，可将英文内容翻译为中文，适合无法联网的电脑、涉密环境、内网机器或批量处理本地 PDF 文档的场景。

这套工具主要解决以下问题：

离线电脑无法访问在线翻译服务。
PDF 文件需要从英文翻译成中文。
扫描版 PDF 没有可复制文字，需要先 OCR。
原版式 PDF 翻译后排版容易混乱，需要提供更易阅读的 HTML/TXT 输出。

工具包内已包含英文转中文模型，不需要在离线电脑下载模型。

2. 适用文件类型

可直接翻译的 PDF

如果 PDF 里的英文可以用鼠标选中、复制，说明 PDF 已经有文本层，可以直接用 run_pdf_gui.bat 翻译。

扫描版 PDF

如果 PDF 是图片扫描件，鼠标无法选中文字，则需要先 OCR。OCR 会给 PDF 增加隐藏文字层，之后才能翻译。

扫描版 PDF 的处理流程是：

扫描 PDF -> OCR 生成可搜索 PDF -> 翻译 OCR 后的 PDF -> 输出中文 HTML/TXT/PDF

3. 离线电脑准备条件

离线电脑需要提前安装：

64 位 Python 3.12
NAPS2，仅扫描版 PDF 需要
NAPS2 英文 OCR 语言文件 eng.traineddata，仅扫描版 PDF 需要
NAPS2下载链接：https://www.naps2.com/download

工具包目录中应包含这些关键文件：

install_offline.bat
run_pdf_gui.bat
run_text_gui.bat
run_ocr_with_naps2.bat
repair_win1114_c10.bat
repair_indentation_error.bat
offline\wheelhouse
portable-data\packages
tools\pdf_translate_gui.py

4. 首次安装步骤

在离线电脑上解压工具包，例如：

D:\argos-pdf-translator

然后按以下步骤操作：

右键 install_offline.bat。
选择“以管理员身份运行”。
等待安装完成。

安装脚本会在当前目录创建本地 Python 虚拟环境：

.venv

如果没有运行 install_offline.bat，直接运行 run_pdf_gui.bat 会提示缺少 Python 环境。这通常不是系统没有 Python，而是当前工具目录还没有创建 .venv。

5. 普通文本型 PDF 翻译步骤

适用于可以复制英文文字的 PDF。

双击运行：

run_pdf_gui.bat

点击 Select PDF，选择英文 PDF。
确认语言为：

English (en) -> Chinese (zh)

在 Output Format 中推荐选择：

HTML - easiest to read

点击 Translate PDF。

翻译完成后会生成一个中文 HTML 文件，例如：

paper_zh.html

HTML 文件可以用浏览器打开，排版比直接生成 PDF 更稳定，也可以从浏览器打印或另存为 PDF。

6. 扫描版 PDF 的 OCR 处理步骤

扫描版 PDF 需要先 OCR。

6.1 准备 NAPS2 OCR 英文语言包

在有网电脑下载：

NAPS2 安装包
英文 OCR 语言文件 eng.traineddata

将它们拷贝到离线电脑。

在离线电脑安装 NAPS2 后，创建目录：

%APPDATA%\NAPS2\components\tesseract4\fast

通常实际路径类似：

C:\Users\你的用户名\AppData\Roaming\NAPS2\components\tesseract4\fast

然后把 eng.traineddata 复制进去。

6.2 运行 OCR

把扫描 PDF 拖到：

run_ocr_with_naps2.bat

或者在命令行中运行：

run_ocr_with_naps2.bat "D:\docs\scan.pdf"

脚本会在原文件旁边生成：

D:\docs\scan_ocr.pdf

6.3 翻译 OCR 后的 PDF

运行：

run_pdf_gui.bat

选择刚生成的：

scan_ocr.pdf

输出格式推荐选择：

HTML - easiest to read

然后点击 Translate PDF。

7. 输出格式说明

run_pdf_gui.bat 中的 Output Format 提供四种格式。

HTML - easiest to read

推荐用于扫描版 PDF 和 OCR PDF。

优点：

排版稳定。
按页和段落显示。
浏览器直接打开。
可以复制到 Word。
可以从浏览器打印成 PDF。

TXT - plain text

适合只需要纯文本内容的情况。

优点：

最干净。
方便复制、搜索、二次编辑。

PDF - simple Chinese pages

生成简洁中文 PDF，不保留原始扫描图片版式。

适合希望得到 PDF 文件，但不要求原版式的情况。

PDF - preserve original layout

尝试保留原 PDF 版式。

不推荐用于扫描/OCR PDF，因为这类 PDF 的隐藏文字层和图片层经常很复杂，容易导致排版混乱或程序崩溃。

8. 推荐工作流

文本型 PDF

run_pdf_gui.bat -> 选择 PDF -> 输出 HTML

扫描版 PDF

run_ocr_with_naps2.bat -> 得到 *_ocr.pdf -> run_pdf_gui.bat -> 输出 HTML

需要最终 PDF

推荐先输出 HTML，然后用浏览器打开 HTML，再打印为 PDF。

9. 常见问题处理

9.1 提示缺少 Python 环境

如果 run_pdf_gui.bat 提示：

Missing Python virtual environment

请先运行：

install_offline.bat

建议右键选择“以管理员身份运行”。

9.2 报错 WinError 1114 / c10.dll

如果出现：

OSError: [WinError 1114]
error loading ...\c10.dll

运行：

repair_win1114_c10.bat

然后重新启动：

run_pdf_gui.bat

9.3 报错 IndentationError

如果出现：

IndentationError: expected an indented block after 'try'

运行：

repair_indentation_error.bat

然后再运行：

repair_win1114_c10.bat

最后重新启动：

run_pdf_gui.bat

9.4 翻译 PDF 时闪退

扫描/OCR PDF 不建议使用 PDF - preserve original layout。

请改用：

HTML - easiest to read

如果仍失败，查看输出文件旁边的日志：

xxx.log.txt

日志里会记录处理到哪一页、哪一段。

9.5 翻译结果格式混乱

扫描 PDF 的原始版式通常很难还原。推荐输出 HTML 或 TXT：

HTML - easiest to read
TXT - plain text

如果需要 PDF，先输出 HTML，再用浏览器打印成 PDF，通常比直接生成 PDF 更可读。

10. 注意事项

OCR 质量取决于扫描清晰度，建议扫描分辨率在 300 DPI 以上。
OCR 后请先尝试在 PDF 中选中文字，能选中才说明 OCR 成功。
英文扫描件使用 eng.traineddata 即可。
如果 PDF 同时有英文和中文，可考虑额外准备中文 OCR 语言文件，但英文转中文翻译主要依赖英文识别质量。
翻译模型为离线模型，质量可能不如联网大模型，但适合无网络环境。

11. 总结

这套工具的核心目标是让离线电脑也能完成英文 PDF 到中文内容的转换。对于普通文本型 PDF，可以直接翻译；对于扫描版 PDF，需要先通过 NAPS2 做 OCR，再进行翻译。最终输出推荐使用 HTML，因为它比 PDF 更稳定、更易阅读，也方便复制、编辑和再次导出。

资源链接：https://download.csdn.net/download/weixin_42964413/92867679

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于 Simscape 的母线电容稳压与传感器数据采集仿真

本文介绍了在Simulink中搭建直流电路模型并验证电容稳压功能的详细步骤。首先从电气基础元件库中选取直流电源、电阻、电容等模块构建主回路，配置12V电压和10欧姆负载。通过串联电流传感器和并联电压传感器实现数据采集，并连接示波器观察波形。重点讲解了电容的稳压原理：利用其电流电压微分关系（I=C·dV/dt），在电压波动时通过充放电维持稳定。文章还提出了进阶实验方案，通过叠加交流噪声源来模拟真实工