为了方便我在离线电脑上看英文pdf做了一个翻译工具,好用谈不上,能用;

离线英文 PDF 翻译工具使用说明

1. 软件用途

本文档介绍一套可在离线 Windows 电脑上运行的英文 PDF 翻译工具。它基于 Argos Translate 离线翻译模型,可将英文内容翻译为中文,适合无法联网的电脑、涉密环境、内网机器或批量处理本地 PDF 文档的场景。

这套工具主要解决以下问题:

  • 离线电脑无法访问在线翻译服务。
  • PDF 文件需要从英文翻译成中文。
  • 扫描版 PDF 没有可复制文字,需要先 OCR。
  • 原版式 PDF 翻译后排版容易混乱,需要提供更易阅读的 HTML/TXT 输出。

工具包内已包含英文转中文模型,不需要在离线电脑下载模型。

2. 适用文件类型

可直接翻译的 PDF

如果 PDF 里的英文可以用鼠标选中、复制,说明 PDF 已经有文本层,可以直接用 run_pdf_gui.bat 翻译。

扫描版 PDF

如果 PDF 是图片扫描件,鼠标无法选中文字,则需要先 OCR。OCR 会给 PDF 增加隐藏文字层,之后才能翻译。

扫描版 PDF 的处理流程是:

扫描 PDF -> OCR 生成可搜索 PDF -> 翻译 OCR 后的 PDF -> 输出中文 HTML/TXT/PDF

3. 离线电脑准备条件

离线电脑需要提前安装:

  • 64 位 Python 3.12
  • NAPS2,仅扫描版 PDF 需要
  • NAPS2 英文 OCR 语言文件 eng.traineddata,仅扫描版 PDF 需要
  • NAPS2下载链接:https://www.naps2.com/download

工具包目录中应包含这些关键文件:

install_offline.bat
run_pdf_gui.bat
run_text_gui.bat
run_ocr_with_naps2.bat
repair_win1114_c10.bat
repair_indentation_error.bat
offline\wheelhouse
portable-data\packages
tools\pdf_translate_gui.py

4. 首次安装步骤

在离线电脑上解压工具包,例如:

D:\argos-pdf-translator

然后按以下步骤操作:

  1. 右键 install_offline.bat
  2. 选择“以管理员身份运行”。
  3. 等待安装完成。

安装脚本会在当前目录创建本地 Python 虚拟环境:

.venv

如果没有运行 install_offline.bat,直接运行 run_pdf_gui.bat 会提示缺少 Python 环境。这通常不是系统没有 Python,而是当前工具目录还没有创建 .venv

5. 普通文本型 PDF 翻译步骤

适用于可以复制英文文字的 PDF。

  1. 双击运行:
run_pdf_gui.bat
  1. 点击 Select PDF,选择英文 PDF。
  2. 确认语言为:
English (en) -> Chinese (zh)
  1. Output Format 中推荐选择:
HTML - easiest to read
  1. 点击 Translate PDF

翻译完成后会生成一个中文 HTML 文件,例如:

paper_zh.html

HTML 文件可以用浏览器打开,排版比直接生成 PDF 更稳定,也可以从浏览器打印或另存为 PDF。

6. 扫描版 PDF 的 OCR 处理步骤

扫描版 PDF 需要先 OCR。

6.1 准备 NAPS2 OCR 英文语言包

在有网电脑下载:

  • NAPS2 安装包
  • 英文 OCR 语言文件 eng.traineddata

将它们拷贝到离线电脑。

在离线电脑安装 NAPS2 后,创建目录:

%APPDATA%\NAPS2\components\tesseract4\fast

通常实际路径类似:

C:\Users\你的用户名\AppData\Roaming\NAPS2\components\tesseract4\fast

然后把 eng.traineddata 复制进去。

6.2 运行 OCR

把扫描 PDF 拖到:

run_ocr_with_naps2.bat

或者在命令行中运行:

run_ocr_with_naps2.bat "D:\docs\scan.pdf"

脚本会在原文件旁边生成:

D:\docs\scan_ocr.pdf

6.3 翻译 OCR 后的 PDF

运行:

run_pdf_gui.bat

选择刚生成的:

scan_ocr.pdf

输出格式推荐选择:

HTML - easiest to read

然后点击 Translate PDF

7. 输出格式说明

run_pdf_gui.bat 中的 Output Format 提供四种格式。

HTML - easiest to read

推荐用于扫描版 PDF 和 OCR PDF。

优点:

  • 排版稳定。
  • 按页和段落显示。
  • 浏览器直接打开。
  • 可以复制到 Word。
  • 可以从浏览器打印成 PDF。

TXT - plain text

适合只需要纯文本内容的情况。

优点:

  • 最干净。
  • 方便复制、搜索、二次编辑。

PDF - simple Chinese pages

生成简洁中文 PDF,不保留原始扫描图片版式。

适合希望得到 PDF 文件,但不要求原版式的情况。

PDF - preserve original layout

尝试保留原 PDF 版式。

不推荐用于扫描/OCR PDF,因为这类 PDF 的隐藏文字层和图片层经常很复杂,容易导致排版混乱或程序崩溃。

8. 推荐工作流

文本型 PDF

run_pdf_gui.bat -> 选择 PDF -> 输出 HTML

扫描版 PDF

run_ocr_with_naps2.bat -> 得到 *_ocr.pdf -> run_pdf_gui.bat -> 输出 HTML

需要最终 PDF

推荐先输出 HTML,然后用浏览器打开 HTML,再打印为 PDF。

9. 常见问题处理

9.1 提示缺少 Python 环境

如果 run_pdf_gui.bat 提示:

Missing Python virtual environment

请先运行:

install_offline.bat

建议右键选择“以管理员身份运行”。

9.2 报错 WinError 1114 / c10.dll

如果出现:

OSError: [WinError 1114]
error loading ...\c10.dll

运行:

repair_win1114_c10.bat

然后重新启动:

run_pdf_gui.bat

9.3 报错 IndentationError

如果出现:

IndentationError: expected an indented block after 'try'

运行:

repair_indentation_error.bat

然后再运行:

repair_win1114_c10.bat

最后重新启动:

run_pdf_gui.bat

9.4 翻译 PDF 时闪退

扫描/OCR PDF 不建议使用 PDF - preserve original layout

请改用:

HTML - easiest to read

如果仍失败,查看输出文件旁边的日志:

xxx.log.txt

日志里会记录处理到哪一页、哪一段。

9.5 翻译结果格式混乱

扫描 PDF 的原始版式通常很难还原。推荐输出 HTML 或 TXT:

HTML - easiest to read
TXT - plain text

如果需要 PDF,先输出 HTML,再用浏览器打印成 PDF,通常比直接生成 PDF 更可读。

10. 注意事项

  • OCR 质量取决于扫描清晰度,建议扫描分辨率在 300 DPI 以上。
  • OCR 后请先尝试在 PDF 中选中文字,能选中才说明 OCR 成功。
  • 英文扫描件使用 eng.traineddata 即可。
  • 如果 PDF 同时有英文和中文,可考虑额外准备中文 OCR 语言文件,但英文转中文翻译主要依赖英文识别质量。
  • 翻译模型为离线模型,质量可能不如联网大模型,但适合无网络环境。

11. 总结

这套工具的核心目标是让离线电脑也能完成英文 PDF 到中文内容的转换。对于普通文本型 PDF,可以直接翻译;对于扫描版 PDF,需要先通过 NAPS2 做 OCR,再进行翻译。最终输出推荐使用 HTML,因为它比 PDF 更稳定、更易阅读,也方便复制、编辑和再次导出。

资源链接:https://download.csdn.net/download/weixin_42964413/92867679

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐