4万Star的paperless-ngx,把纸质文档变成可全文搜索的数字档案

你手头有没有一堆纸质文件、PDF扫描件,想找某个信息时翻了半天找不到?paperless-ngx就是解决这个问题的。它在GitHub拿下4万Star,能把你的物理文档变成可全文搜索的在线档案。

正文顶部截图

paperless-ngx做了什么

核心逻辑是这样:你把纸质文档扫描或拍照,paperless-ngx通过OCR把图片里的文字提取出来,存到数据库里。之后你搜任意关键词,就能找到对应的文档。

它做的事比你想象的更多:

自动分类和打标签。 文档导入后,系统会根据内容自动归类。发票归发票,合同归合同,不需要手动建文件夹。分类用机器学习模型驱动,用久了会越来越准。

多种导入方式。 你可以设一个消费目录,把文件扔进去就自动处理。也可以通过邮件导入,把发票转发到指定邮箱就行。REST API也有,可以和其他系统对接。

多语言OCR。 基于Tesseract,支持100多种语言的文字识别。中文文档也能提取。

全文搜索。 不只是搜文件名,文档正文里的每个字都可以搜。搜一下"2024年电费",所有电费发票就都出来了。

README区域截图

怎么部署

官方推荐Docker Compose部署,一行脚本就能把整套服务拉起来。脚本自动拉镜像、配数据库、启服务,从零到能用,几分钟的事。

如果你想手动控制每个环节,官方文档有分步指南。数据库可以用PostgreSQL或SQLite,文件存储支持本地磁盘和S3。

如果你之前用过Paperless-ng,迁移也不费事,换一下Docker镜像就行,数据结构和API都兼容。

这个项目为什么值得关注

团队维护,不会突然没人管。 paperless-ngx是Paperless和Paperless-ng的官方继任者,由多人团队共同维护。前端、CI/CD、文档都有专门的人负责,不是那种一个人撑着的项目。代码提交活跃,issue有回复,持续在迭代。

自托管,数据在自己手里。 官方特别提醒了一件事:这些文档通常是社保号、税单、发票之类的敏感信息。paperless-ngx不加密存储数据,最安全的跑法是部署在家里或自己的服务器上。你的所有文档都留在本地,不会被传到任何云服务。

社区成熟。 项目有英文文档,Crowdin上有多语言翻译协作。有问题可以在Matrix聊天室提问,功能建议可以提交到GitHub Discussions。

有个在线Demo可以体验。 不确定适不适合自己?官方提供了在线演示环境,账号密码都是demo,打开就能试用。内容会定期重置,不要传敏感文件。

实际用起来要注意什么

OCR质量取决于原始文档的清晰度。扫描件如果是歪的、模糊的、有背景噪点的,识别准确率会明显下降。拍照的话,光线要均匀,尽量正对文档。

自动分类需要训练数据积累。刚用的时候准确率可能一般,用一段时间、手动纠正一些分类后,模型就会学到你的习惯。

性能方面,如果你有几十万份文档,OCR处理和搜索索引会占用不少系统资源。官方建议用SSD存储,内存至少2GB。

适合谁用

如果你家里有一堆账单、合同、说明书不想丢了找不到,可以试试。个人免费,数据本地,硬件要求也不高,旧电脑或树莓派都能跑。

小团队用也行。多个用户共享文档库,每个人上传的发票、合同集中管理和搜索。有权限系统,可以控制谁能看什么。

paperless-ngx解决的是一个很具体的问题:把纸质世界和数字搜索打通。它不做花哨的功能,不追AI热点,就是踏实地把OCR加全文检索这件事做扎实。4万Star,是用户用脚投票的结果。

它不做花哨的功能,不追AI热点,就是踏实地把OCR加全文检索这件事做扎实。4万Star,是用户用脚投票的结果。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐