4万Star的paperless-ngx，把纸质文档变成可全文搜索的数字档案

baiduxia61482

218人浏览 · 2026-06-08 19:35:31

baiduxia61482 · 2026-06-08 19:35:31 发布

文章目录

4万Star的paperless-ngx，把纸质文档变成可全文搜索的数字档案

4万Star的paperless-ngx，把纸质文档变成可全文搜索的数字档案

你手头有没有一堆纸质文件、PDF扫描件，想找某个信息时翻了半天找不到？paperless-ngx就是解决这个问题的。它在GitHub拿下4万Star，能把你的物理文档变成可全文搜索的在线档案。

正文顶部截图

paperless-ngx做了什么

核心逻辑是这样：你把纸质文档扫描或拍照，paperless-ngx通过OCR把图片里的文字提取出来，存到数据库里。之后你搜任意关键词，就能找到对应的文档。

它做的事比你想象的更多：

自动分类和打标签。 文档导入后，系统会根据内容自动归类。发票归发票，合同归合同，不需要手动建文件夹。分类用机器学习模型驱动，用久了会越来越准。

多种导入方式。 你可以设一个消费目录，把文件扔进去就自动处理。也可以通过邮件导入，把发票转发到指定邮箱就行。REST API也有，可以和其他系统对接。

多语言OCR。 基于Tesseract，支持100多种语言的文字识别。中文文档也能提取。

全文搜索。 不只是搜文件名，文档正文里的每个字都可以搜。搜一下"2024年电费"，所有电费发票就都出来了。

README区域截图

怎么部署

官方推荐Docker Compose部署，一行脚本就能把整套服务拉起来。脚本自动拉镜像、配数据库、启服务，从零到能用，几分钟的事。

如果你想手动控制每个环节，官方文档有分步指南。数据库可以用PostgreSQL或SQLite，文件存储支持本地磁盘和S3。

如果你之前用过Paperless-ng，迁移也不费事，换一下Docker镜像就行，数据结构和API都兼容。

这个项目为什么值得关注

团队维护，不会突然没人管。 paperless-ngx是Paperless和Paperless-ng的官方继任者，由多人团队共同维护。前端、CI/CD、文档都有专门的人负责，不是那种一个人撑着的项目。代码提交活跃，issue有回复，持续在迭代。

自托管，数据在自己手里。 官方特别提醒了一件事：这些文档通常是社保号、税单、发票之类的敏感信息。paperless-ngx不加密存储数据，最安全的跑法是部署在家里或自己的服务器上。你的所有文档都留在本地，不会被传到任何云服务。

社区成熟。 项目有英文文档，Crowdin上有多语言翻译协作。有问题可以在Matrix聊天室提问，功能建议可以提交到GitHub Discussions。

有个在线Demo可以体验。 不确定适不适合自己？官方提供了在线演示环境，账号密码都是demo，打开就能试用。内容会定期重置，不要传敏感文件。

实际用起来要注意什么

OCR质量取决于原始文档的清晰度。扫描件如果是歪的、模糊的、有背景噪点的，识别准确率会明显下降。拍照的话，光线要均匀，尽量正对文档。

自动分类需要训练数据积累。刚用的时候准确率可能一般，用一段时间、手动纠正一些分类后，模型就会学到你的习惯。

性能方面，如果你有几十万份文档，OCR处理和搜索索引会占用不少系统资源。官方建议用SSD存储，内存至少2GB。

适合谁用

如果你家里有一堆账单、合同、说明书不想丢了找不到，可以试试。个人免费，数据本地，硬件要求也不高，旧电脑或树莓派都能跑。

小团队用也行。多个用户共享文档库，每个人上传的发票、合同集中管理和搜索。有权限系统，可以控制谁能看什么。

paperless-ngx解决的是一个很具体的问题：把纸质世界和数字搜索打通。它不做花哨的功能，不追AI热点，就是踏实地把OCR加全文检索这件事做扎实。4万Star，是用户用脚投票的结果。

它不做花哨的功能，不追AI热点，就是踏实地把OCR加全文检索这件事做扎实。4万Star，是用户用脚投票的结果。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

G-Star 精选开源项目推荐｜第二十期

AtomGit开源社区

开源鸿蒙大学生创新大赛三大赛道全面开赛，176 万奖金池已就位

AtomGit开源社区

G-Star 精选开源项目推荐｜第二十一期

AtomGit开源社区

所有评论(0)

查看更多评论

baiduxia61482

@baiduxia61482

已为社区贡献3条内容

4万Star的paperless-ngx，把纸质文档变成可全文搜索的数字档案

baiduxia61482

文章目录

4万Star的paperless-ngx，把纸质文档变成可全文搜索的数字档案

paperless-ngx做了什么

怎么部署

这个项目为什么值得关注

实际用起来要注意什么

适合谁用

所有评论(0)

温馨提示：您尚未绑定手机号

baiduxia61482