Hunyuan OCR & Z-Image-Turbo 正式上线！两大模型在 NPU 加速平台完成部署，开启 AI 识图新时代！

AtomGit

664人浏览 · 2025-12-09 18:16:25

AtomGit · 2025-12-09 18:16:25 发布

腾讯混元通用视觉语言模型 Hunyuan OCR 与图像生成模型 Z-Image-Turbo 已成功在 AtomGit AI 社区的 NPU 加速平台完成部署，全新上线，现已全面开放体验！

Hunyuan OCR 作为领先的 OCR 模型，擅长复杂场景、低质量图像识别，提供高精度、强泛化能力的智能文本识别能力。

Z-Image-Turbo 则以极速、高质、可控的生成能力，让图像创作更高效、更真实、更专业。依托开源生态与强大技术实力，两款模型的上线将大幅降低 AI 视觉技术的门槛，加速智能识别与创作在各行业的落地应用。

👉立即免费体验：

Hunyuan OCR：https://ai.gitcode.com/tencent_hunyuan/HunyuanOCR
Z-Image-Turbo：https://ai.gitcode.com/hf_mirrors/Tongyi-MAI/Z-Image-Turbo

Hunyuan OCR：全场景文本理解的轻量级王者

为什么说 Hunyuan OCR 开启了 OCR 新纪元？

如果你对 OCR 的印象还停留在“识别文字”，那它会彻底刷新你的认知。

Hunyuan OCR 将传统 OCR 的 检测 + 识别 流水线模式升级成 全场景视觉理解，任务覆盖五大领域：文字识别、结构解析、信息抽取、图文问答、跨语言翻译。

这款仅 1B 参数 的轻量级开源模型，不仅能识别文字，还能看懂表格、提取关键信息、跨语言翻译，甚至能“问图得答”，在多个权威评测中实现以小博大，性能直接对标主流大模型。

五大核心能力全面升级，全面迈入全场景文本理解时代

Hunyuan OCR 之所以在上线后备受关注，不只是因为它“识字准”，更因为它真正把 OCR 从单纯的文字识别，升级成了能够理解文档、提取信息、跨语言处理甚至回答问题的“智能文本分析引擎”。得益于混元论文中提出的多任务统一架构，这个仅 1B 参数的小模型，却拥有可比肩大模型的理解力，让开发者只需一次调用，就能完成过去多个模型组合才能解决的任务。

01｜复杂场景识别能力强

在模糊、曝光不均、反光、倾斜、部分遮挡等真实拍摄条件下仍能保持高识别率，适合移动端拍照上传、户外招牌、票据影像等非理想环境。

02｜文档结构理解深入

不仅识别文字，还能自动理解段落、层级、标题、多栏排版等格式，并输出带结构的内容，大幅减少人工清洗和后处理工作。

03｜表格和字段信息抽取准确

能识别单元格位置、字段含义、跨行跨列关系，把复杂表格或文档内容直接转成可用的结构化数据。

04｜图文理解与问答能力强

给一张图即可进行理解并回答问题，如读取图中数值、判断场景内容、提取关键信息，非常适合做小助手、业务客服、内容分析等场景。

05｜跨语言识别与翻译一体化

自动识别多语言文本，同时完成语义理解与翻译，提高国际化产品在文档与图片内容处理上的效率。

Z-Image-Turbo：极速、高质、可控的图像生成“性能猛兽”

Z-Image-Turbo 在速度、细节和稳定性上表现出色，实现了“高速生成 + 高质输出”。无论是快速生成日常创作素材，还是完成高要求的视觉设计，它都能高效、可靠地完成任务。借助 Z-Image-Turbo 可以节省大量时间与精力，将更多精力投入到创意和业务中，让 AI 成为真正值得信赖的视觉助手。