腾讯混元OCR：高精度图像文字识别，多场景高效文本提取工具

阅读
25年12月16日
编辑

JienDaPHP程序员

腾讯混元OCR（HunyuanOCR）是腾讯混元团队于2025年11月25日推出的开源OCR模型，仅1B参数却实现了多项业界顶尖水平（SOTA）性能，重新定义了轻量化OCR的技术边界。

核心优势

轻量化架构：仅1B参数（10亿），相比传统大模型体积小巧，部署成本大幅降低，可在边缘设备上高效运行。

端到端设计：采用全端到端范式，单次前向推理即可完成文本检测、识别、结构化解析等任务，避免了传统级联方案的误差累积问题，效率提升1倍以上。

多模态融合：基于混元原生多模态架构，由原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型三部分组成，实现视觉与语言信息的深度融合。

性能表现

在多项权威评测中表现卓越：

复杂文档解析：在OmniDocBench测评中获得94.1分，超越谷歌Gemini3-pro等模型
文字检测识别：覆盖9大应用场景（文档、艺术字、街景、手写、广告、票据、截屏、游戏、视频），大幅领先同类开源及商业模型
OCRBench榜单：总分860分，在参数量3B以下模型中取得SOTA成绩

核心功能

文字检测与识别：精准定位和识别图片中的文字，支持艺术字、手写体、模糊文本等多种场景，准确率提升约15%。
复杂文档解析：将多语种文档扫描件电子化，按阅读顺序组织文本，公式采用LaTeX格式，表格采用HTML格式表达。
票据字段抽取：自动提取卡证、票据中的关键字段（姓名、金额、单位等），以标准JSON格式输出，准确率达99.9%。
视频字幕识别：支持双语字幕自动化抽取，大幅降低视频内容创作和翻译成本。
拍照翻译：支持14种高频小语种（德语、日语、韩语等）与中/英互译，在ICDAR2025端到端文档翻译比赛中获小模型赛道冠军。

应用场景

办公自动化：发票识别、合同解析、文档电子化
内容创作：视频字幕提取、多语言翻译
金融政务：票据字段抽取、卡证识别
教育科研：学术文献翻译、手写笔记识别

使用方式

在线体验：

Web端：https://hunyuan.tencent.com/vision/zh?tabIndex=0
移动端：https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0

开源地址：

GitHub：https://github.com/Tencent-Hunyuan/HunyuanOCR
Hugging Face：https://huggingface.co/tencent/HunyuanOCR

腾讯混元OCR的开源标志着OCR技术进入”小参数、大能力”的新时代，为开发者和企业提供了高效、便捷的文本识别解决方案，推动OCR技术的普惠化发展。

版权声明：本文为JienDa博主的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
若内容若侵犯到您的权益，请发送邮件至：platform_service@jienda.com我们将第一时间处理！
所有资源仅限于参考和学习，版权归JienDa作者所有，更多请访问JienDa首页。

给TA赞助

共{{data.count}}人

人已赞助

爆粉人脉神器与创客新零售系统：技术架构与法律风险深度解析

2025-12-16 6:24:40

终结面条代码：Sebastian Bergmann的PHP代码复杂度分析工具Complexity实战指南

2025-12-17 4:20:19

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

客服

扫码打开当前页
微信小程序
App下载
百度小程序
抖音小程序
微信客服

返回顶部

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_¥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部