腾讯混元OCR(HunyuanOCR)是腾讯混元团队于2025年11月25日推出的开源OCR模型,仅1B参数却实现了多项业界顶尖水平(SOTA)性能,重新定义了轻量化OCR的技术边界。
核心优势
轻量化架构:仅1B参数(10亿),相比传统大模型体积小巧,部署成本大幅降低,可在边缘设备上高效运行。
端到端设计:采用全端到端范式,单次前向推理即可完成文本检测、识别、结构化解析等任务,避免了传统级联方案的误差累积问题,效率提升1倍以上。
多模态融合:基于混元原生多模态架构,由原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型三部分组成,实现视觉与语言信息的深度融合。
性能表现
在多项权威评测中表现卓越:
- 复杂文档解析:在OmniDocBench测评中获得94.1分,超越谷歌Gemini3-pro等模型
- 文字检测识别:覆盖9大应用场景(文档、艺术字、街景、手写、广告、票据、截屏、游戏、视频),大幅领先同类开源及商业模型
- OCRBench榜单:总分860分,在参数量3B以下模型中取得SOTA成绩
核心功能
- 文字检测与识别:精准定位和识别图片中的文字,支持艺术字、手写体、模糊文本等多种场景,准确率提升约15%。
- 复杂文档解析:将多语种文档扫描件电子化,按阅读顺序组织文本,公式采用LaTeX格式,表格采用HTML格式表达。
- 票据字段抽取:自动提取卡证、票据中的关键字段(姓名、金额、单位等),以标准JSON格式输出,准确率达99.9%。
- 视频字幕识别:支持双语字幕自动化抽取,大幅降低视频内容创作和翻译成本。
- 拍照翻译:支持14种高频小语种(德语、日语、韩语等)与中/英互译,在ICDAR2025端到端文档翻译比赛中获小模型赛道冠军。
应用场景
- 办公自动化:发票识别、合同解析、文档电子化
- 内容创作:视频字幕提取、多语言翻译
- 金融政务:票据字段抽取、卡证识别
- 教育科研:学术文献翻译、手写笔记识别
使用方式
在线体验:
- Web端:https://hunyuan.tencent.com/vision/zh?tabIndex=0
- 移动端:https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
开源地址:
- GitHub:https://github.com/Tencent-Hunyuan/HunyuanOCR
- Hugging Face:https://huggingface.co/tencent/HunyuanOCR
腾讯混元OCR的开源标志着OCR技术进入”小参数、大能力”的新时代,为开发者和企业提供了高效、便捷的文本识别解决方案,推动OCR技术的普惠化发展。
若内容若侵犯到您的权益,请发送邮件至:platform_service@jienda.com我们将第一时间处理!
所有资源仅限于参考和学习,版权归JienDa作者所有,更多请访问JienDa首页。
