IBM 发布轻量级视觉语言 AI 模型 Granite-Docling-258M:用于文件转换、支持中文

2025-09-20 发布 · 浏览35次 · 点赞0次 · 收藏0次

9 月 20 日消息,IBM 现已正式发布了小型视觉语言模型 Granite-Docling-258M,定位于端到端文件转换场景用途,相应模型采用 Apache 2.0 开源协议,目前已在 Hugging Face 上线(点此访问)。

获悉,该模型参数量为 2.58 亿,号称是一款专为文档表格设计的轻量级模型,输出结果能够完整保留版面、表格、数学公式、列表和代码块等结构,同时准确度相比传统 OCR 软件识别准确性更高。

IBM 透露,Granite-Docling 的核心在于 DocTags,这是由 IBM Research 设计的一套通用文件结构标记语言,能够精确描述页面元素的类型、坐标、阅读顺序及跨元素关系,同时可将内容与版面结构分离,实现“先识别元素范围再执行 OCR 识别”,在完成转换后,DocTags 还能够直接将内容导出为 Markdown、JSON、HTML 等格式,也可以进一步进入 Docling 库进行处理。

目前,Granite-Docling 支持中文、阿拉伯语和日语等语言,不过尚未达到“企业级”水准,IBM 称未来开发人员将逐步扩展语言覆盖范围并提升模型可靠性。同时还将进一步增强 DocTags 与 IBM watsonx.ai 模型的兼容性,并计划把 DocTags 词汇表纳入 Granite 分词器和训练流程。

IBM 发布轻量级视觉语言 AI 模型 Granite-Docling-258M:用于文件转换、支持中文 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。