小红书首个多模态 AI 大模型 dots.vlm1 发布并开源，基于 DeepSeek V3 LLM

2025-08-06 发布浏览510次点赞0次收藏0次

感谢网友软媒用户1392612 的线索投递！

8 月 6 日消息，小红书 hi lab 研发并开源的首个多模态大模型 dots.vlm1 今日正式发布，借助一个从零训练的 12 亿参数视觉编码器以及基于 DeepSeek V3 LLM 构建。

小红书 hi lab 表示，dots.vlm1 在大部分多模态评测集上接近闭源 SoTA 模型的水平，并在文本能力和主流文本模型相当。

NaViT 视觉编码器：没有基于成熟视觉编码器进行微调，完全从零开始训练，原生支持动态分辨率。同时在文本监督上增加纯视觉监督，提升感知能力上限。此外，训练数据上在传统的 Image Caption 数据上还引入大量结构化图片进行原生训练，提升 VLM 模型的感知能力（例如各类 OCR 能力）。
多模态训练数据：在传统思路上，额外引入多种合成数据思路，覆盖多样的图片类型（例如表格 / Chart / 文档 / Graphics 等）及其描述（例如 Alt Text / Dense Caption / Grounding 等）；同时，利用多模态大模型来重写图文交错网页数据，显著提升训练数据质量；
通过大规模预训练与精细化后训练调优，dots.vlm1 在视觉感知与推理方面达到了接近 SOTA 的表现，为开源视觉语言模型树立了新的性能上限，同时在纯文本任务中仍保持一定竞争力。