Mistral AI 发布 Voxtral Transcribe 2 系列语音转文字模型，其一延迟不足 0.2s

2026-02-05 发布浏览338次点赞0次收藏0次

2 月 5 日消息，Mistral AI 当地时间昨日发布两款 Voxtral Transcribe 2 系列模型，包括面向批量处理的 Voxtral Mini Transcribe V2 和用于实时转录的 Voxtral Realtime，其中后者以 Apache 2.0 许可开放权重形式公开。

Voxtral Realtime 参数规模为 4B，专为对延迟要求严格的应用场景而设计，其采用了一种全新的流式架构，可在音频到达时立即进行转录，能将转录延迟压缩至 200ms 以下。

另一方面，Voxtral Mini Transcribe V2 拥有目前性价比最高的转录 API，准确率表现优于 GPT-4o mini Transcribe、Gemini 2.5 Flash，单次请求可处理长达 3 小时的录音。

这两款模型均支持包含中文在内的 13 种语言。定价上，Voxtral Mini Transcribe V2 的 API 价格为每分钟 0.003 美元，Voxtral Realtime 则为每分钟 0.006 美元。

Mistral AI模型 GPT 4 AI 4o

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！