AI 中文社区

OpenAI 更新 2.1 系列 GPT Realtime AI 模型，p95 延迟至少降低 25%

OpenAI 昨日（7 月 7 日）发布公告，宣布在其 API 调用中，新增 gpt-realtime-2.1 和 gpt-realtime-2.1-mini 两款模型，官方表示 p95 延迟至少下降 25%。...

2026-07-08 · 浏览17次

单模型支持 30 种语言 + 16 种方言，阿里千问升级 Fun-ASR-Realtime 语音识别模型

在覆盖八大方言区的 16 种方言识别测试中，Fun-ASR-Realtime 字符准确率平均为 88.62%，在 12 类方言上领先。...

2026-07-06 · 浏览57次

特斯拉本土化语音交互升级进入落地阶段，车机将 OTA 接入豆包大模型

在字节跳动今天举行的火山引擎原动力大会上，特斯拉中国车机确认接入豆包大模型。这意味着国内的特斯拉车主期待已久的特斯拉本土化语音交互升级，终于进入落地阶段。#特斯拉中国车机接入豆包#...

2026-06-24 · 浏览394次

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate

通义千问团队推出 Qwen3.5-LiveTranslate-Flash 模型，支持 60 种语言输入，29 种语言语音输出，端到端字均延迟低至 2.8 秒，并保留说话人原声特征。该模型旨在解决跨境直播、跨国会议等场景中的实时同传难题。#A...

2026-05-20 · 浏览352次

阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime，支持情绪感知与人设自定义

阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime。它能通过语调、语速等“副语言”感知用户情绪，并允许开发者精细化定制 AI 角色性格与背景，旨在打造更具“活人感”的对话体验。官方评测显示其在多个维度表现领先。#...

2026-05-09 · 浏览269次

OpenAI 最智能 AI 语音模型：GPT-Realtime-2 登场，GPT-5 级推理能力

OpenAI 昨日发布三款实时语音模型，分别针对推理、翻译和转录场景，集成于 Realtime API 供开发者调用。这三款模型为实时语音应用提供底层技术支撑，目标解决语音交互中的延迟、打断处理和多语言支持难题。...

2026-05-08 · 浏览214次

用嘴干活：阿里千问 PC 端上线 AI 语音输入功能

阿里千问 PC 端上线 AI 语音输入功能，远不止是语音打字。它设计了两组快捷键：按住输入语音并自动优化成文本；双击则直接进入 AI 指令模式，可跨应用进行信息检索、文档生成等任务，无需切换客户端。这标志着语音正成为向 AI 下达指令的媒介...

2026-05-07 · 浏览344次

阶跃星辰发布 StepAudio 2.5 ASR 自动语音识别模型：推理速度提升 400%，定价骤减 90%

阶跃星辰 StepAudio 2.5 ASR 将大语言模型推理加速技术引入语音识别，实现 400% 速度提升与 60% 时延降低，并支持 30 分钟长音频端到端转写，无需分段。新模型定价仅 0.15 元 / 小时，为前代 1/10。#AI ...

2026-04-24 · 浏览303次

人人都能是配音导演，阶跃星辰发布语音生成模型 StepAudio 2.5 TTS

官方表示，围绕全局语境控制、文中语境控制、零样本复刻与全音色控制三项核心能力， StepAudio 2.5 TTS 让语音生成更自然、更灵活也更有表现力。...

2026-04-16 · 浏览301次

字节发布全双工语音大模型 Seeduplex，豆包打电话能边听边讲、交流更自然

相比于上一代半双工豆包端到端语音模型，Seeduplex 基于“边听边说”的全新框架设计，交互体验的自然感、顺畅度大幅提升。...

2026-04-09 · 浏览366次

多国调查显示 AI 深度伪造语音诈骗激增，民众难辨真伪

Hiya 最新报告显示，深度伪造语音诈骗正快速蔓延，25% 的美国人在过去一年接到过仿声诈骗电话，近半数人难以辨别 AI 语音与真人。诈骗分子利用 AI 低成本模仿亲友声音，55 岁以上老年人平均损失近 9000 元。约 38% 用户表示，...

2026-03-15 · 浏览275次

消息称 OpenAI 正开发双向语音模型：对话被打断照样跟你继续聊，体验“更像人”

据 The Information 报道，OpenAI 正在开发一种新的语音模型，希望让用户与 ChatGPT 的对话更加自然。当用户在 AI 说话过程中打断系统时，AI 可以实时调整回应，而不是像现在一样突然停止。...

2026-03-06 · 浏览263次

一句话即可自由生成，阿里通义语音双模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD 发布

阿里通义实验室语音团队今日发布了两款支持 FreeStyle 指令生成的模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD。...

2026-03-02 · 浏览294次

阿里千问开源 Qwen3-ASR 语音识别模型：支持 52 种语种与方言，1.7B 版本达 SOTA 水平

阿里千问团队正式开源Qwen3-ASR系列语音识别模型，包括1.7B和0.6B两个版本，支持52种语种与方言的识别，其中1.7B模型在中文、英文及歌唱识别等场景达到SOTA水平。0.6B模型效率惊人，10秒可处理5小时音频。模型已在GitH...

2026-01-30 · 浏览505次

阿里千问：Qwen3-TTS 语音生成模型全家桶开源上线

阿里千问宣布开源Qwen3-TTS语音生成模型全家桶，包含1.7B和0.6B两种尺寸。该模型支持10种主流语言及方言音色，具备音色克隆、创造与控制能力，端到端合成延迟低至97ms，首包音频仅需等待一个字符。已在GitHub、ModelSco...

2026-01-23 · 浏览428次

阶跃星辰：旗下开源语音模型 Step-Audio-R1.1 在全球权威评测中登顶

阶跃星辰开源语音模型Step-Audio-R1.1登顶全球权威评测Artificial Analysis Speech Reasoning榜单，以96.4%的准确率超越Grok、Gemini、GPT-Realtime等主流模型，刷新历史最好...

2026-01-15 · 浏览429次

阿里通义发布端到端语音交互模型 Fun-Audio-Chat，能猜出你的心情

阿里通义本次开源了 Fun-Audio-Chat 8B，该模型在 OpenAudioBench、MMAU、Speech-ACEBench、VStyle 等多个榜单上“同尺寸模型排名第一”，综合性能超 GLM4-Voice、Kimi-Audi...

2025-12-23 · 浏览407次

阿里通义百聆推出语音模型新版本：3 秒录音即可“复制”9 种语言、18 种方言

，今天下午，通义大模型通过官方公众号宣布，两款“百聆”语音模型正式开源，两款模型迎来升级。...

2025-12-15 · 浏览763次

面壁智能 VoxCPM 1.5 语音生成 AI 模型开源：高采样音频克隆，生成效率翻倍

面壁智能今日官宣，VoxCPM 1.5 版本正式上线，在持续优化开发者开发体验的同时，也带来了多项核心能力升级。...

2025-12-10 · 浏览371次

豆包语音识别模型 2.0 上线：不仅“听懂字”还能“看懂图”，支持日韩德法等 13 种外语

模型推理能力提升，通过深度理解上下文完成精准识别，上下文整体关键词召回率提升 20%；支持多模态视觉识别，不仅“听懂字”还能“看懂图”，通过单图和多图等视觉信息输入让文字识别更精准；支持日语、韩语、德语、法语等 13 种海外语种的精准识别。...

2025-12-05 · 浏览367次

打破全球语言壁垒：Meta 推出支持 1600 种语言的语音识别系统并开源

Meta推出全语种自动语音识别系统（Omnilingual ASR），支持1600种语言，其中500种首次被AI覆盖。该系统采用开源协议，助力跨语言沟通与信息可及性。#人工智能# #语音识别#...

2025-11-11 · 浏览416次

伦敦政经学院最新研究：“10 后”进入职场将告别键盘，全面用语音沟通工作

Alpha世代出生于2010年及以后，最年长的一批预计在2030年进入职场。换句话说，这群人可能从未经历过语音技术出现之前的办公模式。当然，其他世代也能通过语音工作受益。...

2025-11-09 · 浏览249次

AI 实时语音深度伪造技术实现突破性进展，诈骗成功率近 100%

AI语音深度伪造技术实现实时突破，诈骗成功率近100%！网络安全公司NCC Group最新研究显示，攻击者可在通话中即时模仿他人声音，仅需中等计算性能即可运行。专家呼吁建立新型身份验证机制，应对日益复杂的AI社会工程攻击。#AI安全# #深...

2025-10-26 · 浏览409次

阶跃星辰发布端到端语音大模型 Step-Audio 2 mini，多个基准测试取得 SOTA 成绩

阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini，在多个国际基准测试集上取得SOTA成绩，支持语音原生的Tool Calling能力，综合性能超越GPT-4o Audio等模型。#AI语音##语音大模型#...

2025-09-01 · 浏览420次