语音 标签,匹配到约22个结果, 耗时0.0203秒
消息称 OpenAI 正开发双向语音模型:对话被打断照样跟你继续聊,体验“更像人”

消息称 OpenAI 正开发双向语音模型:对话被打断照样跟你继续聊,体验“更像人”

消息称 OpenAI 正开发双向语音模型:对话被打断照样跟你继续聊,体验“更像人”
据 The Information 报道,OpenAI 正在开发一种新的语音模型,希望让用户与 ChatGPT 的对话更加自然。当用户在 AI 说话过程中打断系统时,AI 可以实时调整回应,而不是像现在一样突然停止。...
2026-03-06 · 浏览72次
一句话即可自由生成,阿里通义语音双模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD 发布

一句话即可自由生成,阿里通义语音双模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD 发布

一句话即可自由生成,阿里通义语音双模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD 发布
阿里通义实验室语音团队今日发布了两款支持 FreeStyle 指令生成的模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD。...
2026-03-02 · 浏览107次
阿里千问开源 Qwen3-ASR 语音识别模型:支持 52 种语种与方言,1.7B 版本达 SOTA 水平

阿里千问开源 Qwen3-ASR 语音识别模型:支持 52 种语种与方言,1.7B 版本达 SOTA 水平

阿里千问开源 Qwen3-ASR 语音识别模型:支持 52 种语种与方言,1.7B 版本达 SOTA 水平
阿里千问团队正式开源Qwen3-ASR系列语音识别模型,包括1.7B和0.6B两个版本,支持52种语种与方言的识别,其中1.7B模型在中文、英文及歌唱识别等场景达到SOTA水平。0.6B模型效率惊人,10秒可处理5小时音频。模型已在GitH...
2026-01-30 · 浏览268次
阿里千问:Qwen3-TTS 语音生成模型全家桶开源上线

阿里千问:Qwen3-TTS 语音生成模型全家桶开源上线

阿里千问:Qwen3-TTS 语音生成模型全家桶开源上线
阿里千问宣布开源Qwen3-TTS语音生成模型全家桶,包含1.7B和0.6B两种尺寸。该模型支持10种主流语言及方言音色,具备音色克隆、创造与控制能力,端到端合成延迟低至97ms,首包音频仅需等待一个字符。已在GitHub、ModelSco...
2026-01-23 · 浏览231次
阶跃星辰:旗下开源语音模型 Step-Audio-R1.1 在全球权威评测中登顶

阶跃星辰:旗下开源语音模型 Step-Audio-R1.1 在全球权威评测中登顶

阶跃星辰:旗下开源语音模型 Step-Audio-R1.1 在全球权威评测中登顶
阶跃星辰开源语音模型Step-Audio-R1.1登顶全球权威评测Artificial Analysis Speech Reasoning榜单,以96.4%的准确率超越Grok、Gemini、GPT-Realtime等主流模型,刷新历史最好...
2026-01-15 · 浏览179次
阿里通义发布端到端语音交互模型 Fun-Audio-Chat,能猜出你的心情

阿里通义发布端到端语音交互模型 Fun-Audio-Chat,能猜出你的心情

阿里通义发布端到端语音交互模型 Fun-Audio-Chat,能猜出你的心情
阿里通义本次开源了 Fun-Audio-Chat 8B,该模型在 OpenAudioBench、MMAU、Speech-ACEBench、VStyle 等多个榜单上“同尺寸模型排名第一”,综合性能超 GLM4-Voice、Kimi-Audi...
2025-12-23 · 浏览241次
阿里通义百聆推出语音模型新版本:3 秒录音即可“复制”9 种语言、18 种方言

阿里通义百聆推出语音模型新版本:3 秒录音即可“复制”9 种语言、18 种方言

阿里通义百聆推出语音模型新版本:3 秒录音即可“复制”9 种语言、18 种方言
,今天下午,通义大模型通过官方公众号宣布,两款“百聆”语音模型正式开源,两款模型迎来升级。...
2025-12-15 · 浏览514次
面壁智能 VoxCPM 1.5 语音生成 AI 模型开源:高采样音频克隆,生成效率翻倍

面壁智能 VoxCPM 1.5 语音生成 AI 模型开源:高采样音频克隆,生成效率翻倍

面壁智能 VoxCPM 1.5 语音生成 AI 模型开源:高采样音频克隆,生成效率翻倍
面壁智能今日官宣,VoxCPM 1.5 版本正式上线,在持续优化开发者开发体验的同时,也带来了多项核心能力升级。...
2025-12-10 · 浏览232次
豆包语音识别模型 2.0 上线:不仅“听懂字”还能“看懂图”,支持日韩德法等 13 种外语

豆包语音识别模型 2.0 上线:不仅“听懂字”还能“看懂图”,支持日韩德法等 13 种外语

豆包语音识别模型 2.0 上线:不仅“听懂字”还能“看懂图”,支持日韩德法等 13 种外语
模型推理能力提升,通过深度理解上下文完成精准识别,上下文整体关键词召回率提升 20%;支持多模态视觉识别,不仅“听懂字”还能“看懂图”,通过单图和多图等视觉信息输入让文字识别更精准;支持日语、韩语、德语、法语等 13 种海外语种的精准识别。...
2025-12-05 · 浏览207次
打破全球语言壁垒:Meta 推出支持 1600 种语言的语音识别系统并开源

打破全球语言壁垒:Meta 推出支持 1600 种语言的语音识别系统并开源

打破全球语言壁垒:Meta 推出支持 1600 种语言的语音识别系统并开源
Meta推出全语种自动语音识别系统(Omnilingual ASR),支持1600种语言,其中500种首次被AI覆盖。该系统采用开源协议,助力跨语言沟通与信息可及性。#人工智能# #语音识别#...
2025-11-11 · 浏览276次
伦敦政经学院最新研究:“10 后”进入职场将告别键盘,全面用语音沟通工作

伦敦政经学院最新研究:“10 后”进入职场将告别键盘,全面用语音沟通工作

伦敦政经学院最新研究:“10 后”进入职场将告别键盘,全面用语音沟通工作
Alpha世代出生于2010年及以后,最年长的一批预计在2030年进入职场。换句话说,这群人可能从未经历过语音技术出现之前的办公模式。当然,其他世代也能通过语音工作受益。...
2025-11-09 · 浏览158次
AI 实时语音深度伪造技术实现突破性进展,诈骗成功率近 100%

AI 实时语音深度伪造技术实现突破性进展,诈骗成功率近 100%

AI 实时语音深度伪造技术实现突破性进展,诈骗成功率近 100%
AI语音深度伪造技术实现实时突破,诈骗成功率近100%!网络安全公司NCC Group最新研究显示,攻击者可在通话中即时模仿他人声音,仅需中等计算性能即可运行。专家呼吁建立新型身份验证机制,应对日益复杂的AI社会工程攻击。#AI安全# #深...
2025-10-26 · 浏览302次
阶跃星辰发布端到端语音大模型 Step-Audio 2 mini,多个基准测试取得 SOTA 成绩

阶跃星辰发布端到端语音大模型 Step-Audio 2 mini,多个基准测试取得 SOTA 成绩

阶跃星辰发布端到端语音大模型 Step-Audio 2 mini,多个基准测试取得 SOTA 成绩
阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini,在多个国际基准测试集上取得SOTA成绩,支持语音原生的Tool Calling能力,综合性能超越GPT-4o Audio等模型。#AI语音##语音大模型#...
2025-09-01 · 浏览313次
科技让爱有回声:高德地图 AI 自制导航语音功能开放,用户再次听到已故父亲的“唠叨”

科技让爱有回声:高德地图 AI 自制导航语音功能开放,用户再次听到已故父亲的“唠叨”

科技让爱有回声:高德地图 AI 自制导航语音功能开放,用户再次听到已故父亲的“唠叨”
高德地图在今年 5 月 20 日官宣开放 AI 自制导航语音功能,随后有用户留言希望利用过世亲人留下的语音记录制作导航语音包。IT之家注意到,高德地图官方今日发文公布了该需求的处理后续:这名用户最终再次听到了已故父亲的“唠叨”。...
2025-08-07 · 浏览318次
伦敦政经学院斥资 400 万英镑建立新研究中心,探索用 AI 架起人、宠物沟通之桥

伦敦政经学院斥资 400 万英镑建立新研究中心,探索用 AI 架起人、宠物沟通之桥

伦敦政经学院斥资 400 万英镑建立新研究中心,探索用 AI 架起人、宠物沟通之桥
该中心首任主任乔纳森·伯奇教授表示,尽管能理解宠物想表达什么听起来令人兴奋,但AI往往倾向于生成讨好用户而非反映真实意图的回答。“如果这项技术被应用于动物福利领域,可能会带来灾难性后果。”...
2025-07-14 · 浏览269次
联发科推出专为中国台湾地区用语及口音设计的开源 AI 语音识别模型

联发科推出专为中国台湾地区用语及口音设计的开源 AI 语音识别模型

联发科推出专为中国台湾地区用语及口音设计的开源 AI 语音识别模型
这一名为MR BreezeASR 25的模型以 Apache 2.0 许可开源公布,不会出现将“发生什么事”听成“花生什么事”等类似识别错误。...
2025-07-03 · 浏览344次
AI 语音技术再升级,荣耀成功实现全球首个端侧语音大模型部署

AI 语音技术再升级,荣耀成功实现全球首个端侧语音大模型部署

AI 语音技术再升级,荣耀成功实现全球首个端侧语音大模型部署
荣耀 AI OS 官方微博 @MagicOS 今日宣布:荣耀成功实现全球首个端侧语音大模型部署,号称“AI 语音技术再升级”。据介绍,荣耀两大技术以学术论文发表,被国际顶会 InterSpeech 最新收录,该模型将在荣耀 Magic V5...
2025-07-01 · 浏览322次
AI 语音公司 ElevenLabs 推出独立移动应用:免费用户享 10 分钟文本转语音额度

AI 语音公司 ElevenLabs 推出独立移动应用:免费用户享 10 分钟文本转语音额度

AI 语音公司 ElevenLabs 推出独立移动应用:免费用户享 10 分钟文本转语音额度
语音AI公司ElevenLabs推出独立移动应用,支持iOS和Android用户随时随地生成语音片段。免费套餐提供10分钟音频生成时间,并支持情感表达控制。#AI语音##科技前沿#...
2025-06-25 · 浏览443次
Anthropic 为 Claude 聊天机器人推出语音模式

Anthropic 为 Claude 聊天机器人推出语音模式

Anthropic 为 Claude 聊天机器人推出语音模式
Anthropic公司开始为Claude聊天机器人推出语音模式,用户可通过语音与Claude进行完整对话。该功能支持五种语音选项,并允许在文本和语音模式间切换。目前处于测试阶段,未来几周内将推出英语版本。#人工智能# #聊天机器人#...
2025-05-28 · 浏览360次
OpenAI 升级 ChatGPT AI 高级语音模式:减少打断、支持暂停思考

OpenAI 升级 ChatGPT AI 高级语音模式:减少打断、支持暂停思考

OpenAI 升级 ChatGPT AI 高级语音模式:减少打断、支持暂停思考
OpenAI近日升级了ChatGPT的高级语音模式,重点优化了对话流畅度,减少了不必要的打断,并新增了暂停功能。针对付费用户,还增强了语音个性表现,提供9种风格化人声选项。#C...
2025-03-26 · 浏览359次
13个优秀开源语音识别引擎

13个优秀开源语音识别引擎

13个优秀开源语音识别引擎
2024年已开始,AI热度不减,以下是几个截止目前比较优秀的开源语音识别引擎。...
2024-01-09 · 浏览3625次
微软视频编辑工具 Clipchamp 迎来新功能,包含 AI 自动创作、AI 文本转语音

微软视频编辑工具 Clipchamp 迎来新功能,包含 AI 自动创作、AI 文本转语音

微软视频编辑工具 Clipchamp 迎来新功能,包含 AI 自动创作、AI 文本转语音
在 Microsoft 365 Insider 博客的最新更新中,微软概述了最近添加或即将添加到 Clipchamp 的一些新功能。其中一个新功能是 “自动创作”,Clipch...
2023-12-12 · 浏览349次
上一页 · 下一页 · 当前第1页