a cambrian explosion of creation is upon us
Grok Voice brutally dominates the top of the τ-voice Bench Grok scores 67.3%, while Gemini sits at 43.8% and GPT Realtim...
xAI通过Grok API上线声音克隆功能,用户录制一分钟即可快速获得个人声音模型,并免费用于语音代理。与ElevenLabs提供“生成好听声音”的定位不同,xAI聚焦于“生成你的声音”,将声音视为数字身份证,强调其身份属性。安全上要求本人实时录制并验证短语,以防滥用。未来,结合Grok的推理能力,可能诞生能像用户一样思考和说话的AI代理。零门槛技术将推动有声书、游戏配音等应用,但也加剧了深假与诈骗风险,标志着声音正从工具转向身份核心。
Voice Cloning is now live via the xAI API! Create a custom voice in less than 2 minutes or select from our library of 80...
Small but useful new feature in the works in ChatGPT web app - "Custom dictionary" ("Add names or terms you want dictati...
LinkedIn联合创始人Reid Hoffman提出,每个组织都应记录所有会议,并利用AI对录音进行分析,其用途远超文字转录。AI能够自动识别会议中提及的关键待办事项,例如提醒与会者通知特定同事、获取上级批准或协调其他团队的工作。他强调,此类自动跟进与协调的技术已经成熟,可供企业立即部署使用。
Suno公司最新发布的音乐生成模型V5.5,在Artificial Analysis的器乐和人声排行榜上均位列第一,性能较前代V5模型有显著提升。本次更新重点聚焦个性化与身份特征,推出了三项新功能:用户可通过上传人声样本生成定制演唱音色;可个性化定制最多三个反映自身风格的模型版本;系统还能学习用户偏好的音乐流派、情绪和风格,以提供个性化推荐。该模型已通过Suno平台向Pro和Premier订阅用户开放,年费订阅起价为每月8美元(约含500首歌曲生成额度),且包含商业使用权。
Last week, we launched Gemini 3.1 TTS, our latest and best text-to-speech model. This new model introduces [awe] audio t...
TRAE推出内置语音功能,支持直接语音输入,并能将包含大量语气词的即兴口语转录为结构化文字。其核心亮点在于能够识别语音命令和技能,用户可通过语音直接操作输入框等功能。此外,TRAE还与Insta360合作推出了联名Mic Air无线麦克风。这一功能体现了“用嘴写代码、用嘴办公”的交互趋势,初步用户体验反馈积极。
微软开源的VibeVoice-ASR是一个9B参数语音转文字模型,采用MIT协议。其核心优势在于单次可处理长达60分钟的连续音频,并直接输出带说话人、时间戳的结构化文本,原生支持50多种语言及中英混说。实测在128GB内存的MacBook Pro上,其4-bit量化版转录一小时音频约需9分钟,但预填充阶段内存峰值达61.5GB,要求设备内存至少64GB。模型存在单次60分钟时长限制,且对录音环境变化敏感,但为播客、会议等长音频转录提供了简化流程。
Microsoft's MIT licensed VibeVoice speech-to-text model (think Whisper with speaker diarization) is really good - my not...
Introducing Agent Templates - pre-configured ElevenAgents you can deploy across your business. The best teams run agents...
OpenAI开源了gpt-realtime-1.5的官方语音控制组件,允许用户直接用自然语音控制应用UI状态,而非仅进行语音转文本。该组件是一个完整的React参考实现,开发者可快速集成。其核心在于工具由应用预定义,模型只能调用这些受限动作,确保了安全可控。这标志着语音正从输入层升级为顶层控制层,为设计、驾驶等双手操作场景提供了新的交互可能,是交互范式的重要转折。
You can build interactive applications with gpt-realtime-1.5, so users can control app state more naturally with voice. ...
Transcription on the Gemini iOS app is finally usable! Thank you @joshwoodward
卧槽,OpenAI Codex团队刚放了个大招, 直接把所有第三方语音输入工具干懵了, 所有ChatGPT订阅用户,现在可以在桌面任何地方直接语音输入, 不用切App,不用额外花钱,设置一个热键,按住说话,松开文字直接进任何文本框,记事本,...
OpenAI为ChatGPT订阅用户推出系统级语音输入功能,用户设置热键即可在桌面任何应用(如记事本、VS Code)中直接语音输入并转为文字。此举直接冲击Wispr Flow等付费第三方工具,用户无需额外付费,体现OpenAI将AI嵌入操作系统的战略,推动AI与工作流集成。
这周要发的GPT-5.5可能是人类离 AGI 最近的一次尝试🚀 Greg Brockman 是 OpenAI 的联合创始人兼现任 President(总裁),也是 OpenAI 内部公认的builder-in-chief, 看完他的这段采...
Minimax week on AI/ML API: - Music-2.6 is free - Video & TTS models 30% off - LLMs 10% off If you haven't tried @MiniMax...
TTS评估体系存在根本性缺陷。当前主流评测标准与真实对话场景中的用户偏好严重脱节,技术迭代速度已超越基准测试的发展。针对实时对话代理的系统应在真实交互中评估,而非依赖孤立音频片段。核心问题在于,现有方法将"自然度"简化为可平均、排名的单一指标,忽视了人类语音感知的关键细节——微妙的时间变化、克制的情感表达、不均匀的呼吸节奏以及契合语境的措辞方式。
http://x.com/i/article/2043661447478329344
Google 发布 Gemini 3.1 Flash TTS 语音模型及 Chrome Skills 工具,支持场景化语音合成与提示词复用。OpenAI 推出 GPT-5.4-Cyber 并升级 Agents SDK 为长期运行代理环境,支持沙盒执行与状态管理。与此同时,AI 技术遭遇强烈社会抵制,出现针对数据中心的激进行动。
Gemini Mac app is now live
Generate nuanced, engaging audio experiences across 70+ languages with Gemini 3.1 Flash TTS - our most controllable & ex...
a few years ago I couldn't afford therapy when I needed it most. today I'm launching Lovon - an AI therapist that's priv...
OpenBMB发布开源TTS模型VoxCPM 2,仅2B参数支持30种语言,无需语言标签即可生成语音。Apache-2.0许可,8GB显存可运行。支持文本描述创建新声音、可控克隆与终极克隆,保留说话人细节。输出48kHz音质,RTX 4090实时推理达0.3 RTF。兼容PyTorch、LoRA微调及Nano-VLLM部署,适用于影视、游戏、有声书等专业场景。
一家初创公司推出AI耶稣视频通话服务,每分钟收费$1.99,模型基于King James Bible及牧师布道训练,形象参照Jonathon Roumie在The Chosen中的荧幕造型。该服务将语言模型转化为具有特定面容、语气与风格的数字演员,核心卖点并非宗教信息获取,而是实时精神陪伴带来的被关注与指引感,代表信仰科技与情感付费结合的新商业模式。