TypeNo 发布 v1.4.0。开发者使用 Cola Code 维护项目,核心更新为流式实时预览功能,并重新设计了 overlay 界面。本次修复了录音间歇性空文件、overlay 抢占键盘焦点、以及 Coli 模型下载状态检测误报等 bug。文档补充了卸载说明,澄清了 CLI 安装与模型下载为两阶段。 GitHub 发布链接:https://github.com/marswaveai/TypeNo/releases/tag/v1.4.0
TypeNo 发布 v1.4.0。开发者使用 Cola Code 维护项目,核心更新为流式实时预览功能,并重新设计了 overlay 界面。本次修复了录音间歇性空文件、overlay 抢占键盘焦点、以及 Coli 模型下载状态检测误报等 bug。文档补充了卸载说明,澄清了 CLI 安装与模型下载为两阶段。 GitHub 发布链接:https://github.com/marswaveai/TypeNo/releases/tag/v1.4.0
作者分享了一个周末娱乐项目:一个用AI工具开发的Suno音乐生成播放器。该播放器已在线运行,支持电脑和移动端,但后台管理功能尚不完善,目前通过Skill进行音乐下载与上传。项目已开源。引用中补充了该播放器是使用ChatGPT内置的Codex工具在躺卧状态下完成开发的。
skill写好以后,躺床上也可以用ChatGPT中的codex开发网站了。 正在开发一个Suno音乐播放器,把AI生成的歌曲都传上去。
StepAudio 2.5 Realtime 是一款实时语音交互模型。其核心优势在于能感知用户的副语言特征,如语气、节奏、停顿甚至轻叹,从而理解话语背后的真实意图。该模型支持通过 API 高度定制角色人格与说话风格,内置超过10,000种可组合的预置角色,并提供5种开箱即用的预设角色供体验。同时,模型经过RLHF优化,能在复杂的角色扮演压力测试中稳定保持设定的人设。支持中英文双语交互。
StepAudio 2.5 Realtime是一款实时语音模型,能够深度理解用户语音中的语气、语速、停顿乃至微表情等副语言特征。它支持通过API接入自定义人格,允许设定个性、背景故事和语言风格,并提供了上万种原生人格选项,可组合出数百万种特征。产品还内置了5个可直接体验的预设人格,并经过RLHF调优,确保在复杂的角色扮演压力测试中也能保持角色一致性。该模型支持中文和英文。
Meet Colin, Lexi, and Gizmo. One is part of Gradium's GTM team. One is his dog. And one is the AI assistant he built him...
Cartesia公司最新发布的语音合成模型Sonic-3.5在Artificial Analysis Speech Arena排行榜上位居第一,超越了Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS等竞品。该模型支持42种语言(包括9种印度语言),提供超过500种声音选择。评测数据显示,Sonic-3.5以1,218的Elo分数领先,表现出自然的语音效果和准确的文本跟随能力。其定价为每百万字符39美元,高于竞品;生成速度为每秒105.5字符,介于其他两者之间。
网易有道开源Confucius4双模型,包括一个专注数学视觉推理的多模态模型,以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重,而非仅提供API,强调在工程精度和实际部署成本上的投入,而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。
Stable Audio 3官方正式发布,并提供了针对苹果MLX框架的优化版本,使得强大的音乐生成模型能够直接在本地Mac电脑上高效运行。其核心亮点在于在M5 Pro芯片上可实现59倍实时生成速度,性能表现突出。此外,该工具支持在不到1小时内完成LoRA微调,并提供快速(Sm)与高质量(Medium)两种生成模式。开发者鼓励社区积极探索其潜力,标志着本地化音乐创作工具达到了新高度。
🥳 Announcing Stable Audio 3 🍕 🏆 fastest music models ever 💻 runs on MacBookPro M-series 🧪 break it plz 🧠 LoRA fine...
实时语音交互是通用 Agent 领域的关键。本文介绍了构建 Voice Agent 所需的技术栈(ASR、TOD、TTS、LLM)及 WebRTC 通信基础,并重点展示了 Agora 推出的 Agora Skills。该工具能快速安装并集成 Agora 的 RTC、RTM 等多种能力。通过 Codex 自动安装 Agora Skills,演示了一键生成浏览器端语音 AI Agent Demo 的完整流程。该 Demo 实现了流畅的实时对话,响应延迟仅约 1 秒,极大简化了开发者验证语音陪伴等场景的开发流程。
这条推文介绍了一个对Suno AI音乐生成工具进行优化的Skill。该Skill新增了近6000个音乐风格检索,显著提升了生成音乐的准确性。此外,它通过谷歌CDP技术刷新获取登录Token,使用户无需访问网站即可直接创作歌曲。推文提供了该Skill的开源GitHub地址和安装指令。
We added 600+ new voices on Together AI! Introducing MiniMax Speech 2.8 Turbo on Together AI, an enterprise TTS model fo...
豆包输入法Mac版上线后,用户试用体验极佳,称其在准确性、中英文混合输入、专业名词识别和响应速度方面均为市面顶尖。与其他输入法相比,它解决了过度优化和无法实时预览的痛点,实现“言出法随”的快速输出与实时润色,避免乱加Markdown格式。对于如Claude Code、AntiGravity、Perplexity等专业术语与中文混合的场景,豆包输入法处理出色,用户已完全依赖其手机和电脑端。未来期待支持自定义提示词润色功能,但目前识别能力已无可挑剔。
豆包输入法实现了语音输入与键盘输入的深度联动,解决了传统语音输入法管理专有名词词库困难的核心痛点。用户只需在语音识别出现偏差时手动修改一次专有名词,输入法便能自动学习并记忆,实现了高效协同的“1+1>2”效果。此外,该输入法具备实时转录、中英混说等云端输入法的基准能力,可平替同类产品。
Introducing Antigravity 2.0, a new standalone desktop application that delivers fully on that original glimpse of a trul...
@joshwoodward The Rio accent is spot-on! I don't know of any other audio model that can do that.
We asked our agents to build a working operating system from scratch using @Antigravity 2.0 and Gemini 3.5 Flash. It too...
语音AI因处理用户原始的思考与未完成的草稿等敏感输入,面临着比其他AI工具更严峻的隐私挑战。Typeless旨在通过“隐私优先”的设计在存储层解决这一问题。其核心原则包括零云端数据留存、绝不使用用户数据训练模型,并将历史记录完全存储在本地设备上。该公司现已通过ISO 27001信息安全标准认证。这一系列举措旨在向用户和企业证明,其产品能够有效保护用户的思考过程和工作内容,从而推动语音优先AI技术的普及。
Voice-first AI products touch some of your most private data: Your raw thoughts. Your unfinished drafts. Your unfiltered...
一年前的今天,是个特别的日子。 那天我们发布了第一款产品 ListenHub。 在今天看来,ListenHub 是个小而美的产品。 这款产品虽小,对我们而言意义却很大。 那是这个成立半年的小团队第一次发布产品,把自己推到真实的世界。 后来,...
Odyssey AI实验室发布了Starchild-1,这是全球首个实时多模态世界模型。该模型不仅能生成视频画面,还能同步生成与之匹配的声音,实现了视觉与听觉的真正融合,模拟出完整、鲜活的世界动态。与以往只能“看”世界的世界模型不同,Starchild-1实现了“听”的能力。这被视为向通用世界模型迈出的关键一步,旨在重新定义AI对现实世界的认知与模拟方式。
Meet our new friend, Starchild-1 ❤️ Starchild-1 is the first ever real-time multimodal world model. A world model unders...
PolyAI研究证实,专为客服设计的较小模型Raven 3.5,在性能上显著超越了规模大其100倍的通用前沿模型。该模型在所有四项客服基准测试中击败GPT-5和Claude Sonnet 4.6,并将响应延迟控制在300毫秒内。这项发布同时包括ADK代码开发工具包和PolyPhone网页语音生成工具,助力企业快速构建生产级语音代理。此举旨在将企业语音AI从大型项目转变为可快速部署的基础设施,从而有效解决客服等待时间长、成本高等问题,提升服务效率与客户体验。
PolyAI现已向所有企业开发者开放其Agentic Dialog平台,将语音AI服务从高昂的年度合约变为可通过终端免费试用的产品。该平台的核心目标并非语音识别,而是攻克在通话中动态追踪复杂、多变的人类意图这一难题。其专有模型Raven将代理行为直接内置于模型本身,避免了冗长提示词在复杂对话中的失效问题。该模型已为FedEx等大品牌处理超10亿次对话。平台支持集成Raven或GPT-5等外部模型,使任何团队都能轻松构建、测试并部署企业级对话智能体。
Starting today, we're opening our Agentic Dialog Platform to every enterprise builder. Our dialog agents have resolved 1...
Thinking Machines Lab与OpenBMB团队正推动AI交互从传统的“对讲机”式轮转模式,向全双工、时间对齐的微轮转模式演进。其核心是通过Omni-Flow等框架,将视觉、听觉输入与语音、文本输出对齐到统一时间轴,实现感知与响应的同步。作为实践,开源的90亿参数多模态模型MiniCPM-o 4.5已能同时看、听、说,并在多模态能力和语音生成质量上超越了更大规模的模型。这标志着AI交互层的重要突破,使实时、自然的类人对话成为可能,且已具备代码、权重及边缘部署方案。
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...
Violin项目在保留核心的视频多语言翻译功能基础上,进行了多项迭代升级。新版本支持用户为目标语音选择多种角色和音色,并能在翻译成多国语言后克隆原始音色。同时,项目继续保持对多语言翻译后字幕导出的支持。这些改进旨在优化用户体验,使工具更适用于制作面向海外市场的视频播客内容。
这个项目也可以直接 # 安装成 Claude Code skill 命令:violin --install-skill 以后就可以直接这样:violin input.mp4 output_zh.mp4 --language Chinese ...
三名大学生回归耳朵工作机制,运用第一性原理,开发出一款售价仅19.99美元的纯机械仿生助听器。该装置无需电池电路,通过3D打印和AI个性化适配,模仿鼓膜与听小骨的自然声学放大机制。传统助听器价格高达数千美元,此创新为全球8亿听力损失人群,尤其是负担不起昂贵设备或缺乏医疗资源的群体,提供了可及性解决方案。目前产品适用于轻中度听力损失,虽未获完整医疗器械认证,但已展现通过低成本技术普惠大众的潜力。
They reinvented the hearing aid by studying the human ear Normal hearing aid: $4700 Theirs: $20
牛津大学博士后Kevin Lin开源视频翻译工具Violin,旨在打破高质量视频内容的语言壁垒。该工具将语音识别、大语言模型翻译与语音合成整合为自动化流水线,支持多语言互译与个性化翻译风格调整,例如将学术报告转化为儿童易懂版本。用户还能直接与视频内容进行对话并获取相关答案。Violin提供Web应用、命令行界面和Agent Skill三种使用方式,所有功能基于MIT协议开源,由Together Compute提供技术支持,适用于内容创作、教育及多模态智能体开发等领域。
🌟Introducing🎻Violin - an Open-source Video Translation Skill. 📹Video is the dominant medium on the internet, yet most...
兄弟们,这个可以啊!赶紧装起来! Kevin Lin,牛津大学博士后,前Meta和Microsoft研究员,刚刚把Violin这个开源视频翻译Skill放了出来。 视频已经是互联网绝对主流的内容形式。 可绝大多数高质量讲座、演讲、播客却被单...
Anthropic发布Claude Code大型代码库实践指南,强调Harness配置(如CLAUDE.md、Hooks)与模型能力同等重要,是决定实际体验的关键,并指出RAG在高速迭代代码库中存在时效性局限。同时,OpenAI通过Build Hour解析GPT-Realtime-2,展示语音Agent正从聊天机器人演进为“语音→行动”的自主工作流。此外,当AI将开发周期从月压缩到小时,效率提升正引发协作方式与组织结构的重构难题。
前段时间参与了 Doubao-Seed-2.0-lite 0428 内测。 这个版本升级,增加了音频理解,能同时支持图片、视频、音频、文本四种输入,成为豆包大模型家族首款全模态理解模型。 除了全模态理解,据说 Agent、Coding、GU...
Had tons of fun chatting with @sonyatweetybird about music and the future of entertainment
Meet the 1st radio on X fully run by AI. Covers AI news 24/7, always on. Designed for builders and founders. Live right ...