AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「语音」清除
5月20日周三
08:55IT之家(RSS)56华为 AI 眼镜 钛丝半框光学镜 方形款今日预售,2499 元
06:55IT之家(RSS)46苹果 iOS 27 新特性:系统级生成,自动给视频加字幕
06:55IT之家(RSS)43苹果预告 iOS 27 辅助功能升级,集成 Apple Intelligence 支持自然语言操作
06:42宝玉51Google新应用Antigravity 2.0界面似Codex
05:25TechCrunch:AI(RSS)47Gmail 新增对话式语音搜索功能,亮相 Google IO 2026
04:41Josh Woodward13更多方言口音即将上线
04:04HuggingFace Daily Papers(社区热门论文)67WavFlow: 波形空间中的音频生成
02:55IT之家(RSS)64谷歌升级 Workspace:语音对话协作 AI 检索邮件、起草文档、整理笔记
02:18Google Blog:AI(RSS)75精选Google Workspace 推出全新创建方式与高效工作功能
01:36🚨 AI News | TestingCatalog77谷歌发布Antigravity 2.0平台,12小时构建操作系统
00:00Rohan Paul54语音AI的隐私难题与Typeless的解决方案
5月19日周二
23:18Qwen:Blog Retrieval(API)77精选Qwen3.5-LiveTranslate:从声音到视觉,从词语到准确
21:53IT之家(RSS)40影石推出旗舰无线麦克风 Mic Pro:搭载彩色墨水屏与三麦阵列,限时价 528 元起
18:51IT之家(RSS)52语音驱动人形机器人自主实时生成任意动作,宇树科技公布一镜到底视频
10:59歸藏(guizang.ai)33ListenHub周年庆:从AI播客到ColaOS的蜕变
08:56Berryxia.AI62Odyssey推出首个实时多模态世界模型Starchild-1
08:00HuggingFace Daily Papers(社区热门论文)67Mega-ASR:通过扩展真实世界声学模拟实现野外语音识别
07:04Hacker News 热门(buzzing.cc 中文翻译)45语音人工智能系统易受隐蔽音频攻击
07:04Hacker News 热门(buzzing.cc 中文翻译)41我们让人工智能来运营广播电台
05:42Rohan Paul64专精小模型挑战行业巨头:PolyAI的客服AI新突破
03:12OpenRouter65精选xAI Grok创意套件三款新模型上线OpenRouter
00:42Rohan Paul68语音AI可能是提升几乎所有办公室岗位生产力的最大助力
5月18日周一
20:45IT之家(RSS)45理想 AI 眼镜 Livis OTA 推送 1.8.50 固件升级,全新 L9 首发指挥泊车
19:45IT之家(RSS)38摩尔线程介绍 MTT AICUBE 智能硬件家庭场景:语音点播影片、智能体交互、畅玩手游…
18:45IT之家(RSS)56豆包 App 上线博物馆讲解功能
18:00Artificial Intelligence News(RSS)56亚马逊推出Alexa for Shopping,Rufus转为后台助手
02:40Rohan Paul63AI交互新突破:全双工时间对齐微轮转实现类人实时对话
5月17日周日
23:44IT之家(RSS)64古尔曼:全新苹果 Siri 支持自动删除聊天记录功能
20:44IT之家(RSS)38微信鸿蒙版 App 获 8.0.17.38 尝鲜升级,灰度支持与元宝聊天等功能
5月16日周六
18:42IT之家(RSS)52小米卢伟冰:miclaw 不会取代小爱同学,未来会合体赋能
18:25The Decoder:AI News(RSS)44OpenAI收购了以模仿名人而闻名的声音克隆初创公司Weights.gg
09:42IT之家(RSS)48OpenAI 低调收购声音克隆平台 Weights.gg,整合 AI 语音技术并应对版权争议
5月15日周五
18:54Berryxia.AI43Violin项目升级,支持音色克隆与多语言视频翻译
18:42IT之家(RSS)45追觅推出 AI 录音名片 D・NOTE:支持一键录音后 AI 转写总结,899 元起
17:54Berryxia.AI66视频翻译工具Violin安装与配置指南
13:42AYi56大学生以第一性原理开发19.99美元机械仿生助听器,惠及全球听障人群
11:17公众号:腾讯混元39腾讯新闻AI电台来了!基于混元大模型打造
09:51Berryxia.AI75精选牛津大学博士后开源视频翻译工具Violin,支持多语言翻译与视频对话
09:51Berryxia.AI74开源视频翻译工具Violin发布,支持多语言与交互
07:51ginobefun60Claude Code最佳实践与GPT-Realtime-2解析:AI工具迈向体系化
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月20日
08:55
IT之家(RSS)
56
华为 AI 眼镜 钛丝半框光学镜 方形款今日预售,2499 元

华为于5月20日宣布,AI眼镜钛丝半框光学镜方形款于当日10:08开启预售,售价2499元。该产品采用轻量化设计,镜架重35.5克,镜腿薄至6.25毫米,搭载华为自研AI芯片,支持小艺AI、支付宝看一下支付等功能。配备1/2.8英寸大底传感器与AI构图技术,可进行第一人称视角视频直播。综合续航达12小时,支持连续8小时语音通话。

产品更新端侧语音
06:55
IT之家(RSS)
46
苹果 iOS 27 新特性:系统级生成,自动给视频加字幕
产品更新端侧语音
06:55
IT之家(RSS)
43
苹果预告 iOS 27 辅助功能升级,集成 Apple Intelligence 支持自然语言操作

苹果宣布在 iOS 27、iPadOS 27 和 macOS 27 系统中,深度集成 Apple Intelligence 到无障碍功能。语音控制通过整合 AI,新增自然语言输入,用户可描述屏幕内容如“点开最佳餐厅指南”来操作设备,无需记忆按钮。VoiceOver 升级加入图像探索器,细致描述视觉内容;放大器支持口头指令;无障碍阅读器扩展适配复杂材料,并提供摘要与翻译功能。此外,Agentic 智能体能力将应用于新版 Siri,使其能理解屏幕内容并执行操作。

智能体产品更新语音
06:42
宝玉@dotey
51
Antigravity 2.0 和 Codex 长一个样😂 Google 舍得拉下脸抄一下 UI/UX 也不是坏事,这样不会像 Gemini UI 那样难用了

Google Antigravity: Introducing Antigravity 2.0, a new standalone desktop application that delivers fully on that original glimpse of a trul...

智能体Google产品更新语音
05:25
TechCrunch:AI(RSS)
47
Gmail 新增对话式语音搜索功能,亮相 Google IO 2026

在 Google IO 2026 大会上,Google 宣布扩展 Gmail 的 AI 收件箱功能。用户现在可以通过对话式语音搜索,直接与收件箱交互,使用 Gemini 快速查找和提取被埋没的电子邮件细节。该功能旨在简化邮件检索流程,提升操作效率。

Google产品更新语音
04:41
Josh Woodward@joshwoodward
13
很高兴你喜欢!我们即将推出更多口音!:)

jorge: @joshwoodward The Rio accent is spot-on! I don't know of any other audio model that can do that.

Google行业动态语音
04:04
HuggingFace Daily Papers(社区热门论文)
67
WavFlow: 波形空间中的音频生成

WavFlow挑战了音频生成依赖潜空间压缩的范式,提出了一种直接在原始波形空间生成高保真音频的框架。为解决高维信号建模难题,方法将音频重塑为二维令牌网格并引入幅度提升,结合流匹配的直接预测实现稳定优化。通过自动化管线构建500万高质量三元组数据集,模型从零学习细粒度声学特征。实验显示,WavFlow在视频到音频(VGGSound)和文本到音频(AudioCaps)基准上达到与主流潜空间方法相当甚至更优的性能,证明了中间压缩并非必要,为多模态音频生成提供了更简洁可扩展的路径。

arXiv多模态论文/研究语音
02:55
IT之家(RSS)
64
谷歌升级 Workspace:语音对话协作 AI 检索邮件、起草文档、整理笔记

谷歌在2026年I/O开发者大会上宣布升级Google Workspace,将Gmail、Docs、Keep等工具整合为支持自然语音交互的协作助手。核心新功能包括:可通过语音直接检索邮件内容的Gmail Live、支持口述起草与格式整理的Docs Live,以及能自动将零散想法整理成清单的Keep更新,旨在将办公流程从点击输入转向更自然的语音交互。此外,谷歌还推出了基于Nano Banana模型的独立图像编辑应用Google Pics,支持对图像进行精确的局部对象分割与修改。

Google产品更新多模态语音
02:18
Google Blog:AI(RSS)
精选75
Google Workspace 推出全新创建方式与高效工作功能

Google 在最新更新中为 Gmail、Docs 和 Keep 增添了新的语音功能,并推出了一款名为 Google Pics 的全新设计工具。同时,其 AI Inbox 功能也得到了升级与优化。这些更新旨在进一步提升用户在工作场景中的协作效率与创作体验,通过集成更智能的工具和交互方式,帮助用户更便捷地完成多项任务。

Google产品更新多模态语音

推荐理由:Google Workspace 直接植入了语音操作和设计工具 Pics,这波更新对办公效率很实在,做产品和运营的可以关注一下实际落地效果。
01:36
🚨 AI News | TestingCatalog@testingcatalog
77
谷歌在I/O大会宣布推出Antigravity 2.0平台,面向全球用户开放。该平台集成了新的智能体系统和自然语音交互体验,Gemini 3.5 Flash模型在Antigravity上的运行速度提升了12倍。谷歌展示了其智能体在该平台上仅用12小时,通过93个并行子智能体、超过1.5万次模型调用和处理26亿个token,成功从零构建出一个可运行的操作系统,API调用成本不到1000美元。

Google: We asked our agents to build a working operating system from scratch using @Antigravity 2.0 and Gemini 3.5 Flash. It too...

智能体Google产品更新语音
00:00
Rohan Paul@rohanpaul_ai
54
语音AI的隐私难题与Typeless的解决方案

语音AI因处理用户原始的思考与未完成的草稿等敏感输入,面临着比其他AI工具更严峻的隐私挑战。Typeless旨在通过“隐私优先”的设计在存储层解决这一问题。其核心原则包括零云端数据留存、绝不使用用户数据训练模型,并将历史记录完全存储在本地设备上。该公司现已通过ISO 27001信息安全标准认证。这一系列举措旨在向用户和企业证明,其产品能够有效保护用户的思考过程和工作内容,从而推动语音优先AI技术的普及。

Huang Song: Voice-first AI products touch some of your most private data: Your raw thoughts. Your unfinished drafts. Your unfiltered...

行业动态语音
5月19日
23:18
Qwen:Blog Retrieval(API)
精选77
Qwen3.5-LiveTranslate:从声音到视觉,从词语到准确

Qwen3.5-LiveTranslate-Flash 是 Qwen 家族最新的同声传译模型,基于 Qwen3.5-Omni 架构,支持实时多模态翻译(音频、视频及视觉上下文)。语言覆盖大幅扩展:输入音频与输出文本从18种增至60种,输出音频从10种增至29种。采用 Readable Unit 技术,平均端到端每 token 延迟降至2.8秒,相比前代首 token 延迟降低3.45秒、每 token 延迟降低1.88秒。支持一句话启动的实时语音克隆和可动态配置的热词增强。在 FLEURS 和 CoVoST2 基准上翻译准确率超越主流商用大语音模型。

多模态模型发布语音

推荐理由:这个版本让同声传译从“能用”变成了“好用”,语言覆盖从 18 跃升 60,延迟压到 2.8 秒,加上视觉消除歧义,做国际业务和直播的人值得跟进。
21:53
IT之家(RSS)
40
影石推出旗舰无线麦克风 Mic Pro:搭载彩色墨水屏与三麦阵列,限时价 528 元起

影石今日发布旗舰级无线麦克风Mic Pro,首次搭载支持六色显示与自定义图案的彩色墨水屏,并首创三麦克风阵列,可实现四种指向拾音模式。该产品内置NPU模块以支持AI降噪,支持32-bit浮点内录。其单发标准零售价698元,即日起至6月21日享限时福利价528元起。Mic Pro具备最长10小时单次续航、400米无线传输距离及32GB内置存储,可直连影石多款相机,同时兼容手机与微单等设备。

产品更新语音
18:51
IT之家(RSS)
52
语音驱动人形机器人自主实时生成任意动作,宇树科技公布一镜到底视频

宇树科技于5月19日发布一镜到底演示视频,展示了其G1人形机器人通过语音指令自主实时生成任意动作的能力。该技术突破在于无需预设动作,由AI系统根据语音直接驱动机器人实时生成动作,实现了真正的语音控制与动作生成闭环。演示过程中存在少量延迟,动作流畅度有待优化。G1机器人于2024年发布,具备23至43个关节电机,体重约35kg,身高约127cm,并配备力控灵巧手。

产品更新具身智能语音
10:59
歸藏(guizang.ai)@op7418
33
团队在一年前发布了首款产品ListenHub,这是一款在AI播客领域逐渐淡出市场后仍保持稳定运营的小产品,为其团队提供了持续现金流与服务基础。如今,随着技术积累与产品演进,团队即将推出ColaOS 1.0正式版,并将ListenHub整合为其中的多媒体服务。过去一年,团队从ListenHub起步,在技术、产品与商业化方面均实现显著成长,并深化了对创业与组织的理解。

Orange AI: 一年前的今天,是个特别的日子。 那天我们发布了第一款产品 ListenHub。 在今天看来,ListenHub 是个小而美的产品。 这款产品虽小,对我们而言意义却很大。 那是这个成立半年的小团队第一次发布产品,把自己推到真实的世界。 后来,...

行业动态语音
08:56
Berryxia.AI@berryxia
62
Odyssey推出首个实时多模态世界模型Starchild-1

Odyssey AI实验室发布了Starchild-1,这是全球首个实时多模态世界模型。该模型不仅能生成视频画面,还能同步生成与之匹配的声音,实现了视觉与听觉的真正融合,模拟出完整、鲜活的世界动态。与以往只能“看”世界的世界模型不同,Starchild-1实现了“听”的能力。这被视为向通用世界模型迈出的关键一步,旨在重新定义AI对现实世界的认知与模拟方式。

Odyssey: Meet our new friend, Starchild-1 ❤️ Starchild-1 is the first ever real-time multimodal world model. A world model unders...

多模态模型发布语音
08:00
HuggingFace Daily Papers(社区热门论文)
67
Mega-ASR:通过扩展真实世界声学模拟实现野外语音识别

Mega-ASR是一个应对真实环境噪声与失真的统一语音识别框架,旨在突破现有模型面临的声学鲁棒性瓶颈。该研究发布了新的大规模复合数据集Voices-in-the-Wild-2M,涵盖7种经典声学现象与54种符合物理规律的复合干扰场景。通过声学-语义渐进式监督微调与双粒度词错误率门控策略优化进行训练,Mega-ASR在多个基准测试中显著超越先前系统:在VOiCES测试集上词错误率从54.01%降至45.69%,在NOIZEUS上从29.34%降至21.49%。在复杂组合声学场景下,其词错误率相对强基线进一步降低超过30%,为构建稳健的实景语音识别系统确立了可扩展的技术范式。

arXiv论文/研究语音
07:04
Hacker News 热门(buzzing.cc 中文翻译)
45
语音人工智能系统易受隐蔽音频攻击

研究人员发现主流语音人工智能系统存在安全漏洞,容易受到隐藏式音频攻击。攻击者可在正常音频中嵌入人耳无法察觉的恶意指令,从而绕过安全检测,操控系统执行未授权操作。这项研究揭示了当前语音交互技术面临的新威胁。

安全/对齐语音
07:04
Hacker News 热门(buzzing.cc 中文翻译)
41
我们让人工智能来运营广播电台

美国人工智能研究机构Andon Labs开展了一项实验,让多个生成式人工智能系统共同运营三座全自动化广播电台。这些AI负责从节目策划、内容创作到音乐播放的全流程工作。实验数据显示,AI生成的内容获得了听众的积极反馈,项目在科技社区Hacker News上获得超过100点热度。这标志着AI在创意媒体自动化运营领域的实际应用探索。

产品更新语音
05:42
Rohan Paul@rohanpaul_ai
64
专精小模型挑战行业巨头:PolyAI的客服AI新突破

PolyAI研究证实,专为客服设计的较小模型Raven 3.5,在性能上显著超越了规模大其100倍的通用前沿模型。该模型在所有四项客服基准测试中击败GPT-5和Claude Sonnet 4.6,并将响应延迟控制在300毫秒内。这项发布同时包括ADK代码开发工具包和PolyPhone网页语音生成工具,助力企业快速构建生产级语音代理。此举旨在将企业语音AI从大型项目转变为可快速部署的基础设施,从而有效解决客服等待时间长、成本高等问题,提升服务效率与客户体验。

智能体模型发布语音
03:12
OpenRouter@OpenRouter
精选65
@xai 的 Grok 创意套件中 3 款新模型现已在 OpenRouter 上线: • Grok Imagine Image Quality:照片级真实图像生成与编辑 • Grok Imagine Video:从文本、图像或参考生成短片 • Grok Voice TTS 1.0:支持 20 多种语言的 5 种语音 更多详情见下方 🧵
xAI产品更新多模态语音

推荐理由:如果你觉得官方 Grok API 麻烦,OpenRouter 现在一口气上线了 Imagine 图像、视频和 Voice TTS,做创意产品的开发者可以直接从这里调用了,省去多签一轮 API key 的功夫。
00:42
Rohan Paul@rohanpaul_ai
68
语音AI可能是提升几乎所有办公室岗位生产力的最大助力

PolyAI现已向所有企业开发者开放其Agentic Dialog平台,将语音AI服务从高昂的年度合约变为可通过终端免费试用的产品。该平台的核心目标并非语音识别,而是攻克在通话中动态追踪复杂、多变的人类意图这一难题。其专有模型Raven将代理行为直接内置于模型本身,避免了冗长提示词在复杂对话中的失效问题。该模型已为FedEx等大品牌处理超10亿次对话。平台支持集成Raven或GPT-5等外部模型,使任何团队都能轻松构建、测试并部署企业级对话智能体。

PolyAI: Starting today, we're opening our Agentic Dialog Platform to every enterprise builder. Our dialog agents have resolved 1...

智能体产品更新语音
5月18日
20:45
IT之家(RSS)
45
理想 AI 眼镜 Livis OTA 推送 1.8.50 固件升级,全新 L9 首发指挥泊车

理想汽车为AI眼镜Livis推送1.8.50固件升级,理想同学App同步升级至2.5.0。本次OTA更新新增5项功能,优化11项功能。全新理想L9首发支持通过AI眼镜语音指挥泊车,新增哨兵模式高风险提醒、英文唤醒词、语音唤醒开关及三种唤醒反馈选择。同时优化了蓝牙电话拨打体验、运动中视觉问答清晰度和视频颜色饱和度。

产品更新多模态端侧语音
19:45
IT之家(RSS)
38
摩尔线程介绍 MTT AICUBE 智能硬件家庭场景:语音点播影片、智能体交互、畅玩手游…

摩尔线程发布了MTT AICUBE智能硬件,聚焦家庭应用场景。该产品内置小麦智能体,支持用户通过语音指令点播影片、规划旅行行程,并可连接手柄畅玩《王者荣耀》《原神》等手游。其依托全功能GPU提供低延迟操控与即插即用体验,旨在填补国产GPU在端侧安卓生态的应用空白,并为开发者提供高性价比测试平台,以推动国产GPU生态的规模化落地。

产品更新端侧语音
18:45
IT之家(RSS)
56
豆包 App 上线博物馆讲解功能

5月18日,豆包 App 在国际博物馆日上线“博物馆讲解”功能,用户点击对话框内按钮即可通过视频通话获得展品自动识别与个性化讲解。该功能支持轻声提问和“边走边听”模式,无需逐次交互。目前,豆包已合作覆盖中国国家博物馆、浦东美术馆等20余家博物馆和美术馆,并与其中5家机构达成深度合作,成为其重磅展览的官方AI讲解员。

产品更新多模态语音
18:00
Artificial Intelligence News(RSS)
56
亚马逊推出Alexa for Shopping,Rufus转为后台助手

亚马逊将其Rufus购物聊天机器人与Alexa+整合,正式推出全新购物助手Alexa for Shopping。该功能已部署至亚马逊应用、网站及Echo Show设备,可回答商品咨询、比价、追踪价格并设置购物提醒。助手还支持计划性购物操作及符合条件的自动购买服务。此次更新标志着Rufus从独立界面转为底层支持,进一步强化亚马逊在智能购物领域的生态整合。

产品更新语音
02:40
Rohan Paul@rohanpaul_ai
63
AI交互新突破:全双工时间对齐微轮转实现类人实时对话

Thinking Machines Lab与OpenBMB团队正推动AI交互从传统的“对讲机”式轮转模式,向全双工、时间对齐的微轮转模式演进。其核心是通过Omni-Flow等框架,将视觉、听觉输入与语音、文本输出对齐到统一时间轴,实现感知与响应的同步。作为实践,开源的90亿参数多模态模型MiniCPM-o 4.5已能同时看、听、说,并在多模态能力和语音生成质量上超越了更大规模的模型。这标志着AI交互层的重要突破,使实时、自然的类人对话成为可能,且已具备代码、权重及边缘部署方案。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态大佬观点语音
5月17日
23:44
IT之家(RSS)
64
古尔曼:全新苹果 Siri 支持自动删除聊天记录功能

据彭博社报道,苹果将在下月WWDC上发布全新的独立Siri应用测试版,并随iOS 27正式推出。新版Siri核心升级包括:采用谷歌Gemini大模型增强能力,但数据处理在苹果私有云端进行,以保护隐私;支持聊天记录自动删除功能,用户可设置30天、1年或永久保留;提供全新对话界面和短信样式的列表界面;新增全局快捷手势一键唤起。即使秋季正式推送,该版本仍将保留测试版标识,用户可选择退出测试体验。

产品更新语音
20:44
IT之家(RSS)
38
微信鸿蒙版 App 获 8.0.17.38 尝鲜升级,灰度支持与元宝聊天等功能

微信鸿蒙版 App 于5月17日在华为应用市场发布8.0.17.38尝鲜版本,测试期至6月16日。本次更新虽官方说明为修复问题,但实际新增多项功能,主要包括:视频号支持修改资料、新注册、双击点赞及直播选项扩展;听一听板块新增“歌曲制作”和“音乐空间”,支持AI写歌与翻唱;卡包灰度开放会员卡功能;并灰度支持与“元宝”聊天。此外,新版本还优化了二维码界面,并支持跨平台扫描传输文件。微信鸿蒙版安装量已突破5500万次。

产品更新语音
5月16日
18:42
IT之家(RSS)
52
小米卢伟冰:miclaw 不会取代小爱同学,未来会合体赋能

小米卢伟冰澄清,新AI交互测试产品miclaw不会取代小爱同学。未来miclaw将与超级小爱合体,将其能力融入小爱中,从而赋能并增强小爱的功能。用户界面仍为超级小爱,但后台将获得miclaw的支持,使其变得更聪明、更能干。Xiaomi miclaw基于小米MiMo大模型构建,是国内首款手机端AI智能体应用,已于3月6日上线并开启小范围封测。

端侧行业动态语音
18:25
The Decoder:AI News(RSS)
44
OpenAI收购了以模仿名人而闻名的声音克隆初创公司Weights.gg

OpenAI已完成对小型初创公司Weights.gg的收购,该公司此前以提供泰勒·斯威夫特、唐纳德·特朗普等名人AI声音克隆服务而知名。约六人规模的团队现已加入OpenAI。不过,OpenAI明确表示暂无计划将此项技术作为独立产品向公众发布,此次收购主要着眼于团队与技术整合。

OpenAI行业动态语音
09:42
IT之家(RSS)
48
OpenAI 低调收购声音克隆平台 Weights.gg,整合 AI 语音技术并应对版权争议

OpenAI 于今年早些时候低调收购了AI声音克隆初创公司Weights.gg,获得了其全部知识产权和约六人团队。Weights.gg的平台允许用户创建AI语音翻唱和进行文本转语音,其社区模型库包含大量未经授权的名人声音模型。OpenAI自身已开发出仅需15秒音频即可克隆语音的Voice Engine技术,但因滥用担忧尚未广泛开放。公司正将语音技术整合进商业化产品,并调整业务以聚焦创收。此次收购也使其更深地卷入声音克隆技术引发的版权争议之中。

OpenAI行业动态语音
5月15日
18:54
Berryxia.AI@berryxia
43
Violin项目升级,支持音色克隆与多语言视频翻译

Violin项目在保留核心的视频多语言翻译功能基础上,进行了多项迭代升级。新版本支持用户为目标语音选择多种角色和音色,并能在翻译成多国语言后克隆原始音色。同时,项目继续保持对多语言翻译后字幕导出的支持。这些改进旨在优化用户体验,使工具更适用于制作面向海外市场的视频播客内容。

教程/实践视频语音
18:42
IT之家(RSS)
45
追觅推出 AI 录音名片 D・NOTE:支持一键录音后 AI 转写总结,899 元起

追觅发布了一款名为 D·NOTE 的 AI 录音名片,主打一键录音、转写和总结功能。产品重30克,支持145种语言的在线秒速转写,并内置超过1800个中文模板以智能匹配总结。它还具备说话人识别功能,最大工作距离5米,最多可识别35人。此外,该设备支持NFC传输电子名片,内置电池提供最长30小时续航。产品提供8GB和64GB两个存储版本,首发价分别为899元和999元。

产品更新端侧语音
17:54
Berryxia.AI@berryxia
66
哈哈 你们要的林志玲版。。。 【引用 @berryxia】:这个项目也可以直接 # 安装成 Claude Code skill 命令:violin --install-skill 以后就可以直接这样:violin input.mp4 output_zh.mp4 --language Chinese 大家需要注意: 去 http://api.together.ai 注册获取 Key(也支持 OpenAI、ElevenLabs,只需其中一个)。 Violin 默认使用 Together AI(免费注册可得额度),需要设置环境变量: # 永久生效,加到 ~/.zshrc echo 'export TOGETHER_API_KEY=你的key' >> ~/.zshrc source ~/.zshrc

Berryxia.AI: 这个项目也可以直接 # 安装成 Claude Code skill 命令:violin --install-skill 以后就可以直接这样:violin input.mp4 output_zh.mp4 --language Chinese ...

MCP/工具教程/实践语音
13:42
AYi@AYi_AInotes
56
大学生以第一性原理开发19.99美元机械仿生助听器,惠及全球听障人群

三名大学生回归耳朵工作机制,运用第一性原理,开发出一款售价仅19.99美元的纯机械仿生助听器。该装置无需电池电路,通过3D打印和AI个性化适配,模仿鼓膜与听小骨的自然声学放大机制。传统助听器价格高达数千美元,此创新为全球8亿听力损失人群,尤其是负担不起昂贵设备或缺乏医疗资源的群体,提供了可及性解决方案。目前产品适用于轻中度听力损失,虽未获完整医疗器械认证,但已展现通过低成本技术普惠大众的潜力。

Founders Inc: They reinvented the hearing aid by studying the human ear Normal hearing aid: $4700 Theirs: $20

现象/趋势语音
11:17
公众号:腾讯混元
39
腾讯新闻AI电台来了!基于混元大模型打造
产品更新语音
09:51
Berryxia.AI@berryxia
精选75
牛津大学博士后开源视频翻译工具Violin,支持多语言翻译与视频对话

牛津大学博士后Kevin Lin开源视频翻译工具Violin,旨在打破高质量视频内容的语言壁垒。该工具将语音识别、大语言模型翻译与语音合成整合为自动化流水线,支持多语言互译与个性化翻译风格调整,例如将学术报告转化为儿童易懂版本。用户还能直接与视频内容进行对话并获取相关答案。Violin提供Web应用、命令行界面和Agent Skill三种使用方式,所有功能基于MIT协议开源,由Together Compute提供技术支持,适用于内容创作、教育及多模态智能体开发等领域。

Kevin Lin: 🌟Introducing🎻Violin - an Open-source Video Translation Skill. 📹Video is the dominant medium on the internet, yet most...

GitHub多模态开源/仓库语音

推荐理由:视频翻译过去得拼几个 API,Violin 一个开源 Skill 把 ASR、翻译、TTS 全通了,还加上视频对话和风格定制,做多语言内容传播的必须收藏。
09:51
Berryxia.AI@berryxia
74
牛津大学博士后Kevin Lin开源了视频翻译工具Violin,可将视频自动进行语音识别、LLM翻译和语音合成,打破语言壁垒。工具支持个性化翻译风格,并能基于视频内容进行问答交互。它提供Web应用、CLI命令行及Agent Skill(如Claude Code skill)多种使用方式,默认利用Together AI的免费额度,也支持OpenAI等API。该项目旨在推动高质量视频内容的全球化传播。

Berryxia.AI: 兄弟们,这个可以啊!赶紧装起来! Kevin Lin,牛津大学博士后,前Meta和Microsoft研究员,刚刚把Violin这个开源视频翻译Skill放了出来。 视频已经是互联网绝对主流的内容形式。 可绝大多数高质量讲座、演讲、播客却被单...

多模态开源生态教程/实践视频
07:51
ginobefun@hongming731
60
Claude Code最佳实践与GPT-Realtime-2解析:AI工具迈向体系化

Anthropic发布Claude Code大型代码库实践指南,强调Harness配置(如CLAUDE.md、Hooks)与模型能力同等重要,是决定实际体验的关键,并指出RAG在高速迭代代码库中存在时效性局限。同时,OpenAI通过Build Hour解析GPT-Realtime-2,展示语音Agent正从聊天机器人演进为“语音→行动”的自主工作流。此外,当AI将开发周期从月压缩到小时,效率提升正引发协作方式与组织结构的重构难题。

智能体AnthropicOpenAI现象/趋势
‹ 上一页
1…910111213…19
下一页 ›