AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 96 条
全部一手资讯X论文
标签「语音」清除
10月30日周四
00:00MiniMax:Blog(网页)精选MiniMax发布新一代语音模型Speech 2.6
10月24日周五
08:48美团 LongCat:HuggingFace 新模型精选美团开源全模态模型LongCat-Flash-Omni
10月17日周五
11:09美团 LongCat:HuggingFace 新模型meituan-longcat 发布 LongCat-Audio-Codec
9月29日周一
11:23蚂蚁 inclusionAI:GitHub 新仓库51inclusionAI/Ming-UniAudio
11:19蚂蚁 inclusionAI:GitHub 新仓库38inclusionAI/Ming-Freeform-Audio-Edit
11:19蚂蚁 inclusionAI:GitHub 新仓库57精选inclusionAI发布MingTok-Audio:首个统一连续语音分词器
9月25日周四
00:00Suno:Blog(网页)Suno Studio 正式发布
9月19日周五
09:10公众号:小米 MiMo54小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio
8月4日周一
08:00OpenRouter:Announcements(RSS)43OpenRouter 应用新增语音输入和 PDF URL 支持
7月17日周四
00:00Mistral AI:News(网页)51Mistral AI 为 Le Chat 推出五项重要更新
7月15日周二
00:00Mistral AI:News(网页)62Mistral AI 发布 Voxtral 开源语音理解模型
6月30日周一
00:00Suno:Blog(网页)55精选Suno收购浏览器数字音频工作站WavTool
11月19日周二
00:00Suno:Blog(网页)47Suno发布v4音乐生成模型
6月12日周三
00:00Suno:Blog(网页)55精选Audio Inputs--通过 Mikey Shulman(联合创始人兼 CEO)发布·2024 年 6 月 12 日,用任何声音创作一首歌 产品更新
5月14日周二
01:39Sam Altman:Blog(RSS)精选GPT-4o
2月8日周四
00:00Suno:Blog(网页)14介绍 Suno 情人节体验
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
10月30日
00:00
MiniMax:Blog(网页)
精选
MiniMax发布新一代语音模型Speech 2.6

MiniMax发布语音模型Speech 2.6,端到端延迟降至250毫秒内,支持实时对话。新增多语言特殊格式解析能力,可自动朗读URL、邮箱、电话、日期及金额,无需预处理。推出Fluent LoRA功能,即使源录音带口音也能保留音色并生成流畅语音,支持40余种语言。已被LiveKit、Vapi等平台及智能硬件采用。

智能体模型发布语音

推荐理由:MiniMax发布Speech 2.6语音模型,支持Voice Agent场景,实现超低延迟与Fluent LoRA语音克隆优化。
10月24日
08:48
美团 LongCat:HuggingFace 新模型
精选
美团开源全模态模型LongCat-Flash-Omni

美团开源全模态模型LongCat-Flash-Omni,采用5600亿参数MoE架构(激活270亿),支持128K上下文与实时音视频交互。模型基于快捷连接MoE与零计算专家,配备轻量级编解码器及分块特征交错机制,通过课程式渐进训练提升效率。在OmniBench、WorldSense等基准测试中超越Qwen3-Omni与Gemini-2.5-Pro,在文档理解、语音识别及GUI控制等任务中达到领先水平。

Hugging Face多模态模型发布语音
关联讨论 1 条美团 LongCat:HuggingFace 新模型
推荐理由:美团开源 560B 参数多模态模型,27B 激活即可实现实时音视频交互
10月17日
11:09
美团 LongCat:HuggingFace 新模型
meituan-longcat 发布 LongCat-Audio-Codec

meituan-longcat 发布开源项目 LongCat-Audio-Codec,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在促进音频编解码技术的开放获取,推动行业技术进步与开放生态建设。

Hugging Face开源生态模型发布语音
9月29日
11:23
蚂蚁 inclusionAI:GitHub 新仓库
51
inclusionAI/Ming-UniAudio

研究团队发布了Ming-UniAudio,这是一个基于统一表示的大语言模型,专门用于语音任务。该模型能够联合处理语音的理解、生成与编辑,实现了多种语音功能的集成。它通过统一的框架,将传统上分离的语音识别、合成和修改任务整合进单一系统,提升了处理效率与协同能力。

开源生态模型发布语音
11:19
蚂蚁 inclusionAI:GitHub 新仓库
38
inclusionAI/Ming-Freeform-Audio-Edit

该仓库发布了Ming-Freeform-Audio-Edit基准测试集,用于评估Ming-UniAudio模型的下游音频编辑任务。测试集涵盖7类任务,包括语义编辑(自由形式删除、插入、替换)和声学编辑(时间拉伸、音高转换等)。音频样本源自seed-tts eval、LibriTTS等开源数据集,其中语义编辑任务包含基于索引和基于内容的中英文样本。评估指标涵盖编辑区域与非编辑区域的词错误率、编辑操作准确率和说话人相似度,并提供了完整的评估脚本与参数说明。

开源/仓库论文/研究语音
11:19
蚂蚁 inclusionAI:GitHub 新仓库
精选57
inclusionAI发布MingTok-Audio:首个统一连续语音分词器

inclusionAI团队推出了MingTok-Audio,这是首个能有效融合语义与声学特征的统一连续语音分词器,适用于语音理解与生成任务。该模型基于纯因果Transformer架构,去除了卷积层以提升效率,并采用VAE进行连续特征建模以实现高质量音频重建。在语音重建性能上,其帧率为50,在SEED-ZH和SEED-EN测试集上的PESQ分别达到4.21和4.04,SIM为0.96,STOI为0.98,显著优于对比模型。在下游ASR任务中,其在多个方言数据集上取得了更低的错误率,例如在Hunan Minnan数据集上WER低至9.80%。

开源/仓库模型发布语音

推荐理由:蚂蚁把语音 tokenizer 做到了 PESQ 4.2 的离谱分数,比第二名翻了快一倍,做语音理解和生成的团队值得拿这个当新 baseline 跑一下。
9月25日
00:00
Suno:Blog(网页)
Suno Studio 正式发布

Suno 推出全球首款生成式音频工作站 Suno Studio,将 AI 生成能力融入音乐创作核心。支持即时生成无限 stem 变体(人声、鼓点、合成器等),提供多轨时间线编辑、BPM 和音高调整等专业控制,可导出音频与 MIDI 文件至其他 DAW。兼容从业余爱好者到专业作曲家的各类创作者,桌面版现已向 Premier 用户开放。

产品更新多模态语音
9月19日
09:10
公众号:小米 MiMo
54
小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio,被定位为语音开源领域的“LLaMA 时刻”,对标此前语音闭源领域的“GPT-3 时刻”。该模型具体参数、评测分数及开源协议尚未披露。

多模态模型发布语音
8月4日
08:00
OpenRouter:Announcements(RSS)
43
OpenRouter 应用新增语音输入和 PDF URL 支持

OpenRouter 平台现支持在应用中使用语音输入功能,并允许通过 URL 发送 PDF 文件。该功能适用于平台上的任意模型。

产品更新多模态语音
7月17日
00:00
Mistral AI:News(网页)
51
Mistral AI 为 Le Chat 推出五项重要更新

Mistral AI 为 Le Chat 推出五项重要更新:Deep Research(预览版)模式可快速生成结构化研究报告;语音模式启用新 Voxtral 模型实现自然对话;Think 模式由 Magistral 推理模型支持,提供原生多语言推理;Projects 功能可将相关对话组织至独立文件夹;并联合 Black Forest Labs 推出 Le Chat 内的高级图像编辑功能。用户现在可在 chat.mistral.ai 或移动应用中免费试用这些新功能。

产品更新多模态推理语音
7月15日
00:00
Mistral AI:News(网页)
62
Mistral AI 发布 Voxtral 开源语音理解模型

Mistral AI 发布了开源语音理解模型 Voxtral,提供 24B 和 3B 两个参数版本,均基于 Apache 2.0 协议开放。模型支持 32k token 上下文窗口,可处理最长 30 分钟的音频转录或 40 分钟的内容理解。其 API 提供了针对转录优化的 Voxtral Mini Transcribe 版本,在成本和延迟效率上表现突出。根据基准测试,Voxtral 在英语短文本及 Mozilla Common Voice 等多项指标上超越了 OpenAI Whisper 与 ElevenLabs Scribe,实现了同等性能下价格不到同类闭源 API 一半的优势。

开源生态模型发布语音
6月30日
00:00
Suno:Blog(网页)
精选55
Suno收购浏览器数字音频工作站WavTool

音乐技术公司Suno宣布收购完全在浏览器中构建的AI加速数字音频工作站WavTool。WavTool的核心团队将加入Suno并担任产品及工程领导职务。此次收购将WavTool的专业级编辑功能(支持VST插件、采样精确编辑等)与原生AI能力(如音轨分离、AI生成MIDI)整合到Suno平台,旨在增强对专业词曲作者和制作人的支持。Suno CEO表示,此举是为了更好地赋能音乐家,而WavTool联合创始人则认为双方在AI辅助音乐创作的愿景上高度一致。

行业动态语音

推荐理由:一年前的收购,现在看仍是 Suno 从消费级玩具迈向专业工具的关键一步,但新鲜度早没了,只适合补看脉络。
11月19日
00:00
Suno:Blog(网页)
47
Suno发布v4音乐生成模型

Suno发布了音乐生成模型v4,这是对v3的重大升级。v4带来了更干净的音质、更清晰的歌词以及更动态的歌曲结构。新功能包括可将旧模型生成的音轨升级至v4质量的Remaster功能,以及用于辅助创意歌词写作的新模型ReMi。同时,封面艺术生成也更具创意。现有的Covers和Personas功能现由v4驱动。v4 Beta版现已向Pro和Premier用户开放,可在suno.com和iOS上体验。

产品更新语音
6月12日
00:00
Suno:Blog(网页)
精选55
Audio Inputs--通过 Mikey Shulman(联合创始人兼 CEO)发布·2024 年 6 月 12 日,用任何声音创作一首歌 产品更新

Suno 发布 Audio Inputs 功能,所有 Pro 和 Premier 用户可上传或录制 6-60 秒的音频片段,通过“Extend”模式选择起始时间戳、设定风格,并可添加歌词来创作歌曲。社区创作者已用其提供自定义音频引子来设定氛围、节奏和乐器灵感。该功能会阻止受版权保护作品的上传,且所有包含人声的输入将保持私密并不可搜索。

产品更新教程/实践语音

推荐理由:Suno 把上传录音做歌的门槛降到极低,对音乐创作者和普通用户都友好,只是这已经是前年的更新,之后的同类功能可能更完善。
5月14日
01:39
Sam Altman:Blog(RSS)
精选
GPT-4o

OpenAI 将 GPT-4o 向所有 ChatGPT 用户免费开放,无广告。全新语音(及视频)模式响应速度接近人类,表现力极强,被 Sam Altman 称为「用过最好的计算机界面」,像电影里的 AI。未来还将支持个性化、代操作等功能。

OpenAI多模态模型发布语音

推荐理由:Sam Altman 解读 GPT-4o 发布,强调语音交互与免费策略
2月8日
00:00
Suno:Blog(网页)
14
介绍 Suno 情人节体验

Suno推出情人节定制歌曲体验,用户可通过回答三个关于对象的问题,生成三首个性化歌曲。该体验免费,灵感源自混音带艺术,旨在传递情感联结。用户可在vdaysong.com尝试,分享作品至社交媒体并@Suno,有机会赢取鲜花及三个月Premier计划免费使用权。

产品更新语音
‹ 上一页
123
下一页 ›