AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
AI HOT
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月12日
05:33
🚨 AI News | TestingCatalog@testingcatalog
61
Thinking Machines公司宣布推出新型实时语音交互模型的研究预览。该模型被定义为"交互模型",其核心设计理念是让人工智能能够像人类一样,同时进行交谈、倾听、观察、思考和协作,实现原生、实时的多模态交互,而非依赖外部架构拼接。初步研究展示了其在交互能力上的质变性突破,并在智能性与响应速度的综合性能上达到了当前最优水平。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

模型发布语音
04:03
🚨 AI News | TestingCatalog@testingcatalog
52
谷歌持续为其即将推出的Gemini Omni模型做发布准备。 > Gemini Omni模型也将通过API提供 > 该模型将被视为智能体,类似于AI Studio上的深度研究功能 快了吗?👀 附:提醒一下,Nano Banana 1并未优于Imagen v4
Google多模态模型发布
01:39
The Decoder:AI News(RSS)
66
Baidu的Ernie 5.1在性能比肩顶尖模型的同时,将预训练成本削减94%

百度发布其对话机器人Ernie的最新版本5.1。该模型采用“Once-For-All”方法,仅使用前代模型三分之一的参数量,其预训练成本仅为同类模型的6%,实现了94%的成本削减。在Search Arena排行榜上,Ernie 5.1位列全球第四,排名仅次于两个Claude Opus变体和GPT-5.5 Search。

搜索数据/训练模型发布
5月11日
23:33
🚨 AI News | TestingCatalog@testingcatalog
55
谷歌即将推出的Gemini Omni视频模型在视频编辑方面预计将显著进步,能够完成去除水印、替换视频中物体等复杂任务。该模型可能发布两个版本,包括一个Pro变体。引用推文展示了该模型的实际编辑效果,对比了原始视频与编辑后的视频,并证实其在去除水印方面表现优异。

Just a dragon: 🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new ...

Google多模态模型发布视频
22:23
Chubby♨️@kimmonismus
64
天哪,谷歌正在放大招! 新的视频模型/Gemini Omni 简直好得离谱且精准。 YouTube 和 TikTok 将涌现大量新的 AI 生成视频。

Chetaslua: Holllllyyyyyyyy @GeminiApp cooked 😳😳 🚨 Gemini Omni: New video model Here is the first output and see the text coheren...

Google模型发布视频
22:00
OpenRouter@OpenRouter
精选69
AntLingAGI发布了其万亿参数旗舰"思考模型"Ring-2.6-1T,该模型在5月15日前可通过OpenRouter免费使用。其核心特性包括可调节的思考强度,能动态平衡认知深度、token成本和执行速度;专为智能体优化,适用于高频工作流,提供快速的多步执行和工具调用;并具备深度思考能力,以应对严密的数学逻辑和科学研究任务。模型旨在满足实际生产环境中复杂任务的需求。

Ant Ling: We are launching Ring-2.6-1T, a trillion-parameter flagship thinking model engineered for real-world complex tasks and p...

智能体推理模型发布

推荐理由:万亿参数的思维模型免费到5月15日,可调思考力度的设计很接地气,做agent的可以趁窗口压测一下,看看它能不能扛住真实生产环境。
18:39
SenseTime@SenseTime_AI
精选72
SenseNova U1图像生成模型登陆ComfyUI平台

SenseNova U1图像生成模型现已在ComfyUI上可运行,并获得包括REBEL AI在内的评测者高度认可。REBEL AI发布的实践教程展示了该模型的部署工作流,并对其图像生成能力进行了真实场景测试。模型支持8步快速推理,生成速度极快,应用场景涵盖人像、超现实艺术、文字标志和生物设计等。相关资源已在Hugging Face、GitHub和Discord平台开放。

GitHubHugging Face图像生成模型发布
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
推荐理由:商汤把新模型U1的ComfyUI部署流程完整放出,还有实测视频,想在自己机器上跑国产图像模型的开发者可以直接抄作业了。
17:51
Tencent Hy@TencentHunyuan
精选63
腾讯混元Hy3预览版已开放早期体验,被描述为该系列最强模型。其核心设计面向现实世界有效性,而非单纯追求基准测试分数。模型具备处理复杂智能体任务的能力,采用256K上下文长度,并融合了快慢思维机制的混合专家架构。该模型基于重建的预训练和强化学习基础设施构建,旨在实现大规模应用下的高成本效益。

Python Space: Got early access to Tencent's Hy3 preview. This is the strongest model in the Hy series. Built on rebuilt pre-training a...

智能体推理模型发布
关联讨论 3 条IT之家(RSS)X:邵猛 (@shao__meng)X:karminski (@karminski3)
推荐理由:腾讯混元Hy3 preview强调真实世界有效性而非跑分,256K上下文加快慢思考MoE架构,做agent任务的开发者值得留意它怎么处理长链条推理。
14:32
🚨 AI News | TestingCatalog@testingcatalog
61
Google I/O曝光Gemini Omni视频模型新证据

在Google I/O期间,Gemini移动应用中发现了即将推出的Gemini Omni视频模型的新证据。该模型被描述为“我们的新视频模型”,功能包括混剪视频、在聊天中直接编辑以及使用模板等。分析指出,这可能是基于Gemini的真正“Omni”模型,而非Veo。早期测试显示,该模型会快速消耗使用额度,且网络和移动端应用都将新增一个“使用情况”标签页来追踪用量。

Google多模态模型发布视频
5月10日
16:58
OpenCode@opencode
精选64
OpenCode x Ring 2.6 1T - 限时免费开放 256K上下文 • 推理能力 • 纯文本模型 感谢 @AntLingAGI 和 @novita_labs 提供模型支持
推理模型发布

推荐理由:OpenCode 联手 Ring 扔出个 256K 上下文的推理模型还限时免费,对搞长文本推理的人来说是个不错的捡漏机会,可以立刻跑起来试试。
00:51
Alibaba Cloud@alibaba_cloud
精选69
基准测试排名第一。闪电速度。原生音视频同步。 排队等待AI视频的时代结束了。HappyHorse现已在阿里云Model Studio上线。当别人还在渲染时,你已完成。 立即构建:https://int.alibabacloud.com/m/1000412167/
多模态模型发布视频
关联讨论 3 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)
推荐理由:阿里云放出的 HappyHorse 视频模型,benchmark 拿第一还带原生音画同步,如果真像标题说的“别人还在渲染它已经好了”,那做视频的值得上 ModelStudio 试一下。
5月9日
20:51
Chubby♨️@kimmonismus
64
百度ERNIE 5.1以极低预训练成本逼近SOTA

百度发布的ERNIE 5.1模型基于ERNIE 5.0预训练基础,宣称在搜索、推理、知识问答、创意写作和智能体能力方面获得提升,而其预训练成本仅为同类可比模型的约6%。该模型在Arena搜索排行榜以1223分位列第四,ERNIE 5.1 Preview在LMArena Text上取得1476分,全球排名第十三。推文作者指出目前未见技术论文,需验证其宣称的低成本高性能表现,但若属实将意义重大。

Baidu Inc.: ERNIE 5.1 just dropped. Built on ERNIE 5.0's pre-training foundation, our latest foundation model upgrades search, reaso...

推理搜索模型发布
18:43
Berryxia.AI@berryxia
72
百度发布ERNIE 5.1模型,实现参数与成本的极致压缩

百度推出ERNIE 5.1模型,核心突破在于参数与成本的大幅压缩。其总参数和激活参数分别压缩至原规模的约1/3和1/2,预训练成本仅为同规模模型的约6%,同时保持了领先性能。模型在Agent能力上超越DeepSeek-V4-Pro,世界知识与创意写作接近领先闭源模型及Gemini 3.1 Pro,推理能力仅次于Gemini 3.1 Pro,深度搜索位列全球第四。技术创新包括提升参数效率的弹性预训练、增强可扩展性的异步强化学习训练等。模型已上线ERNIE平台和Baidu AI Studio。

ERNIE for Developers: ERNIE 5.1 is here 🚀 ERNIE 5.1 significantly reduces pretraining cost while compressing total parameters to ~1/3 and act...

智能体推理数据/训练模型发布
关联讨论 1 条X:百度 Baidu (@Baidu_Inc)
16:29
🚨 AI News | TestingCatalog@testingcatalog
72
百度发布了基于ERNIE 5.0预训练基础的最新大模型ERNIE 5.1预览版。该模型在搜索、推理、知识问答、创意写作和智能体能力方面进行了升级。根据官方引用信息,ERNIE 5.1在Search Arena的全球搜索排行榜上位列第四,得分为1223分。这一排名反映了其更强的多源检索与信息综合能力,有助于在内容生成、AI助手、企业知识管理和智能体应用中提供更一致、可靠的答案。

Baidu Inc.: ERNIE 5.1 ranked No. 4 globally on @arena's Search Leaderboard, with a score of 1,223. That ranking reflects stronger mu...

智能体搜索模型发布
关联讨论 1 条X:百度 Baidu (@Baidu_Inc)
15:19
Baidu Inc.@Baidu_Inc
精选73
ERNIE 5.1 刚刚发布。 基于 ERNIE 5.0 的预训练基础,我们最新的基础模型升级了搜索、推理、知识问答、创意写作和智能体能力,而预训练成本仅需对标模型的约 6%。 更多内容详见主题帖 🧵
智能体推理搜索模型发布
关联讨论 1 条X:百度 Baidu (@Baidu_Inc)
推荐理由:百度说只用同类模型 6% 的训练成本就做到了搜索、推理、创作等能力升级,这个效率数字如果属实,对那些被天价训练成本吓退的团队是个信号。
12:35
StepFun@StepFun_ai
精选69
StepFun 推出的 StepAudio 2.5 TTS 在 Artificial Analysis 语音竞技场盲测排行榜中位列全球第三,Elo 评分为 1187 分,仅次于 Inworld TTS 1.5 Max 与 Google Gemini 3.1 Flash TTS。该模型语音自然度较前代显著提升,并以 8 分优势超越 Eleven v3。其定价为每百万字符 85 美元,生成速度为每秒 37.6 字符,并提供了全局上下文提示和行内情感标签两种语音控制方式。

Artificial Analysis: StepFun's new StepAudio 2.5 TTS ranks #3 on the Artificial Analysis Speech Arena Leaderboard, only behind Inworld's Real...

模型发布评测/基准语音

推荐理由:国产 TTS 首次在盲测里干进全球前三,还压过了 Eleven v3。做语音产品的该把它放进候选名单了,虽然定价偏贵但质量确实能打。
11:29
IT之家(RSS)
69
百度发布文心大模型 5.1:搜索能力位居国内首位,预训练成本仅为业界 6%

百度发布新一代基础大模型文心大模型5.1,并已在千帆模型广场等平台上线。该模型采用“多维弹性预训练”技术,仅以业界同规模模型约6%的预训练成本,实现了基础效果的领先。在国际权威竞技场LMArena的搜索榜上,文心5.1位列国内第一、全球第四。其综合能力显著提升,Agent能力实现超越,创意写作与推理能力已接近或达到业界领先水平。

智能体搜索模型发布
11:29
IT之家(RSS)
68
蚂蚁集团百灵发布万亿级旗舰思考模型 Ring-2.6-1T:限时一周免费体验,引入 Reasoning Effort 机制

蚂蚁集团旗下百灵大模型发布万亿级思考模型 Ring-2.6-1T,专为处理真实复杂任务设计。该模型创新引入可调节 Reasoning Effort 机制,提供 high 和 xhigh 两种推理强度。high 模式适用于高频 Agent 工作流,注重低 Token 开销与快速多步执行;xhigh 模式则面向数学、科研等需要深度逻辑分析与多路径探索的高难任务。模型兼具快速多步执行、工具协调能力及 SOTA 稳定性。目前已在 OpenRouter 平台上线,开放限时一周免费体验。

推理模型发布
10:29
IT之家(RSS)
66
阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime,支持情绪感知与人设自定义

阶跃星辰发布新一代实时语音大模型StepAudio 2.5 Realtime,现已全量上线。该模型能感知语调、语速等“副语言”信息以识别用户情绪,动态调整回应以提升对话真实感。开发者可通过API精细定制AI角色的性格、背景等,其能力基于超万个原生人设生成的百万级特征矩阵训练,并针对角色一致性进行了强化。模型在对话能力上强调智商与情商的双重提升,可应对从闲聊到专业面试等多种场景。据2026年4月评测,其主观对话体验与语音问答基准得分均领先于同期竞品。

多模态模型发布评测/基准语音
09:00
公众号:蚂蚁百灵(Ling)
精选56
Ring-2.6-1T 正式发布

Ring-2.6-1T 是一款万亿级旗舰思考模型,引入可调节的 Reasoning Effort 机制,支持 high 与 xhigh 两种推理强度。high 模式面向高频 Agent 工作流,xhigh 面向数学、科研等复杂任务。评测中,high 模式 PinchBench 得分 87.60,Tau2-Bench Telecom 95.32;xhigh 模式 ARC-AGI-V2 得分 77.78,AIME 26 得分 95.83,GPQA Diamond 88.27。模型已上线 OpenRouter,近期将开源。

智能体推理模型发布

推荐理由:蚂蚁百灵这个万亿模型能调思考深度,PinchBench跑分压过了GPT-5.4和Claude-Opus-4.7,做Agent工作流时既快又省token,值得试一下。
08:20
Artificial Analysis@ArtificialAnlys
67
StepAudio 2.5 TTS跻身语音合成榜前三

StepFun的StepAudio 2.5 TTS在Artificial Analysis语音竞技场排行榜位列第三,仅次于Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS。该模型Elo评分达1187分,在测试集上已超越Eleven v3,语音自然度显著提升。其定价为每百万字符85美元,高于头部竞品;生成速度为每秒37.6字符。模型提供全局上下文提示和行内情感标签两种控制路径,可精细调节语音风格与韵律。

模型发布语音
02:34
Hugging Face:Blog(RSS)
52
CyberSecQwen-4B 发布:防御性网络安全专用小模型

CyberSecQwen-4B 是基于 Qwen3-4B-Instruct-2507 微调的 4B 参数防御性网络安全模型,在 CTI-Bench 上以半参数(4B vs 8B)对标 Cisco Foundation-Sec-Instruct-8B:CTI-MCQ 得分 0.5868,领先 8.7 个百分点;CTI-RCM 得分 0.6664,保留后者 97.3% 的准确率。可运行于单张 12 GB 消费级 GPU,训练使用 AMD Instinct MI300X,LoRA 微调(r=64, lr=5e-5),数据来自 MITRE/NVD 的 2021 CVE→CWE 映射及合成分析师问答,以 Apache-2.0 许可发布。专为需本地部署的敏感安全场景设计。

Hugging Face安全/对齐开源生态模型发布
01:54
Ant Ling@AntLingAGI
精选78
Ring-2.6-1T发布:万亿参数思维模型专为复杂任务设计

Ring-2.6-1T是一款万亿参数的旗舰思维模型,专为现实世界复杂任务和生产环境构建。该模型具备可调节思维努力功能,通过动态计算机制灵活平衡认知深度、token成本和执行速度。它针对代理优化,适用于高频工作流,提供快速多步执行和工具编排,并具有SOTA稳定性。深度思维特性解锁了模型的最大能力上限,特别适合严格数学逻辑和科学研究。

智能体推理模型发布

推荐理由:蚂蚁憋了个万亿参数的大家伙,而且把可调思考和 Agent 优化当主打,明显是冲着生产级落地的,做 agent 的可以盯一下实际推理成本。
00:34
Hugging Face:Blog(RSS)
精选72
EMO:为涌现模块化预训练的专家混合模型

EMO是一种新型专家混合模型,通过端到端预训练使模块化结构直接从数据中涌现,无需依赖人类定义的先验。该模型允许在特定任务中仅使用12.5%的专家子集(即8个活跃专家中的部分),同时保持接近全模型的性能;当所有128个专家共同使用时,它仍作为强大的通用模型。EMO具有1B活跃参数和14B总参数,训练数据达1万亿令牌。与标准MoE相比,EMO通过文档级路由约束,鼓励专家形成领域专业化组,从而支持选择性使用而不导致严重性能下降,实现了可组合架构,优化了大型稀疏MoE的内存-准确性权衡。

Hugging Face开源生态数据/训练模型发布

推荐理由:EMO 让 MoE 专家从按词法分散进化到按语义域自然模块化,仅用 12.5% 专家就能接近全模型性能,对需要按需加载的大模型部署是真正的突破。
5月8日
19:18
The Decoder:AI News(RSS)
61
OpenAI 向通过审查的安全研究人员开放 GPT-5.5-Cyber

OpenAI 发布了专门用于网络安全的新模型 GPT-5.5-Cyber。该模型显著降低了安全请求的拒绝率,并能主动对测试服务器执行漏洞利用。目前访问权限仅限于经过验证的关键基础设施防御者,包括思科、CrowdStrike 和 Cloudflare 等合作伙伴。GPT-5.5-Cyber 将直接与 Anthropic 的 Mythos Preview 模型展开竞争。

OpenAI安全/对齐模型发布
13:36
Hacker News 热门(buzzing.cc 中文翻译)
57
ZAYA1-8B 在数学计算方面与 DeepSeek-R1 表现相当,且活跃参数少于 10 亿

ZAYA1-8B 是一个新发布的开源人工智能模型,在数学计算任务中性能与 DeepSeek-R1 相当。该模型的活跃参数数量少于10亿,突显了在保持高性能的同时实现更高参数效率的突破。这一进展意味着模型在计算资源和存储需求上更为高效,可能降低部署成本并加速推理过程,为资源受限环境提供实用解决方案。ZAYA1-8B 的开发展示了在AI模型优化领域的重要进步,其开源性质有望推动进一步研究和应用。

DeepSeek推理模型发布编码
11:05
Greg Brockman@gdb
68
GPT-5.5-Cyber现已面向关键基础设施防护人员开放有限预览。 这是一个非常强大的模型。

fouad: Today, we're rolling out GPT-5.5-Cyber in limited preview to defenders responsible for securing critical infrastructure....

OpenAI安全/对齐模型发布
11:05
Eric@ericmitchellai
精选85
OpenAI在API中正式推出GPT-Realtime-2,这是其迄今为止最智能的语音模型,为语音智能体引入了GPT-5级别的推理能力。该模型使语音智能体能够成为实时协作者,在对话展开过程中聆听、推理并解决复杂问题。同时发布的还有流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper,共同构成了一套面向下一代语音界面的全新音频能力组合。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音
关联讨论 7 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)X:宝玉 (@dotey)X:OpenAI (@OpenAI)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Greg Brockman (@gdb)
推荐理由:OpenAI首次把GPT-5级推理塞进实时语音模型,音频原生智能不再是demo玩具,做语音agent的团队今天就可以在API里调用。
10:16
IT之家(RSS)
57
商汤发布日日新 SenseNova 6.7 Flash-Lite 多模态模型,Token Plan 限时免费

商汤科技推出新一代轻量化多模态模型“日日新 SenseNova 6.7 Flash-Lite”。该模型采用原生多模态架构,能直接理解网页、文档和图表,提升复杂任务处理效率。它取消了视觉转文本中间层,以更小参数量实现能力跨越,在权威测试中取得多项同级别SOTA,并在信息搜索等场景中比纯文本智能体降低60%的Token消耗。同时,商汤推出限时免费的SenseNova Token Plan,为开发者提供首月无门槛调用额度,并将其全线办公技能SenseNova-Skills在GitHub开源。

多模态开源生态模型发布
09:43
Tibo@thsottiaux
精选83
我们正在众目睽睽之下构建通用人工智能 【引用 @OpenAI】:在API中推出GPT-Realtime-2:这是我们迄今为止最智能的语音模型,为语音代理带来GPT-5级别的推理能力。 语音代理现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper一同在API中提供--为新一代语音界面带来全新的音频能力。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI推理模型发布
关联讨论 7 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)X:宝玉 (@dotey)X:OpenAI (@OpenAI)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Greg Brockman (@gdb)
推荐理由:GPT-5 级推理放到实时语音里,语音代理从听懂话到真正协作的分水岭,做语音产品的都该立刻试一下。
09:40
Sam Altman@sama
62
我们希望能帮助企业加强安全防护,并认为尽快开展这项工作至关重要

fouad: Today, we're rolling out GPT-5.5-Cyber in limited preview to defenders responsible for securing critical infrastructure....

OpenAI安全/对齐模型发布
09:16
IT之家(RSS)
精选70
OpenAI 最智能 AI 语音模型:GPT-Realtime-2 登场,GPT-5 级推理能力

OpenAI 发布三款集成于Realtime API的实时语音模型,旨在解决语音交互中的延迟、打断处理和多语言支持难题。其中,GPT-Realtime-2具备GPT-5级推理能力,可在对话中进行推理、调用工具并处理打断,音频输入输出分别按每百万Token 32美元和64美元计费。GPT-Realtime-Translate支持70种输入语言同步翻译为13种输出语言,每分钟0.034美元。GPT-Realtime-Whisper提供低延迟流式转录,每分钟0.017美元。这些模型为开发复杂语音助手、实时翻译和转录应用提供了底层技术支持。

OpenAI推理模型发布语音
关联讨论 7 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)X:宝玉 (@dotey)X:OpenAI (@OpenAI)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Greg Brockman (@gdb)
推荐理由:GPT-Realtime-2 把 GPT-5 级的推理塞进了实时语音里,不是简单的语音转文字,是能打断、能纠错、能执行多步任务的真·语音助手能力。做语音产品的人现在就该去读接口文档。
07:39
meng shao@shao__meng
精选80
OpenAI 发布三款实时语音新模型,推动语音交互向任务执行演进

OpenAI 在 Realtime API 中推出三款新模型,将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力,支持边听边思考、并行调用工具并完成任务,关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译,GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式,旨在构建下一代语音协作智能体。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI多模态推理
关联讨论 7 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)X:宝玉 (@dotey)X:OpenAI (@OpenAI)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Greg Brockman (@gdb)
推荐理由:GPT-5级推理首次进入实时语音API,语音agent从此能边听边推理边调工具,不再只是问答。Zillow呼叫成功率从69%拉到95%,做语音产品的该认真看看了。
06:21
Berryxia.AI@berryxia
精选83
OpenAI推出GPT-Realtime-2,将语音AI能力提升至GPT-5级别

OpenAI在API中正式发布GPT-Realtime-2,称其为目前最智能的语音模型,为语音代理赋予了GPT-5级别的推理能力。该模型能实现真正的实时协作,在对话过程中同步完成聆听、思考与复杂问题解决,使交互如真人般自然流畅。同时发布的还有支持70多种语言的实时翻译模型GPT-Realtime-Translate,以及实时转录字幕模型GPT-Realtime-Whisper。这一系列音频能力共同定义了下一代语音界面,标志着语音AI从“辅助工具”向“实时智能伙伴”的跨越。OpenAI还预告了ChatGPT语音功能的重大更新即将到来。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音
关联讨论 7 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)X:宝玉 (@dotey)X:OpenAI (@OpenAI)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Greg Brockman (@gdb)
推荐理由:OpenAI把GPT-5级别的推理塞进实时语音,以前语音代理的「背台词」感被终结了,做语音应用的人今天就能上手试API。
06:21
Berryxia.AI@berryxia
67
Google发布最划算AI模型,成本速度双优

能不能卷过DeppSeek v4-flash 啊! Google继续把AI成本卷到地板上了。 Gemini 3.1 Flash-Lite正式更新,这才是他们目前最划算的模型,专门为高体积agent任务、翻译和简单数据处理优化,价格低到离谱,速度还快得吓人。 以前大家卷参数、卷智能,现在Google直接告诉你:真正能跑通高频workflow的,是这种又便宜又稳的“轻量怪”。

Google AI Studio: gemini 3.1 flash-lite is here it's our most cost-efficient model, optimized for high-volume agentic tasks, translation, ...

智能体Google模型发布
05:49
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选74
Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber

OpenAI扩展了网络安全领域的可信访问计划,推出了GPT-5.5和专门针对网络安全的GPT-5.5-Cyber模型。此举旨在帮助经过验证的网络安全防御者加速漏洞研究,并加强对关键基础设施的保护。新模型将为安全专业人员提供更强大的AI工具支持。

OpenAI安全/对齐模型发布

推荐理由:GPT-5.5 正式登场,首秀是给安全防御者用的,Trusted Access 机制把模型和真实漏洞环境连起来,做网络安全的可以关注,其他人先看看。
04:35
Artificial Analysis@ArtificialAnlys
73
OpenAI发布GPT-Realtime-2语音模型,在多项基准测试中领先

OpenAI发布新一代旗舰语音模型GPT-Realtime-2。其在语音推理基准Big Bench Audio上取得96.6%的成绩,与Gemini 3.1 Flash持平,较此前最佳结果提升约13%。该模型同时在对话动态基准中保持领先,最小推理努力变体得分96.1%,尤其在停顿处理和轮转测试中表现突出。新模型支持从最小到xHigh的可调节推理努力等级,上下文窗口从32K增至128K,并支持文本、音频和图像输入,音频定价保持不变。

OpenAI推理模型发布语音
关联讨论 7 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)X:宝玉 (@dotey)X:OpenAI (@OpenAI)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Greg Brockman (@gdb)
03:42
TestingCatalog News 🗞@testingcatalog
59
AVM 2 目前正在开发中 🚧 历史上,AVM 更新都安排在 Google I/O 的前一天 快了吗?@sama 👀👀👀

TestingCatalog News 🗞: OPENAI 🚨: 3 new models are now available on OpenAI Playground and APIs. - gpt-realtime 2 - gpt-realtime-whisper - gpt-r...

OpenAI模型发布语音
03:12
TestingCatalog News 🗞@testingcatalog
64
GOOGLE 🚨: Gemini 3.1 Flash Lite 现已全面开放!用户也可以在 AI Studio 上测试此模型。 > Flash-Lite 专为超低延迟、高吞吐量任务和无可比拟的成本效益而设计,已经在改变大规模应用的构建方式。

Google AI Studio: gemini 3.1 flash-lite is here it's our most cost-efficient model, optimized for high-volume agentic tasks, translation, ...

智能体Google模型发布
03:10
Sam Altman@sama
精选79
人们真的开始用语音与AI互动了,尤其是在需要输入大量上下文时。 GPT-Realtime-2今天登陆API;这是相当大的一步前进。 (我们正在改进聊天中的语音功能。)
OpenAI模型发布语音
关联讨论 7 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)X:宝玉 (@dotey)X:OpenAI (@OpenAI)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Greg Brockman (@gdb)
推荐理由:Sam Altman亲自宣布GPT-Realtime-2 API上线,语音交互正在从尝鲜变刚需,尤其当用户开始「倾倒大量上下文」,做语音产品的该认真考虑了。
‹ 上一页
1…1213141516…23
下一页 ›