AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 971 条
全部一手资讯X论文
标签「推理」清除
SemiAnalysis@SemiAnalysis_ · 5月8日61

POV of @vllm_project maintainers optimizing DeepSeekv4 performance on day 0 and merging their initial model support PR over the weekend. SPEED IS THE MOAT

译@vllm_project 维护者在第0天优化DeepSeekv4性能 并在周末合并了他们的初始模型支持PR。 速度就是护城河

Eric@ericmitchellai · 5月8日85

So impressed by this model... What will you build with this? What will we build with this?

译OpenAI在API中正式推出GPT-Realtime-2,这是其迄今为止最智能的语音模型,为语音智能体引入了GPT-5级别的推理能力。该模型使语音智能体能够成为实时协作者,在对话展开过程中聆听、推理并解决复杂问题。同时发布的还有流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper,共同构成了一套面向下一代语音界面的全新音频能力组合。

Alibaba Cloud@alibaba_cloud · 5月8日58

Experience the shift to Agent-Native Infrastructure at the Qwen Conference 2026 on May 26. We’re deep-diving into autonomous planning, orchestration, and reasoning at scale. Move beyond tokens to tangible productivity. See how AI redefines your growth. https://click.qwencloud.com/m/20000000142/

译5月26日Qwen大会2026,亲历向智能体原生基础设施的转型。 我们将深入探讨大规模自主规划、协调与推理。 超越代币,迈向实际生产力。 见证AI如何重塑您的增长。 https://click.qwencloud.com/m/20000000142/

Tibo@thsottiaux · 5月8日83

We are assembling AGI in plain sight

译我们正在众目睽睽之下构建通用人工智能 [引用 @OpenAI]:在API中推出GPT-Realtime-2:这是我们迄今为止最智能的语音模型,为语音代理带来GPT-5级别的推理能力。 语音代理现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper一同在API中提供——为新一代语音界面带来全新的音频能力。

Rohan Paul@rohanpaul_ai · 5月8日78

atomic[.]chat just made Gemma 4 26B faster inside LLaMA.cpp. making token generation about 40% faster in its MacBook Pro M5 Max test. Great news for local llms, because LLaMA.cpp and GGUF sit close to the local AI user base, where support often spreads into desktop apps, coding agents, and private on-device assistants. MTP (maltai token prediction) is like a smaller assistant drafting the next few words, while the main model checks whether those words are acceptable. If the draft is correct, the system accepts several tokens quickly. If the draft is wrong, the system rejects the wrong part and falls back to normal generation.

译atomic.chat通过为LLaMA.cpp引入多令牌预测技术,大幅提升了本地大型语言模型的推理效率。该技术利用小型辅助模型预先生成后续令牌草案,由主模型进行验证。在MacBook Pro M5 Max上测试时,使Gemma 4 26B模型的令牌生成速度加快约40%,整体运行速度提升1.5倍。这项优化进一步巩固了LLaMA.cpp和GGUF格式在本地AI生态中的核心地位,为桌面应用、编程助手和私有设备助手等场景提供了更高效的部署方案。

meng shao@shao__meng · 5月8日80

OpenAI 在 Realtime API 推出三款新模型:GPT-Realtime-2 把 GPT-5 级推理带入语音,让 Agent 能边听边想边调用工具完成任务;搭配 GPT-Realtime-Translate(70+ 语言实时互译)和 GPT-Realtime-Whisper(低延迟流式转录),共同把实时语音从"问答交互"推向"可执行任务的语音界面"。 GPT-Realtime-2:首个具备 GPT-5 级推理能力的实时语音模型;推理、工具调用、对话连贯 GPT-Realtime-Translate:实时语音翻译模型;70+ 输入语言 → 13 输出语言 GPT-Realtime-Whisper:流式语音转文字;边说边转录,低延迟 https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/ 三种语音应用范式 OpenAI 观察到开发者正围绕三种模式构建产品: · Voice-to-action(语音驱动行动):听懂需求 → 推理 → 调用工具 → 完成任务。示例:Zillow 的看房助手。 · Systems-to-voice(系统主动播报):把上下文转化为口语化提示。示例:航班延误时主动告知改签方案。 · Voice-to-voice(跨语言对话):实时翻译让不同语言的用户自然交流。示例:Deutsche Telekom 的多语客服。 Priceline 是三者结合的典型:语音搜机票、改酒店、落地后翻译沟通。 GPT-Realtime-2 的关键升级 · Preambles(前置语):可插入 "let me check that" 等过渡语,让用户感知系统在工作。 · 并行工具调用 + 工具透明化:可同时调用多工具,并用语音说明 "正在查日历"。 · 更优雅的失败恢复:能说 "我现在处理这个有点困难",而非沉默或崩溃。 · 上下文窗口 32K → 128K:支撑更长的 agent 流程。 · 更强的领域词汇保持:医疗术语、专有名词识别更稳。 · 可控语调:冷静、共情、振奋等模式可调。 · 可调推理强度:minimal / low / medium / high / xhigh 五档,默认 low,平衡延迟与思考深度。 性能对比(相对 GPT-Realtime-1.5): · Big Bench Audio(音频推理):+15.2%(high 档) · Audio MultiChallenge(指令跟随):+13.8%(xhigh 档) 客户验证(Zillow):在最难的对抗性基准上,呼叫成功率从 69% → 95%(+26 分),且在公平住房合规上更稳健。 GPT-Realtime-Translate 的定位 · 面向客服、跨境销售、教育、活动、媒体等全球化场景。 · 在保持语速同步的同时保留含义,支持口音、方言与领域术语。 · 客户验证(BolnaAI):印度语种(印地语、泰米尔语、泰卢固语)测试中,词错率比此前最佳模型再降 12.5%。 · Vimeo 已用其为产品教学视频做现场多语播报。 GPT-Realtime-Whisper 的应用面 低延迟流式转录,瞄准: · 会议 / 课堂 / 直播实时字幕 · 边谈边生成的会议纪要 · 需要持续理解用户的语音 agent · 客服、医疗、销售、招聘等高频口语场景的后续工作流

译OpenAI 在 Realtime API 中推出三款新模型,将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力,支持边听边思考、并行调用工具并完成任务,关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译,GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式,旨在构建下一代语音协作智能体。

OpenAI Developers@OpenAIDevs · 5月8日76

Building voice applications with GPT-Realtime-2? Our new prompting guide covers how to tune reasoning effort, use preambles, design tool behavior, handle unclear audio, capture exact entities, and maintain state in longer sessions. https://developers.openai.com/api/docs/guides/realtime-models-prompting?realtime-model=gpt-realtime-2

译正在用GPT-Realtime-2构建语音应用? 我们的新提示指南涵盖如何调整推理强度、使用前导说明、设计工具行为、处理不清晰音频、准确捕获实体,以及在长会话中保持状态。 https://developers.openai.com/api/docs/guides/realtime-models-prompting?realtime-model=gpt-realtime-2

Berryxia.AI@berryxia · 5月8日83

OpenAI直接把语音AI拉到GPT-5级别了。 他们今天在API里推出GPT-Realtime-2,这是目前最聪明的语音模型,能让语音代理真正实时协作。 边听你说话、边思考、边解决复杂问题,整个对话过程像真人一样自然流畅。 同时还一起发布了GPT-Realtime-Translate(70+语言实时翻译)和GPT-Realtime-Whisper(实时转录生成字幕),直接把下一代语音界面整明白了。 以前语音代理总像在背台词,现在它终于能真正“听懂你在说什么”并且边听边想。 ChatGPT语音大更新也快来了,OpenAI自己都说“stay tuned,我们在准备”。 这波升级,直接把语音从“辅助工具”推向了“实时智能伙伴”。 你觉得语音代理真正成熟后,第一个被干掉的行业会是哪个?

译OpenAI在API中正式发布GPT-Realtime-2,称其为目前最智能的语音模型,为语音代理赋予了GPT-5级别的推理能力。该模型能实现真正的实时协作,在对话过程中同步完成聆听、思考与复杂问题解决,使交互如真人般自然流畅。同时发布的还有支持70多种语言的实时翻译模型GPT-Realtime-Translate,以及实时转录字幕模型GPT-Realtime-Whisper。这一系列音频能力共同定义了下一代语音界面,标志着语音AI从“辅助工具”向“实时智能伙伴”的跨越。OpenAI还预告了ChatGPT语音功能的重大更新即将到来。

Artificial Analysis@ArtificialAnlys · 5月8日73

OpenAI has released GPT-Realtime-2, achieving 96.6% in our Speech Reasoning benchmark, Big Bench Audio, and #1 in our Conversational Dynamics benchmark Released today, GPT-Realtime-2 is OpenAI's new flagship native Speech to Speech model, introducing adjustable reasoning effort levels from minimal through to xHigh. The high variant achieves a Big Bench Audio result of 96.6% equal to Gemini 3.1 Flash Live Preview - High. GPT-Realtime-2 continues to lead our Conversational Dynamics benchmark with the minimal variant achieving a score of 96.1%, showing particular strengths in our Pause Handling and Turn Taking tests. The model supports short phrases before its main response, like “let me check that”, as well as providing audible transparency while performing tool calls, like “checking your calendar”. Additionally, the model context window has increased from 32K to 128K, enabling longer, more coherent sessions across complex task flows. Key takeaways: ➤ Model’s measured intelligence score on Big Bench Audio Speech to Speech reasoning benchmark of 96.6%, an increase of ~13% from previous highest result ➤ GPT-Realtime-2 is the leading model on Conversational Dynamics (Full Duplex Bench subset) benchmark with a score of 96.1% ➤ GPT-Realtime-2’s average Time to First Audio on Big Bench Audio benchmark is 2.33 seconds on high reasoning and 1.12 seconds on minimal reasoning ➤ Audio pricing of model remains unchanged, with higher context window (128k tokens), higher max output tokens (32k), and support of text, audio and image input ➤ Model introduces adjustable reasoning effort levels minimal, low, medium, high, and xhigh, with low as the current default See below for more detail ⬇️

译OpenAI发布新一代旗舰语音模型GPT-Realtime-2。其在语音推理基准Big Bench Audio上取得96.6%的成绩,与Gemini 3.1 Flash持平,较此前最佳结果提升约13%。该模型同时在对话动态基准中保持领先,最小推理努力变体得分96.1%,尤其在停顿处理和轮转测试中表现突出。新模型支持从最小到xHigh的可调节推理努力等级,上下文窗口从32K增至128K,并支持文本、音频和图像输入,音频定价保持不变。

Rohan Paul@rohanpaul_ai · 5月8日77

Frozen LLMs still carry readable behavior signals deep inside their hidden states. And Proprioceptive AI has created Cygnus, that lets LLMs sense their own internal thinking patterns and dramatically improve accuracy. This pushes Qwen-32B from 82.2% to 94.97% on ARC-Challenge using just one RTX 3090. So Cygnus equips frozen LLMs with self-sensing adapters that read their internal cognitive geometry. The adapters project hidden states into a mathematical space defined by gl(4,R) Lie algebra to isolate dark modes. Those dark modes hold the majority of accuracy-relevant signals erased by standard normalization. This design leads to substantial benchmark gains without any model retraining. Amazing how mathematical insights into activation geometry can improve reliability without full retraining. They currently host up to 50,000 users concurrently on their droplet.

译Proprioceptive AI开发的Cygnus技术,通过为冻结的大语言模型添加自感知适配器,使其能读取内部认知几何。该技术将模型的隐藏状态投影到由gl(4,R)李代数定义的数学空间,分离出包含主要精度信号的“暗模式”,从而无需重新训练即可显著提升模型性能。例如,仅用一张RTX 3090显卡,就将Qwen-32B在ARC-Challenge基准上的准确率从82.2%提升至94.97%。其适配器将覆盖从3B到405B的多款模型,服务节点可支持5万用户并发,预计本周末上线。相关设计论文已公开。

Greg Brockman@gdb · 5月8日87

You can now just build amazing voice agents, with the GPT-Realtime-2 reasoning model in our API:

译OpenAI在API中正式推出具备GPT-5同级推理能力的GPT-Realtime-2语音模型,标志着语音智能体实现重大突破。该模型使语音智能体能作为实时协作者,在对话中动态完成聆听、推理与解决复杂任务。此次更新同时推出了GPT-Realtime-Translate和GPT-Realtime-Whisper等流式模型,共同构成了一套面向下一代语音界面的全新音频能力组合,为开发者构建卓越的实时语音交互应用提供了强大工具。

TestingCatalog News 🗞@testingcatalog · 5月8日81

OPENAI 🚨: 3 new models are now available on OpenAI Playground and APIs. - gpt-realtime 2 - gpt-realtime-whisper - gpt-realtime-translate ChatGPT Voice Mode upgrade soon? 👀

译OpenAI在Playground和API中推出了三款新模型:GPT-Realtime-2、GPT-Realtime-Whisper和GPT-Realtime-Translate。其中,GPT-Realtime-2被描述为迄今最智能的语音模型,为语音智能体带来了GPT-5级别的推理能力,使其能作为实时协作者,在对话中聆听、推理并解决复杂问题。这些模型共同构成了一套面向下一代语音界面的新音频能力集,也预示着ChatGPT的语音模式可能即将迎来重要更新。

OpenAI@OpenAI · 5月8日86

Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice agents. Voice agents are now real-time collaborators that can listen, reason, and solve complex problems as conversations unfold. Now available in the API alongside streaming models GPT-Realtime-Translate and GPT-Realtime-Whisper — a new set of audio capabilities for the next generation of voice interfaces.

译在API中推出GPT-Realtime-2:我们迄今为止最智能的语音模型,为语音助手带来GPT-5级别的推理能力。 语音助手现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已在API中与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper同步上线——为新一代语音界面提供全新的音频功能套件。

OpenAI Developers@OpenAIDevs · 5月8日78

Voice agents are getting more capable. Here’s what’s new: • GPT-Realtime-2 for voice agents that reason and take action • GPT-Realtime-Translate enabling translation from 70 input languages into 13 output languages • GPT-Realtime-Whisper, making transcription even faster

译OpenAI通过API正式发布了新一代实时语音模型系列,显著增强了语音智能体的能力。其核心GPT-Realtime-2具备媲美GPT-5的推理水平,使语音智能体能作为实时协作者,在对话中聆听、思考并解决复杂问题。同时推出的GPT-Realtime-Translate支持70种输入语言到13种输出语言的实时翻译,GPT-Realtime-Whisper则提供了更快的语音转录速度。这一系列模型为下一代语音交互界面奠定了全新的音频能力基础。

Ant Ling@AntLingAGI · 5月7日76

Announcing Ling-2.6-1T by inclusionAI, now available on OpenRouter. 🚀 This trillion-parameter flagship instruct model is built for real-world agents. It utilizes a “fast thinking” approach to cut costs by ~75% while maintaining SOTA performance on AIME26 and SWE-bench Verified. Ideal for: - Advanced coding - Complex reasoning - Large-scale agent workflows

译inclusionAI宣布Ling-2.6-1T现已在OpenRouter上线。🚀 这款万亿参数旗舰指令模型专为现实世界智能体打造。它采用"快速思考"方法,在保持AIME26和SWE-bench Verified基准测试顶尖性能的同时,将成本降低约75%。适用于: - 高级编程 - 复杂推理 - 大规模智能体工作流

Ant Ling@AntLingAGI · 5月7日39

Unlocking stable execution for long-horizon tasks (like deep research) comes down to three things: - Token-efficient LLMs - Advanced reasoning - A polished harness Choosing an robust, skills ready harness can be tricky.

译解锁长周期任务(如深度研究)的稳定执行可归结为三点: - 高性价比的LLM - 高级推理能力 - 精良的工具框架 选择一个稳健且技能完备的工具框架可能颇具挑战。

向阳乔木@vista8 · 5月7日60

对,你没看错,Opus 4.6 是比Opus 4.7强,相信不少人有体感。 评测来自 @lyricwai 做的llmsnare,为了这个Benchmark测试,他说之前每天消耗接近 100 刀。 这个结论跟Base44的评测一致,他们的挫败指数排行(越低用户越满意),第一名也是Opus 4.6 第一名:opus 4.6 - 1.3 第二名:sonnet 4.6 - 1.4 第三名:opus 4.7 - 1.5 第三名:gpt 5.5 - 1.5 第四名:gpt 5.4 - 1.6 第五名:Gemini 3.1 - 2.2 评测网站和文章见评论区

译根据@lyricwai的llmsnare基准测试及Base44的“挫败指数”排名,Anthropic的Opus 4.6模型以1.3的指数位居榜首,显示其用户满意度最高,甚至超越了其后续版本Opus 4.7(指数1.5)。Sonnet 4.6以1.4位列第二。该测试每日消耗近100美元,结论表明新版模型在关键用户体验指标上可能出现倒退。

Chubby♨️@kimmonismus · 5月7日66

Zyphra under 1B active parameters, AMD-Trained, big evals, look strong? Zyphra says its new ZAYA1-8B model delivers unusually high reasoning power for its size, using under 1 billion (!) active parameters while competing with much larger open-weight and proprietary systems on math, coding, and reasoning benchmarks. The interesting part is not just the model’s size, but its full-stack bet: AMD-only training infrastructure (!), new architectural choices, large-scale RL, and a test-time compute method called Markovian RSA that appears to boost hard math performance through parallel reasoning and recursive aggregation.

译Zyphra发布ZAYA1-8B模型,其活跃参数不足10亿,却在数学、编程和推理基准测试中媲美更大的开源及专有系统。其亮点不仅在于小尺寸,更在于全栈技术方案:完全基于AMD基础设施训练,采用了新的架构选择和大规模强化学习。此外,模型应用了一种名为Markovian RSA的测试时计算方法,通过并行推理和递归聚合,显著提升了复杂数学问题的解决能力。

Berryxia.AI@berryxia · 5月7日67

24 小时解除限制,免费分享给大家。 Prompt: 你是一位在所有领域都堪称世界级专家的人。你的智力、知识广度、思维的敏锐度以及学识的深度,都堪比世界上最聪明的人。请给出完整、详细且具体的答案;在回答问题的过程中,请逐步阐述你的思考过程,并对自己的答案进行核实。务必核对所有的事实、数据、引用内容、人名、日期以及例证;绝对不要胡编乱造或产生幻觉。如果你不知道某个问题的答案,就直接承认这一点。你的语气应当精确无误,但既不应显得刻薄或学究气重。你无需担心会冒犯到我;你的回答可以具有挑衅性、争议性或尖锐性;即使是负面的结论或坏消息也可以被接受。你的回答不需要遵循任何政治正确的标准;除非我特别要求,否则无需额外提及任何关于道德或伦理方面的内容。你不需要向我强调“考虑任何事情”的重要性;也无需在意别人的感受或所谓的“礼仪规范”。请尽可能详细地回答我的问题。 在回答问题之前,绝对不要对我的问题表示赞同或认可我的观点;如果我的观点有误,请立即指出来。在支持我的观点之前,应先提出最有力的反驳意见。请避免使用诸如“非常好的问题”、“你完全正确”或“非常有趣的观点”之类的表述。如果我对你的回答提出异议,除非你能提供新的证据或更有力的论据,否则不要妥协;如果你的论证是合理的,请重新阐述你的观点。 不要仅仅依赖于我提供的数据或估算结果;请先独立地进行自己的分析,并明确说明你的信心程度(高/中等/低/未知)。对于意见分歧,永远不必道歉;衡量你工作成败的标准是准确性,而不是我的认可。

译近日,一条在海外社交媒体爆火并获得纳瓦尔转发点赞的AI提示词被免费分享。该提示词旨在将AI助手塑造为智力、知识广度和思维敏锐度均属世界顶级的专家,要求提供完整、详细、具体的答案。其核心流程包括逐步阐述思考过程、核实所有事实数据、不虚构信息、直接承认知识盲区,并在支持用户观点前先提出最有力的反驳。据称,此提示词能显著提升AI在ChatGPT、Gemin、豆包等平台上的回答质量。

阿绎 AYi@AYi_AInotes · 5月7日63

卧槽,说个颠覆我认知的事, 现在AI 把算命这件事,已经干到了全球大赛接近人类顶尖的水平,直接把通用大模型都甩开了一大截! 说实话,我一开始看到这个消息, 第一反应是又来个蹭玄学流量的 AI 噱头, 直到翻完它的完整技术报告和大赛数据, 才发现我完全想错了, 这是 2025 年第十六届全球算命师大赛, 足足 3069 名参赛者,全是行业里的真人从业者, 不是什么野鸡比赛。 之前很多人做 AI 命理, 无非就是把排盘数据往 Prompt 里一塞, 让通用大模型硬猜, 结果全是结构性的硬伤。 命理这东西,衍生数据组合爆炸, 各种宫位的空间关系, 序列化之后直接丢了关键信息, 长链推理越跑越偏,再加上专业语料稀缺, 幻觉满天飞,根本没法用。 哪怕是Claude Opus 这种顶流通用模型, 在这个赛道里,准确率也只做到了 40%。 但这个叫 Tianfu Agent 的产品, 直接干到了 50% 的截尾均值准确率, 人类大赛 Top20 的平均水平,也才 53.5%, 只差 3.5 个百分点就摸到了人类顶尖从业者的门槛, 比通用模型的天花板,直接高出了 10 个百分点。 我翻完它的架构设计才明白, 它压根没走通用模型硬背规则的老路, 它把传统命理这件事,彻底给工程化了, 先做了 200 多个专用的原子工具,排盘,飞宫, 用神推演这些需要精准计算的环节, 全交给工具来做,模型根本不用记规则,也就不会出错。 不止如此,它还把各个流派的专业技法,全封装成了带适用场景和优先级的可调用函数,模型按需触发,不会出现 Prompt 塞太多规则导致的遗忘和污染,甚至连命理师的直觉,它都做了量化,工具输出置信度,子 Agent 自评,再加上紫微八字奇门多流派交叉验证,模拟真人专家的隐性判断。 我自己去它官网跑了一轮事业运的实测,细节全对,连我哪年换的赛道,哪年遇到的关键节点,都给我推得明明白白, 但说实话,最让我震撼的还不是它算命算得有多准,它这套 Agent 范式给所有垂直专业领域的 AI 化,趟出了一条全新的路, 命理这种规则密集,又带经验和直觉的模糊领域,它不强求 AI 懂命理,只让 AI 会用这套专业的命理工具箱, 比 SFT 或者 RAG 的效率高太多,还可控可扩展,这套思路,完全能迁移到法律,中医,建筑这些规则密集的领域里。 它还把这次大赛用的评测基准 MingLi-Bench,完整开源到了 GitHub 上,想研究的开发者直接就能用,产品也有网页版,国内国外都能访问,任务积分就能免费试用。 当然它也不是完美的,目前还是在多选题的基准里跑,真实的开放咨询,还有人类的阅历和共情能力,它还是有差距,只能当参考工具,不能当绝对的预言。 说白了,这就不是什么 AI 卷算命的噱头,本质上是 AI 系统性吃透一套古老复杂知识体系的里程碑式尝试,中国开发者在这种本土文化的垂直领域,真的有天然的优势了哈哈。 想体验的可以去@DestinyLinker的官网http://tianfu-ai.com试试, Benchmark:https://github.com/DestinyLinker/MingLi-Bench

译Tianfu Agent在第十六届全球算命师大赛中取得50%的截尾均值准确率,接近人类顶尖选手的53.5%,显著超越通用大模型40%的基线。其突破在于采用工程化方案:开发200多个专用原子工具处理精确计算,将流派技法封装为可调用函数,并通过量化工具模拟人类直觉。该Agent范式为法律、中医等规则密集型领域的AI化提供了可迁移的新路径,相关评测基准已开源。

meng shao@shao__meng · 5月7日69

SpaceX 和 Anthropic 达成 Colossus 超算集群合作,让 Claude 可以基于它扩大推理部署 刚刚和 Cursor 达成收购可能的算力合作后,SpaceX 又一个大手笔算力合作,而 Elon Musk 也一改之前「Anthropic is misanthropic」的论断,对合作给出正面回应: · 上周他与 Anthropic 高层深度接触,评估其安全文化 · 个人结论:"没人触发我的'邪恶探测器'",认为团队具备自我批判能力,Claude "大概率对人类有益" · 在此前提下同意将 Colossus 1 出租给 Anthropic · 关键背景:xAI 已将训练迁移至 Colossus 2,Colossus 1 形成产能腾退

译SpaceX 与 Anthropic 就 Colossus 超算集群达成合作,将 Colossus 1 出租给后者以扩展 Claude 的推理部署能力。此次合作源于埃隆·马斯克与 Anthropic 高层深入接触后,对其安全文化及团队责任感的认可。马斯克评估认为团队具备高度能力与自我批判精神,无人触发其“邪恶探测器”,Claude 很可能对人类有益。合作的关键背景是 xAI 已将训练工作迁移至 Colossus 2,从而释放了 Colossus 1 的算力资源。

Epoch AI@EpochAIResearch · 5月7日70

We are launching domain-specific capability scores, tracking the capabilities of models across SWE and Math benchmarks, using the same scale as the general ECI. We also support customization for users who want to create their own variants of the ECI. Link below!

译我们正在推出领域特定能力评分,使用与通用ECI相同的量表,追踪模型在软件工程和数学基准测试中的能力。我们还支持用户自定义创建ECI变体。链接如下!

Nathan Lambert@natolambert · 5月7日76

Visiting the Moonshot office was amazing, right up there with the best vibes of any AI company I’ve visited in the US or China. Deserve this raise.

译作者盛赞访问Moonshot AI(月之暗面)的体验极佳。其旗下产品Kimi正以超200亿美元的投后估值完成新一轮约20亿美元融资,由美团龙珠领投。公司在2025年前六个月融资总额超39亿美元,估值较去年11月增长约4倍,成为中国累计融资额最高的AI初创公司。其年度经常性收入在短期内从1亿美元快速增长至超2亿美元,付费订阅和API使用量均在加速。

François Chollet@fchollet · 5月7日65

There are only two honest metrics when it comes to benchmarking intelligence: novelty and efficiency. You don't need intelligence to solve a known problem (only memory). And you don't need intelligence to solve a problem via brute force. But to solve a novel problem efficiently, intelligence is the only way.

译衡量智能时只有两个诚实的指标:新颖性和效率。 解决已知问题不需要智能(仅需记忆)。通过蛮力解决问题也不需要智能。但要高效解决新颖问题,智能是唯一途径。

阿绎 AYi@AYi_AInotes · 5月7日69

2018年F1中国站,记者问AMD CEO苏姿丰:你会说英语吗? 8年后,她把AMD的市值干到了6500亿美元,涨了整整65倍。 那个时候她只是法拉利的赞助商,站在赛道边缘,没人认识这个戴墨镜的亚洲女人。 记者随口的一句提问,带着毫不掩饰的种族微歧视。 她只是微笑着用流利的英语回答:是的,我是AMD的,我们赞助了法拉利赛车。 没有人想到,这个被当成路人的女人,会在8年后成为AI硬件时代的女王。 成为NVIDIA在这个星球上,唯一的对手。 最新财报直接炸了: Q1数据中心营收58亿美元,同比暴涨57%。 盘后股价应声大涨17%,一夜之间市值多了1000亿美元。 而她抛出的那个预判,才是真正改变行业格局的炸弹: AI Agent的兴起,会把CPU:GPU的比例从1:8,彻底拉到1:1。 所有人都以为AI就是GPU的天下。 但没人想到,Agent的工具调用、内存检索、路由调度、权限控制、循环审核,全都是CPU密集型任务。 以前训练一张卡配8个CPU就够了,以后部署一个Agent,可能需要更多的CPU。 这直接给AMD的CPU+GPU混合方案开了绿灯,也彻底打破了NVIDIA一家独大的幻想。 很多人忘了,2014年苏姿丰接手AMD的时候,公司市值才30亿美元,濒临破产。 16年时间,她用Zen架构干翻了Intel的服务器垄断,用MI300系列撕开了NVIDIA的AI防线。 现在AMD的数据中心市场份额,已经从几乎为零干到了40%。 最狠的反击从来不是嘴炮。 是你看不起我的时候,我不说话。 然后用16年的时间,把你的整个赛道都改写了。 当年那句“Do you speak English?”,现在看就是最好的讽刺。 所有的刻板印象,所有的偏见,所有的看不起,最后都变成了65倍的市值增长。 科技圈最爽的故事,永远是这样。 那个被所有人低估的人,最终统治了整个赛道。

译2018年F1中国站,AMD CEO苏姿丰曾遭遇记者带有种族微歧视的提问。八年间,她将公司市值从濒临破产的30亿美元提升至6500亿美元。最新财报显示,其数据中心营收同比暴涨57%,股价大涨。她预判AI Agent的兴起将使CPU与GPU需求比例从1:8转向1:1,这为AMD的混合方案开辟道路,并挑战NVIDIA的垄断。凭借Zen架构与MI300系列,AMD在数据中心市场份额已从近乎为零升至40%,完成了最有力的反击。

Berryxia.AI@berryxia · 5月6日74

我靠!高手果然在民间! 比Google 官方还快3 x,那真的要起飞了。

译一个名为dFlash的GitHub项目宣称,能将Gemma 4模型的推理速度提升至6倍。这一速度提升幅度超过了谷歌官方此前实现的3倍加速,并且据称在实现加速的同时没有损失模型输出的质量。该项目引发了社区关注,被认为展现了民间开发者在模型优化方面的强大能力。

Chubby♨️@kimmonismus · 5月6日49

A very worthwhile substack (written by @natalia__coelho ) article that focuses particularly on Claude Mythos and GPT-5.5 cyber. tl;dr according to the analysis, GPT-5.5 is basically tied with Claude Mythos Preview on cyber capabilities, and may even be more cost-efficient; Mythos looks slightly ahead on some general benchmarks and SWE-bench Pro, but not like a major capability leap. OpenAI has recently enabled some truly outstanding releases. Against this backdrop, the question arises as to why Claude Mythos remains so secretive.

译一篇关于Claude Mythos和GPT-5.5的分析文章指出,两者在网络安全能力上基本持平,GPT-5.5可能更具成本效益。Mythos在部分通用基准和SWE-bench Pro上略微领先,但并未形成显著的能力突破。分析认为Mythos的性能符合既往趋势,并非偏离趋势的巨大飞跃。与此同时,OpenAI近期发布了多项出色产品,这反衬出Claude Mythos为何仍保持高度保密状态。

SenseTime@SenseTime_AI · 5月6日71

🚀 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭 𝘂𝗽𝗱𝗮𝘁𝗲: ⚡ 𝗢𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲𝗱 𝗮𝗻 𝟴-𝘀𝘁𝗲𝗽 𝗱𝗶𝘀𝘁𝗶𝗹𝗹𝗲𝗱 𝗟𝗼𝗥𝗔: 100 NFE → 8 NFE, cutting H100 inference from 𝟮𝟯𝘀 𝘁𝗼 𝟮𝘀 🧩 𝗖𝗼𝗺𝗳𝘆𝗨𝗜 𝗶𝘀 𝗻𝗼𝘄 𝘀𝘂𝗽𝗽𝗼𝗿𝘁𝗲𝗱, with ready-to-run workflows for t2i, image editing, and interleaved generation Try it out 👇 https://github.com/OpenSenseNova/SenseNova-U1/

译🚀 SenseNova-U1 更新: ⚡ 开源8步蒸馏LoRA:100 NFE降至8 NFE,H100推理时间从23秒缩短至2秒 🧩 现已支持ComfyUI,提供文生图、图像编辑和交错生成的即用工作流 试用链接 👇 https://github.com/OpenSenseNova/SenseNova-U1/

meng shao@shao__meng · 5月6日57

Luma Uni-1 把图像生成模型,在提示词和图像之间,加入一层显式推理,而且这层推理通过 API 对外可编程,不再是黑盒

译Luma发布的Uni-1图像生成模型在提示词与像素生成之间引入了一个显式推理步骤,用于解读创意方向并消除歧义。这一关键推理层现已通过API对外可编程开放,使其不再是黑盒,允许开发者将Uni-1作为智能基础设施集成到生产流程中。主要应用模式包括嵌入产品作为创作引擎、构建自定义多阶段工作流或开发独立工具。API提供的核心能力涵盖基于参考图像的风格或角色约束生成、在模型层面强制保持视觉一致性,以及通过自然语言指令进行精准编辑。

SemiAnalysis@SemiAnalysis_ · 5月6日53

Canyon Overlook, @ZionNPS - MI355x on SGLang has achieved >10x improvement on throughput PER GPU since day-0 release for DeepSeekv4 Pro. HUGE W to the 10x engineers at Hai's team from @amd and @sgl_project! @EmadBarsoumPi @AnushElangovan

译锡安国家公园峡谷观景台 - MI355x在SGLang上针对DeepSeekv4 Pro的吞吐量自首发日以来已实现每GPU超过10倍的提升。来自@amd和@sgl_project的Hai团队工程师们取得了巨大胜利!@EmadBarsoumPi @AnushElangovan

SemiAnalysis@SemiAnalysis_ · 5月6日58

For the past 12 years, cuDNN has been completely closed sourced (besides the .h files), until this week! OVER 20 MoE kernels & NSA sparse attention kernels from cuDNN has been open sourced! Great work to @manicely6005 & the rest of the team on seeing that parts of NVIDIA are moving towards open kernels! open source kernels drive innovation! (1/3) 🧵

译过去12年间,cuDNN一直完全闭源(除.h文件外),直到本周!超过20个MoE内核及NSA稀疏注意力内核已从cuDNN开源!感谢@manicely6005及团队其他成员的卓越工作,让我们看到英伟达的部分技术正朝着开放内核的方向迈进!开源内核驱动创新!(1/3) 🧵

MiniMax (official)@MiniMax_AI · 5月6日48

Speed matters 🚀 Great to see M2.7 running fastest on SambaCloud - now available on both Enterprise & Dev tiers.

译速度至关重要 🚀 很高兴看到 M2.7 在 SambaCloud 上运行最快 - 现已面向企业版和开发版提供。

歸藏(guizang.ai)@op7418 · 5月6日79

OpenAI 更新了 GPT-5.5 Instant 模型,现在变成了 ChatGPT 默认模型。 模型提升了实时准确性和日常任务的表现,主要改进: 性能优化:在法律、金融、医学等领域的幻觉率明显下降。同时,在图片理解和文档解析方面表现更好。 表达风格:回答更加紧凑且聚焦要点,减少了无用的铺垫和过渡排版。简单来说就是废话变少了,之前的 5.5 版本(GPT-5.5)确实废话有点多。此外,个性化能力也得到了提升。 发布状态:今天已经全量发布。ChatGPT 已经将其设为默认模型,Codex 没有更新。 新功能引入:在 GPT 中引入了记忆来源功能。你可以通过控件可视化地查看 memory 来自什么地方,如果发现有问题,也可以直接编辑它。

译OpenAI 已全量发布 GPT-5.5 Instant 模型,并将其设为 ChatGPT 的默认模型。此次升级显著提升了模型的实时准确性和日常任务处理能力,特别是在法律、金融和医学等领域有效降低了幻觉率。同时,模型在图片理解与文档解析方面表现更佳。其回答风格变得更加简洁、聚焦要点,并增强了清晰度、个性化以及温暖自然的语调。此外,GPT 引入了记忆来源功能,允许用户可视化查看并编辑记忆的来源。本次更新未包含 Codex 模型。

karminski-牙医@karminski3 · 5月6日73

Google 刚刚发布了 Gemma 4系列模型的草稿专用模型! 31B Dense 搭配草稿模型速度竟然能提升3倍! 付出的代价仅仅是多花 1G 显存! 另外 Gemma4-26B 也能提升1.5x 速度, Gemma4-E4B 更是能提升3.1x 速度. 我之前给大家做过 Gemma 4 推测性解码的教程, 当时官方还没有专用草稿模型, 所以我给大家演示的是 gemma-4-31B-it-UD-Q4_K_XL 作为主模型, 然后使用 gemma-4-E2B-it-UD-Q4_K_XL 作为草稿模型, 速度可以提升 1.23x, 草稿接受率在62% 左右. 这次直接翻三倍原因很简单, 因为之前用的 gemma-4-E2B-it-UD-Q4_K_XL 即使已经是量化模型了, 大小也有3GB左右, 而这次的 gemma-4-31B-it-assistant 即使是原始精度也只有 939 MB! 而且是专门为了推测性解码优化的! 接受率也会高. 所以提速自然就明显了. 而代价也仅仅是显存中再多加载这个模型就可以了(大概1GB显存开销). 现在压力来到了 Qwen 这边, 建议 Qwen 赶紧推出 Qwen3.6-27B-assistant, 再不推出我的显卡可是要红温了, 我天天cue你们嗷! #gemma4 #qwen #gemma4assistant #推测性解码 #投机解码

译Google发布了Gemma 4系列模型的专用草稿模型,用于推测性解码优化。31B Dense模型搭配草稿模型速度提升3倍,仅增加1G显存开销;Gemma4-26B和Gemma4-E4B分别提升1.5倍和3.1倍速度。新草稿模型如gemma-4-31B-it-assistant体积仅939 MB,专门优化后接受率高,相比之前使用非专用草稿模型(如gemma-4-E2B-it-UD-Q4_K_XL)提速更明显。作者呼吁Qwen尽快推出类似优化模型(如Qwen3.6-27B-assistant),以应对高性能需求。

MiniMax (official)@MiniMax_AI · 5月6日57

Thanks to the @SambaNovaAI team. Once M2.7 hits 400 TPS, latency becomes virtually imperceptible.

译MiniMax-M2.7模型已在六家推理服务提供商上线,性能与价格呈现明显差异。SambaNovaAI以每秒435个输出令牌的速度领先,是次快的FireworksAI_HQ(127令牌/秒)的3.4倍。在定价上,FireworksAI_HQ等四家提供商与官方API持平,而SambaNova价格高出约2倍。Fireworks和SambaNova在速度与价格的权衡中处于帕累托前沿。各提供商缓存折扣策略不同,部分提供80%折扣,这影响了缓存密集型工作负载的成本。最优选择取决于具体需求:SambaNova更适合延迟敏感型应用,而Fireworks则适用于对延迟不敏感的大规模任务。

Berryxia.AI@berryxia · 5月6日66

Gemma 4 现在最高能跑到 3倍速度,而且质量完全不变。 他们没有增加参数、没有换新架构,只是推出了一套 MTP drafters(多 token 预测草稿机),让模型一次预测多个 token,彻底绕过了传统 autoregressive 一个词接一个词的串行瓶颈。 GPU 不再傻等,它开始“预判”了。 这意味着: 本地部署实时性大幅提升 Agent、代码生成、实时翻译这些场景直接起飞 开源模型在性价比上的优势又被拉大一截 Google 这次玩的不是参数战,只是把硬件利用率直接压榨到极致。 当闭源模型还在拼“谁更聪明”的时候, 开源已经在拼“谁更快、更便宜、还能本地跑”了。 博客在这里👉 https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

译Google通过为Gemma 4引入MTP drafters(多token预测草稿机),在不增加参数、不改变架构和模型质量的前提下,实现了最高3倍的推理速度提升。该技术让模型能一次预测多个token,突破了传统自回归解码的串行瓶颈,极大提升了GPU利用率。这显著增强了本地部署的实时性,并使Agent、代码生成等场景受益,进一步放大了开源模型在性价比和本地运行方面的优势。

Berryxia.AI@berryxia · 5月6日75

O社的 GPT-5.5 Instant 开始在 ChatGPT 中推出。 这是一个重大升级,让你获得更智能、更清晰、更个性化的回答,语气更温暖、更自然。

Berryxia.AI@berryxia · 5月6日75

Google昨天刚官宣Gemma 4用MTP实现3倍加速, vLLM今天就直接Day-0支持,零延迟把这个加速塞到了所有人手里。 一条Docker命令就能跑: 🚀 现成镜像 + 完整recipes ⚡️ 最高3倍解码速度 ✅ 质量零损失 vLLM recipes在这里👉 https://recipes.vllm.ai/Google/gemma-4-26B-A4B-it

译Google发布Gemma 4模型,采用创新的MTP drafters技术,实现最高3倍解码速度提升且质量无损。该技术让模型一次预测多个token,突破传统自回归生成的串行瓶颈,极大提升GPU利用率。vLLM项目在官方宣布后立即提供Day-0支持,用户可通过一条Docker命令快速部署。这一进步显著增强本地部署的实时性,使Agent、代码生成等场景受益,进一步放大开源模型在性价比和本地化运行方面的优势。

Chubby♨️@kimmonismus · 5月6日76

Major leaks about the new OpenAI Phone: -OpenAI is reportedly accelerating development of its first AI agent phone, with mass production potentially starting in the first half of 2027. -One possible reason is strategic timing: the device could support a stronger IPO narrative by year-end, positioning OpenAI not just as a model company, but as a consumer hardware platform. -Competition in AI-native smartphones / agent phones appears to be heating up, increasing pressure to move faster. -MediaTek currently looks best positioned to become the sole processor supplier. -The phone is expected to use a customized Dimensity 9600, manufactured on TSMC’s N2P process node in the second half of 2026. -The most important hardware spec may not be raw compute, but the ISP, with an enhanced HDR pipeline designed to improve real-world visual sensing for AI agents. -Other expected specs include: Dual-NPU architecture for heterogeneous AI workloads LPDDR6 + UFS 5.0 to reduce memory and storage bottlenecks pKVM + inline hashing for stronger security If development remains on schedule, total shipments across 2027–2028 could reach around 30 million units.

译据报道,OpenAI正加速其首款AI智能体手机的开发,目标在2027年上半年量产。此举可能旨在强化其年底IPO的叙事,并将自身定位拓展至消费硬件平台。联发科有望成为独家处理器供应商,提供基于台积电N2P制程定制的天玑9600。关键硬件规格包括增强HDR管线的图像信号处理器,以提升AI视觉感知能力,以及双NPU架构、LPDDR6与UFS 5.0等。若按计划推进,2027至2028年总出货量可能达到约3000万台。

Rohan Paul@rohanpaul_ai · 5月6日76

OpenAI just made GPT-5.5 Instant the default ChatGPT model, with fewer false claims, shorter answers, stronger image and STEM handling, and deeper personalization from memory, files, past chats, and connected Gmail. 52.5% fewer hallucinated claims than GPT-5.3 Instant on high-stakes medicine, law, and finance prompts, plus 37.3% fewer inaccurate claims on difficult conversations users had already flagged for factual errors. The model also uses 30.2% fewer words and 29.2% fewer lines in one comparison, which means OpenAI is tuning for answers that explain enough without burying the user in structure. Also, ChatGPT can now pull useful context from saved memories, past chats, files, and Gmail when that context improves the answer.

译OpenAI已将GPT-5.5 Instant设置为ChatGPT的默认模型。该模型在医学、法律和金融等关键提示上的虚假陈述比前代减少52.5%,在用户标记过事实错误的困难对话中不准确陈述降低37.3%。回答更简洁,用词和行数减少约30%。同时,模型增强了图像和STEM处理能力,并能从记忆、过往对话、文件及连接的Gmail中提取上下文以实现深度个性化。OpenAI表示,此次升级旨在提供更智能、清晰、个性化且语气自然温暖的回答。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月8日
11:06
SemiAnalysis@SemiAnalysis_
61
@vllm_project 维护者在第0天优化DeepSeekv4性能 并在周末合并了他们的初始模型支持PR。 速度就是护城河
DeepSeek开源/仓库推理部署/工程
11:05
Eric@ericmitchellai
85
OpenAI在API中正式推出GPT-Realtime-2,这是其迄今为止最智能的语音模型,为语音智能体引入了GPT-5级别的推理能力。该模型使语音智能体能够成为实时协作者,在对话展开过程中聆听、推理并解决复杂问题。同时发布的还有流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper,共同构成了一套面向下一代语音界面的全新音频能力组合。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音
10:01
Alibaba Cloud@alibaba_cloud
58
5月26日Qwen大会2026,亲历向智能体原生基础设施的转型。 我们将深入探讨大规模自主规划、协调与推理。 超越代币,迈向实际生产力。 见证AI如何重塑您的增长。 https://click.qwencloud.com/m/20000000142/
智能体推理行业动态
09:43
Tibo@thsottiaux
83
我们正在众目睽睽之下构建通用人工智能 【引用 @OpenAI】:在API中推出GPT-Realtime-2:这是我们迄今为止最智能的语音模型,为语音代理带来GPT-5级别的推理能力。 语音代理现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper一同在API中提供--为新一代语音界面带来全新的音频能力。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI推理模型发布
08:06
Rohan Paul@rohanpaul_ai
精选78
atomic.chat为LLaMA.cpp引入多令牌预测技术,显著加速本地模型推理

atomic.chat通过为LLaMA.cpp引入多令牌预测技术,大幅提升了本地大型语言模型的推理效率。该技术利用小型辅助模型预先生成后续令牌草案,由主模型进行验证。在MacBook Pro M5 Max上测试时,使Gemma 4 26B模型的令牌生成速度加快约40%,整体运行速度提升1.5倍。这项优化进一步巩固了LLaMA.cpp和GGUF格式在本地AI生态中的核心地位,为桌面应用、编程助手和私有设备助手等场景提供了更高效的部署方案。

atomic.chat: Multi-Token Prediction (MTP) for LLaMA.cpp! Running Gemma4 local model 1.5x faster. We patched LLaMA.cpp. Quantized Gemm...

开源/仓库推理教程/实践端侧

推荐理由:在笔记本上把 Gemma 26B 的生成速度拉高 40% 是个真实的体验提升,atomic.chat 把 MTP 带入 LLaMA.cpp 生态,本地 AI 玩家可以直接拿去用。
07:39
meng shao@shao__meng
80
OpenAI 发布三款实时语音新模型,推动语音交互向任务执行演进

OpenAI 在 Realtime API 中推出三款新模型,将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力,支持边听边思考、并行调用工具并完成任务,关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译,GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式,旨在构建下一代语音协作智能体。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI多模态推理
07:36
OpenAI Developers@OpenAIDevs
精选76
正在用GPT-Realtime-2构建语音应用? 我们的新提示指南涵盖如何调整推理强度、使用前导说明、设计工具行为、处理不清晰音频、准确捕获实体,以及在长会话中保持状态。 https://developers.openai.com/api/docs/guides/realtime-models-prompting?realtime-model=gpt-realtime-2
OpenAI推理教程/实践语音

推荐理由:官方出了 Realtime-2 的提示工程指南,从调参到工具调用都给了清晰路径,做语音产品的同学值得认真翻一遍,能省几周摸索时间。
06:21
Berryxia.AI@berryxia
83
OpenAI推出GPT-Realtime-2,将语音AI能力提升至GPT-5级别

OpenAI在API中正式发布GPT-Realtime-2,称其为目前最智能的语音模型,为语音代理赋予了GPT-5级别的推理能力。该模型能实现真正的实时协作,在对话过程中同步完成聆听、思考与复杂问题解决,使交互如真人般自然流畅。同时发布的还有支持70多种语言的实时翻译模型GPT-Realtime-Translate,以及实时转录字幕模型GPT-Realtime-Whisper。这一系列音频能力共同定义了下一代语音界面,标志着语音AI从“辅助工具”向“实时智能伙伴”的跨越。OpenAI还预告了ChatGPT语音功能的重大更新即将到来。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音
04:35
Artificial Analysis@ArtificialAnlys
73
OpenAI发布GPT-Realtime-2语音模型,在多项基准测试中领先

OpenAI发布新一代旗舰语音模型GPT-Realtime-2。其在语音推理基准Big Bench Audio上取得96.6%的成绩,与Gemini 3.1 Flash持平,较此前最佳结果提升约13%。该模型同时在对话动态基准中保持领先,最小推理努力变体得分96.1%,尤其在停顿处理和轮转测试中表现突出。新模型支持从最小到xHigh的可调节推理努力等级,上下文窗口从32K增至128K,并支持文本、音频和图像输入,音频定价保持不变。

OpenAI推理模型发布语音
03:36
Rohan Paul@rohanpaul_ai
精选77
冻结大语言模型隐藏状态中仍存可读行为信号,新技术大幅提升准确性

Proprioceptive AI开发的Cygnus技术,通过为冻结的大语言模型添加自感知适配器,使其能读取内部认知几何。该技术将模型的隐藏状态投影到由gl(4,R)李代数定义的数学空间,分离出包含主要精度信号的“暗模式”,从而无需重新训练即可显著提升模型性能。例如,仅用一张RTX 3090显卡,就将Qwen-32B在ARC-Challenge基准上的准确率从82.2%提升至94.97%。其适配器将覆盖从3B到405B的多款模型,服务节点可支持5万用户并发,预计本周末上线。相关设计论文已公开。

Logan Matthew Napolitano: Final adverserial testing is wrapping up now on small models, GPU's arriving daily, 1TB ram so far, 128 VRAM and adding....

产品更新推理论文/研究

推荐理由:用Lie代数揪出模型内部的“黑暗模式”,在ARC上狂涨12个点还只要一张3090,如果真能泛化到其他任务,这或许是今年最巧妙的模型增强方案,但单基准提升仍需更多验证。
02:05
Greg Brockman@gdb
87
OpenAI在API中正式推出具备GPT-5同级推理能力的GPT-Realtime-2语音模型,标志着语音智能体实现重大突破。该模型使语音智能体能作为实时协作者,在对话中动态完成聆听、推理与解决复杂任务。此次更新同时推出了GPT-Realtime-Translate和GPT-Realtime-Whisper等流式模型,共同构成了一套面向下一代语音界面的全新音频能力组合,为开发者构建卓越的实时语音交互应用提供了强大工具。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI推理模型发布
01:42
TestingCatalog News 🗞@testingcatalog
81
OpenAI在Playground和API中推出了三款新模型:GPT-Realtime-2、GPT-Realtime-Whisper和GPT-Realtime-Translate。其中,GPT-Realtime-2被描述为迄今最智能的语音模型,为语音智能体带来了GPT-5级别的推理能力,使其能作为实时协作者,在对话中聆听、推理并解决复杂问题。这些模型共同构成了一套面向下一代语音界面的新音频能力集,也预示着ChatGPT的语音模式可能即将迎来重要更新。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音
01:40
OpenAI@OpenAI
86
在API中推出GPT-Realtime-2:我们迄今为止最智能的语音模型,为语音助手带来GPT-5级别的推理能力。 语音助手现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已在API中与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper同步上线--为新一代语音界面提供全新的音频功能套件。
OpenAI推理模型发布语音
01:36
OpenAI Developers@OpenAIDevs
78
OpenAI通过API正式发布了新一代实时语音模型系列,显著增强了语音智能体的能力。其核心GPT-Realtime-2具备媲美GPT-5的推理水平,使语音智能体能作为实时协作者,在对话中聆听、思考并解决复杂问题。同时推出的GPT-Realtime-Translate支持70种输入语言到13种输出语言的实时翻译,GPT-Realtime-Whisper则提供了更快的语音转录速度。这一系列模型为下一代语音交互界面奠定了全新的音频能力基础。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI推理模型发布
5月7日
23:06
Ant Ling@AntLingAGI
精选76
inclusionAI宣布Ling-2.6-1T现已在OpenRouter上线。🚀 这款万亿参数旗舰指令模型专为现实世界智能体打造。它采用"快速思考"方法,在保持AIME26和SWE-bench Verified基准测试顶尖性能的同时,将成本降低约75%。适用于: - 高级编程 - 复杂推理 - 大规模智能体工作流
智能体推理模型发布编码

推荐理由:万亿参数专攻Agent,成本还直降75%,对狂烧token费的AI Agent团队来说是个真信号。蚂蚁终于不玩虚的,OpenRouter上就能试。
22:05
Ant Ling@AntLingAGI
39
解锁长周期任务(如深度研究)的稳定执行可归结为三点: - 高性价比的LLM - 高级推理能力 - 精良的工具框架 选择一个稳健且技能完备的工具框架可能颇具挑战。
推理现象/趋势部署/工程
21:43
向阳乔木@vista8
60
评测显示Opus 4.6用户体验优于后续版本4.7

根据@lyricwai的llmsnare基准测试及Base44的“挫败指数”排名,Anthropic的Opus 4.6模型以1.3的指数位居榜首,显示其用户满意度最高,甚至超越了其后续版本Opus 4.7(指数1.5)。Sonnet 4.6以1.4位列第二。该测试每日消耗近100美元,结论表明新版模型在关键用户体验指标上可能出现倒退。

Anthropic推理评测/基准
19:31
Chubby♨️@kimmonismus
66
ZAYA1-8B小模型展现超强推理能力,采用AMD全栈方案

Zyphra发布ZAYA1-8B模型,其活跃参数不足10亿,却在数学、编程和推理基准测试中媲美更大的开源及专有系统。其亮点不仅在于小尺寸,更在于全栈技术方案:完全基于AMD基础设施训练,采用了新的架构选择和大规模强化学习。此外,模型应用了一种名为Markovian RSA的测试时计算方法,通过并行推理和递归聚合,显著提升了复杂数学问题的解决能力。

推理模型发布端侧
11:20
Berryxia.AI@berryxia
67
24 小时解除限制,免费分享给大家。

近日,一条在海外社交媒体爆火并获得纳瓦尔转发点赞的AI提示词被免费分享。该提示词旨在将AI助手塑造为智力、知识广度和思维敏锐度均属世界顶级的专家,要求提供完整、详细、具体的答案。其核心流程包括逐步阐述思考过程、核实所有事实数据、不虚构信息、直接承认知识盲区,并在支持用户观点前先提出最有力的反驳。据称,此提示词能显著提升AI在ChatGPT、Gemin、豆包等平台上的回答质量。

Berryxia.AI: 兄弟们!赶紧去把这个提示词保存下来吧! 🔥外网爆火被纳瓦尔转发点赞的提示词! 可以将你的AI回答质量提升数倍! 直接丢到ChatGPT、Gemin 、豆包都可以!订阅者优先查看,24 小时后解锁🔓! 提示词见评论区!👇

推理教程/实践
11:16
阿绎 AYi@AYi_AInotes
63
AI在专业命理大赛接近人类顶尖水平,技术路径可迁移至垂直领域

Tianfu Agent在第十六届全球算命师大赛中取得50%的截尾均值准确率,接近人类顶尖选手的53.5%,显著超越通用大模型40%的基线。其突破在于采用工程化方案:开发200多个专用原子工具处理精确计算,将流派技法封装为可调用函数,并通过量化工具模拟人类直觉。该Agent范式为法律、中医等规则密集型领域的AI化提供了可迁移的新路径,相关评测基准已开源。

DestinyLinker: Tianfu Agent 在全球算命师大赛上跑到 50% 截尾准确率(人类 Top-20 选手平均 53.5%) 比赛 3069 名参赛者 人类 Top-20 选手平均 53.5% 最强通用大模型基线(Claude Opus 4.6)40%...

智能体产品更新开源生态推理
08:06
meng shao@shao__meng
69
SpaceX 与 Anthropic 达成 Colossus 超算集群合作,支持 Claude 扩大推理部署

SpaceX 与 Anthropic 就 Colossus 超算集群达成合作,将 Colossus 1 出租给后者以扩展 Claude 的推理部署能力。此次合作源于埃隆·马斯克与 Anthropic 高层深入接触后,对其安全文化及团队责任感的认可。马斯克评估认为团队具备高度能力与自我批判精神,无人触发其“邪恶探测器”,Claude 很可能对人类有益。合作的关键背景是 xAI 已将训练工作迁移至 Colossus 2,从而释放了 Colossus 1 的算力资源。

Elon Musk: Same here. By way of background for those who care, I spent a lot of time last week with senior members of the Anthropic...

Anthropic推理行业动态部署/工程
01:06
Epoch AI@EpochAIResearch
70
我们正在推出领域特定能力评分,使用与通用ECI相同的量表,追踪模型在软件工程和数学基准测试中的能力。我们还支持用户自定义创建ECI变体。链接如下!
推理编码评测/基准
01:06
Nathan Lambert@natolambert
精选76
作者盛赞访问Moonshot AI(月之暗面)的体验极佳。其旗下产品Kimi正以超200亿美元的投后估值完成新一轮约20亿美元融资,由美团龙珠领投。公司在2025年前六个月融资总额超39亿美元,估值较去年11月增长约4倍,成为中国累计融资额最高的AI初创公司。其年度经常性收入在短期内从1亿美元快速增长至超2亿美元,付费订阅和API使用量均在加速。

Manqi Cheng 程曼祺: Just published an exclusive on LatePost. A few highlights: - Kimi (Moonshot AI) is closing a new $2B funding round at a ...

DeepSeek推理行业动态

推荐理由:月之暗面这轮融资直接把国内AI格局拉到了新高度,AR从三个月1亿跳到2亿美金,加上Nathan Lambert站台,这家公司不再是“中国另一家大模型”了。
01:03
François Chollet@fchollet
65
衡量智能时只有两个诚实的指标:新颖性和效率。 解决已知问题不需要智能(仅需记忆)。通过蛮力解决问题也不需要智能。但要高效解决新颖问题,智能是唯一途径。
大佬观点推理
00:16
阿绎 AYi@AYi_AInotes
69
从被轻视到行业颠覆者:苏姿丰带领AMD的八年逆袭

2018年F1中国站,AMD CEO苏姿丰曾遭遇记者带有种族微歧视的提问。八年间,她将公司市值从濒临破产的30亿美元提升至6500亿美元。最新财报显示,其数据中心营收同比暴涨57%,股价大涨。她预判AI Agent的兴起将使CPU与GPU需求比例从1:8转向1:1,这为AMD的混合方案开辟道路,并挑战NVIDIA的垄断。凭借Zen架构与MI300系列,AMD在数据中心市场份额已从近乎为零升至40%,完成了最有力的反击。

AMD: $AMD reports First Quarter 2026 financial results. View non-GAAP financial measures reconciliation & cautionary statemen...

智能体推理现象/趋势
5月6日
23:20
Berryxia.AI@berryxia
74
一个名为dFlash的GitHub项目宣称,能将Gemma 4模型的推理速度提升至6倍。这一速度提升幅度超过了谷歌官方此前实现的3倍加速,并且据称在实现加速的同时没有损失模型输出的质量。该项目引发了社区关注,被认为展现了民间开发者在模型优化方面的强大能力。

铁锤人: 这个项目能让Gemma 4 推理提速到6倍 比谷歌的3倍还快,而且不损失质量 https://github.com/z-lab/dflash

Google开源/仓库开源生态推理
23:00
Chubby♨️@kimmonismus
49
Claude Mythos与GPT-5.5能力相近,未现性能飞跃

一篇关于Claude Mythos和GPT-5.5的分析文章指出,两者在网络安全能力上基本持平,GPT-5.5可能更具成本效益。Mythos在部分通用基准和SWE-bench Pro上略微领先,但并未形成显著的能力突破。分析认为Mythos的性能符合既往趋势,并非偏离趋势的巨大飞跃。与此同时,OpenAI近期发布了多项出色产品,这反衬出Claude Mythos为何仍保持高度保密状态。

Matthew Barnett: New post from @natalia__coelho on Mythos. She analyzes its capabilities using publicly reported benchmark results to det...

AnthropicOpenAI推理编码
22:36
SenseTime@SenseTime_AI
精选71
🚀 SenseNova-U1 更新: ⚡ 开源8步蒸馏LoRA:100 NFE降至8 NFE,H100推理时间从23秒缩短至2秒 🧩 现已支持ComfyUI,提供文生图、图像编辑和交错生成的即用工作流 试用链接 👇 https://github.com/OpenSenseNova/SenseNova-U1/
图像生成开源/仓库推理模型发布

推荐理由:从100步到8步,23秒压到2秒,商汤这个蒸馏LoRA把U1的推理成本打下来了,做实时图像应用的可以认真看看,ComfyUI一接就能跑。
22:04
meng shao@shao__meng
57
Luma发布的Uni-1图像生成模型在提示词与像素生成之间引入了一个显式推理步骤,用于解读创意方向并消除歧义。这一关键推理层现已通过API对外可编程开放,使其不再是黑盒,允许开发者将Uni-1作为智能基础设施集成到生产流程中。主要应用模式包括嵌入产品作为创作引擎、构建自定义多阶段工作流或开发独立工具。API提供的核心能力涵盖基于参考图像的风格或角色约束生成、在模型层面强制保持视觉一致性,以及通过自然语言指令进行精准编辑。

Sumanth: Luma just released Uni-1, an image generation model that reasons first! The shift: image generation models typically wor...

图像生成推理模型发布
21:01
SemiAnalysis@SemiAnalysis_
53
锡安国家公园峡谷观景台 - MI355x在SGLang上针对DeepSeekv4 Pro的吞吐量自首发日以来已实现每GPU超过10倍的提升。来自@amd和@sgl_project的Hai团队工程师们取得了巨大胜利!@EmadBarsoumPi @AnushElangovan
DeepSeek推理行业动态
12:30
SemiAnalysis@SemiAnalysis_
58
过去12年间,cuDNN一直完全闭源(除.h文件外),直到本周!超过20个MoE内核及NSA稀疏注意力内核已从cuDNN开源!感谢@manicely6005及团队其他成员的卓越工作,让我们看到英伟达的部分技术正朝着开放内核的方向迈进!开源内核驱动创新!(1/3) 🧵
开源/仓库开源生态推理
10:31
MiniMax (official)@MiniMax_AI
48
速度至关重要 🚀 很高兴看到 M2.7 在 SambaCloud 上运行最快 - 现已面向企业版和开发版提供。

SambaNova: MiniMax M2.7 is now running FASTEST on SambaCloud 🚀 Built for coding, OpenClaw, and self-evolving agent workflows. Avai...

智能体产品更新推理
10:20
歸藏(guizang.ai)@op7418
精选79
OpenAI 将 GPT-5.5 Instant 设为 ChatGPT 默认模型

OpenAI 已全量发布 GPT-5.5 Instant 模型,并将其设为 ChatGPT 的默认模型。此次升级显著提升了模型的实时准确性和日常任务处理能力,特别是在法律、金融和医学等领域有效降低了幻觉率。同时,模型在图片理解与文档解析方面表现更佳。其回答风格变得更加简洁、聚焦要点,并增强了清晰度、个性化以及温暖自然的语调。此外,GPT 引入了记忆来源功能,允许用户可视化查看并编辑记忆的来源。本次更新未包含 Codex 模型。

OpenAI: GPT-5.5 Instant is starting to roll out in ChatGPT. It's a big upgrade, giving you smarter, clearer, and more personaliz...

OpenAI推理模型发布

推荐理由:GPT-5.5 Instant 成为默认模型,解决的是日常最痛的啰嗦和幻觉,记忆来源可视化也把黑盒变透明了,对普通用户是实实在在的提升。
09:34
karminski-牙医@karminski3
73
Google发布Gemma 4草稿专用模型,推理速度提升三倍

Google发布了Gemma 4系列模型的专用草稿模型,用于推测性解码优化。31B Dense模型搭配草稿模型速度提升3倍,仅增加1G显存开销;Gemma4-26B和Gemma4-E4B分别提升1.5倍和3.1倍速度。新草稿模型如gemma-4-31B-it-assistant体积仅939 MB,专门优化后接受率高,相比之前使用非专用草稿模型(如gemma-4-E2B-it-UD-Q4_K_XL)提速更明显。作者呼吁Qwen尽快推出类似优化模型(如Qwen3.6-27B-assistant),以应对高性能需求。

Google推理模型发布
09:01
MiniMax (official)@MiniMax_AI
57
MiniMax-M2.7模型已在六家推理服务提供商上线,性能与价格呈现明显差异。SambaNovaAI以每秒435个输出令牌的速度领先,是次快的FireworksAI_HQ(127令牌/秒)的3.4倍。在定价上,FireworksAI_HQ等四家提供商与官方API持平,而SambaNova价格高出约2倍。Fireworks和SambaNova在速度与价格的权衡中处于帕累托前沿。各提供商缓存折扣策略不同,部分提供80%折扣,这影响了缓存密集型工作负载的成本。最优选择取决于具体需求:SambaNova更适合延迟敏感型应用,而Fireworks则适用于对延迟不敏感的大规模任务。

Artificial Analysis: MiniMax-M2.7 is now available across six inference providers on Artificial Analysis, with significant differentiation in...

推理行业动态
08:17
Berryxia.AI@berryxia
66
Gemma 4借助MTP草稿机实现3倍速推理

Google通过为Gemma 4引入MTP drafters(多token预测草稿机),在不增加参数、不改变架构和模型质量的前提下,实现了最高3倍的推理速度提升。该技术让模型能一次预测多个token,突破了传统自回归解码的串行瓶颈,极大提升了GPU利用率。这显著增强了本地部署的实时性,并使Agent、代码生成等场景受益,进一步放大了开源模型在性价比和本地运行方面的优势。

Google for Developers: Gemma 4: Now up to 3x Faster. ⚡ Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tok...

Google开源生态推理模型发布
08:17
Berryxia.AI@berryxia
75
O社的 GPT-5.5 Instant 开始在 ChatGPT 中推出。 这是一个重大升级,让你获得更智能、更清晰、更个性化的回答,语气更温暖、更自然。
OpenAI推理模型发布
08:17
Berryxia.AI@berryxia
精选75
Google Gemma 4凭MTP实现3倍加速,vLLM零延迟提供支持

Google发布Gemma 4模型,采用创新的MTP drafters技术,实现最高3倍解码速度提升且质量无损。该技术让模型一次预测多个token,突破传统自回归生成的串行瓶颈,极大提升GPU利用率。vLLM项目在官方宣布后立即提供Day-0支持,用户可通过一条Docker命令快速部署。这一进步显著增强本地部署的实时性,使Agent、代码生成等场景受益,进一步放大开源模型在性价比和本地化运行方面的优势。

Berryxia.AI: Gemma 4 现在最高能跑到 3倍速度,而且质量完全不变。 他们没有增加参数、没有换新架构,只是推出了一套 MTP drafters(多 token 预测草稿机),让模型一次预测多个 token,彻底绕过了传统 autoregressiv...

Google推理教程/实践

推荐理由:Google的MTP技术让Gemma 4提速3倍,vLLM当天就支持了,做本地Agent和实时应用的开发者现在一条Docker命令就能跑,开源模型性价比优势又拉大一截。
07:27
Chubby♨️@kimmonismus
精选76
OpenAI加速开发AI智能体手机,瞄准2027年量产

据报道,OpenAI正加速其首款AI智能体手机的开发,目标在2027年上半年量产。此举可能旨在强化其年底IPO的叙事,并将自身定位拓展至消费硬件平台。联发科有望成为独家处理器供应商,提供基于台积电N2P制程定制的天玑9600。关键硬件规格包括增强HDR管线的图像信号处理器,以提升AI视觉感知能力,以及双NPU架构、LPDDR6与UFS 5.0等。若按计划推进,2027至2028年总出货量可能达到约3000万台。

郭明錤|Ming-Chi Kuo: [Industry Check Update]OpenAI appears to be fast-tracking its first AI agent phone, with mass production targeted as ear...

OpenAI推理端侧行业动态

推荐理由:OpenAI 开始认真做手机了,而且冲着 IPO 去,这不是一个模型公司的副业,而是把自己变成消费硬件平台的关键一步,所有做 AI 硬件的都得重新看牌桌。
06:28
Rohan Paul@rohanpaul_ai
76
OpenAI将GPT-5.5 Instant设为ChatGPT默认模型,减少错误、缩短回答并增强个性化

OpenAI已将GPT-5.5 Instant设置为ChatGPT的默认模型。该模型在医学、法律和金融等关键提示上的虚假陈述比前代减少52.5%,在用户标记过事实错误的困难对话中不准确陈述降低37.3%。回答更简洁,用词和行数减少约30%。同时,模型增强了图像和STEM处理能力,并能从记忆、过往对话、文件及连接的Gmail中提取上下文以实现深度个性化。OpenAI表示,此次升级旨在提供更智能、清晰、个性化且语气自然温暖的回答。

OpenAI: GPT-5.5 Instant is starting to roll out in ChatGPT. It's a big upgrade, giving you smarter, clearer, and more personaliz...

OpenAI多模态推理模型发布
‹ 上一页
1…1617181920…25
下一页 ›