AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 968 条
全部一手资讯X论文
标签「推理」清除
Google AI@GoogleAI · 4月30日52

http://x.com/i/article/2049546144930275328 # The Agentic Era: Unveiling Eighth Generation TPUs A decade in the making, the chips for the agentic era have arrived. At @GoogleCloud's Next '26 event last week, we unveiled our eighth-generation TPUs (the specialized computer chips we build for AI). These chips were specifically designed to handle the two biggest challenges in AI today: training the AI and serving the AI. So… what exactly does that mean? Let’s break it down: TPU 8t: Training the AI Before an AI can help you write an email or plan a trip, it has to "learn" from massive amounts of data. In the past, this could take months of expensive computer time. With TPU 8t, we’ve made that process significantly faster through two key advancements. - More power: It is roughly 3x more powerful than our previous generation of TPUs - More efficiency: We’ve cleared the "traffic jams" that usually slow down AI training. By making data move 10x faster from storage to the chips, we ensure the system is always working at full speed, never sitting idle. - Optimized scaling: In a system this size, parts eventually fail. TPU 8t is designed to automatically detect and reroute around hardware issues at large scale. This ensures that 97% of the resources are spent on productive work, preventing crashes that used to waste days of training time. So now, what used to take months of training now takes only weeks, meaning researchers can experiment and innovate at speed. TPU 8i: Serving the AI (Agents) If the "8t" is for teaching, the 8i is for doing. We built this chip specifically for "AI Agents,” the kind of AI that doesn't just chat with you, but actually acts for you (ex: booking a flight, managing a calendar, etc). To take action, an AI needs to "think" and "reason" through multiple steps very quickly, which TPU 8i enables through these advancements: - Better thinking: We tripled the chip’s internal memory so it can handle more complex logic. - More cost effective: It offers 80% better performance for every dollar spent. For a business, that means you can help twice as many customers without increasing your tech budget. - Latency: At the chip level, we have integrated a new engine which reduces latency by an additional 5x. Powering the Next Decade Whether it's a scientist training a new medical model or a business getting some much needed customer support help, these chips provide the raw power needed to make that future a reality.

译在Google Cloud Next '26大会上,谷歌正式推出专为智能体时代设计的第八代TPU芯片,分别针对AI训练与服务两大核心挑战。TPU 8t专注于训练,其性能约为前代的3倍,并通过加速数据移动和优化硬件容错,将原本需数月的训练时间缩短至数周。TPU 8i则专为执行复杂任务的AI智能体服务,内存扩大三倍以支持多步推理,每美元性能提升80%,延迟降低5倍,助力企业以更低成本扩展服务规模。这些芯片将为医疗研究、客户支持等广泛场景提供核心算力,推动AI应用创新。

Ant Ling@AntLingAGI · 4月30日55

It was very much of a pleasant surprise to see all the cool demos by combing the Ling-2.6-1T with capable and well-received harnesses like @opencode. Thanks to @novita_labs for another great launch together~ 👏

译Ling-2.6-1T正式开源,来自@AntLingAGI。该模型拥有1T总参数和63B活跃参数,专为实际生产设计,具有token高效性,便于开发者测试、部署和定制。从Ling-2.6-flash升级到1T规模,实现了从快速推理到更强推理的跨越。主推文强调,结合@opencode等工具展示了酷炫演示,体现了模型与现有工具的兼容性和实用性,并对@novita_labs的合作发布表示感谢。

Ant Ling@AntLingAGI · 4月30日53

Thanks Adina~ Token efficiency is the key characteristic leading to the next stage. We need to burn tokens wisely and efficiently in order to make the whole industry sustainable. 🤗🤗

译谢谢Adina~ Token效率是引领下一阶段的关键特性。我们需要明智且高效地消耗token,才能使整个行业可持续发展。🤗🤗

Ant Ling@AntLingAGI · 4月30日72

What's the secret sauce behind the flagship instruct model built for fast execution & high efficiency at scale? Reliable infra with the proper optimizations, from the #SGLang friends at @lmsysorg 以为昨天的 100B 已经打满,今日 1T 方知,打得还可以更满~ 🥳 Onto the next optimization~ 🫡

译SGLang团队(隶属于LMSYS Org)揭示了其旗舰指令模型实现快速、高效、大规模执行的关键在于可靠的基础设施与针对性优化。团队宣布对AntLingAGI发布的Ling-2.6-1T万亿参数模型提供Day-0支持。该模型采用快速思考方法,在保持质量的同时,成本可比同类模型降低约4倍,并在AIME26和SWE-bench基准测试中达到SOTA水平。它专为高级编码、复杂推理和大规模智能体工作流设计,具备万亿参数能力与即时模型延迟。团队正持续进行优化,以进一步提升性能。

Ant Ling@AntLingAGI · 4月29日71

Last week, we introduced Ling-2.6-1T. Today, Ling-2.6-1T is officially an open model~ 🤗 1T total parameters · 63B active parameters We bring values to developers by making it easier to test, deploy, customize, and build. It is optimized to be "token efficiency" for real production needs: • Lower token overhead: strong intelligence without long reasoning traces • Reliable multi-step execution: better instruction, tool, context, and workflow control • Production-ready deployment: from code generation to bug fixing, with broad agent framework compatibility A sneak pick into the agentic capability in @opencode

译AntLingAGI正式开源其万亿参数旗舰模型Ling-2.6-1T。该模型采用总参数1万亿、激活参数630亿的架构,核心设计理念是“令牌高效”,旨在以极低的令牌开销实现顶尖智能。它通过“快速思考”机制优化,具备可靠的多步骤执行能力,在指令遵循、工具使用和上下文控制方面表现优异。模型为实际生产需求优化,部署便捷,兼容广泛的智能体框架,适用于从代码生成到错误修复等多种任务。

TestingCatalog News 🗞@testingcatalog · 4月29日63

MISTRAL 🚨: Mistral AI released Mistral Medium 3.5, a 128B dense open weights model with a 256k context window and configurable reasoning effort. Mistral Medium 3.5 is now available on Mistral Vibe and Le Chat.

译MISTRAL 🚨: Mistral AI 发布了 Mistral Medium 3.5,这是一个拥有 256k 上下文窗口和可配置推理算力的 128B 密集开放权重模型。 Mistral Medium 3.5 现已在 Mistral Vibe 和 Le Chat 上可用。

Xiaomi MiMo@XiaomiMiMo · 4月29日60

Xiaomi MiMo-V2.5-Pro achieves multiple breakthroughs in the latest Arena rankings (Apr 26, 2026) 🔥 🏆 Text Arena (Expert) — #6 globally | #1 open-source model Also #1 among Chinese models, with Xiaomi ranking #3 globally by lab, behind only Anthropic and OpenAI. Expert is defined by high-difficulty tasks and expert voting, measuring core model intelligence. 🏆 Text Arena (Overall) — #2 open-source globally Strong across math, coding, creative writing, and general text tasks. 🏆 Code Arena (WebDev) — #3 open-source globally Evaluated by real community blind voting on frontend code generation. 🏆 Text Arena sub-rankings — #1 open-source globally in 4 categories Hard Prompts, Hard Prompts(English), Instruction Following and Long Query. Real-world preference, real model strength.

译小米MiMo-V2.5-Pro模型在最新Arena排行榜中表现卓越。在Text Arena(Expert)榜单中,它位列全球第六,同时是开源模型与中文模型的双料第一,其所属实验室全球排名第三。该模型在Text Arena(Overall)总榜中排名开源全球第二,在Code Arena(WebDev)前端开发榜单中位列开源全球第三。此外,它在Text Arena的四个关键子类别(Hard Prompts、英文Hard Prompts、指令遵循与长查询)中均获得开源全球第一。这些成绩均基于真实用户偏好与社区盲投评估,体现了模型在复杂任务上的强大综合能力。

Qwen@Alibaba_Qwen · 4月29日60

🚀 Introducing FlashQLA: high-performance linear attention kernels built on TileLang. ⚡ 2–3× forward speedup. 2× backward speedup. 💻 Purpose-built for agentic AI on your personal devices. 💡Key insights: 1. Gate-driven automatic intra-card CP. 2. Hardware-friendly algebraic reformulation. 3. TileLang fused warp-specialized kernels. FlashQLA boosts SM utilization via automatic intra-device CP. The gains are especially pronounced for TP setups, small models, and long-context workloads. Instead of fusing the entire GDN flow into a single kernel, we split it into two kernels optimized for CP and backward efficiency. At large batch sizes this incurs extra memory I/O overhead vs. a fully fused approach, but it delivers better real-world performance on edge devices and long-context workloads. The backward pass was the hardest part: we built a 16-stage warp-specialized pipeline under extremely tight on-chip memory constraints, ultimately achieving 2×+ kernel-level speedups. We hope this is useful to the community!🫶🫶 Learn more: 📖 Blog: https://qwen.ai/blog?id=flashqla 💻 Code: https://github.com/QwenLM/FlashQLA

译FlashQLA是基于TileLang构建的高性能线性注意力内核,专为个人设备上的智能体AI设计。其核心创新包括门控驱动的自动片内计算并行、硬件友好的代数重构以及TileLang融合的Warp专用内核,通过提升流处理器利用率,在前向传播上实现2-3倍加速,反向传播实现2倍加速。该技术在小模型、长上下文工作负载和张量并行设置中效果显著,虽然在大批次处理时内存I/O开销略高,但在边缘设备和长上下文场景中实际性能更优。反向传播通过16级Warp专用流水线在严格片上内存限制下实现了核心级加速。相关资源已开源。

Qwen@Alibaba_Qwen · 4月29日66

🚀 Introducing FlashQLA: high-performance linear attention kernels built on TileLang. ⚡ 2–3× forward speedup. 2× backward speedup. 💻 Purpose-built for agentic AI on your personal devices. 💡Key insights: 1. Gate-driven automatic intra-card CP. 2. Hardware-friendly algebraic reformulation. 3. TileLang fused warp-specialized kernels. FlashQLA boosts SM utilization via automatic intra-device CP. The gains are especially pronounced for TP setups, small models, and long-context workloads. Instead of fusing the entire GDN flow into a single kernel, we split it into two kernels optimized for CP and backward efficiency. At large batch sizes this incurs extra memory I/O overhead vs. a fully fused approach, but it delivers better real-world performance on edge devices and long-context workloads. The backward pass was the hardest part: we built a 16-stage warp-specialized pipeline under extremely tight on-chip memory constraints, ultimately achieving 2×+ kernel-level speedups. We hope this is useful to the community!🫶🫶 Learn more: 📖 Blog: https://qwen.ai/blog?id=flashqla 💻 Code: https://github.com/QwenLM/FlashQLA

译FlashQLA是基于TileLang开发的高性能线性注意力内核,专为提升个人设备上智能体AI性能而设计。它实现了2-3倍的前向传播加速和2倍的反向传播加速。其核心技术包括门控驱动的片上自动计算与通信重叠、硬件友好的代数重构,以及TileLang融合的Warp专用内核。该设计通过自动片上通信重叠显著提升了流处理器利用率,在张量并行、小模型和长上下文任务中效果突出。尽管在大批量处理时,其将GDN流程拆分为两个内核的策略会带来额外内存开销,但在边缘设备和长上下文实际场景中性能更优。反向传播部分通过构建16级、严格片上内存限制下的Warp专用流水线,实现了超过2倍的内核级加速。

Chubby♨️@kimmonismus · 4月29日63

GPT-5.5 pro represents a significant leap in the Epoch benchmark. Even more exciting, however, is that GPT-5.5 (non-pro) surpasses GPT-5.4 pro.

译GPT-5.5 pro 在 Epoch 基准测试中实现了显著飞跃。然而更令人兴奋的是,GPT-5.5(非 pro 版)超越了 GPT-5.4 pro。 [引用 @EpochAIResearch]:GPT-5.5 Pro 在 Epoch 能力指数上创下 159 分的新高分!ECI 是我们的统计工具,它将多个基准测试整合到一个统一的量表中。

Rohan Paul@rohanpaul_ai · 4月29日62

Long‑context breakthrough paper from AMD. Proves that long-context ability can be added after pretraining in a cheaper way, with far less memory use and only a small drop in normal short-context quality. HyLo hybrid LLM architecture extends usable context up to 2M tokens with over 90% KV‑cache reduction and gains on long‑context benchmarks like RULER The problem is that normal Transformer LLMs get costly and memory hungry on long inputs, while most newer hybrid models still need full pretraining from scratch. HyLo’s answer is structural triage. Keeps some attention layers for quality, replaces many others with cheaper layers that track long sequences with fixed memory, and starts from an already trained model. They then train the converted model in 2 stages, first to stay close to the original model and then to work at 8K and 64K context with help from a larger teacher model. Across Llama and Qwen models around 1B to 3B size, HyLo kept short-range results close to standard baselines and beat earlier upcycled hybrids on long-context tests. That matters because it gives model builders a cheaper way to get much longer context and much lower memory use without throwing away a strong existing checkpoint. Hybrid scaling may be less about inventing a brand new architecture, and more about deciding which parts of attention are truly worth keeping. ---- Paper Link – arxiv. org/abs/2604.24715v1 Paper Title: "Long-Context Aware Upcycling: A New Frontier for Hybrid LLM Scaling"

译AMD研究团队提出HyLo混合LLM架构,可在预训练后低成本为模型添加长上下文能力。该方案通过结构性筛选,保留关键注意力层以保证质量,同时用固定内存的廉价层替换多数层以追踪长序列,从而将可用上下文扩展至200万token,并减少90%以上的KV缓存。基于Llama和Qwen等1B至3B模型,HyLo在保持短上下文性能接近基准的同时,在RULER等长上下文基准测试中表现优异。这为开发者提供了一条无需废弃现有强检查点、即可低成本获得更长上下文和更低内存占用的实用路径。

阿绎 AYi@AYi_AInotes · 4月29日66

兄弟们,蚂蚁的这个新模型免费期是到4月30号, 趁着白嫖窗口期,我刚用Ling-2.6-1T跑了个硬核任务,推理速度快得惊人,质量也很顶🤯 让它帮我整理查理芒格的100个思维模型,它只用了40秒。 同样的prompt,DeepSeek V4 Pro跑了整整4分钟,速度快了整整6倍。 但这还不是最牛的地方, 最牛的是没有上来就直接甩给我一个100条的清单, 它写的第一句话是,100个思维模型这个说法,芒格本人从未明确列出过,这是后人归纳出来的象征性集合。 一个响应速度如此之快的模型,会主动停下来,先质疑你任务,进行自我思辨,这才是真正的推理能力,真正好用的大模型,不能只是跑得快🤣

译蚂蚁集团推出的Ling-2.6-1T模型在免费测试期表现突出,处理复杂任务速度可比竞品快6倍,并具备主动思辨能力。其核心优势在于极高的token效率,能将成本降至可比模型的四分之一,同时综合智能接近GPT-5.4非推理水平,实现了高智能与低生产成本的结合。该模型在SWE-bench、AIME26等生产相关评测中领先,擅长代码、Agent编排等实际应用。蚂蚁依托支付宝场景与海量数据,通过开放API策略推动行业竞争重点从刷榜转向生产落地。

Chubby♨️@kimmonismus · 4月29日40

Ok, this is pretty interesting. These guys built a completely new architecture: Large Memory Models. This is designed specifically for how human memory works. Instead of RAG or vector search, this is a different paradigm. Their founders have 160+ publications in Nature and ICLR, and closed their Harvard lab to build this.

译初创公司Engramme构建了一种名为“大记忆模型”的全新AI架构,旨在专门模拟人类记忆的工作方式,而非依赖RAG或向量搜索等现有技术范式。其创始团队拥有超过160篇Nature和ICLR的出版物,并为此关闭了哈佛实验室。该公司认为,持久性记忆是当前AI的关键弱点,其LMM技术旨在为各类应用赋予持久记忆能力,宣称其解决了AI中的核心记忆难题,正如Google与OpenAI分别解决了搜索和语言问题一样。目前产品已开放测试注册。

阿绎 AYi@AYi_AInotes · 4月29日76

说个暴论,2026 年 AI 行业的转折点,不是 GPT-5.5,也不是 o3,是蚂蚁@AntLingAGI 刚刚发布的 Ling-2.6-1T。 我用 Ling-2.6-1T 跑了一个查理芒格的 100 个思维模型的硬核任务, 结果真的太炸了,具体大家看视频演示。 当大家都在卷参数、卷推理分、卷更长上下文, 只有它反其道而行之,把 token 效率 当成了第一公民。 最震撼的是这组数据:在 Artificial Analysis 全评测中, 它展现出极高的智能-输出比(生成 16M tokens), 整体 token 成本可降至可比模型的约四分之一, 综合智能却接近 GPT-5.4 的非推理水平, 直接落在所有模型都梦寐以求的“高智能 + 极低生产成本”象限。 这才是真正的生产级 AI,而不是实验室刷榜玩具。 Agent 时代最大的痛点从来不是模型不够聪明,而是用不起。 一个复杂任务调用十几次模型、几十次工具、拉几百 K 上下文, token 成本指数级爆炸,很多 Agent 方案一到规模化就死掉, Ling 把这个天花板直接抬高了数倍。 它走的是和 o1 类模型完全相反的路线:别人靠慢思考堆 token 刷榜, 靠 MoE 优化的 Fast-Thinking 机制实现又快又准。 写代码、搭 UI、编排 Agent、多步工作流——我们每天 90% 的事, 根本不需要深度多跳推理,需要的是精确、稳定、快、便宜。 而这些,Ling 全部做到了:SWE-bench Verified SOTA 级表现(72.2+)、AIME26 高分、指令遵循和工具调用榜单全面领先。 蚂蚁的底气很简单:背靠支付宝 13 亿用户 + 全世界最复杂的金融支付场景,天然拥有海量真实 Agentic 数据。 Ling 系列从一开始就不是为了刷榜,而是为了每天处理上亿次生产请求而生。 更狠的是它的打法:OpenRouter 已上线一周免费 API(262K 上下文), 官方确认即将开放权重——这明显在抢生态,和当年 DeepSeek 路数一样, 但这次握着的是生产级效率这个最大杀器。 这意味着2026 年的游戏规则彻底变了:不再是谁参数多谁牛,而是谁能在真实生产成本下跑赢。 过去的刷榜竞赛已进入尾声, 真正的生产落地竞赛才刚刚开始。

译蚂蚁集团发布Ling-2.6系列模型,通过MoE架构与Fast-Thinking机制,将推理激活率降至7%,在实现接近GPT-5.4非推理水平综合智能的同时,大幅降低token成本。该模型在SWE-bench Verified等真实Agent场景测试中表现领先,旨在解决Agent规模化应用的成本痛点。目前已在OpenRouter提供免费API并即将开源,推动行业焦点从刷榜转向生产落地。其高效率特性尤其适合高频任务,在部分任务中速度比Claude Sonnet 4.6快6倍、成本低50倍。

Rohan Paul@rohanpaul_ai · 4月29日54

GPT-5.5 Pro just posted the highest Epoch AI's ECI score yet at 159, which means it now leads their combined measure of general model capability across many separate tests. ECI matters because single benchmarks are easy to game or overfit, while a pooled index tries to measure whether a model is getting broadly better at many kinds of reasoning at once rather than just spiking on one exam. GPT-5.5 Pro and GPT-5.5 also solved 2 Tier 4 problems that no earlier model had solved.

译GPT-5.5 Pro在Epoch AI的ECI指数中获得159分,创下该综合能力评分的新纪录,表明其在多项测试中的整体模型能力目前领先。ECI指数旨在通过整合多个基准测试来评估模型的广泛推理能力,避免单一测试易被针对性优化的问题。此外,GPT-5.5 Pro与GPT-5.5共同解决了两个此前未有模型能处理的Tier 4级别难题。

Chubby♨️@kimmonismus · 4月29日58

Sébastien Bubeck on the OpenAI Podcast: People think AI is only good at answering questions. OpenAI's internal agents are now asking questions so good that researchers are writing papers based on them. They're also finding and correcting mistakes in published work. His timeline for models doing everything human researchers do? 1-2 years.

译Sébastien Bubeck 在 OpenAI 播客中表示:人们认为 AI 只擅长回答问题。但 OpenAI 的内部智能体现在已能提出如此优质的问题,以至于研究人员正据此撰写论文。 它们还能发现并修正已发表作品中的错误。他预测模型能完成人类研究者所有工作的时限?1-2年。

OpenAI@OpenAI · 4月29日36

Earlier this month, an Erdős problem that had been open for 60 years was solved with help from GPT-5.4 Pro. What happens now that AI is getting good at math? OpenAI researchers @SebastienBubeck and @ErnestRyu join host @AndrewMayne to explain what changed and what it could mean for the future of research.

译本月早些时候,一个悬置60年的埃尔德什问题在GPT-5.4 Pro的协助下得以解决。 当人工智能开始擅长数学时,会发生什么? OpenAI研究员@SebastienBubeck和@ErnestRyu与主持人@AndrewMayne共同探讨了变革所在及其对未来研究的意义。

Ant Ling@AntLingAGI · 4月29日57

Thanks to @huggingface for offering the place where open models can keep thriving! 🤗🤗 Token efficiency is the key to practical and sustainable co-work systems, let elephant-alpha / Ling-2.6-flash to be your best companion 😎

译推文感谢Hugging Face为开源模型的持续发展提供了重要平台。文中强调,token效率是构建实用、可持续协作系统的关键。AntLingAGI最新发布的Ling-2.6-flash模型已加入这场效率竞争,该模型采用MIT许可,具备104B/7.4B激活参数,并创新性地结合了1:7 MLA与Lightning Linear混合注意力机制。其性能表现突出:推理速度高达340 tok/s,并且仅需约1500万tokens即可完成完整的Artificial Analysis评测套件。这一效率显著高于通常需要5000万至1亿tokens的前沿模型,展现出其作为高效协作伙伴的潜力。

TestingCatalog News 🗞@testingcatalog · 4月28日57

Sonar 2 is now available on Perplexity web 👀 > Sonar models are Perplexity’s in‑house LLMs, optimized specifically for fast, web‑grounded search and answering Which base do you think was used for Sonar 2? DeepSeek V4, Kimi K2.6, or Qwen?

译Sonar 2 现已在 Perplexity 网页端上线 👀 > Sonar 模型是 Perplexity 自研的大型语言模型,专门针对快速、基于网络的搜索与回答进行了优化 你认为 Sonar 2 是基于哪个模型开发的?DeepSeek V4、Kimi K2.6 还是 Qwen? [引用 @sethsaler]:Perplexity 推出的 Sonar 2。👀 @testingcatalog @btibor91

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 4月27日36

I'm old enough to remember when everyone thought AI solving an novel math problem would be a front page story around the world Now it happens so often it's barely even worth tweeting about We're the boiling frogs

译我还记得那个年代,那时所有人都觉得AI解决一道新颖数学题会成为全球头条新闻 如今这种事发生得如此频繁,甚至都不值得发推一提 我们就是温水里的青蛙

SemiAnalysis@SemiAnalysis_ · 4月27日50

PALISADES TAHOE, APRIL 26, 2026 — InferenceX has added DeepSeekv4 MTP support with chat template for @sgl_project's B300! Great Work to @radixark @liin1211 for the engineering! Massive interactivity gains, and 7x throughput at iso-interactivity!

译PALISADES TAHOE,2026年4月26日 — InferenceX 已为 @sgl_project 的 B300 添加了 DeepSeekv4 MTP 支持及聊天模板!感谢 @radixark @liin1211 的工程贡献!交互性大幅提升,在同等交互性下吞吐量提高7倍!

Chubby♨️@kimmonismus · 4月27日68

Google just broke a decade-long tradition. At Cloud Next 2026, the company unveiled not one, but two new AI chips, the TPU 8t for training and TPU 8i for inference. For the first time ever, Google is splitting its custom silicon into specialized architectures instead of relying on a one-size-fits-all design. The TPU 8t superpod packs 9,600 liquid-cooled chips delivering 121 FP4 ExaFlops of peak compute, roughly a 3x leap over the previous generation. The TPU 8i delivers 80% better performance-per-dollar than its predecessor, with triple the on-chip memory and a new Boardfly topology that cuts network latency in half. The important aspect: Anthropic, Meta, and now OpenAI are buying multi-gigawatt allocations of TPU capacity. OpenAI booking Google silicon is a first visible crack in NVIDIA's grip on frontier AI training. Broadcom co-designed the TPU 8t, while MediaTek handles the TPU 8i, both fabbed by TSMC. NVIDIA still holds 81% of the AI chip market, but the era of serious competition has officially begun.

译Google在Cloud Next 2026上首次将定制芯片拆分为专用架构,推出训练芯片TPU 8t与推理芯片TPU 8i。TPU 8t超级模块配备9600个液冷芯片,峰值算力达121 FP4 ExaFlops,较前代提升约3倍;TPU 8i的性价比提升80%,片上内存增至三倍,并通过新拓扑结构将网络延迟减半。Anthropic、Meta及OpenAI均已采购千兆瓦级TPU算力,其中OpenAI首次采用Google芯片,动摇了NVIDIA在前沿AI训练市场的垄断地位。两款芯片分别由Broadcom和MediaTek共同设计,TSMC代工。尽管NVIDIA仍占据81%的AI芯片市场份额,但实质性的竞争时代已拉开序幕。

Chubby♨️@kimmonismus · 4月27日45

A 23-year-old has cracked one of the Erdős problems that remained unsolved for over 60 years, using ChatGPT 5.4 Pro. Now image what ChatGPT 5.5 Pro will be capable of. And remarkably, it was done in a single pass. Total solve time: just 1 hour and 20 minutes.

译一名23岁的青年利用ChatGPT 5.4 Pro,成功解决了一个悬置超过60年的Erdős问题。整个过程一气呵成,AI仅用1小时20分钟便完成求解。值得注意的是,AI运用了一个众所周知的公式,但此前无人将其应用于此特定问题。这一突破展示了先进AI在解决复杂数学问题上的潜力,并引发对其未来版本(如ChatGPT 5.5 Pro)能力的想象。

Berryxia.AI@berryxia · 4月27日34

这个人话真的也是“人味十足”!

译这个人话真的也是“人味十足”! [引用 @berryxia]:这是你们说的:Claude 开始会说人话了吗?🤔

Berryxia.AI@berryxia · 4月27日49

本周AI论文大爆炸! @dair_ai 精选Top 10最硬核研究 1️⃣ DeepSeek V4:原生百万token上下文开源模型!1.6T参数混合注意力(CSA+HCA),性能直逼GPT-5.2和Gemini 3.0-Pro,成本仅为闭源模型一小部分!开源长上下文新王者诞生🔥 2️⃣ Autogenesis:AI Agent自我进化协议!自主发现能力缺口、生成改进、测试验证、自动集成,无需人类打补丁,真正实现自我升级! 3️⃣ Apple Attention to Mamba:Transformer蒸馏成Mamba新方案!两阶段线性注意力过渡,1B模型接近Pythia-1B性能,推理速度线性加速! 还有Skill-RAG、Self-Generated World Knowledge、Self-Evolving Logic Synthesis、Stateless Decision Memory等重磅论文… AI研究又一次集体起飞!哪个最让你兴奋?👇

译本周多项前沿AI研究取得突破。开源模型DeepSeek V4具备百万token上下文和1.6T参数,性能接近顶级闭源模型而成本更低。Autogenesis协议使AI Agent能自主发现能力缺口并自我进化。Apple Attention to Mamba提出将Transformer蒸馏至Mamba架构的新方法,实现线性推理加速。此外,Skill-RAG等研究也展示了领域的快速进展。

François Chollet@fchollet · 4月27日53

No, the top score if you didn't account for action efficiency would be 100%, achievable with 20 lines of Python. All you need is to brute-force the state space. Please stop spreading complete disinformation.

译不,如果不考虑行动效率,最高分将是100%,用20行Python代码就能实现。你只需要暴力枚举状态空间。请停止传播完全虚假的信息。 [引用 @scaling01]:62.1% on ARC-AGI-3 would be the score if they used the same scoring as ARC-AGI-1/2

François Chollet@fchollet · 4月27日61

(we tested this, it scored sub-1%)

译(我们测试过,得分低于1%) [引用 @scaling01]:有可能GPT-5.5-xhigh配合工具已经解决了ARC-AGI-3

elvis@omarsar0 · 4月27日64

NEW paper from Alibaba. A 30B MoE with only 3B active params matches Qwen3-235B on real tool-use workloads. AgenticQwen-30B-A3B: 50.2 average on TAU-2 + BFCL-V4 Multi-Turn. AgenticQwen-8B: 47.4. Both more than double their vanilla Qwen baselines and close most of the gap to a 235B model. How: two RL flywheels run in parallel. - The reasoning loop mines the model's own errors into harder problems each round. - The agentic loop grows simple linear tool-use trajectories into multi-branch behavior trees. - Simulated users actively try to mislead the agent. The training distribution gets harder on its own. Why it matters for agent devs: you can stop paying frontier prices for routine tool-use workloads. And the flywheel recipe is reusable. Generate your hard examples from your own agent's failures, not from static synthetic data. Paper: https://arxiv.org/abs/2604.21590 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译阿里巴巴提出一种通过双强化学习飞轮训练智能体的新方法,并基于此推出了AgenticQwen-30B-A3B模型。该模型总参数量为300亿,但每次推理仅激活30亿参数,在TAU-2和BFCL-V4多轮工具使用基准测试中取得了50.2的平均分,性能与参数量达2350亿的Qwen3-235B相当。其核心在于并行运行两个飞轮:推理循环将模型自身错误转化为更难训练问题;智能体循环则将简单工具使用轨迹扩展为多分支行为树,并通过模拟用户误导主动增加训练难度。该方法意味着开发者无需为常规工具任务支付高昂的尖端模型成本,且飞轮配方可复用,能从智能体自身失败中生成困难样本。

向阳乔木@vista8 · 4月26日85

http://x.com/i/article/2048407268547522560 # OpenAI GPT-5.5官方介绍 [AI翻译重写] OpenAI 在 4 月 23 日发布了 GPT-5.5,4 月 24 日 API 正式开放。 每次大模型发布,都会有一堆跑分截图刷屏,然后大家看完就散了。 但这次读完OpenAI的博客原文,有几个地方值得认真拆开来说。 > https://openai.com/index/introducing-gpt-5-5/ ## 它到底想解决什么 先说一个很多人都有过的体验。 用 AI 做复杂任务,你得像个项目经理一样全程盯着它。 稍微多几个步骤,它就开始跑偏,或者干脆停下来问你"接下来怎么办"。 你花在"管理 AI"上的精力,有时候比自己动手还多。 GPT-5.5 想解决的,就是这个问题。 OpenAI 的原话是:给它一个乱糟糟的、多步骤的任务,它会自己规划、调用工具、检查结果、处理模糊情况,然后一直做下去,直到完成。 这个方向比跑分数字更值得关注。 跑分可以调参刷出来,但"能不能真的把一件复杂的事做完",才是实际工作里最重要的能力。 OpenAI 把这类能力叫做 Agentic,中文可以理解为"自主行动能力",也就是模型能像一个真正的执行者一样,自己规划步骤、调用外部工具、处理中途遇到的障碍,而不是每一步都等人指令。 ## 跑分数据,先看这几个关键的 这张表对比了 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro 六个模型。 几个重点数字: Terminal-Bench 2.0(测试复杂命令行工作流,需要规划、迭代和工具协调):GPT-5.5 拿到 82.7%,GPT-5.4 是 75.1%,Claude Opus 4.7 是 69.4%。提升幅度不小。 GDPval(测试 AI 在 44 种职业里完成知识工作的能力):GPT-5.5 是 84.9%,GPT-5.4 是 83.0%,Gemini 3.1 Pro 只有 67.3%。 OSWorld-Verified(测试模型能不能独立操作真实电脑界面,比如点击、输入、切换软件):GPT-5.5 是 78.7%,GPT-5.4 是 75.0%,Claude Opus 4.7 是 78.0%,基本持平。 FrontierMath Tier 4(顶级数学难题,人类专家解起来也很吃力):GPT-5.5 是 35.4%,GPT-5.4 是 27.1%,Claude Opus 4.7 是 22.9%,Gemini 3.1 Pro 只有 16.7%。这个提升幅度相当明显。 BrowseComp(测试模型在网上深度搜索和研究的能力):GPT-5.5 Pro 拿到 90.1%,是所有模型里最高的。 ## 代码能力:不只是"写代码更快" 这两张图有个很有意思的地方:GPT-5.5 的点在右上角(得分更高),但横轴的位置(token 消耗)并没有比 GPT-5.4 多,甚至更少。 更聪明,同时更省。 这在大模型里不常见,通常能力越强,消耗越大。 Expert-SWE 是 OpenAI 内部的评测基准,专门测那种"长周期编程任务",每道题的人类预计完成时间中位数是 20 小时。GPT-5.5 在这个测试上同样超过了 GPT-5.4。 > 视频地址:https://openai.com/index/introducing-gpt-5-5/?video=1185606271 演示里,有一个是从一张截图出发,让模型用 WebGL 和 Vite(两个前端开发工具)实现一个阿尔忒弥斯二号任务的 3D 轨道可视化 app,用的是 NASA 真实数据,还要支持交互操作和真实的轨道力学。 这种任务以前需要一个有经验的前端工程师花好几天。 两个真实测试者的反馈值得引用: Dan Shipper(Every 创始人)发布 app 后遇到了一个棘手 bug,调了好几天,最后让公司最好的工程师重写了部分系统才解决。 他拿 GPT-5.5 做了个回溯测试:把 bug 出现时的代码状态给模型,让它判断该怎么修。 GPT-5.4 做不到,GPT-5.5 给出了和那位工程师基本一致的方案。 他说 GPT-5.5 是"第一个让我感受到真正概念清晰度的编程模型"。 Pietro Schirano(MagicPath CEO)让 GPT-5.5 把一个有几百处前端改动和重构的分支,合并进一个同样有大量变更的主分支。 这种合并在工程上是噩梦级别的,人工做可能要花一整天。 模型大概用了 20 分钟,一次搞定。他说"感觉像是在和一个更高智能合作,甚至有一种尊重感"。 还有一个 NVIDIA 工程师说: > "失去 GPT-5.5 的使用权,感觉像是被截肢了。" Cursor 的联合创始人 Michael Truell 也给出了具体描述:GPT-5.5 比 GPT-5.4 更持久,在复杂的长任务里不会轻易停下来,这对他们用户最依赖的那类工作影响最大。 ## 知识工作:从"回答问题"到"帮你干活" GDPval 这个测试很有意思,它不是考数学或者写代码,而是测模型在 44 种真实职业里完成知识工作的能力,比如财务分析、法律文件、市场研究。 GPT-5.5 以 84.9% 的胜率领先,Gemini 3.1 Pro 只有 67.3%,差距相当大。 OSWorld-Verified 测的是模型能不能真正"用电脑",不是在对话框里聊天,而是看屏幕、点击、输入、在不同软件之间切换。 GPT-5.5 达到 78.7%,接近 Claude Opus 4.7 的 78.0%。 Tau2-bench Telecom 测的是复杂客服工作流,GPT-5.5 达到 98.0%,GPT-5.4 是 92.8%。 而且这个测试是在没有针对性调整提示词的情况下跑的,其他模型的数据是调整过提示词之后的结果,所以这个对比对 GPT-5.5 来说其实更有说服力。 OpenAI 内部的真实使用数据: - 超过 85% 的 OpenAI 员工每周在用 Codex,覆盖工程、财务、市场、数据科学等几乎所有部门。 - Finance 团队用它审查了 24,771 份 K-1 税务表格(K-1 是美国的一种合伙人税务申报表),共 71,637 页,比去年提前了两周完成,而且流程里排除了个人隐私信息。 - Comms 团队用它分析了六个月的演讲邀请数据,建立了一套评分和风险框架,低风险请求自动处理,高风险的还是走人工审核。 - Go-to-Market 团队有人用它自动生成每周业务报告,每周省了 5 到 10 小时。 ## 科研能力:这个方向有点超出预期 GeneBench 是一个专门测多阶段科学数据分析的基准,聚焦遗传学和定量生物学。 这类任务的特点是:数据可能有错误或歧义,模型要自己判断,还要正确使用现代统计方法,而且很多题目对应的是科学专家需要花好几天的项目。 GPT-5.5 在这里的提升幅度比其他测试更明显:从 GPT-5.4 的 19.0% 跳到了 25.0%,Pro 版更是到了 33.2%。 BixBench 是围绕真实生物信息学和数据分析设计的基准(生物信息学,Bioinformatics,是用计算机方法分析生物数据的学科,比如基因序列分析)。 GPT-5.5 达到 80.5%,GPT-5.4 是 74.0%,是目前有公开成绩的模型里最高的。 数学证明的案例值得单独说。 一个内部版本的 GPT-5.5 配合自定义工具,帮助发现了一个关于拉姆齐数的新证明。 拉姆齐数(Ramsey numbers)是组合数学里的核心研究对象。 组合数学研究离散对象怎么组合在一起,比如图、网络、集合、模式。 拉姆齐数问的是:一个网络要多大,才能保证某种有序结构必然出现?这类结果极少,技术难度很高。 这个证明后来在 Lean 里得到了验证。 Lean 是一个数学形式化验证工具,可以用计算机严格检验数学证明是否成立。 也就是说,不是模型"说"它发现了证明,是真的经过了独立验证的数学结论。 两个研究者的真实使用案例: 免疫学教授 Derya Unutmaz 用 GPT-5.5 Pro 分析了一个有 62 个样本、近 28,000 个基因的基因表达数据集,生成了详细研究报告,还挖出了关键问题和洞察。 他说这些工作,他的团队做可能要几个月。 数学助理教授 Bartosz Naskręcki 用 GPT-5.5 在 Codex 里,从一个提示词出发,11 分钟内构建了一个代数几何 app,可以可视化两个二次曲面的交线,并把结果转换成 Weierstrass 模型(一种椭圆曲线的标准形式,在数论研究里很常用)。 他后来还扩展了 app,加入了更稳定的奇点可视化和精确系数输出,可以直接用于后续研究。 他说,这类自定义数学可视化工具以前需要专门的软件才能实现,现在一个提示词就能搞定。 ## 推理效率:模型帮助优化了运行自己的基础设施 这部分是原文里最容易被忽略、但技术上最有意思的地方。 GPT-5.5 是一个更大、更强的模型,按常理应该更慢、更贵。 但 OpenAI 说它的单 token 延迟和 GPT-5.4 持平,也就是响应速度没有变慢。 怎么做到的? GPT-5.5 是专门为 NVIDIA GB200 和 GB300 NVL72 系统设计和训练的。 这是英伟达最新一代的 AI 推理硬件,专门为大规模语言模型推理优化。 但硬件只是一部分。他们还对推理系统做了大量软件层面的优化,其中最有意思的一个: 以前,每个请求在 GPU 上会被切成固定数量的块来处理,这样大请求和小请求可以在同一块 GPU 上运行。 但固定分块对所有流量形状都不是最优的。 Codex 分析了几周的生产流量数据,写出了自定义的启发式算法,动态决定怎么分块和负载均衡。 这个优化让 token 生成速度提升了 20% 以上。 也就是说,模型帮助优化了运行自己的基础设施。 这个递归关系有点微妙,但非常真实。 Artificial Analysis 的智能指数是由外部机构跑的 10 个评测的加权平均,包括编程、科学、推理等多个维度。 GPT-5.5 在这张图上的位置:智能指数最高,同时 token 成本处于中等水平,也就是 OpenAI 说的"顶级智能,一半的成本"。 ## 网络安全:能力越强,管控越严 这次发布在网络安全方向有专门的篇幅,值得单独说。 OpenAI 把 GPT-5.5 的生物化学和网络安全能力都评定为 High(高风险),但还没到 Critical(临界)级别。 这是他们内部 Preparedness Framework(准备框架,用来评估模型潜在风险等级的体系)里的分级。 CyberGym 测的是模型在网络安全任务上的能力:GPT-5.5 是 81.8%,GPT-5.4 是 79.0%,Claude Opus 4.7 是 73.1%。 CTF(Capture the Flag) 是网络安全领域的一种竞赛形式,参赛者需要找到系统漏洞、获取隐藏的"Flag"字符串。 这个内部测试用的是更难的 CTF 题目,GPT-5.5 达到 88.1%,GPT-5.4 是 83.7%。 OpenAI 的应对策略分三层: 第一层,加强管控。 针对高风险网络安全请求部署更严格的分类器,他们自己也承认"一开始可能会误伤一些正常用户",会持续调整。 第二层,开放可信访问。 推出 Trusted Access for Cyber 计划,从 Codex 开始,通过身份验证的用户可以获得更少限制的网络安全能力访问权限,用于合法的防御性工作。 负责保护关键基础设施的组织可以申请访问 GPT-5.4-Cyber(专门的网络安全版本),但需要满足严格的安全要求。 申请地址是 chatgpt.com/cyber。 第三层,和政府合作。 探索如何用 AI 支持负责保护关键基础设施的政府机构,包括数字系统、电网、供水系统等。 ## 长上下文能力:这个提升幅度很惊人 MRCR(Multi-Round Conversation Retrieval) 测的是模型在超长对话里找到正确信息的能力。 8 根针,意思是在对话里藏了 8 条关键信息,看模型能不能全找到。 在 512K 到 1M token 的超长上下文里,GPT-5.5 达到 74.0%,GPT-5.4 只有 36.6%,Claude Opus 4.7 是 32.2%。 翻倍的提升。 这意味着 GPT-5.5 在处理超长文档、超长对话时,信息检索能力远超前代。 Graphwalks 测的是在超长图结构数据里做推理(比如找路径、找父节点)。 在 1M token 的场景下,GPT-5.5 的 BFS(广度优先搜索)得分是 45.4%,GPT-5.4 只有 9.4%。 ## 抽象推理:ARC-AGI-2 的数字很有意思 ARC-AGI 是一个专门测试抽象推理和模式识别的基准,被认为是衡量"类人推理能力"的重要指标。 ARC-AGI-1(相对简单版本):GPT-5.5 是 95.0%,Gemini 3.1 Pro 是 98.0%,GPT-5.5 略低。 ARC-AGI-2(更难版本):GPT-5.5 是 85.0%,GPT-5.4 是 73.3%,Claude Opus 4.7 是 75.8%,Gemini 3.1 Pro 是 77.1%。GPT-5.5 在这里反而领先了。 ## 定价和可用性,说清楚 ChatGPT 里: - GPT-5.5 Thinking:Plus、Pro、Business、Enterprise 用户可用 - GPT-5.5 Pro(更难问题,更高精度):Pro、Business、Enterprise 用户可用 Codex 里: - GPT-5.5:Plus、Pro、Business、Enterprise、Edu、Go 计划可用 - 上下文窗口:400K token - Fast 模式:速度快 1.5 倍,价格是 2.5 倍 API(开发者接口): OpenAI 特别说明:虽然 GPT-5.5 比 GPT-5.4 贵,但因为完成同样任务用的 token 更少,实际总成本对大多数用户来说不会增加太多,在 Codex 里甚至可能更省。 ## 最后说一个更大的背景 这次发布有一句话值得反复读: > "过去一年,AI 在软件工程领域的渗透速度极快。GPT-5.5 想做的,是把这种渗透扩展到科学研究和更广泛的知识工作。" 软件工程是第一个被大规模改变的领域,因为代码是结构化的,对错容易验证,反馈循环很快。 科学研究更难,因为数据有噪声,结论需要专业判断,验证周期很长。 但从 GeneBench、BixBench、数学证明这些案例来看,模型正在从"回答科学问题"变成"参与科学过程"。 这两件事之间的距离,比看起来要大得多。 能不能真的做到,还需要时间验证。但方向已经很清楚了。

译OpenAI发布GPT-5.5,核心目标是增强模型自主规划与执行多步骤复杂任务的能力,减少人工干预。在多项基准测试中表现突出:在Terminal-Bench 2.0、FrontierMath Tier 4等复杂任务上超越GPT-5.4及Claude Opus等竞品;在GDPval知识工作与OSWorld-Verified真实电脑操作测试中也保持领先。其代码能力更优且效率更高,科研能力显著提升,甚至辅助发现了拉姆齐数的新证明。尽管模型更大更强,其响应速度与GPT-5.4持平。

Emad@EMostaque · 4月26日38

Bet this happens with Navier Stokes and it’s going to be something not even related to PDEs that solves it

译我打赌纳维-斯托克斯方程也会这样,最终解决它的方法甚至可能与偏微分方程无关。 [引用 @Ananyo]:23 years old with no advanced mathematics training solves Erdős problem with ChatGPT Pro. "What’s beginning to emerge is that the problem was maybe easier than expected, and it was like there was some kind of mental block.”-Terence Tao https://www.scientificamerican.com/article/amateur-armed-with-chatgpt-vibe-maths-a-60-year-old-problem/

meng shao@shao__meng · 4月25日63

腾讯混元 26.02 重建预训练与强化学习基础设施后,发布了首个模型「Hy3 preview」,不仅是混元"最智能的模型",更标志着团队从"追榜"逻辑向实用主义的系统转型,模型采用 MoE 架构,总参数 295B / 激活参数 21B,支持 256K 上下文,采用快慢思考融合机制 # 三大原则定义"真实战斗力" 混元团队明确提出了重建后的三条核心原则,这决定了 Hy3 的评测与训练逻辑: · 能力体系化:拒绝"偏科"。即使是代码智能体单一应用,也需推理、长文、指令、对话、工具调用等能力深度协同 · 评测真实性:主动跳出易被刷榜的公开榜单,转而采用自建题目、最新考试(如 2025 生物学联赛、清华求真书院 26 春博资考)、人工评测、产品众测等方式 · 性价比追求:模型架构与推理框架深度协同设计,以降低任务成本,追求商业合理性 # 能力表现:推理与长文跃升,代码智能体进步最大 通过多组对比(vs Hy2、Gemini-3.1-Pro、GLM-5、Kimi-K2.5、GPT-5.4 xhigh)展示了 Hy3 的能力边界: 1. 复杂推理:进入第一梯队,但顶尖数学仍有差距 · 优势领域:FrontierScience-Olympiad(70.0)、IMO Answer Bench(84.3)、CHSBO 2025(87.8)、GPQA-Diamond(87.2)均达到或接近国际顶尖水平。 · 相对短板:在清华求真书院数学博资考上,Hy3(88.4)与 GPT-5.4 xhigh(99.3)存在明显差距;HLE 基准(30.0)也落后于 Gemini-3.1-Pro(44.4)等。 · 结论:基础理工科推理能力已具备强泛化性,但面对最高难度的纯数学推理时,与全球绝对顶尖模型仍有距离。 2. 上下文学习与指令遵循:自研基准,提升显著 · 团队基于业务场景灵感,自研了 CL-bench 和 CL-bench-Life 来评估上下文学习能力。 · 在 AdvancedIF(79.5)、AA-LCR(66.3)、LongBench v2(65.4)等标准长文任务上,Hy3 较前代 Hy2 提升明显,并进入第一梯队。 · 但在自研的 CL-bench(22.8)和 CL-bench Life(15.7)上,仍落后于 GPT-5.4 xhigh(26.7 / 19.2),说明超长上下文的复杂隐式推理仍是行业共同难题。 3. 代码与智能体:提升最为显著的方向 "提升最为显著的方向",在 SWE-Bench Verified、Terminal-Bench 2.0 以及 BrowseComp、WideSearch 等主流基准中取得了强竞争力的结果。 # 关键亮点:非结构化信息的隐性挖掘能力 官方展示的会议纪要排期案例极具代表性,体现了 Hy3 区别于传统指令遵循的核心优势: · 输入:一段口语化、多轮穿插、信息分散的对话(包含春分日期、新人介绍、请假安排、加班调休、工作日规则、开发流程依赖等)。 · 挑战:需识别隐含约束(如"20号春分上线"意味着硬 deadline,"下周一请假"需顺延工作日,"周六加班"可计入工期但周日休息)。 · 输出:将非结构化对话转化为严格符合格式要求、逻辑自洽的排期表格。 官方博客 https://hy.tencent.com/hy3-preview 下方信息卡绘制用的就是 Hy3 Preview 模型,Skills 和提示词在这: https://x.com/shao__meng/status/2035720327037108673?s=20

译腾讯混元团队在重建基础设施后,推出首个MoE架构模型Hy3 preview,总参295B,支持256K上下文。团队确立能力体系化、评测真实性、性价比三大原则,推动模型向实用转型。评估显示,Hy3在复杂推理与长上下文任务上进入第一梯队,代码与智能体能力进步显著。其突出亮点是能深度挖掘非结构化对话中的隐含约束,并转化为结构化输出,体现了强大的实际应用潜力。

歸藏(guizang.ai)@op7418 · 4月25日79

这才是那个 Deepseek 啊,Deepseek 限时 2.5 折! V4-Pro 百万 Token 输出只需要 6 块钱朋友们,这还要啥自行车

译DeepSeek推出V4模型限时2.5折优惠,其Pro版百万Token输出成本仅6元。模型分为Pro版(总参数1.6T)和Flash版(总参数284B),预训练数据均为32T。在应用中,专家模式对应Pro版,快速模式对应Flash版。测评显示其性能与Claude Opus 4.6持平,Agent能力与世界知识显著增强,并采用新注意力机制以降低计算需求。

Greg Brockman@gdb · 4月25日72

gpt-5.5 is a big step up in performance, give it a try:

译gpt-5.5 在性能上实现大幅提升,试试看吧:

AK@_akhaliq · 4月25日74

DeepSeek-V4 paper is out on Hugging Face paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

译DeepSeek-V4 论文已在 Hugging Face 发布 paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

AK@_akhaliq · 4月24日39

Near-Future Policy Optimization paper: https://huggingface.co/papers/2604.20733

译近未来策略优化 论文:https://huggingface.co/papers/2604.20733

Rohan Paul@rohanpaul_ai · 4月22日

New University of Luxembourg+LIH paper reveals a critical gaps in LLMs’ ability to handle structured reasoning under constraints It checks if LLMs can solve Optimal Power Flow problems end to end, and finds that they mostly cannot do so physically coherently. Across models and sizes, constraint satisfaction stayed stuck at about 55 to 60 percent. The interesting result here is not that LLMs miss a hard engineering problem. It is that they miss it in a very specific way. Optimal Power Flow is a brutal test of real reasoning because it is not just about getting numbers close to a target, but about satisfying a web of physical constraints at the same time, from generator limits to bus voltages to the power-flow equations themselves. That sounds minor until you look at the mechanism. A model can produce an answer that looks clean, uses the right JSON, and even lands near the right values on mean squared error, while still violating the equations that make the grid physically coherent. This paper shows exactly that failure mode. Across several model families and sizes, constraint satisfaction sits in a stubborn band around 55 to 60 percent, and the main bottleneck is the power-flow constraints, while generator and voltage limits are often satisfied far more easily, as the table on page 12 makes plain. Here’s the part most people miss. That pattern is not a small bug in prompting. It suggests the models are learning the shape of a solution without actually carrying out the constrained search that the problem demands. The ablations make the point sharper. Supervised fine-tuning improves formatting and often lowers MSE, but it does not materially improve physical feasibility, and even a more elaborate system prompt barely moves the numbers, which is about as clean a rejection of “prompting will fix it” as you can ask for. Reinforcement learning with a reward for valid structure and satisfied constraints helps a bit, especially on the 30-bus case, but even there the gains are modest rather than transformative, as the study overview on page 2 and results plots on pages 7 and 8 show. So the real lesson is not that LLMs cannot reason. It is that fluent approximation is not the same thing as optimization under law, and until models can reliably honor the constraints that define a system, “looks plausible” remains a very dangerous standard. ---- Paper Link – arxiv. org/abs/2603.23004v1 Paper Title: "Can LLMs Reason and Optimize Under Constraints?"

译卢森堡大学与LIH研究揭示,LLM在结构化约束推理中存在关键缺陷。通过最优潮流问题测试发现,各类模型约束满足率停滞于55%-60%,主要瓶颈是无法满足电力系统物理约束方程。研究表明,模型仅学会"解的形状"却未真正执行约束搜索,导致输出看似合理(格式正确、误差小)却物理不可行。监督微调虽改善表面指标,但无法提升物理可行性;强化学习亦效果有限。研究警示:流畅近似不等于约束优化,"看起来合理"是危险标准。

OpenAI@OpenAI · 4月22日

What makes ChatGPT Images 2.0 a state-of-the-art image generation model? Researchers behind the model explain. A thread: Thinking & Intelligence in ChatGPT Images 2.0, demonstrated by @ayaanzhaque

译是什么让 ChatGPT Images 2.0 成为最先进的图像生成模型? 模型背后的研究人员解释道。串帖: ChatGPT Images 2.0 中的思考与智能,由 @ayaanzhaque 演示

Rohan Paul@rohanpaul_ai · 4月22日

OpenAI’s new image model has quietly made realistic AI image generation seem fully solved. We also get readable English text, and usable design drafts from one prompt. The old weakness was easy to spot because image models could fake texture and lighting but often broke on letters, layout, and multi-part instructions. This is so important because text rendering is the hard bridge between “pretty image” and actual work like ads, posters, menus, magazine covers, and mock-ups. The new system also uses a reasoning mode, which means it can spend extra steps planning the image instead of guessing the whole scene in one shot. That extra planning helps with complex prompts, unusual aspect ratios, and multi-image outputs, but it also makes generation slower. Photorealism alone is no longer the benchmark because the real test is whether a model can follow structure, place objects correctly, and write words humans can actually use for economically valuable activities.

译OpenAI发布ChatGPT Images 2.0,凭借推理模式(reasoning mode)解决了AI图像生成在文本渲染与复杂布局上的历史短板。新系统不仅能生成逼真视觉,更能精确处理字母排版、多部分指令和特殊比例,直接产出可立即用于广告、海报等商业场景的设计稿。这标志着行业评估标准已从单纯追求照片级真实感,转向结构准确性、文本可用性与实际经济价值,AI图像生成正式进入可用化新阶段。

Ethan Mollick@emollick · 4月22日

LLMs are still not consistent judges of qualitative work, and small changes to how that work is presented affect outcomes. Better harnessing and methods (multiple judging runs with randomized orders, etc) would certainly help, but the jagged frontier is very much still real.

译LLM 在评判定性工作时仍缺乏一致性,作品呈现方式的细微变化会影响结果。 更好的运用和方法(多次评判并随机排序等)肯定有所帮助,但锯齿状前沿(jagged frontier)仍然真实存在。

TestingCatalog News 🗞@testingcatalog · 4月22日34

GOOGLE 🚨: REFERENCES TO AN UPDATED DEEP RESEARCH AND DEEP RESEARCH MAX MODELS HAVE BEEN SPOTTED! - deep-research-max-preview-04-2026 - deep-research-preview-04-2026 Google Deep Max Ultra Pro 👀

译GOOGLE 🚨: 已发现关于更新版深度研究和深度研究MAX模型的引用! - deep-research-max-preview-04-2026 - deep-research-preview-04-2026 Google Deep Max Ultra Pro 👀

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月30日
02:06
Google AI@GoogleAI
52
智能体时代启幕:谷歌发布第八代TPU,专为AI训练与服务打造

在Google Cloud Next '26大会上,谷歌正式推出专为智能体时代设计的第八代TPU芯片,分别针对AI训练与服务两大核心挑战。TPU 8t专注于训练,其性能约为前代的3倍,并通过加速数据移动和优化硬件容错,将原本需数月的训练时间缩短至数周。TPU 8i则专为执行复杂任务的AI智能体服务,内存扩大三倍以支持多步推理,每美元性能提升80%,延迟降低5倍,助力企业以更低成本扩展服务规模。这些芯片将为医疗研究、客户支持等广泛场景提供核心算力,推动AI应用创新。

Google产品更新推理部署/工程
01:42
Ant Ling@AntLingAGI
55
Ling-2.6-1T正式开源,来自@AntLingAGI。该模型拥有1T总参数和63B活跃参数,专为实际生产设计,具有token高效性,便于开发者测试、部署和定制。从Ling-2.6-flash升级到1T规模,实现了从快速推理到更强推理的跨越。主推文强调,结合@opencode等工具展示了酷炫演示,体现了模型与现有工具的兼容性和实用性,并对@novita_labs的合作发布表示感谢。

Novita AI: Today, Ling-2.6-1T is officially open-sourced (from @AntLingAGI) 1T total parameters · 63B active parameters Built for r...

开源/仓库推理模型发布
01:42
Ant Ling@AntLingAGI
53
谢谢Adina~ Token效率是引领下一阶段的关键特性。我们需要明智且高效地消耗token,才能使整个行业可持续发展。🤗🤗

Adina Yakup: Ling-2.6-1T just dropped by @AntLingAGI , one day after Ling 2.6 Flash. Both optimized for the same goal: usable intelli...

开源/仓库推理模型发布
01:42
Ant Ling@AntLingAGI
精选72
SGLang团队(隶属于LMSYS Org)揭示了其旗舰指令模型实现快速、高效、大规模执行的关键在于可靠的基础设施与针对性优化。团队宣布对AntLingAGI发布的Ling-2.6-1T万亿参数模型提供Day-0支持。该模型采用快速思考方法,在保持质量的同时,成本可比同类模型降低约4倍,并在AIME26和SWE-bench基准测试中达到SOTA水平。它专为高级编码、复杂推理和大规模智能体工作流设计,具备万亿参数能力与即时模型延迟。团队正持续进行优化,以进一步提升性能。

LMSYS Org: 👏 Meet Ling-2.6-1T from @AntLingAGI, the trillion-parameter flagship instant instruct model built for fast execution & ...

智能体推理模型发布编码

推荐理由:万亿参数做到即时延迟和4倍成本优势,还有SWE-bench SOTA,这份承诺如果兑现,会改变大规模Agent部署的性价比计算。值得去cookbook跑一下验证。
4月29日
23:42
Ant Ling@AntLingAGI
精选71
Ling-2.6-1T万亿参数模型开源,主打令牌高效

AntLingAGI正式开源其万亿参数旗舰模型Ling-2.6-1T。该模型采用总参数1万亿、激活参数630亿的架构,核心设计理念是“令牌高效”,旨在以极低的令牌开销实现顶尖智能。它通过“快速思考”机制优化,具备可靠的多步骤执行能力,在指令遵循、工具使用和上下文控制方面表现优异。模型为实际生产需求优化,部署便捷,兼容广泛的智能体框架,适用于从代码生成到错误修复等多种任务。

Ant Ling: 🚀 Today, we are launching Ling-2.6-1T, a trillion-parameter flagship model designed for precise instruct task execution...

开源/仓库推理模型发布部署/工程

推荐理由:蚂蚁把万亿参数模型开源了,但强调的不是大,而是省 token,这对成本敏感的生产环境是真正的性价比之选,做 agent 的可以上手测测。
23:40
TestingCatalog News 🗞@testingcatalog
63
MISTRAL 🚨: Mistral AI 发布了 Mistral Medium 3.5,这是一个拥有 256k 上下文窗口和可配置推理算力的 128B 密集开放权重模型。 Mistral Medium 3.5 现已在 Mistral Vibe 和 Le Chat 上可用。

Mistral Vibe: Introducing remote agents in Vibe and Mistral Medium 3.5. You can now launch remote agents in the cloud, including from ...

开源生态推理模型发布
21:49
Xiaomi MiMo@XiaomiMiMo
精选60
小米MiMo-V2.5-Pro在最新Arena排行榜中实现多项突破

小米MiMo-V2.5-Pro模型在最新Arena排行榜中表现卓越。在Text Arena(Expert)榜单中,它位列全球第六,同时是开源模型与中文模型的双料第一,其所属实验室全球排名第三。该模型在Text Arena(Overall)总榜中排名开源全球第二,在Code Arena(WebDev)前端开发榜单中位列开源全球第三。此外,它在Text Arena的四个关键子类别(Hard Prompts、英文Hard Prompts、指令遵循与长查询)中均获得开源全球第一。这些成绩均基于真实用户偏好与社区盲投评估,体现了模型在复杂任务上的强大综合能力。

开源生态推理模型发布

推荐理由:小米MiMo-V2.5-Pro冲到Arena开源第一,虽然排名更新晚了几天,但这是国产模型在硬核评测里最好的成绩,做选型的现在该认真看看小米。
20:33
Qwen@Alibaba_Qwen
精选60
闪存QLA:基于TileLang构建的高性能线性注意力内核

FlashQLA是基于TileLang构建的高性能线性注意力内核,专为个人设备上的智能体AI设计。其核心创新包括门控驱动的自动片内计算并行、硬件友好的代数重构以及TileLang融合的Warp专用内核,通过提升流处理器利用率,在前向传播上实现2-3倍加速,反向传播实现2倍加速。该技术在小模型、长上下文工作负载和张量并行设置中效果显著,虽然在大批次处理时内存I/O开销略高,但在边缘设备和长上下文场景中实际性能更优。反向传播通过16级Warp专用流水线在严格片上内存限制下实现了核心级加速。相关资源已开源。

开源/仓库推理端侧

推荐理由:2 倍加速的背后是 Warp 特化流水线和自动 Copy 策略,像给手机 GPU 开了条专用跑道,做端侧 Agent 的可以直接拉代码试试。
20:33
Qwen@Alibaba_Qwen
精选66
闪速QLA:基于TileLang构建的高性能线性注意力内核

FlashQLA是基于TileLang开发的高性能线性注意力内核,专为提升个人设备上智能体AI性能而设计。它实现了2-3倍的前向传播加速和2倍的反向传播加速。其核心技术包括门控驱动的片上自动计算与通信重叠、硬件友好的代数重构,以及TileLang融合的Warp专用内核。该设计通过自动片上通信重叠显著提升了流处理器利用率,在张量并行、小模型和长上下文任务中效果突出。尽管在大批量处理时,其将GDN流程拆分为两个内核的策略会带来额外内存开销,但在边缘设备和长上下文实际场景中性能更优。反向传播部分通过构建16级、严格片上内存限制下的Warp专用流水线,实现了超过2倍的内核级加速。

GitHub开源/仓库推理端侧

推荐理由:Qwen 把线性注意力的推理效率压到了新台阶,2-3 倍加速对想做本地 Agent 的开发者是实打实的,不是论文灌水,是能跑在设备上的代码。
17:08
Chubby♨️@kimmonismus
63
GPT-5.5 pro 在 Epoch 基准测试中实现了显著飞跃。然而更令人兴奋的是,GPT-5.5(非 pro 版)超越了 GPT-5.4 pro。 【引用 @EpochAIResearch】:GPT-5.5 Pro 在 Epoch 能力指数上创下 159 分的新高分!ECI 是我们的统计工具,它将多个基准测试整合到一个统一的量表中。

Epoch AI: GPT-5.5 Pro achieves a new high score of 159 on the Epoch Capabilities Index! ECI is our statistical tool that combines ...

OpenAI推理模型发布评测/基准
16:38
Rohan Paul@rohanpaul_ai
62
AMD提出长上下文混合LLM架构HyLo,实现低成本能力升级

AMD研究团队提出HyLo混合LLM架构,可在预训练后低成本为模型添加长上下文能力。该方案通过结构性筛选,保留关键注意力层以保证质量,同时用固定内存的廉价层替换多数层以追踪长序列,从而将可用上下文扩展至200万token,并减少90%以上的KV缓存。基于Llama和Qwen等1B至3B模型,HyLo在保持短上下文性能接近基准的同时,在RULER等长上下文基准测试中表现优异。这为开发者提供了一条无需废弃现有强检查点、即可低成本获得更长上下文和更低内存占用的实用路径。

推理论文/研究
15:35
阿绎 AYi@AYi_AInotes
66
蚂蚁Ling-2.6-1T模型以高效能低成本引领AI生产落地竞争

蚂蚁集团推出的Ling-2.6-1T模型在免费测试期表现突出,处理复杂任务速度可比竞品快6倍,并具备主动思辨能力。其核心优势在于极高的token效率,能将成本降至可比模型的四分之一,同时综合智能接近GPT-5.4非推理水平,实现了高智能与低生产成本的结合。该模型在SWE-bench、AIME26等生产相关评测中领先,擅长代码、Agent编排等实际应用。蚂蚁依托支付宝场景与海量数据,通过开放API策略推动行业竞争重点从刷榜转向生产落地。

阿绎 AYi: 说个暴论,2026 年 AI 行业的转折点,不是 GPT-5.5,也不是 o3,是蚂蚁@AntLingAGI 刚刚发布的 Ling-2.6-1T。 我用 Ling-2.6-1T 跑了一个查理芒格的 100 个思维模型的硬核任务, 结果真的太...

大佬观点开源生态推理评测/基准
12:08
Chubby♨️@kimmonismus
40
初创公司Engramme构建了一种名为"大记忆模型"的全新AI架构,旨在专门模拟人类记忆的工作方式,而非依赖RAG或向量搜索等现有技术范式。其创始团队拥有超过160篇Nature和ICLR的出版物,并为此关闭了哈佛实验室。该公司认为,持久性记忆是当前AI的关键弱点,其LMM技术旨在为各类应用赋予持久记忆能力,宣称其解决了AI中的核心记忆难题,正如Google与OpenAI分别解决了搜索和语言问题一样。目前产品已开放测试注册。

Engramme: Persistent memory is the Achilles heel of AI. Engramme's Large Memory Models (LMMs) empower every app with persistent me...

智能体产品更新推理
09:35
阿绎 AYi@AYi_AInotes
精选76
蚂蚁发布Ling-2.6系列模型,以极致token效率推动AI生产落地竞赛

蚂蚁集团发布Ling-2.6系列模型,通过MoE架构与Fast-Thinking机制,将推理激活率降至7%,在实现接近GPT-5.4非推理水平综合智能的同时,大幅降低token成本。该模型在SWE-bench Verified等真实Agent场景测试中表现领先,旨在解决Agent规模化应用的成本痛点。目前已在OpenRouter提供免费API并即将开源,推动行业焦点从刷榜转向生产落地。其高效率特性尤其适合高频任务,在部分任务中速度比Claude Sonnet 4.6快6倍、成本低50倍。

阿绎 AYi: 后续来了兄弟们,卧槽真的太炸了,同样的任务,同样的配置,速度比Claude Sonnet 4.6还快 6 倍,成本低约 50 倍, openrouter 和 官方 API 均限时免费 1 周使用时间,白嫖的机会,冲啊兄弟们! 我上周那条讲E...

智能体推理评测/基准

推荐理由:把 token 成本砍到对手四分之一而智能分不降,Agent 规模化终于有了真正的成本解决方案,做 Agent 的必看。
07:07
Rohan Paul@rohanpaul_ai
54
GPT-5.5 Pro在Epoch AI的ECI指数中获得159分,创下该综合能力评分的新纪录,表明其在多项测试中的整体模型能力目前领先。ECI指数旨在通过整合多个基准测试来评估模型的广泛推理能力,避免单一测试易被针对性优化的问题。此外,GPT-5.5 Pro与GPT-5.5共同解决了两个此前未有模型能处理的Tier 4级别难题。

Epoch AI: GPT-5.5 Pro achieves a new high score of 159 on the Epoch Capabilities Index! ECI is our statistical tool that combines ...

OpenAI推理评测/基准
05:07
Chubby♨️@kimmonismus
58
Sébastien Bubeck 在 OpenAI 播客中表示:人们认为 AI 只擅长回答问题。但 OpenAI 的内部智能体现在已能提出如此优质的问题,以至于研究人员正据此撰写论文。 它们还能发现并修正已发表作品中的错误。他预测模型能完成人类研究者所有工作的时限?1-2年。
智能体OpenAI大佬观点推理
02:08
OpenAI@OpenAI
36
本月早些时候,一个悬置60年的埃尔德什问题在GPT-5.4 Pro的协助下得以解决。 当人工智能开始擅长数学时,会发生什么? OpenAI研究员@SebastienBubeck和@ErnestRyu与主持人@AndrewMayne共同探讨了变革所在及其对未来研究的意义。
OpenAI大佬观点推理
01:38
Ant Ling@AntLingAGI
57
推文感谢Hugging Face为开源模型的持续发展提供了重要平台。文中强调,token效率是构建实用、可持续协作系统的关键。AntLingAGI最新发布的Ling-2.6-flash模型已加入这场效率竞争,该模型采用MIT许可,具备104B/7.4B激活参数,并创新性地结合了1:7 MLA与Lightning Linear混合注意力机制。其性能表现突出:推理速度高达340 tok/s,并且仅需约1500万tokens即可完成完整的Artificial Analysis评测套件。这一效率显著高于通常需要5000万至1亿tokens的前沿模型,展现出其作为高效协作伙伴的潜力。

Adina Yakup: Token efficiency has become a major battleground, Ling-2.6-flash released by @AntLingAGI just enters the race 🔥 ✨ 104B/...

开源生态推理模型发布
4月28日
00:09
TestingCatalog News 🗞@testingcatalog
57
Sonar 2 现已在 Perplexity 网页端上线 👀 > Sonar 模型是 Perplexity 自研的大型语言模型,专门针对快速、基于网络的搜索与回答进行了优化 你认为 Sonar 2 是基于哪个模型开发的?DeepSeek V4、Kimi K2.6 还是 Qwen? 【引用 @sethsaler】:Perplexity 推出的 Sonar 2。👀 @testingcatalog @btibor91

Seth Saler: Sonar 2 from Perplexity. 👀 @testingcatalog @btibor91

产品更新推理搜索
4月27日
23:57
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
36
我还记得那个年代,那时所有人都觉得AI解决一道新颖数学题会成为全球头条新闻 如今这种事发生得如此频繁,甚至都不值得发推一提 我们就是温水里的青蛙

Chubby♨️: A 23-year-old has cracked one of the Erdős problems that remained unsolved for over 60 years, using ChatGPT 5.4 Pro. Now...

推理现象/趋势
22:27
SemiAnalysis@SemiAnalysis_
50
PALISADES TAHOE,2026年4月26日 - InferenceX 已为 @sgl_project 的 B300 添加了 DeepSeekv4 MTP 支持及聊天模板!感谢 @radixark @liin1211 的工程贡献!交互性大幅提升,在同等交互性下吞吐量提高7倍!
产品更新推理部署/工程
20:53
Chubby♨️@kimmonismus
68
Google打破十年传统,推出训练与推理专用TPU芯片

Google在Cloud Next 2026上首次将定制芯片拆分为专用架构,推出训练芯片TPU 8t与推理芯片TPU 8i。TPU 8t超级模块配备9600个液冷芯片,峰值算力达121 FP4 ExaFlops,较前代提升约3倍;TPU 8i的性价比提升80%,片上内存增至三倍,并通过新拓扑结构将网络延迟减半。Anthropic、Meta及OpenAI均已采购千兆瓦级TPU算力,其中OpenAI首次采用Google芯片,动摇了NVIDIA在前沿AI训练市场的垄断地位。两款芯片分别由Broadcom和MediaTek共同设计,TSMC代工。尽管NVIDIA仍占据81%的AI芯片市场份额,但实质性的竞争时代已拉开序幕。

Google产品更新推理部署/工程
17:22
Chubby♨️@kimmonismus
45
一名23岁的青年利用ChatGPT 5.4 Pro,成功解决了一个悬置超过60年的Erdős问题。整个过程一气呵成,AI仅用1小时20分钟便完成求解。值得注意的是,AI运用了一个众所周知的公式,但此前无人将其应用于此特定问题。这一突破展示了先进AI在解决复杂数学问题上的潜力,并引发对其未来版本(如ChatGPT 5.5 Pro)能力的想象。

sengpt: 23 yaşında bi genç 60 yıldır çözülemeyen Erdös problemlerinden birini chatgpt 5.4 pro ile çözmüş. hem de tek atışta. cha...

OpenAI推理现象/趋势
14:48
Berryxia.AI@berryxia
34
这个人话真的也是"人味十足"! 【引用 @berryxia】:这是你们说的:Claude 开始会说人话了吗?🤔

Berryxia.AI: 这是你们说的:Claude 开始会说人话了吗?🤔

Anthropic大佬观点推理
09:19
Berryxia.AI@berryxia
49
本周AI论文大爆炸!精选Top 10硬核研究

本周多项前沿AI研究取得突破。开源模型DeepSeek V4具备百万token上下文和1.6T参数,性能接近顶级闭源模型而成本更低。Autogenesis协议使AI Agent能自主发现能力缺口并自我进化。Apple Attention to Mamba提出将Transformer蒸馏至Mamba架构的新方法,实现线性推理加速。此外,Skill-RAG等研究也展示了领域的快速进展。

DAIR.AI: http://x.com/i/article/2048081731584933888

DeepSeek大佬观点推理
07:25
François Chollet@fchollet
53
不,如果不考虑行动效率,最高分将是100%,用20行Python代码就能实现。你只需要暴力枚举状态空间。请停止传播完全虚假的信息。 【引用 @scaling01】:62.1% on ARC-AGI-3 would be the score if they used the same scoring as ARC-AGI-1/2

Lisan al Gaib: 62.1% on ARC-AGI-3 would be the score if they used the same scoring as ARC-AGI-1/2

大佬观点推理评测/基准
07:25
François Chollet@fchollet
61
(我们测试过,得分低于1%) 【引用 @scaling01】:有可能GPT-5.5-xhigh配合工具已经解决了ARC-AGI-3

Lisan al Gaib: there's a chance ARC-AGI-3 is already solved with GPT-5.5-xhigh + tools

大佬观点推理评测/基准
04:59
elvis@omarsar0
64
阿里发布智能体训练新方法:双强化学习飞轮催生高效工具使用模型

阿里巴巴提出一种通过双强化学习飞轮训练智能体的新方法,并基于此推出了AgenticQwen-30B-A3B模型。该模型总参数量为300亿,但每次推理仅激活30亿参数,在TAU-2和BFCL-V4多轮工具使用基准测试中取得了50.2的平均分,性能与参数量达2350亿的Qwen3-235B相当。其核心在于并行运行两个飞轮:推理循环将模型自身错误转化为更难训练问题;智能体循环则将简单工具使用轨迹扩展为多分支行为树,并通过模拟用户误导主动增加训练难度。该方法意味着开发者无需为常规工具任务支付高昂的尖端模型成本,且飞轮配方可复用,能从智能体自身失败中生成困难样本。

智能体推理论文/研究部署/工程
4月26日
23:20
向阳乔木@vista8
精选85
OpenAI发布GPT-5.5,重点提升AI自主执行复杂任务能力

OpenAI发布GPT-5.5,核心目标是增强模型自主规划与执行多步骤复杂任务的能力,减少人工干预。在多项基准测试中表现突出:在Terminal-Bench 2.0、FrontierMath Tier 4等复杂任务上超越GPT-5.4及Claude Opus等竞品;在GDPval知识工作与OSWorld-Verified真实电脑操作测试中也保持领先。其代码能力更优且效率更高,科研能力显著提升,甚至辅助发现了拉姆齐数的新证明。尽管模型更大更强,其响应速度与GPT-5.4持平。

OpenAI推理模型发布编码

推荐理由:GPT-5.5 的核心叙事不是跑分,而是从「回答问题」到「把事做完」的范式切换。长上下文检索翻倍、代码任务更聪明且更省 token,这两个信号叠加在一起,做 Agent 和科研工具的人该认真评估了。
05:21
Emad@EMostaque
38
我打赌纳维-斯托克斯方程也会这样,最终解决它的方法甚至可能与偏微分方程无关。 【引用 @Ananyo】:23 years old with no advanced mathematics training solves Erdős problem with ChatGPT Pro. "What's beginning to emerge is that the problem was maybe easier than expected, and it was like there was some kind of mental block."-Terence Tao https://www.scientificamerican.com/article/amateur-armed-with-chatgpt-vibe-maths-a-60-year-old-problem/

Ananyo Bhattacharya: 23 years old with no advanced mathematics training solves Erdős problem with ChatGPT Pro. "What's beginning to emerge is...

大佬观点推理
4月25日
22:17
meng shao@shao__meng
63
腾讯混元发布首个重建基础设施后模型「Hy3 preview」

腾讯混元团队在重建基础设施后,推出首个MoE架构模型Hy3 preview,总参295B,支持256K上下文。团队确立能力体系化、评测真实性、性价比三大原则,推动模型向实用转型。评估显示,Hy3在复杂推理与长上下文任务上进入第一梯队,代码与智能体能力进步显著。其突出亮点是能深度挖掘非结构化对话中的隐含约束,并转化为结构化输出,体现了强大的实际应用潜力。

Tencent Hy: 👋Hi /haɪ/, we're the Tencent Hy /haɪ/ team🐧 Today, we open source Hy3 preview (295B A21B), a leading reasoning and age...

开源/仓库推理模型发布编码
21:36
歸藏(guizang.ai)@op7418
精选79
DeepSeek推出V4模型限时2.5折优惠,其Pro版百万Token输出成本仅6元。模型分为Pro版(总参数1.6T)和Flash版(总参数284B),预训练数据均为32T。在应用中,专家模式对应Pro版,快速模式对应Flash版。测评显示其性能与Claude Opus 4.6持平,Agent能力与世界知识显著增强,并采用新注意力机制以降低计算需求。

歸藏(guizang.ai): DeepSeek V4详细的官方公告也发了: 模型参数 (a) Pro 版本:总参数 1.6T,激活参数 49B (b) Flash 版本:总参数 284B,激活参数 13B (c) 预训练数据量:均为 32T 模式区分(网页端与 APP)...

DeepSeek推理模型发布

推荐理由:DeepSeek V4-Pro 百万 token 输出只要 6 块,这个定价直接把 Opus 4.6 级别的能力拉到了白菜价,做 Agent 和长上下文应用的产品人该重新算账了。
03:12
Greg Brockman@gdb
精选72
gpt-5.5 在性能上实现大幅提升,试试看吧:

Satya Nadella: Super excited GPT-5.5 is rolling out to GitHub Copilot, M365 Copilot, Copilot Studio, and Foundry today. With deeper rea...

OpenAI推理模型发布编码

推荐理由:GPT-5.5 本身是代际级更新,但这条推文只是转发 Nadella 的官宣,没有新数据或新角度。真正值得关注的是它已经铺进 Copilot 全线,做编码和办公场景的人今天就能摸到。
02:08
AK@_akhaliq
精选74
DeepSeek-V4 论文已在 Hugging Face 发布 paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
DeepSeek推理模型发布
关联讨论 1 条X:Artificial Analysis (@ArtificialAnlys)
推荐理由:DeepSeek-V4 论文终于落地,这是今年开源阵营最被期待的模型之一,做推理和开源部署的同行值得花时间啃一遍技术细节。
4月24日
00:48
AK@_akhaliq
39
近未来策略优化 论文:https://huggingface.co/papers/2604.20733
推理数据/训练论文/研究
4月22日
14:44
Rohan Paul@rohanpaul_ai
卢森堡大学与LIH研究揭示LLM约束推理关键缺陷

卢森堡大学与LIH研究揭示,LLM在结构化约束推理中存在关键缺陷。通过最优潮流问题测试发现,各类模型约束满足率停滞于55%-60%,主要瓶颈是无法满足电力系统物理约束方程。研究表明,模型仅学会"解的形状"却未真正执行约束搜索,导致输出看似合理(格式正确、误差小)却物理不可行。监督微调虽改善表面指标,但无法提升物理可行性;强化学习亦效果有限。研究警示:流畅近似不等于约束优化,"看起来合理"是危险标准。

arXiv推理数据/训练论文/研究
05:07
OpenAI@OpenAI
是什么让 ChatGPT Images 2.0 成为最先进的图像生成模型? 模型背后的研究人员解释道。串帖: ChatGPT Images 2.0 中的思考与智能,由 @ayaanzhaque 演示
OpenAI图像生成推理论文/研究
03:45
Rohan Paul@rohanpaul_ai
ChatGPT Images 2.0发布:AI图像生成进入实用化阶段

OpenAI发布ChatGPT Images 2.0,凭借推理模式(reasoning mode)解决了AI图像生成在文本渲染与复杂布局上的历史短板。新系统不仅能生成逼真视觉,更能精确处理字母排版、多部分指令和特殊比例,直接产出可立即用于广告、海报等商业场景的设计稿。这标志着行业评估标准已从单纯追求照片级真实感,转向结构准确性、文本可用性与实际经济价值,AI图像生成正式进入可用化新阶段。

OpenAI: Introducing ChatGPT Images 2.0 A state-of-the-art image model that can take on complex visual tasks and produce precise,...

OpenAI图像生成大佬观点推理
03:37
Ethan Mollick@emollick
LLM 在评判定性工作时仍缺乏一致性,作品呈现方式的细微变化会影响结果。 更好的运用和方法(多次评判并随机排序等)肯定有所帮助,但锯齿状前沿(jagged frontier)仍然真实存在。

Lech Mazur: Does an LLM keep the same judgment when you swap the answer order? New LLM Position Bias Benchmark! Judge models compare...

OpenAI推理论文/研究
01:48
TestingCatalog News 🗞@testingcatalog
34
GOOGLE 🚨: 已发现关于更新版深度研究和深度研究MAX模型的引用! - deep-research-max-preview-04-2026 - deep-research-preview-04-2026 Google Deep Max Ultra Pro 👀
Google产品更新推理
‹ 上一页
1…1920212223…25
下一页 ›