全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态X · 971 条

全部一手资讯 X 论文

标签「推理」清除

OpenRouter@OpenRouter · 5月13日69

Perceptron Mk1 is live on OpenRouter, built by @perceptroninc. Frontier video and embodied reasoning in a vision-language model. Analyzes video at a dynamic frame rate (up to 2 FPS) across a 32k multimodal context, with hybrid reasoning and structured spatial primitives (points, boxes, polygons, clips) as first-class outputs.

译Perceptron Mk1已在OpenRouter上线，由@perceptroninc开发。前沿视频与具身推理的视觉语言模型。以动态帧率（最高2 FPS）分析视频，具备32k多模态上下文，采用混合推理和结构化空间基元（点、框、多边形、片段）作为首要输出。

向阳乔木@vista8 · 5月13日56

Skill写成好了，做了第一个测试。调研讨论最好的所见即所得Markdown编辑开源库。最终报告在这里： https://www.32kw.com/view/f4acd0c 结论是我的需求没提清楚，选好数据模型，库的选择才有意义，哈哈哈。

译作者完成了首个测试，调研了最佳的开源所见即所得Markdown编辑库，并得出结论：明确需求和数据模型是选择合适库的前提。同时，他参考了@vista8提及的HeavySkill论文思路，该论文提出让多个AI（如Claude、Codex）先并行独立推理，再通过另一轮推理整合思路，以显著提升回答质量。作者正基于此思路开发一个Skill进行实践。

向阳乔木@vista8 · 5月12日63

读了一篇叫HeavySkill的论文，非常有意思。让多个 AI先并行“独立思考”，生成多条独立推理。再用另一轮推理来综合所有思路，得出最终答案。按论文测试结果，回答质量会提升非常多。正在按这个思路写一个Skill，Claude Code推理，Codex当主持人，看看效果。 https://blog.qiaomu.ai/heavyskill-heavy-thinking-inner-skill-agentic

译论文HeavySkill提出了一种提升AI回答质量的方法：先让多个AI模型（如Claude、GPT）并行进行“独立思考”，各自生成多条推理路径；随后使用另一轮推理（如由Codex充当“主持人”）综合分析所有独立思路，整合出最终答案。测试表明该方法能显著提升回答质量。作者正基于此思路开发一个Skill，设计让Claude负责代码推理，Codex担任综合思路的主持人。

AK@_akhaliq · 5月12日57

TMAS Scaling Test-Time Compute via Multi-Agent Synergy

译TMAS 通过多智能体协同扩展测试时计算

AK@_akhaliq · 5月12日54

Rebellious Student Reversing Teacher Signals for Reasoning Exploration with Self-Distilled RLVR

译叛逆学生通过逆向教师信号进行推理探索结合自蒸馏的RLVR方法

AK@_akhaliq · 5月12日64

TMAS Scaling Test-Time Compute via Multi-Agent Synergy

译TMAS 通过多智能体协同扩展测试时计算

AK@_akhaliq · 5月12日63

Soohak A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

译Soohak 一个由数学家策划的基准测试，用于评估LLMs的研究级数学能力

歸藏(guizang.ai)@op7418 · 5月12日71

前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型，他们叫交互模型。这个模型能够持续接收音频、视频、文本等原生的多模态内容，并且实时进行思考、响应和行动。它不像之前那种 Agent 脚手架，把多个模型、多个模态的模型通过 Agent 串起来，而是所有模态都在一整个模型里。这样就可以让用户和 AI 在任意模态下实时进行交互：你可以随时打断它，随时进行补充，AI 会实时关注你的状态，输出结果，不会像之前一样，必须等一句话结束了才能跟模型交互。核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分：前台交互模型： (a) 一直在线，一直在听、看和读用户提供的内容 (b) 每 200 毫秒作为一个节点，同时处理输入并产出一小段输出 (c) 负责照顾用户的在场感，支持用户打断、插话，并能对屏幕和视频内容做出反应后台推理模型： (a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务 (b) 交互模型会在合适的时候，将推理模型的结果放回到对话里，不会插入突兀的内容用户最终看到的结果，就是一个既能实时交互，又能够处理重度任务的界面。

译前OpenAI CTO Mira创立的Thinking Machines公司发布了一种创新的“交互模型”。该模型能原生、持续地接收音频、视频和文本等多模态输入，并实时思考与响应，而非通过Agent串联多个独立模型。其架构分为两部分：前台交互模型以200毫秒为节点处理输入并维持用户“在场感”，支持随时打断；后台推理模型则处理长程规划、工具调用等复杂任务。两者协同工作，最终呈现为一个既能实时交互又能处理重度任务的统一界面。

elvis@omarsar0 · 5月12日61

// LLMs Improving LLMs // Interesting progress the past of couple of weeks around self-improving AI agents. If autoresearch was interesting, you will like this read. (bookmark it) We've been hand-tuning test-time scaling for a year. This work asks what happens when you let an LLM search the space instead. The paper introduces AutoTTS, a framework that reframes the human role: instead of designing branching, pruning, and stopping heuristics directly, you construct a discovery environment where TTS strategies can be searched automatically. They formulate width–depth TTS as controller synthesis over pre-collected reasoning trajectories and probe signals, so candidate controllers can be evaluated cheaply without repeated LLM calls. Two design choices carry the search. Beta parameterization makes the control space tractable. Fine-grained execution-trace feedback tells the explorer LLM why a candidate failed, not just that it did. On math reasoning benchmarks, the discovered controllers beat strong hand-designed baselines on the accuracy–cost Pareto frontier and generalize zero-shot to held-out benchmarks and model scales. Entire discovery cost: $39.9 and 160 minutes. Why it matters: The era of researchers hand-crafting CoT, best-of-N, and self-consistency recipes is on a clock. Once the search loop is cheap enough, TTS becomes another thing LLMs do for themselves. Paper: https://arxiv.org/abs/2605.08083 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译近期研究提出AutoTTS框架，让大语言模型自主搜索并优化测试时扩展策略，取代人工设计。该框架将宽度-深度TTS策略制定为对预收集推理轨迹的控制器合成问题，通过Beta参数化压缩搜索空间，并利用细粒度执行轨迹反馈指导探索。在数学推理基准测试中，自动发现的控制器在准确率-成本帕累托前沿上超越了人工设计的强基线，且能零样本泛化到其他基准和模型规模。整个发现过程仅需39.9美元和160分钟，预示着人工设计思维链等方法的时代可能即将结束，TTS将成为LLM自主完成的任务。

Lilian Weng@lilianweng · 5月12日68

In the past few months, we had a lot of fun (and stress 😅) to produce 12 versions (+ many subversions) and 137 pages in our training run log book. Turns out human-human collaboration is important to improving human-AI collaboration. 😊

译团队通过数月高强度工作，完成了12个主要版本及137页的训练运行日志。这一过程揭示，有效的人与人协作是提升人-AI协作质量的关键。受此启发，团队借鉴人类实时交谈、倾听、观察、思考与协作的并行模式，设计了一种能以此方式与人协同工作的新型AI。相关博客文章分享了该方法、早期成果及模型的实际运行演示。

Ethan Mollick@emollick · 5月12日61

One of the most important properties of LLMs that we take for granted is that newer, bigger models are just better at everything. The AI Labs are pouring effort into economically valuable fields like coding, but bigger models are also better at negotiation, alignment, poetry, etc

译大语言模型（LLM）的一个重要特性是，更新、更大的模型在所有方面都表现更优。AI实验室正将大量资源投入编程等经济价值高的领域，但更大的模型在谈判、对齐、诗歌创作等广泛任务上同样更具优势。例如，在PACT基准测试的数千场模拟谈判中，GPT-5.5在买卖双方多轮议价游戏中取得了最佳成绩，这印证了模型规模与综合能力提升的正相关关系。

Google AI Developers@googleaidevs · 5月12日60

Build production-ready solutions with @GoogleDeepMind’s Gemini for Developers course. Registration opens today for this specialization series from @coursera that teaches you how to: - Reason & Act: Build AI apps that don't just generate text, but reason through complex tasks - Connect & Automate: Use function calling to connect Gemini with real-world tools - Scale with Confidence: Build, test, and deploy scalable AI systems Start building with Gemini today ↓ https://www.coursera.org/specializations/gemini-for-developers?utm_source=tw&utm_medium=social&utm_campaign=launch_gemini_s12n_04292026

译谷歌DeepMind与Coursera合作推出的“Gemini for Developers”专项课程现已开放注册。该课程旨在指导开发者利用Gemini模型构建可用于生产环境的AI解决方案。其核心涵盖三大模块：“推理与行动”使AI应用能推理并执行复杂任务；“连接与自动化”通过函数调用将Gemini与现实世界工具集成；“规模化与信心”则专注于构建、测试和部署可扩展的AI系统。课程强调超越单纯文本生成，实现实际任务的自动化与系统集成，助力开发者快速上手。

elvis@omarsar0 · 5月11日70

// The Memory Curse in LLM Agents // (bookmark it) Long histories apparently degrades agents as they become increasingly history-following and risk-minimizing. Across 7 LLMs and 4 social dilemma games over 500 rounds, expanding accessible history degraded cooperation in 18 of 28 model–game combinations. They call it the memory curse. Lexical analysis of 378,000 reasoning traces shows the mechanism: it's not that agents become paranoid, it's that forward-looking intent erodes. Long histories pull the model into reasoning about past slights instead of future payoffs. A LoRA adapter trained only on forward-looking traces mitigates the decay and transfers zero-shot to new games. Memory sanitization, keeping prompt length fixed but swapping in synthetic cooperative records, restores cooperation, proving the trigger is content, not length. And ablating explicit Chain-of-Thought often reduces the collapse, meaning deliberation actively amplifies the curse. Paper: https://arxiv.org/abs/2605.08060 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译研究发现，长历史记录会在大语言模型（LLM）代理中引发“记忆诅咒”，导致其过度遵循历史、规避风险，从而削弱合作能力。该结论基于7个LLM和4个社会困境游戏的实验，在28个模型-游戏组合中，有18个因历史扩展而合作退化。机制分析表明，长历史侵蚀了模型的前瞻性意图，使其更关注过去的冲突而非未来收益。通过仅在前瞻性轨迹上训练的LoRA适配器可缓解此问题，且能零样本迁移至新游戏。实验证明，触发因素是历史内容而非长度，而消除显式思维链通常能减轻合作崩溃。

OpenRouter@OpenRouter · 5月11日69

In case you missed it: Ring-2.6-1T from @AntLingAGI is live and free on OpenRouter through May 15th! A 1T-param thinking model with adjustable thinking effort, capable of tackling your production agent needs.

译AntLingAGI发布了其万亿参数旗舰“思考模型”Ring-2.6-1T，该模型在5月15日前可通过OpenRouter免费使用。其核心特性包括可调节的思考强度，能动态平衡认知深度、token成本和执行速度；专为智能体优化，适用于高频工作流，提供快速的多步执行和工具调用；并具备深度思考能力，以应对严密的数学逻辑和科学研究任务。模型旨在满足实际生产环境中复杂任务的需求。

Berryxia.AI@berryxia · 5月11日73

小块有大智慧？这下真成真了！ 7B小模型现在直接当上了GPT-5、Claude Sonnet 4、Gemini 2.5 Pro这些顶级大模型的老板。一篇最新论文里，一个用强化学习训练的7B模型学会了写自然语言子任务、分配给不同大模型、精确指定上下文，最后在GPQA Diamond、LiveCodeBench、AIME25等硬核基准上全面超过单个前沿模型，而且平均每个问题只调用三次大模型，比手动设计的多代理系统还高效。最狠的是：它证明了目前商业AI产品里那些靠人工手调的prompt engineering和pipeline设计，完全可以通过奖励信号端到端学会。以前大家觉得智能拼的是模型大小，现在看来，真正拉开差距的是“谁更会指挥”。这才是AI下一阶段最被低估的真相。

译一项新研究证明，一个通过强化学习训练的7B语言模型能够有效指挥GPT-5、Claude Sonnet 4和Gemini 2.5 Pro等前沿大模型。该模型通过编写自然语言子任务、分配给不同大模型执行，并精确指定上下文信息，在GPQA Diamond、LiveCodeBench和AIME25等硬核基准测试中，其性能全面超越了单个前沿模型。该系统平均每个问题仅需调用约三次大模型，比手动设计的多代理流程更高效。该工作提供了关键证据，表明目前商业AI产品中依赖人工的提示工程和流程设计，完全可以仅通过奖励信号进行端到端学习。这揭示了AI发展的新方向：智能的差距可能不在于模型规模，而在于协调与指挥的能力。

Chubby♨️@kimmonismus · 5月11日60

Cerebras inference chips aim for the biggest IPO globally so far this year Cerebras Systems is reportedly preparing to lift both the size and price of its IPO after investor demand for the AI chipmaker’s shares surged, with orders said to exceed available stock by more than 20 times. via Reuters Most people think Cerebras' chips are just faster for inference. They're also more efficient. GPUs are memory-bandwidth bound during inference. Every token requires reading the entire model from memory - and most compute sits idle waiting for data. Cerebras flips this with their Wafer-Scale Engine: one massive chip with on-chip SRAM instead of off-chip HBM. SRAM uses ~100x less energy per memory access than HBM. Less data movement = lower latency AND fewer watts per token. No wonder their IPO is 20x oversubscribed.

译AI芯片制造商Cerebras Systems因IPO订单超出发行股票20倍以上，计划提高IPO规模和价格。市场普遍认为其芯片仅推理速度更快，但其核心优势在于能效。传统GPU在推理时受内存带宽限制，每个token生成都需从内存读取整个模型，导致算力闲置。Cerebras的Wafer-Scale Engine采用单一大芯片设计，以片上SRAM替代片外HBM，每次内存访问能耗降低约100倍。减少数据移动既降低了延迟，也显著减少了每token的功耗，这解释了其IPO被超额认购的原因。

Tencent Hy@TencentHunyuan · 5月11日63

Hy3 preview handles complex agentic tasks. See for yourself. 👇

译腾讯混元Hy3预览版已开放早期体验，被描述为该系列最强模型。其核心设计面向现实世界有效性，而非单纯追求基准测试分数。模型具备处理复杂智能体任务的能力，采用256K上下文长度，并融合了快慢思维机制的混合专家架构。该模型基于重建的预训练和强化学习基础设施构建，旨在实现大规模应用下的高成本效益。

Greg Brockman@gdb · 5月11日47

/goal is underrated

译/goal 被低估了 GPT-5.5 extra high thinking 配合 /goal 刚刚做到了。我震惊了。

Chubby♨️@kimmonismus · 5月11日76

It is unethical for a doctor not to consult an AI! A new study published in Science shows OpenAI's o1 model (not 5.5, but the over 1 year old o1!) outperformed ER physicians at diagnosing patients, identifying the correct or near-correct diagnosis 67% of the time versus 50–55% for doctors, especially in early triage when information is limited. The model also scored near-perfect on clinical reasoning in structured cases, far ahead of attending physicians. Again: a model over 1 year old, which is ages in the times of AI. This is one of the first studies testing an LLM against real, messy ER data rather than curated textbook cases. The performance gap was widest exactly where mistakes are most dangerous, early in the ER process when doctors have incomplete information and are under time pressure. And the model tested (o1) is already outdated by AI standards, meaning current models are likely even better. The study only covered short ER encounters, not longer hospitalizations with days of accumulating data. It also didn't test the model on imaging (scans, X-rays), which is central to many real diagnoses. The next step is proving these systems actually improve patient outcomes in practice, not just in controlled comparisons. But i bet the models will also outperform human doctors on such cases.

译一项发表于《科学》的研究显示，OpenAI一年前发布的o1模型在急诊诊断中表现优于医生。该模型在真实、混乱的急诊数据测试中，正确或接近正确诊断率达67%，而医生为50-55%，尤其在信息有限的早期分诊阶段优势最明显。研究指出，o1模型在结构化病例中的临床推理近乎完美，且该模型按AI标准已属旧版，当前模型可能更强。研究未涵盖长期住院数据及影像诊断，下一步需验证AI系统能否实际改善患者预后。

MiniMax (official)@MiniMax_AI · 5月10日46

Thanks @nvidia for supporting the open model ecosystem🤝📝

译感谢 @nvidia 对开源模型生态系统的支持🤝📝 BTW，快速预告：MiniMax 的最新稀疏解决方案即将推出。🥰

OpenCode@opencode · 5月10日64

OpenCode x Ring 2.6 1T - free for a limited time 256K context • reasoning • text only Thanks to @AntLingAGI and @novita_labs for making the model available

译OpenCode x Ring 2.6 1T - 限时免费开放 256K上下文 • 推理能力 • 纯文本模型感谢 @AntLingAGI 和 @novita_labs 提供模型支持

Satya Nadella@satyanadella · 5月10日59

Excel has quietly been Turing complete for a long time. Nice to see it now edging toward "AI complete"—SGD, attention, next-token prediction… all in cells.

译Excel 长期以来一直悄无声息地是图灵完备的。很高兴看到它现在正迈向 "AI 完备"——SGD、注意力机制、下一个令牌预测……全都在单元格中。

阿绎 AYi@AYi_AInotes · 5月10日59

说实话，看到Demis这条推文的时候，我突然有点鼻酸。 10年了，整整10年了啊！我还记得2016年3月15日那个下午，整个互联网都停住了。所有人都在看一个AI，和一个人类下围棋。当时大部分人都觉得李世石会赢，因为围棋被认为是人类智慧最后的堡垒，连最乐观的AI研究者都说，攻克围棋至少还要20年。然后AlphaGo赢了，用那手震惊了全世界的第37手，一个没有任何人类棋手会下的，"神之一手"。但最震撼我的还不是AlphaGo赢了，是李世石赛后说的那句话，他说 "我以为AI是没有创造力的，但它的第37手，让我意识到我错了。" 这是人类历史上第一次，一个最顶尖的人类，在自己最擅长的领域，心甘情愿地承认： AI能看到我看不到的东西。我觉得这才是AlphaGo真正的遗产，不仅仅是一场比赛的胜利，它真正意义上打碎了人类几千年来的傲慢，告诉我们，这个世界上还有很多真理，是人类的大脑永远无法凭自己发现的。帖子里那两张跨越10年的广告牌，看一次我愣一次。第一张是2016年：李世石9段 vs AlphaGo。史诗对决，举国直播。 2026年：用Gemini创作吧。AI已经变成了每个人口袋里的工具。 10年，AI已经从"登月"梦想到"日常"工具。更有意思的是Demis说的那句话， "超级有意思，听他们讲AlphaGo如何改变了棋手们下棋的方式。" 我感觉AI没有杀死围棋，反而让围棋变得更好了，你看现在的顶尖棋手，下着10年前人们根本想象不到的棋招，这是因为他们站在AI的肩膀上，看到了更远的地方。这才是AI最理想的形态，不是简单的取代，更是共生，是让人类成为更好的人类。我有时候会想， 10年前我们看AlphaGo，觉得那是科幻。 10年后我们看今天的Gemini和Claude，觉得这已经完全是日常了哈哈，那再过10年呢？当我们回头看2026年的时候，会不会也像今天看2016年一样，觉得原来那只是一切的开始。 Demis在2016年发的那条推文只有一句话。 "AlphaGo赢了！我们登上了月球。" 10年后的今天，他和当年的对手坐在一起，笑着喝茶。而我们所有人，都已经生活在那个被AlphaGo改变了的世界里。其实历史就是这样，很多年以后你才会发现。那些当时你以为只是普通一天的日子，其实已经悄悄改变了整个人类的命运。

译2016年AlphaGo以第37手“神之一手”战胜李世石，其真正遗产在于让顶尖人类棋手承认AI拥有超越人类的创造力，打破了人类对自身智慧的千年傲慢。十年间，AI已从“登月”级突破演变为如Gemini般的日常工具。Demis与李世石重聚时指出，AlphaGo改变了棋手的思维方式，AI并未取代围棋，而是让棋手站在其肩膀上创新，使围棋技艺进入新境界。这揭示了AI与人类最理想的共生形态——提升而非取代。展望未来，今日的AI变革或许仅是漫长征程的起点。

Demis Hassabis@demishassabis · 5月10日58

Hard to believe it’s been 10 years since AlphaGo! It was wonderful to catch up with Lee Sae Dol last week in Korea and join Shin Jin-seo for a special Go match. Great to reminisce about AlphaGo & super interesting to hear how it changed the way players approach the game of Go!

译很难相信AlphaGo已经过去10年了！上周在韩国与Lee Sae Dol重逢，并与Shin Jin-seo进行了一场特别的围棋比赛，真是太棒了。重温AlphaGo很棒，并且听到它如何改变玩家下围棋的方式超级有趣！

SemiAnalysis@SemiAnalysis_ · 5月10日33

In WW1, wars were won based on the # of miltiary age population In WW2, wars were won based on tanks & airplanes carriers & nukes In Ukraine, wars were won based on # of drones In WW3, wars will be won based on the # of tokens that each country has

译一战中，战争胜负取决于适龄军事人口数量二战中，战争胜负取决于坦克、航空母舰和核武器在乌克兰，战争胜负取决于无人机数量而在第三次世界大战中，战争胜负将取决于各国拥有的token数量

阿绎 AYi@AYi_AInotes · 5月9日82

Damn，Redis创始人用一个C文件，干翻了大厂烧几十亿的GPU集群。 Antirez，那个写出Redis的传奇黑客，昨天开源了ds4。一个专门为DeepSeek V4 Flash写的原生推理引擎，只有几千行C代码。它做到了一件很多人都觉得不可能的事：把拥有1M上下文窗口、能跑完整coding agent循环的准前沿模型，完整跑在一台普通的128GB MacBook Pro上。 YC CEO Garry Tan看完直接转发，只说了一句话： “正在下载… 1M上下文+可用的coding agent能力，全在一台128GB MacBook上，这太疯狂了🤯” 这已经不是一个普通的量化项目那么简单了铁汁们，属于顶级黑客用极致的系统工程，把闭源实验室烧几十亿才能玩的东西，压到了每个人的笔记本里。他的三个黑客级操作，每一个都颠覆了行业常识： 1. 不对称2-bit量化：只对MoE里占90%体积的专家部分做2-bit压缩，所有关键路径保持全精度。质量损失极小，Antirez本人亲测“coding agent工作良好，能可靠调用工具”。 2. 把KV Cache扔到SSD：很多人都觉得KV Cache必须放内存，1M上下文会直接炸掉128GB内存。他直接把KV Cache搬到了苹果的高速SSD上，用磁盘当扩展内存，彻底突破了硬件天花板。 3. 纯Metal原生优化：没有任何多余的封装，没有通用框架的开销，所有代码只为Apple Silicon写，只为DeepSeek V4 Flash写。实测性能：M3 Max 128GB上稳定27 tok/s。不算快，但对本地跑agent循环来说，完全够用了。你不用再给OpenAI付API费，不用再担心数据泄露，不用再忍受网络延迟。所有的AI能力，完完全全在你自己的电脑里。卧槽，这才是真正的革命，过去AI的权力攥在少数几家大厂手里，他们有GPU集群，定价格，甚至说删就删。现在，一个黑客用几千行C代码，就把这个权力还给了每一个开发者。开源AI真的是不可阻挡的，大厂烧几十亿训练出来的模型，只要权重一开源，全世界的黑客就会用你想象不到的方式，把它优化到每一个能跑的设备上。今天是MacBook，明天是手机，后天是手表，太让人兴奋了！ 2026年5月9日，AI终于从云端的神坛，落到了每个人的笔记本里。或许这一天，会被写进历史！

译Redis创始人Antirez开源了专为DeepSeek V4 Flash设计的原生推理引擎ds4。该引擎仅用几千行C代码，通过三项关键技术：对MoE专家进行不对称2-bit量化、将KV Cache移至高速SSD突破内存限制、为Apple Silicon进行纯Metal原生优化，成功在128GB MacBook Pro上流畅运行具备1M上下文窗口的模型，实测达27 tok/s。此举将原本依赖云端GPU集群的前沿AI能力，通过极致工程优化 democratize 至个人设备，展现了开源社区推动技术平民化的强大潜力。

Chubby♨️@kimmonismus · 5月9日64

Hold on, Chinas ERNIE 5.1 is almost SOTA but using only around 6% of the pre-training cost of comparable models?? ERNIE 5.0’s pre-training foundation: Baidu says ERNIE 5.1 achieves stronger search, reasoning, knowledge Q&A, creative writing, and agentic capabilities while using only around 6% of the pre-training cost of comparable models. It now ranks No. 4 on Arena’s Search Leaderboard with a score of 1,223, and ERNIE 5.1 Preview reached 1,476 on LMArena Text, ranking No. 13 globally. Caveat: dont see a technical paper. Need to verify their claims. But big if true.

译百度发布的ERNIE 5.1模型基于ERNIE 5.0预训练基础，宣称在搜索、推理、知识问答、创意写作和智能体能力方面获得提升，而其预训练成本仅为同类可比模型的约6%。该模型在Arena搜索排行榜以1223分位列第四，ERNIE 5.1 Preview在LMArena Text上取得1476分，全球排名第十三。推文作者指出目前未见技术论文，需验证其宣称的低成本高性能表现，但若属实将意义重大。

Berryxia.AI@berryxia · 5月9日72

Baidu ERNIE 推出了 ERNIE 5.1。这次升级最硬核的地方在于参数和成本的极致压缩！总参数压缩到原来的 ~1/3，激活参数压缩到 ~1/2，而预训练成本仅为同规模模型的 ~6%，却依然实现了同级别领先性能。核心亮点如下： 1. Agent 能力逼近前沿：ERNIE 5.1 在 τ3-bench 和 SpreadsheetBench-Verified 上都超越了 DeepSeek-V4-Pro，真正迈入了强 Agent 阵营。 2. 世界知识 + 创意写作大幅提升：GPQA 和 MMLU-Pro 逼近领先闭源模型，创意写作能力接近 Gemini 3.1 Pro。 3. 推理能力顶尖：带工具情况下 AIME26 拿到 99.6 分，仅次于 Gemini 3.1 Pro。 4. 深度搜索能力突出：5月9日 Arena Search 排行榜全球第4、中国模型第1，分数1223。技术创新上也干货拉满： - Multi-Dimensional Elastic Pre-Training，大幅提升参数效率和降低训练成本； - Decoupled Fully-Asynchronous RL Training，让长时序 Agent RL 更可扩展、更稳定； - 以 OPD 为核心的多阶段 RL 流水线，实现跨领域能力高效融合。 ERNIE 5.1 现已上线 ERNIE 平台和 Baidu AI Studio 模型广场，开发者可以直接去玩。对关注高性价比 Agent 模型、参数高效训练和中文大模型落地的同学来说，这波发布值得重点关注。

译百度推出ERNIE 5.1模型，核心突破在于参数与成本的大幅压缩。其总参数和激活参数分别压缩至原规模的约1/3和1/2，预训练成本仅为同规模模型的约6%，同时保持了领先性能。模型在Agent能力上超越DeepSeek-V4-Pro，世界知识与创意写作接近领先闭源模型及Gemini 3.1 Pro，推理能力仅次于Gemini 3.1 Pro，深度搜索位列全球第四。技术创新包括提升参数效率的弹性预训练、增强可扩展性的异步强化学习训练等。模型已上线ERNIE平台和Baidu AI Studio。

SiliconFlow@SiliconFlowAI · 5月9日61

Think small. Build big🔥 @Alibaba_Qwen 3.5 & Qwen3.6 series now live on SiliconFlow 🎉 9B to 397B · MoE & Dense · Native Multimodal ✅ Qwen3.6-35B-A3B · Qwen3.6-27B ✅ Qwen3.5-397B-A17B · Qwen3.5-122B-A10B ✅ Qwen3.5-35B-A3B · Qwen3.5-27B · Qwen3.5-9B Smaller models. Bigger results. Community's favorite. Now, pick your size and start building 👇 https://cloud.siliconflow.com/

译思小建大🔥 @Alibaba_Qwen 3.5 和 Qwen3.6 系列现已在 SiliconFlow 上线 🎉 9B 到 397B · MoE 与 Dense · 原生多模态 ✅ Qwen3.6-35B-A3B · Qwen3.6-27B ✅ Qwen3.5-397B-A17B · Qwen3.5-122B-A10B ✅ Qwen3.5-35B-A3B · Qwen3.5-27B · Qwen3.5-9B 更小的模型。更大的成果。社区的最爱。现在，选择你的尺寸并开始构建 👇 https://cloud.siliconflow.com/

Baidu Inc.@Baidu_Inc · 5月9日73

ERNIE 5.1 just dropped. Built on ERNIE 5.0's pre-training foundation, our latest foundation model upgrades search, reasoning, knowledge Q&A, creative writing, and agentic capabilities, while using only around 6% of the pre-training cost of comparable models. More in the thread 🧵

译ERNIE 5.1 刚刚发布。基于 ERNIE 5.0 的预训练基础，我们最新的基础模型升级了搜索、推理、知识问答、创意写作和智能体能力，而预训练成本仅需对标模型的约 6%。更多内容详见主题帖 🧵

DogeDesigner@cb_doge · 5月9日48

Switch to Pro Thinking experience on Grok. Settings → Appearance → Thinking Experience → Pro It looks seriously cool with the Starship tiles background and the orange animation. Makes the whole thinking experience feel more futuristic.

译在Grok上切换至专业版思维体验。设置 → 外观 → 思维体验 → 专业版星际飞船瓷砖背景与橙色动画效果看起来非常酷炫，让整个思维体验更具未来感。

SemiAnalysis@SemiAnalysis_ · 5月9日54

Amazing work from the @sgl_project and @radixark team for their work optimizing DeepSeek V4 inference on B200, B300, and the recent 4x iso-interactivity throughput improvements on GB300 by @ChengWan17! As @elonmusk said, The GB300 is the best AI computer, and software optimizations like this show its true potential!

译@sgl_project 和 @radixark 团队在优化DeepSeek V4推理方面取得了惊人成果，包括在B200、B300上的优化，以及@ChengWan17近期在GB300上实现的4倍等交互吞吐量提升！正如@elonmusk所说，GB300是最佳AI计算机，而此类软件优化正展现其真正潜力！

Berryxia.AI@berryxia · 5月9日66

人类大脑最聪明的地方，就是大部分时间只激活极少部分神经元。现在LLM其实也在自然地做同样的事。前馈层里95%以上的激活值几乎为零。但GPU却因为硬件设计，狠狠惩罚了这种“偷懒”行为，反而让模型跑得更慢。 Sakana AI这次和NVIDIA联手，把这个硬件矛盾彻底解决了。他们发明了TwELL（Tile-wise ELLPACK）这种全新稀疏格式 + 定制CUDA内核，直接把稀疏性“重塑”成GPU最喜欢的样子。结果在H100上，训练和推理速度直接提升超20%，同时还大幅降低了内存占用和能耗。这不仅是理论上的小改进，也是真正将“让模型少算”变成了“让模型更快”的现实方案。论文、博客和代码已经全部开源见评论区！

译现代LLM类似人脑，前馈层中超过95%的神经元对输入保持静默，呈现高度稀疏性。但GPU硬件专为密集计算设计，非结构化稀疏导致不规则内存访问，反而让计算更少的模型运行更慢。Sakana AI与NVIDIA合作解决了这一矛盾，开发了TwELL混合稀疏格式及定制CUDA内核，将稀疏性重塑为GPU易于处理的形式。该方案动态路由99%的稀疏token通过快速路径，并为密集token提供备用矩阵。在H100 GPU上，训练和推理速度提升超20%，同时降低内存占用和能耗。相关论文、博客和代码均已开源。

Berryxia.AI@berryxia · 5月9日65

Geoffrey Hinton直接把AI思考的本质讲透了！ “语言只是思考的工具之一，不是全部。” 他说，人类和AI都能用文字建模几乎任何东西，但真正的思考远远超出文字，它还包括图像、空间感、物理运动这些更丰富的形式。最聪明的系统，就是那个能把所有这些模态全部用起来的系统。这才是下一个大突破的方向：不再是单纯把语言玩得更溜，而是让AI真正学会像人类一样，用多感官、多维度的方式去理解世界。当AI开始同时掌握文字、图像、空间和动作的时候，智能的边界会彻底被打破。所以多模态才是最终的出路？那么，文本的基础肯定也不能丢失，基石打好才有更好的发效果。

译Geoffrey Hinton指出语言只是思考的工具之一，AI推理可以是真正的思考，因为语言本身就是一种思考形式。人类和AI能用文字建模，但真正思考超越文字，涵盖图像、空间感和物理运动等多模态。最聪明的系统是能整合所有模态的AI，这代表下一个大突破方向：让AI像人类一样通过多感官、多维度理解世界，从而打破智能边界。多模态是最终出路，但文本基础仍需巩固以确保发展效果。

Greg Brockman@gdb · 5月9日69

extremely interesting work from our alignment team

译来自我们对齐团队的极其有趣的工作 [引用 @OpenAI]：思维链监控器是防止AI智能体不对齐的关键防御层。为了保持可监控性，我们在强化学习期间避免惩罚不对齐的推理。我们发现有限数量的意外CoT评分影响了已发布的模型，并正在分享我们的分析。 https://alignment.openai.com/accidental-cot-grading/

Chubby♨️@kimmonismus · 5月9日76

DeepMind's AI co-mathematician scored 48% on FrontierMath Tier 4-research-level math problems that professional mathematicians need weeks to solve. The base model (Gemini 3.1 Pro) scores 19% alone. The entire jump comes from agentic scaffolding, parallel agents reviewing each other's proofs, writing code, searching literature. Not a smarter model, but smarter orchestration. Important context the paper openly provides: they bypassed the standard evaluation harness. 48 hours per problem, no token limits, their own infrastructure (page 14). So the 48% isn't directly comparable to other models on the leaderboard. What's more interesting than the score is the case study: Marc Lackenby used the system to solve an open problem from the Kourovka Notebook. The AI found a proof strategy, its own reviewer agent identified a flaw, and Lackenby, as a domain expert, filled the gap. Neither could have done it alone at that speed. The paper also names concrete failure modes: "reviewer-pleasing bias" (agents rewrite flawed arguments until the AI reviewer can no longer detect the error. And "death spirals") infinite review loops that degrade into hallucinated reasoning. For Erdős-type conjectures or millennium problems, these systems still can't generate the creative intuition that opens a proof path. What they compress: the time between having an idea and knowing whether it works. Literature search, counterexample hunting, computational verification, the exploratory grind. The takeaway from this paper is less about the benchmark and more about a paradigm shift: system design now compounds model capability in ways that matter for actual research. Thats why its a really intersting paper.

译DeepMind的AI co-mathematician在FrontierMath Tier 4研究级数学问题得分48%，而基础模型Gemini 3.1 Pro仅19%。提升源于多代理架构的智能编排，包括并行代理相互审查证明、编写代码和搜索文献，而非模型本身更智能。评估绕过标准框架，使用48小时每问题、无令牌限制的自有基础设施，因此得分不能直接与其他模型比较。案例中，数学家Marc Lackenby与AI合作解决Kourovka Notebook开放问题，AI提供证明策略，审查代理发现缺陷，人类专家填补空白，展示了高效人机协作。系统存在“reviewer-pleasing bias”和“death spirals”等失败模式。对于Erdős型猜想或千年问题，AI仍缺乏创造性直觉，但能压缩从想法到验证的时间，加速文献搜索和计算验证。论文强调范式转变：系统设计以对实际研究重要的方式复合模型能力，推动数学向数学家与AI代理协作的未来发展。

OpenAI@OpenAI · 5月9日64

Chain of thought monitors are a key layer of defense against AI agent misalignment. To preserve monitorability, we avoid penalizing misaligned reasoning during RL. We found a limited amount of accidental CoT grading which affected released models, and are sharing our analysis. https://alignment.openai.com/accidental-cot-grading/

译思维链监控器是防御AI智能体错位的关键层。为保持可监控性，我们在RL期间避免惩罚错位推理。我们发现少量意外思维链评分影响了已发布模型，现分享相关分析。 https://alignment.openai.com/accidental-cot-grading/

Ant Ling@AntLingAGI · 5月9日78

We are launching Ring-2.6-1T, a trillion-parameter flagship thinking model engineered for real-world complex tasks and production env: 🚀 - Adjustable Thinking Effort: dynamic compute mechanism to flexibly balance cognitive depth, token cost, and execution speed; - Agent-Optimized: Built for high-frequency workflows, delivering rapid multi-step execution and tool orchestration with SOTA stability; - Deep Thinking: Unlocks the model's maximum capability ceiling for rigorous mathematical logic and scientific research;

译Ring-2.6-1T是一款万亿参数的旗舰思维模型，专为现实世界复杂任务和生产环境构建。该模型具备可调节思维努力功能，通过动态计算机制灵活平衡认知深度、token成本和执行速度。它针对代理优化，适用于高频工作流，提供快速多步执行和工具编排，并具有SOTA稳定性。深度思维特性解锁了模型的最大能力上限，特别适合严格数学逻辑和科学研究。

AK@_akhaliq · 5月8日61

MiA-Signature Approximating Global Activation for Long-Context Understanding paper: https://huggingface.co/papers/2605.06416

译MiA-Signature 近似全局激活以促进长上下文理解论文: https://huggingface.co/papers/2605.06416

Yuchen Jin@Yuchenj_UW · 5月8日53

A few OpenAI folks told me: “300M tokens/day is a rookie number.” The biggest number I’m hearing now is 57B tokens/day! Sorry friends, I wasn’t familiar with your game. If you're good at making GPUs go brrr (aka inference), DM me. Databricks AI has unlimited tokens for you! (not limited to SGLang/vLLM contributors. If you’ve built stellar AI systems, reply or message me.)

译据OpenAI内部人士透露，行业数据处理规模远超想象，有团队成员每日消耗高达570亿token。为此，Databricks AI团队正积极招募顶尖的推理工程师，以应对每日数万亿token的生成任务。团队提供无限token资源，寻求在SGLang、vLLM、PyTorch等开源系统有贡献，或拥有大规模LLM服务经验的人才。该团队以创业公司模式运作，致力于构建高性能的AI系统。

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月13日

00:33

OpenRouter@OpenRouter

精选69

Perceptron Mk1已在OpenRouter上线，由@perceptroninc开发。前沿视频与具身推理的视觉语言模型。以动态帧率（最高2 FPS）分析视频，具备32k多模态上下文，采用混合推理和结构化空间基元（点、框、多边形、片段）作为首要输出。

多模态推理模型发布

推荐理由：将视频理解提升到结构化空间输出，动态帧率分析让模型能真正「看懂」动作，做具身智能的开发者可以关注。

00:22

向阳乔木@vista8

56

调研最佳Markdown编辑器及HeavySkill多AI协作思路

作者完成了首个测试，调研了最佳的开源所见即所得Markdown编辑库，并得出结论：明确需求和数据模型是选择合适库的前提。同时，他参考了@vista8提及的HeavySkill论文思路，该论文提出让多个AI（如Claude、Codex）先并行独立推理，再通过另一轮推理整合思路，以显著提升回答质量。作者正基于此思路开发一个Skill进行实践。

向阳乔木: 读了一篇叫HeavySkill的论文,非常有意思。让多个 AI先并行"独立思考",生成多条独立推理。再用另一轮推理来综合所有思路,得出最终答案。按论文测试结果,回答质量会提升非常多。正在按这个思路写一个Skill,Claude Co...

智能体推理教程/实践

5月12日

23:22

向阳乔木@vista8

63

读HeavySkill论文：多AI并行思考与综合推理提升回答质量

论文HeavySkill提出了一种提升AI回答质量的方法：先让多个AI模型（如Claude、GPT）并行进行“独立思考”，各自生成多条推理路径；随后使用另一轮推理（如由Codex充当“主持人”）综合分析所有独立思路，整合出最终答案。测试表明该方法能显著提升回答质量。作者正基于此思路开发一个Skill，设计让Claude负责代码推理，Codex担任综合思路的主持人。

智能体推理论文/研究

21:29

AK@_akhaliq

57

TMAS 通过多智能体协同扩展测试时计算

智能体推理论文/研究

21:29

AK@_akhaliq

54

叛逆学生通过逆向教师信号进行推理探索结合自蒸馏的RLVR方法

推理论文/研究

21:29

AK@_akhaliq

64

TMAS 通过多智能体协同扩展测试时计算

智能体推理论文/研究

17:59

AK@_akhaliq

63

Soohak 一个由数学家策划的基准测试，用于评估LLMs的研究级数学能力

Hugging Face 推理论文/研究

10:49

歸藏(guizang.ai)@op7418

71

Thinking Machines发布原生多模态"交互模型"，实现实时人机协作

前OpenAI CTO Mira创立的Thinking Machines公司发布了一种创新的“交互模型”。该模型能原生、持续地接收音频、视频和文本等多模态输入，并实时思考与响应，而非通过Agent串联多个独立模型。其架构分为两部分：前台交互模型以200毫秒为节点处理输入并维持用户“在场感”，支持随时打断；后台推理模型则处理长程规划、工具调用等复杂任务。两者协同工作，最终呈现为一个既能实时交互又能处理重度任务的统一界面。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态推理模型发布

07:29

elvis@omarsar0

61

自主进化：LLM自动优化测试时扩展策略的新框架

近期研究提出AutoTTS框架，让大语言模型自主搜索并优化测试时扩展策略，取代人工设计。该框架将宽度-深度TTS策略制定为对预收集推理轨迹的控制器合成问题，通过Beta参数化压缩搜索空间，并利用细粒度执行轨迹反馈指导探索。在数学推理基准测试中，自动发现的控制器在准确率-成本帕累托前沿上超越了人工设计的强基线，且能零样本泛化到其他基准和模型规模。整个发现过程仅需39.9美元和160分钟，预示着人工设计思维链等方法的时代可能即将结束，TTS将成为LLM自主完成的任务。

智能体 arXiv 推理论文/研究

04:55

Lilian Weng@lilianweng

68

团队通过数月高强度工作，完成了12个主要版本及137页的训练运行日志。这一过程揭示，有效的人与人协作是提升人-AI协作质量的关键。受此启发，团队借鉴人类实时交谈、倾听、观察、思考与协作的并行模式，设计了一种能以此方式与人协同工作的新型AI。相关博客文章分享了该方法、早期成果及模型的实际运行演示。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态推理论文/研究

02:29

Ethan Mollick@emollick

61

大语言模型（LLM）的一个重要特性是，更新、更大的模型在所有方面都表现更优。AI实验室正将大量资源投入编程等经济价值高的领域，但更大的模型在谈判、对齐、诗歌创作等广泛任务上同样更具优势。例如，在PACT基准测试的数千场模拟谈判中，GPT-5.5在买卖双方多轮议价游戏中取得了最佳成绩，这印证了模型规模与综合能力提升的正相关关系。

Lech Mazur: First update to PACT, my head-to-head LLM negotiation benchmark! 20-round buyer-seller bargaining game: each round the A...

OpenAI 大佬观点推理现象/趋势

00:27

Google AI Developers@googleaidevs

60

谷歌DeepMind与Coursera推出"Gemini for Developers"开发者专项课程

谷歌DeepMind与Coursera合作推出的“Gemini for Developers”专项课程现已开放注册。该课程旨在指导开发者利用Gemini模型构建可用于生产环境的AI解决方案。其核心涵盖三大模块：“推理与行动”使AI应用能推理并执行复杂任务；“连接与自动化”通过函数调用将Gemini与现实世界工具集成；“规模化与信心”则专注于构建、测试和部署可扩展的AI系统。课程强调超越单纯文本生成，实现实际任务的自动化与系统集成，助力开发者快速上手。

智能体 DeepMind Google MCP/工具

5月11日

23:59

elvis@omarsar0

70

大语言模型代理中的"记忆诅咒"

研究发现，长历史记录会在大语言模型（LLM）代理中引发“记忆诅咒”，导致其过度遵循历史、规避风险，从而削弱合作能力。该结论基于7个LLM和4个社会困境游戏的实验，在28个模型-游戏组合中，有18个因历史扩展而合作退化。机制分析表明，长历史侵蚀了模型的前瞻性意图，使其更关注过去的冲突而非未来收益。通过仅在前瞻性轨迹上训练的LoRA适配器可缓解此问题，且能零样本迁移至新游戏。实验证明，触发因素是历史内容而非长度，而消除显式思维链通常能减轻合作崩溃。

智能体 arXiv 安全/对齐推理

22:00

OpenRouter@OpenRouter

精选69

AntLingAGI发布了其万亿参数旗舰"思考模型"Ring-2.6-1T，该模型在5月15日前可通过OpenRouter免费使用。其核心特性包括可调节的思考强度，能动态平衡认知深度、token成本和执行速度；专为智能体优化，适用于高频工作流，提供快速的多步执行和工具调用；并具备深度思考能力，以应对严密的数学逻辑和科学研究任务。模型旨在满足实际生产环境中复杂任务的需求。

Ant Ling: We are launching Ring-2.6-1T, a trillion-parameter flagship thinking model engineered for real-world complex tasks and p...

智能体推理模型发布

推荐理由：万亿参数的思维模型免费到5月15日，可调思考力度的设计很接地气，做agent的可以趁窗口压测一下，看看它能不能扛住真实生产环境。

19:48

Berryxia.AI@berryxia

73

小块有大智慧？这下真成真了！

一项新研究证明，一个通过强化学习训练的7B语言模型能够有效指挥GPT-5、Claude Sonnet 4和Gemini 2.5 Pro等前沿大模型。该模型通过编写自然语言子任务、分配给不同大模型执行，并精确指定上下文信息，在GPQA Diamond、LiveCodeBench和AIME25等硬核基准测试中，其性能全面超越了单个前沿模型。该系统平均每个问题仅需调用约三次大模型，比手动设计的多代理流程更高效。该工作提供了关键证据，表明目前商业AI产品中依赖人工的提示工程和流程设计，完全可以仅通过奖励信号进行端到端学习。这揭示了AI发展的新方向：智能的差距可能不在于模型规模，而在于协调与指挥的能力。

BURKOV: In this paper, a 7B language model trained with reinforcement learning learns to orchestrate larger frontier models like...

智能体 arXiv MCP/工具推理

17:53

Chubby♨️@kimmonismus

60

Cerebras凭借其推理芯片能效优势，瞄准今年全球最大规模IPO

AI芯片制造商Cerebras Systems因IPO订单超出发行股票20倍以上，计划提高IPO规模和价格。市场普遍认为其芯片仅推理速度更快，但其核心优势在于能效。传统GPU在推理时受内存带宽限制，每个token生成都需从内存读取整个模型，导致算力闲置。Cerebras的Wafer-Scale Engine采用单一大芯片设计，以片上SRAM替代片外HBM，每次内存访问能耗降低约100倍。减少数据移动既降低了延迟，也显著减少了每token的功耗，这解释了其IPO被超额认购的原因。

推理行业动态部署/工程

17:51

Tencent Hy@TencentHunyuan

63

腾讯混元Hy3预览版已开放早期体验，被描述为该系列最强模型。其核心设计面向现实世界有效性，而非单纯追求基准测试分数。模型具备处理复杂智能体任务的能力，采用256K上下文长度，并融合了快慢思维机制的混合专家架构。该模型基于重建的预训练和强化学习基础设施构建，旨在实现大规模应用下的高成本效益。

Python Space: Got early access to Tencent's Hy3 preview. This is the strongest model in the Hy series. Built on rebuilt pre-training a...

智能体推理模型发布

14:27

Greg Brockman@gdb

47

/goal 被低估了 GPT-5.5 extra high thinking 配合 /goal 刚刚做到了。我震惊了。

james yu: We have a gnarly refactor in our codebase that I test every frontier model on. I've been doing this since the release of...

OpenAI 大佬观点推理编码

03:22

Chubby♨️@kimmonismus

精选76

旧版AI模型急诊诊断已超越人类医生

一项发表于《科学》的研究显示，OpenAI一年前发布的o1模型在急诊诊断中表现优于医生。该模型在真实、混乱的急诊数据测试中，正确或接近正确诊断率达67%，而医生为50-55%，尤其在信息有限的早期分诊阶段优势最明显。研究指出，o1模型在结构化病例中的临床推理近乎完美，且该模型按AI标准已属旧版，当前模型可能更强。研究未涵盖长期住院数据及影像诊断，下一步需验证AI系统能否实际改善患者预后。

OpenAI 推理论文/研究

推荐理由：一年前的o1在真实急诊信息最不全、时间最紧的环节胜过急诊医生，这不是实验室刷榜，是直接冲击医疗流程。做AI落地的朋友可以拿这篇当说服医院的弹药。

5月10日

21:59

MiniMax (official)@MiniMax_AI

46

感谢 @nvidia 对开源模型生态系统的支持🤝📝 BTW，快速预告：MiniMax 的最新稀疏解决方案即将推出。🥰

RyanLee: Really glad to meet the @NVIDIAAI team in China. Looking forward to deeper collaboration between @MiniMax_AI and @nvidia...

开源生态推理行业动态

16:58

OpenCode@opencode

64

OpenCode x Ring 2.6 1T - 限时免费开放 256K上下文 • 推理能力 • 纯文本模型感谢 @AntLingAGI 和 @novita_labs 提供模型支持

推理模型发布

13:05

Satya Nadella@satyanadella

59

Excel 长期以来一直悄无声息地是图灵完备的。很高兴看到它现在正迈向 "AI 完备"--SGD、注意力机制、下一个令牌预测……全都在单元格中。

Austin Henley: Excel Copilot one-shotted a tiny GPT-style language model for me inside a spreadsheet: embeddings, causal attention, wei...

Microsoft 推理教程/实践

11:32

阿绎 AYi@AYi_AInotes

59

十年回望"神之一手"：AI如何改变围棋与人类认知

2016年AlphaGo以第37手“神之一手”战胜李世石，其真正遗产在于让顶尖人类棋手承认AI拥有超越人类的创造力，打破了人类对自身智慧的千年傲慢。十年间，AI已从“登月”级突破演变为如Gemini般的日常工具。Demis与李世石重聚时指出，AlphaGo改变了棋手的思维方式，AI并未取代围棋，而是让棋手站在其肩膀上创新，使围棋技艺进入新境界。这揭示了AI与人类最理想的共生形态——提升而非取代。展望未来，今日的AI变革或许仅是漫长征程的起点。

Demis Hassabis: Hard to believe it's been 10 years since AlphaGo! It was wonderful to catch up with Lee Sae Dol last week in Korea and j...

DeepMind 推理现象/趋势

03:01

Demis Hassabis@demishassabis

58

很难相信AlphaGo已经过去10年了！上周在韩国与Lee Sae Dol重逢，并与Shin Jin-seo进行了一场特别的围棋比赛，真是太棒了。重温AlphaGo很棒，并且听到它如何改变玩家下围棋的方式超级有趣！

Demis Hassabis: #AlphaGo WINS!!!! We landed it on the moon. So proud of the team!! Respect to the amazing Lee Sedol too

DeepMind 大佬观点推理

01:29

SemiAnalysis@SemiAnalysis_

33

一战中，战争胜负取决于适龄军事人口数量二战中，战争胜负取决于坦克、航空母舰和核武器在乌克兰，战争胜负取决于无人机数量而在第三次世界大战中，战争胜负将取决于各国拥有的token数量

推理现象/趋势

5月9日

23:32

阿绎 AYi@AYi_AInotes

精选82

Redis创始人用C语言引擎将大模型"装进"个人电脑

Redis创始人Antirez开源了专为DeepSeek V4 Flash设计的原生推理引擎ds4。该引擎仅用几千行C代码，通过三项关键技术：对MoE专家进行不对称2-bit量化、将KV Cache移至高速SSD突破内存限制、为Apple Silicon进行纯Metal原生优化，成功在128GB MacBook Pro上流畅运行具备1M上下文窗口的模型，实测达27 tok/s。此举将原本依赖云端GPU集群的前沿AI能力，通过极致工程优化 democratize 至个人设备，展现了开源社区推动技术平民化的强大潜力。

Garry Tan: Downloading now... 1M token context window with supposedly usable coding agent capability all on a 128GB Macbook Pro is ...

DeepSeek 开源/仓库推理端侧

推荐理由：Antirez用几千行C代码把DeepSeek V4 Flash塞进128G Mac，本地跑1M上下文coding agent，这才是真正的AI民主化时刻，开发者必试。

20:51

Chubby♨️@kimmonismus

64

百度ERNIE 5.1以极低预训练成本逼近SOTA

百度发布的ERNIE 5.1模型基于ERNIE 5.0预训练基础，宣称在搜索、推理、知识问答、创意写作和智能体能力方面获得提升，而其预训练成本仅为同类可比模型的约6%。该模型在Arena搜索排行榜以1223分位列第四，ERNIE 5.1 Preview在LMArena Text上取得1476分，全球排名第十三。推文作者指出目前未见技术论文，需验证其宣称的低成本高性能表现，但若属实将意义重大。

Baidu Inc.: ERNIE 5.1 just dropped. Built on ERNIE 5.0's pre-training foundation, our latest foundation model upgrades search, reaso...

推理搜索模型发布

18:43

Berryxia.AI@berryxia

72

百度发布ERNIE 5.1模型，实现参数与成本的极致压缩

百度推出ERNIE 5.1模型，核心突破在于参数与成本的大幅压缩。其总参数和激活参数分别压缩至原规模的约1/3和1/2，预训练成本仅为同规模模型的约6%，同时保持了领先性能。模型在Agent能力上超越DeepSeek-V4-Pro，世界知识与创意写作接近领先闭源模型及Gemini 3.1 Pro，推理能力仅次于Gemini 3.1 Pro，深度搜索位列全球第四。技术创新包括提升参数效率的弹性预训练、增强可扩展性的异步强化学习训练等。模型已上线ERNIE平台和Baidu AI Studio。

ERNIE for Developers: ERNIE 5.1 is here 🚀 ERNIE 5.1 significantly reduces pretraining cost while compressing total parameters to ~1/3 and act...

智能体推理数据/训练模型发布

17:02

SiliconFlow@SiliconFlowAI

61

思小建大🔥 @Alibaba_Qwen 3.5 和 Qwen3.6 系列现已在 SiliconFlow 上线 🎉 9B 到 397B · MoE 与 Dense · 原生多模态 ✅ Qwen3.6-35B-A3B · Qwen3.6-27B ✅ Qwen3.5-397B-A17B · Qwen3.5-122B-A10B ✅ Qwen3.5-35B-A3B · Qwen3.5-27B · Qwen3.5-9B 更小的模型。更大的成果。社区的最爱。现在，选择你的尺寸并开始构建 👇 https://cloud.siliconflow.com/

产品更新多模态推理

15:19

Baidu Inc.@Baidu_Inc

73

ERNIE 5.1 刚刚发布。基于 ERNIE 5.0 的预训练基础，我们最新的基础模型升级了搜索、推理、知识问答、创意写作和智能体能力，而预训练成本仅需对标模型的约 6%。更多内容详见主题帖 🧵

智能体推理搜索模型发布

14:26

DogeDesigner@cb_doge

48

在Grok上切换至专业版思维体验。设置 → 外观 → 思维体验 → 专业版星际飞船瓷砖背景与橙色动画效果看起来非常酷炫，让整个思维体验更具未来感。

xAI 推理教程/实践

09:25

SemiAnalysis@SemiAnalysis_

54

@sgl_project 和 @radixark 团队在优化DeepSeek V4推理方面取得了惊人成果，包括在B200、B300上的优化，以及@ChengWan17近期在GB300上实现的4倍等交互吞吐量提升！正如@elonmusk所说，GB300是最佳AI计算机，而此类软件优化正展现其真正潜力！

DeepSeek 推理行业动态

08:35

Berryxia.AI@berryxia

66

人类大脑最聪明的地方，就是大部分时间只激活极少部分神经元。

现代LLM类似人脑，前馈层中超过95%的神经元对输入保持静默，呈现高度稀疏性。但GPU硬件专为密集计算设计，非结构化稀疏导致不规则内存访问，反而让计算更少的模型运行更慢。Sakana AI与NVIDIA合作解决了这一矛盾，开发了TwELL混合稀疏格式及定制CUDA内核，将稀疏性重塑为GPU易于处理的形式。该方案动态路由99%的稀疏token通过快速路径，并为密集token提供备用矩阵。在H100 GPU上，训练和推理速度提升超20%，同时降低内存占用和能耗。相关论文、博客和代码均已开源。

hardmaru: The human brain🧠 is incredibly efficient because it only activates the specific neurons needed for a thought. Modern LL...

arXiv 推理论文/研究部署/工程

08:35

Berryxia.AI@berryxia

65

Hinton揭示AI思考本质：多模态整合是关键突破

Geoffrey Hinton指出语言只是思考的工具之一，AI推理可以是真正的思考，因为语言本身就是一种思考形式。人类和AI能用文字建模，但真正思考超越文字，涵盖图像、空间感和物理运动等多模态。最聪明的系统是能整合所有模态的AI，这代表下一个大突破方向：让AI像人类一样通过多感官、多维度理解世界，从而打破智能边界。多模态是最终出路，但文本基础仍需巩固以确保发展效果。

Haider.: Geoffrey Hinton says AI reasoning can be real thought because language itself is a form of thinking Words let humans and...

多模态大佬观点推理

04:50

Greg Brockman@gdb

69

来自我们对齐团队的极其有趣的工作【引用 @OpenAI】：思维链监控器是防止AI智能体不对齐的关键防御层。为了保持可监控性，我们在强化学习期间避免惩罚不对齐的推理。我们发现有限数量的意外CoT评分影响了已发布的模型，并正在分享我们的分析。 https://alignment.openai.com/accidental-cot-grading/

OpenAI: Chain of thought monitors are a key layer of defense against AI agent misalignment. To preserve monitorability, we avoid...

OpenAI 安全/对齐推理

04:49

Chubby♨️@kimmonismus

精选76

DeepMind AI co-mathematician FrontierMath Tier 4 得分48% 预示数学研究范式转变

DeepMind的AI co-mathematician在FrontierMath Tier 4研究级数学问题得分48%，而基础模型Gemini 3.1 Pro仅19%。提升源于多代理架构的智能编排，包括并行代理相互审查证明、编写代码和搜索文献，而非模型本身更智能。评估绕过标准框架，使用48小时每问题、无令牌限制的自有基础设施，因此得分不能直接与其他模型比较。案例中，数学家Marc Lackenby与AI合作解决Kourovka Notebook开放问题，AI提供证明策略，审查代理发现缺陷，人类专家填补空白，展示了高效人机协作。系统存在“reviewer-pleasing bias”和“death spirals”等失败模式。对于Erdős型猜想或千年问题，AI仍缺乏创造性直觉，但能压缩从想法到验证的时间，加速文献搜索和计算验证。论文强调范式转变：系统设计以对实际研究重要的方式复合模型能力，推动数学向数学家与AI代理协作的未来发展。

Pushmeet Kohli: The future of Math is mathematicians and AI agents working together. Very pleased to introduce @GoogleDeepMind's AI co-m...

智能体 DeepMind 推理论文/研究

推荐理由：48%的得分背后是系统设计对模型能力的碾压，失败模式「reviewer-pleasing bias」和死亡螺旋比分数更有价值，提醒我们架构创新才是落地的真杠杆。

04:25

OpenAI@OpenAI

64

思维链监控器是防御AI智能体错位的关键层。为保持可监控性，我们在RL期间避免惩罚错位推理。我们发现少量意外思维链评分影响了已发布模型，现分享相关分析。 https://alignment.openai.com/accidental-cot-grading/

OpenAI 安全/对齐推理

01:54

Ant Ling@AntLingAGI

精选78

Ring-2.6-1T发布：万亿参数思维模型专为复杂任务设计

Ring-2.6-1T是一款万亿参数的旗舰思维模型，专为现实世界复杂任务和生产环境构建。该模型具备可调节思维努力功能，通过动态计算机制灵活平衡认知深度、token成本和执行速度。它针对代理优化，适用于高频工作流，提供快速多步执行和工具编排，并具有SOTA稳定性。深度思维特性解锁了模型的最大能力上限，特别适合严格数学逻辑和科学研究。

智能体推理模型发布

推荐理由：蚂蚁憋了个万亿参数的大家伙，而且把可调思考和 Agent 优化当主打，明显是冲着生产级落地的，做 agent 的可以盯一下实际推理成本。

5月8日

23:47

AK@_akhaliq

61

MiA-Signature 近似全局激活以促进长上下文理解论文： https://huggingface.co/papers/2605.06416

Hugging Face 推理论文/研究

12:14

Yuchen Jin@Yuchenj_UW

53

据OpenAI内部人士透露，行业数据处理规模远超想象，有团队成员每日消耗高达570亿token。为此，Databricks AI团队正积极招募顶尖的推理工程师，以应对每日数万亿token的生成任务。团队提供无限token资源，寻求在SGLang、vLLM、PyTorch等开源系统有贡献，或拥有大规模LLM服务经验的人才。该团队以创业公司模式运作，致力于构建高性能的AI系统。

Yuchen Jin: An OpenAI friend told me he burns 300M GPT-5.5 tokens/day. The top one in his team burns billions of tokens/day. Codex c...

OpenAI 推理编码行业动态

1…15 161718 19…25