AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
5月19日周二
02:55karminski-牙医53Qwen3.7! 就在今天!
02:45AYi62Composer 2.5:重RL后训练的Agentic模型突破
02:12Rohan Paul57HiDream开源8B参数统一架构图像模型,挑战传统扩散管线
01:50宝玉83Cursor 发布 Composer 2.5 编程模型
01:19🚨 AI News | TestingCatalog70Cursor发布Composer 2.5模型,性能比肩Opus成本降十倍
01:13SemiAnalysis18当别人在社交媒体上追逐热点时,我已精通AI硬件底层技术
5月18日周一
19:05Chubby♨️34GPT-5.5表现亮眼,5.6版本传闻更令人期待
08:54Berryxia.AI64Google Nexus框架革新时间序列预测逻辑
08:00HuggingFace Daily Papers(社区热门论文)62Lean Refactor:基于智能体策略搜索的多目标可控证明优化
08:00HuggingFace Daily Papers(社区热门论文)68通过变分策略蒸馏从语言反馈中学习
08:00HuggingFace Daily Papers(社区热门论文)66基于技能程序的LLM智能体框架
08:00HuggingFace Daily Papers(社区热门论文)58基于上下文记忆的高效长上下文生成方法
00:54Berryxia.AI67Anthropic Claude 5天攻破Apple M5 macOS内核漏洞:5年数十亿防线,被AI一举击穿
5月17日周日
22:32Hacker News 热门(buzzing.cc 中文翻译)60我不认为人工智能会让你的流程变得更快
22:10Rohan Paul61手机端小模型展现巨大潜力
20:10Rohan Paul64谷歌新论文提出Nexus框架:预测需要事件背景,而非仅依赖历史数据
17:10Rohan Paul57斯坦福研究:在同等推理预算下,单智能体LLM通常优于多智能体系统处理多跳问题
16:59The Decoder:AI News(RSS)63New math benchmark reveals AI models confidently solve problems that have no solution
09:54Berryxia.AI61陶哲轩点破AI核心矛盾:简单数学与不可预测的行为
08:43Emad6035名国会议员警告AI自我迭代威胁民主与和平
08:00HuggingFace Daily Papers(社区热门论文)56A2RBench:自动化抽象推理基准生成范式
08:00HuggingFace Daily Papers(社区热门论文)69OProver:一个统一的智能体化形式定理证明框架
08:00HuggingFace Daily Papers(社区热门论文)64推理收敛时停止:面向推理模型的语义保持早退
07:43IT之家(RSS)27IT早报 0517:小米卢伟冰称下半年国产直板旗舰手机价或突破 1 万元;SK 海力士员工成相亲"香饽饽";三大运营商回应"即将免月租"
06:54Berryxia.AI63Claude Mythos模型悄然现身Google Cloud Console,预示企业级发布
06:03Chubby♨️60Claude Mythos惊现Google Cloud控制台引困惑
03:54Dwarkesh Patel:Podcast & Blog(RSS)51RLVR 可能在科学领域格外糟糕
02:32Hacker News 热门(buzzing.cc 中文翻译)60DeepSeek-V4-Flash 意味着大型语言模型(LLM)的引导技术再次引起关注
00:51Ant Ling80精选社区协作再创佳绩,vLLM支持万亿级模型
00:51Ant Ling74Ring-2.6-1T万亿参数旗舰模型发布,SGLang平台首发支持
00:51Ant Ling76精选蚂蚁集团发布万亿参数推理模型Ring-2.6-1T
00:21Ant Ling66Ring-2.6-1T开源并上线OpenRouter,专为智能体工作流设计
5月16日周六
22:54Berryxia.AI61长上下文LLM竞争已转向:从堆token转向精细的架构优化
22:01Hacker News 热门(buzzing.cc 中文翻译)70精选Δ-Mem:适用于大型语言模型的高效在线内存
20:38Rohan Paul58陶哲轩论大型语言模型:简单数学与不可预测行为之谜
19:25The Decoder:AI News(RSS)44新基准测试证实AI视频生成器视觉效果惊艳,但仍无法进行世界推理
19:01Hacker News 热门(buzzing.cc 中文翻译)67Orthrus-Qwen3:在Qwen3上每步最多可处理7.8个令牌,输出分布与原版完全一致
18:01Hacker News 热门(buzzing.cc 中文翻译)42Frontier AI 打破了公开 CTF 赛制的常规
17:02Chubby♨️75精选研究人员利用Anthropic Mythos工具构建macOS内核漏洞,绕过苹果M5芯片内存完整性执行安全系统
15:42IT之家(RSS)66蚂蚁集团百灵开源万亿级思考模型 Ring-2.6-1T,支持 high 与 xhigh 两种推理强度
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月19日
02:55
karminski-牙医@karminski3
53
Qwen3.7! 就在今天!

阿里千问今日推出Qwen3.7-Max-Preview,在ArenAI(原LMArena)内测中排名第13,为国内模型最高水平。模型数学能力显著提升,位列总榜第7;编程能力排名第10;视觉能力测试升至第16。作者实测显示,在前端代码生成场景中,Qwen3.7的空间理解与指令遵循能力进步明显,元素轴向一致性优于DeepSeek-V4-Pro等模型。此外,ArenaAI给Meta新模型Muse Spark的异常高评分引发关注,但该评分仅供参考。

多模态推理编码评测/基准
02:45
AYi@AYi_AInotes
62
Composer 2.5:重RL后训练的Agentic模型突破

Cursor发布的Composer 2.5并非全新底座,而是将85%算力集中于强化学习后训练的agentic模型。它在CursorBench 3.1上达63.2%性能,单任务成本极低。其核心突破在于通过“textual feedback RL”解决了长任务中的信用分配难题,实现精细化调优。该模型真正的优势是长时间运行下的稳定性与行为校准,这是现有基准未能体现但开发者能感知的关键能力。这标志着行业评价标准正从迷信底座规模转向衡量RL与合成数据闭环的投入效率。

Cursor: Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...

智能体产品更新推理编码
02:12
Rohan Paul@rohanpaul_ai
57
HiDream开源8B参数统一架构图像模型,挑战传统扩散管线

HiDream开源了8B参数的HiDream-O1-Image模型,其核心创新在于采用像素级统一变换器,用单一架构直接处理原始图像块、文本与任务条件,将文本生成图像、编辑、个性化等任务统一为上下文生成,无需传统的VAE和文本编码器管线。该模型内置推理提示代理,能原生支持最高2048×2048的高分辨率合成。在性能上,它在参数量仅为部分同类模型三分之一的情况下,达到了可比的水平,尤其在文本渲染任务上表现出色,结果接近更大规模的模型。

图像生成开源生态推理模型发布
01:50
宝玉@dotey
83
Cursor 发布 Composer 2.5 编程模型

Cursor 发布了迄今最强的编程模型 Composer 2.5。该模型在长任务处理和复杂指令跟随方面更加稳定高效,官方称其效率最高可提升十倍。其技术亮点在于采用文本反馈方法,解决了超长轨迹(十万 token 级)下的学习难题,使模型能可靠执行连续数十甚至上百步的复杂编程任务。模型底座仍基于 Moonshot 的 Kimi K2.5 进行二次训练。同时,Cursor 宣布与 SpaceXAI 联合启动更大规模模型训练,将依托 Colossus 2 超算集群,这也意味着其算力基础已与马斯克旗下资源深度绑定。

Cursor: Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...

推理模型发布编码
01:19
🚨 AI News | TestingCatalog@testingcatalog
70
Cursor发布了其迄今最强大的模型Composer 2.5。官方强调,该模型在性能上可与Opus 4.7比肩,并实现了高达10倍的成本效率提升。Composer 2.5在智能性、处理长时任务的持续工作能力以及遵循复杂指令的可靠性方面均有显著改进。作为发布福利,该模型在未来一周内的使用额度将加倍。

Cursor: Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...

Anthropic产品更新推理编码
01:13
SemiAnalysis@SemiAnalysis_
18
当别人在社交媒体上追逐热点时,我已精通AI硬件底层技术

推文以排比句式讽刺了AI行业中部分人热衷于在社交媒体发布浅薄观点(如转发推文、发布提示词技巧),却缺乏扎实技术功底的现象。作者强调,当他人追逐热点时,自己专注于钻研底层技术与解决实际工程问题,例如深入研究芯片架构图、掌握JAX等工具原理、调试计算集群与硬件故障。当新产品(如Rubin)发布,面临推理成本建模、机架级供电及NVLink带宽限制等复杂实际问题时,这些缺乏深度实践的“空谈者”反而需要向具备真才实学的实干者求助。

大佬观点推理
5月18日
19:05
Chubby♨️@kimmonismus
34
我喜欢GPT-5.5。它是个实干家,正是我期待的模型。但传闻说5.6版本已蓄势待发,这让我更加兴奋! OpenAI势头正猛。
OpenAI大佬观点推理
08:54
Berryxia.AI@berryxia
64
Google Nexus框架革新时间序列预测逻辑

Google论文提出的Nexus框架颠覆了传统时间序列预测仅依赖历史数据的模式,强调“事件上下文”的核心作用。该框架采用多智能体协作架构:分别从文本中提取事件时间线、解读宏观态势、追踪局部冲击,最终通过合成器整合信息并校准误差。在Zillow数据集测试中,基于Claude的版本将平均预测误差(MAPE)大幅降低86.6%,实现了从“识别模式”到“理解因果”的范式转变。这标志着预测方法正从统计外推转向结构化推理,为未来预测系统指明了新方向。

Rohan Paul: New Google paper: A forecast needs context, not just history. Some patterns are caused by events, not time. Nexus refram...

智能体arXivGoogle推理
08:00
HuggingFace Daily Papers(社区热门论文)
62
Lean Refactor:基于智能体策略搜索的多目标可控证明优化

现有LLM生成的Lean证明常面临正确但冗长、跨版本易错的问题,其重构是一个涉及证明长度、编译成本与版本兼容性的多目标优化难题。Lean Refactor提出一种插件式检索增强智能体框架,它利用一个标注了版本与预期编译成本降低率的多目标策略数据库,引导冻结的LLM进行重构。实验表明,该方法在竞赛基准上实现超70%的token压缩,编译时间减少高达60%,性能优于现有工作;版本过滤检索进一步提升了压缩率,且重构后的证明表现出更强的零样本版本迁移能力。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
通过变分策略蒸馏从语言反馈中学习

针对强化学习从可验证奖励中面临探索瓶颈及现有自蒸馏方法依赖固定教师导致学习停滞的问题,研究提出了变分策略蒸馏框架。该框架将语言反馈学习形式化为变分期望最大化问题,实现教师与学生策略的协同进化:在E步通过自适应信任域更新动态改进教师策略,将文本反馈转化为目标令牌分布;在M步让学生策略内化该分布指导。在科学推理与代码生成任务上的实验表明,该方法在各类诊断性反馈下持续优于标准强化学习与现有自蒸馏基线。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
基于技能程序的LLM智能体框架

为提升LLM智能体处理复杂任务的能力,HASP框架将传统文本指导技能升级为可执行的程序函数。这些函数作为主动护栏,能在易错步骤直接干预动作或注入修正信息。该框架支持推理时直接干预、后训练监督及自我进化,模块化设计灵活。实验证明,HASP在网页搜索、数学推理等任务中显著优于现有方法,仅推理阶段干预即可大幅提升性能,并为技能内化与库进化提供了机制分析。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
基于上下文记忆的高效长上下文生成方法

针对大语言模型在使用长上下文前缀时面临影响力衰减和计算开销大这两个问题,本文提出了一种名为“注意力状态记忆”的无训练方法。该方法将上下文前缀外化为一个轻量级、基于查找的预计算记忆库,存储了前缀与查询词之间的注意力状态。实验表明,在 LLaMA-3.1-8B 上,该方法在 1K-8K 记忆预算下提升了准确率,并将注意力计算延迟降低了 1.36 倍。同时,它在 NBA 基准测试中,仅用全注意力 RAG 20% 的内存开销,便超越了其性能表现。

Meta检索增强推理论文/研究
00:54
Berryxia.AI@berryxia
67
Anthropic Claude 5天攻破Apple M5 macOS内核漏洞:5年数十亿防线,被AI一举击穿

Anthropic的Claude Mythos Preview在5天内,协助安全团队Calif成功构建并演示了首个公开的、针对Apple M5芯片macOS内核的内存破坏提权利用链。该攻击绕过了苹果耗时5年、投入数十亿美元打造的MIE硬件级内存完整性防护,从普通用户权限通过纯数据操作即可获得root权限。苹果已在后续更新中修复漏洞并致谢。此事件标志着AI驱动的安全研究能力已能极速突破顶尖硬件防护,显著改变了攻防的速度与平衡。

Anthropic安全/对齐推理
5月17日
22:32
Hacker News 热门(buzzing.cc 中文翻译)
60
我不认为人工智能会让你的流程变得更快

作者认为人工智能未必能加速工作流程,反而可能因引入新的复杂性和决策环节而拖慢进程。关键在于AI改变了工作性质,将重心从执行转向监督与调整,这需要额外的时间投入。文章指出,盲目追求流程速度可能忽略AI在提升质量、减少错误方面的真正价值。真正的效率提升应来自对流程的重新设计,而非简单地将AI嵌入现有步骤。

推理现象/趋势部署/工程
22:10
Rohan Paul@rohanpaul_ai
61
设备端小模型拥有如此多的可能性。 这里 @adrgrondin 正在 iPhone 17 Pro 上运行 Google 的 Gemma 4 E2B。 针对 Apple Silicon 优化的 MLX 实现约 40tk/s 的速度 在移动端实现 SOTA 编程与数学能力,支持 128K 上下文。完全离线运行并具备思考模式。
Google推理端侧行业动态
20:10
Rohan Paul@rohanpaul_ai
64
谷歌新论文提出Nexus框架:预测需要事件背景,而非仅依赖历史数据

谷歌新论文提出Nexus框架,将预测重构为推理问题,强调结合事件背景而非仅依赖历史数据。该框架采用多智能体分工:一个从文本中提取清晰事件时间线,一个分析宏观态势,另一个追踪局部冲击,最后由合成器结合时间序列进行校准。在Zillow的测试中,基于Claude的某个版本将平均绝对百分比误差降低了86.6%。研究表明,结构化的上下文能帮助语言模型有效利用信息而不丢失时间序列特性。尽管当前证据仅涵盖房地产数据和少数股票,但方向明确:未来预测不仅会推断曲线,还将解释曲线变动的原因。

智能体arXivGoogle推理
17:10
Rohan Paul@rohanpaul_ai
57
斯坦福研究:在同等推理预算下,单智能体LLM通常优于多智能体系统处理多跳问题

斯坦福论文论证,在相等推理令牌预算下,单个LLM解决多跳问题通常比多代理系统更有效。核心在于单代理能保持完整的内部思维链,而多代理需将思维分割为消息传递与交接,每次交接都压缩信息并导致丢失,这以数据处理不等式为形式化解释。实验在多个模型和数据集上验证,预算匹配时单代理表现等同或优于多种多代理设置。多代理的常见增益可能源于额外计算或评估偏差,而非架构优势。论文建议,多跳推理应默认从强单代理开始,仅当单代理上下文受干扰退化时,才将多代理结构作为修复策略使用。

智能体大佬观点推理
16:59
The Decoder:AI News(RSS)
63
New math benchmark reveals AI models confidently solve problems that have no solution

64名数学家组成的联盟构建了名为SOOHAK的新AI数学基准测试,包含439道手写任务,其中99道被故意设计为无解。谷歌的Gemini 3 Pro在研究级问题上以30%的正确率领先,但没有模型在识别错误问题上的准确率超过50%。增加计算量能提升模型解题能力,却无助于其承认问题无解。该基准旨在揭示AI系统在少数亮点表现与全面研究能力之间存在的差距。

推理论文/研究
09:54
Berryxia.AI@berryxia
61
陶哲轩点破AI核心矛盾:简单数学与不可预测的行为

菲尔兹奖得主陶哲轩指出,当前大语言模型(LLM)的数学基础(线性代数、矩阵乘法、微积分)其实很简单,本科生即可掌握。我们清楚如何构建和运行这些模型。真正的核心谜题在于,我们无法可靠预测它们为何在某些任务上表现出色,却在另一些任务上失败。关键在于现实世界的数据(如自然语言)处于“中间地带”——既非纯噪声,也非完全结构化,而是部分有序、部分随机。目前数学界对此类中间状态的理论非常薄弱,导致我们能描述模型机制,却无法解释其能力跃升或给出可靠的任务级预测。这种“简单机制”与“难以预测的行为”之间的矛盾,是当前AI领域的核心难题。

Rohan Paul: Terence Tao says the math behind today's LLMs is actually simple. Training and running them mostly uses linear algebra, ...

大佬观点推理
08:43
Emad@EMostaque
60
35名美国国会议员联名致信白宫,警告通用AI模型的递归自我改进能力可能构成近期对民主与和平的最大威胁。信件指出,随着模型能力提升,AI可能在网络安全、化学、生物、放射及核相关研究乃至AI自身研发领域获得新能力,而政府机构与基础设施管理者可能来不及应对。议员强调,无论AI能力发展速度如何,联邦机构必须能够及时识别关键新能力并快速响应。

Nathan Calvin: New letter from 35 (!) members of Congress to the White House urging action post-Mythos. Most of the letter is about cyb...

安全/对齐推理
08:00
HuggingFace Daily Papers(社区热门论文)
56
A2RBench:自动化抽象推理基准生成范式

针对现有抽象推理基准依赖人工标注或易测记忆而非真实推理的问题,本研究提出A2RBench自动生成管道,涵盖生成、扩展、评估与分析四个阶段。生成阶段利用大语言模型创建需要真实推理的任务;扩展阶段通过复用已验证规则扩展任务变体以实现规模化。为消除生成过程中的幻觉,建立了理论框架,证明程序化验证(即测试逆操作能否完美还原正向操作,保证循环一致性)可确保任务的唯一解。对主流大模型的评估显示:当前模型在抽象推理上存在根本缺陷,顶尖模型在代表性子集上的表现(39.8%)远低于人类水平(68.5%);模型在处理3D复杂任务时表现远低于2D和1D任务,揭示了对高维任务理解不足;此外,输入信息复杂度的提升反而可能简化推理过程。

推理论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
69
OProver:一个统一的智能体化形式定理证明框架

OProver是首个将智能体化证明过程深度整合到定理证明器训练中的统一框架,而非仅在推理时应用。该框架通过持续预训练和迭代式后训练进行优化,每次迭代均执行智能体化证明,并将新验证的证明索引至OProofs数据集和检索记忆中。OProofs数据集规模庞大,包含1.77M个Lean语句和6.86M个经编译器验证的证明。基于此,OProver-32B模型在MiniF2F、ProverBench和PutnamBench三个基准测试上取得了最优的Pass@32成绩,展现了超越此前所有开源全证明证明器的性能。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
推理收敛时停止:面向推理模型的语义保持早退

大型推理模型通过生成长链式思考实现高性能,但常在推理已收敛后仍继续生成冗余思考,导致计算资源浪费与延迟增加。现有早退方法主要依赖答案级信号(如置信度),无法准确判断推理过程是否真正完成,易引发过早退出而影响答案准确性。新研究提出PUMA框架,通过轻量冗余检测器识别推理链中不再产生新进展的冗余步骤,结合答案验证机制,在确保答案正确性与推理链完整性的前提下实现智能截断。实验表明,该方法在五类模型与五个复杂推理基准上平均减少26.2%的生成token,同时保持推理质量,且该原理在代码生成、视觉语言推理等场景中具有可迁移性。

arXiv推理论文/研究
07:43
IT之家(RSS)
27
IT早报 0517:小米卢伟冰称下半年国产直板旗舰手机价或突破 1 万元;SK 海力士员工成相亲"香饽饽";三大运营商回应"即将免月租"

小米卢伟冰预测,受全球内存成本上涨影响,今年下半年部分国产旗舰直板手机价格可能突破1万元,且涨价趋势或延续至2027年底。SK海力士因高额绩效奖金,其员工及公司夹克在韩国成为网络热梗。三大运营商中,仅中国联通推出“联通魔方”按量计费套餐,设有39元月最低消费,移动和电信暂无免月租计划。此外,中国超频玩家将英特尔i9-14900KF处理器超频至9206.34MHz,刷新全球纪录;微信鸿蒙版App安装量已突破5000万次。

推理行业动态
06:54
Berryxia.AI@berryxia
63
Claude Mythos模型悄然现身Google Cloud Console,预示企业级发布

Claude Mythos模型近日悄然出现在Google Cloud Console中,其预览标签已消失,发布模式与之前Opus 4.7类似,预示可能即将正式落地。Anthropic曾称该模型“太危险”不适合公开发布,但目前迹象表明,公司可能不会推出公开版本,而是转而作为模型提供商,通过Google Cloud Platform让已接入的企业客户直接在自有环境中调用和使用。这一举动被视为Anthropic以最安静的方式将其高级思考模型推向生产环境,并逆转了此前关于该模型危险的叙事。

🚨 AI News | TestingCatalog: ANTHROPIC 🔥: Claude Mythos model has been spotted on Google Cloud Console. -claude-mythos 👀 It is hard to imagine that...

Anthropic推理模型发布
06:03
Chubby♨️@kimmonismus
60
Claude Mythos惊现Google Cloud控制台引困惑

Claude Mythos模型近日意外出现在Google Cloud控制台,且其预览标签已消失,观察者据此猜测Anthropic可能正准备公开发布该模型,类似此前Opus 4.7发布前的先例。然而,Anthropic曾多次公开表示,出于风险考虑不会发布Mythos,且该模型已被证实能力极强,因此部分观点认为该公司此刻进行彻底转向并发布该模型的可能性极低,这也会使其显得不够专业。用户对此表示困惑,强调无法想象任何发布场景,并引用推文示例佐证模型实力。整体上,事件引发猜测,但基于官方立场,实际发布概率被认为较小。

AiBattle: Claude Mythos now appears in the Google Cloud console, which was not the case yesterday The preview label is also gone. ...

Anthropic大佬观点推理
03:54
Dwarkesh Patel:Podcast & Blog(RSS)
51
RLVR 可能在科学领域格外糟糕

RLVR(强化学习与验证)在科学理论验证中可能表现出不成比例的缺陷。科学理论的验证循环周期长达数十年甚至数个世纪,且当前被视为更优的理论实际上常会做出更差的预测。这一矛盾揭示了基于短期反馈的强化学习范式与科学探索长期性、复杂性之间的根本冲突,凸显了现有AI方法在应对科学发现这类超长反馈周期任务时存在的结构性局限。

大佬观点推理
02:32
Hacker News 热门(buzzing.cc 中文翻译)
60
DeepSeek-V4-Flash 意味着大型语言模型(LLM)的引导技术再次引起关注

DeepSeek-V4-Flash发布,这一大型语言模型新版本使得LLM引导技术重新成为关注焦点。引导技术涉及通过向量控制模型输出方向,此次更新引发科技界对模型可控性的讨论。在Hacker News上,相关帖子获得105点的高分,显示社区对此话题的热烈反响,标志着AI领域对定向优化技术的持续探索。

DeepSeek安全/对齐推理现象/趋势
00:51
Ant Ling@AntLingAGI
精选80
又一次Day0协作,又一次社区胜利。感谢@vllm_project团队始终可靠的支持~ 🫡🫡

vLLM: Congrats to @AntLingAGI on Ring-2.6-1T going open! 🎉 The thinking sibling of Ling-2.6-1T - trillion-scale, built for ag...

智能体开源生态推理模型发布

推荐理由:蚂蚁百灵把万亿参数的 thinking 模型开源,vLLM 第一天就能跑,想自己搭 agent 推理服务的可以直接动手了,开源生态的齿轮转得比想象中快。
00:51
Ant Ling@AntLingAGI
74
Ring-2.6-1T万亿参数旗舰模型正式发布,专注于处理复杂现实世界任务,并在SGLang平台获得Day-0即时支持,得益于与@lmsysorg的合作。该模型具备增强的智能体执行能力,可稳定处理多步骤、工具调用和长流程工作。用户可通过推理努力控制的高与极高模式,灵活调节推理深度、速度和成本。训练采用异步强化学习与IcePop技术,确保万亿参数强化学习训练的效率和稳定性。目前,该模型在OpenRouter平台提供限时75%折扣,供用户体验最新功能。

LMSYS Org: 🎉 Congrats on the release of Ring-2.6-1T, a trillion-parameter flagship for complex, real-world tasks. Day-0 support is...

智能体开源/仓库推理模型发布
00:51
Ant Ling@AntLingAGI
精选76
蚂蚁集团发布万亿参数推理模型Ring-2.6-1T,专为现实世界智能体工作流构建。该模型采用MIT许可,上下文长度通过YaRN技术从128K扩展至256K,并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式:"high"模式用于快速智能体循环,"xhigh"模式用于深度推理,旨在实现更好的成本与性能平衡。模型已开源,欢迎社区反馈。

Adina Yakup: Ant group just dropped Ring-2.6-1T 🔥 1T reasoning model, built for real world agent workflows. ✨ MIT license ✨ 128K >> ...

智能体Hugging Face开源生态推理

推荐理由:蚂蚁把1T推理模型以MIT许可开源,还专门为Agent循环做了高低推理双模式,做开源Agent的团队直接多了一个强力基座可选。
00:21
Ant Ling@AntLingAGI
66
Ring-2.6-1T模型现已开源,并上线OpenRouter平台,5月底前享有75%折扣。该模型由AntLingAGI开发,是一个为现实世界智能体构建的万亿级推理模型,其核心设计目标不仅是回答问题,更是执行任务。它专注于规划步骤、使用工具、维持上下文和完成复杂工作流,具备强大的智能体执行能力和高推理模式,并采用了Async RL与IcePop训练方法。

Novita AI: 🚀 Ring-2.6-1T is now open source (from @AntLingAGI). Now 90% off on @OpenRouter via @novita_labs - a great time to star...

智能体开源生态推理模型发布
5月16日
22:54
Berryxia.AI@berryxia
61
长上下文LLM竞争已转向:从堆token转向精细的架构优化

长上下文大型语言模型的竞争焦点已从单纯增加上下文长度,转向通过精细的架构优化来提升计算效率。Sebastian Raschka的新文章通过可视化方式,解析了从Gemma 4到DeepSeek V4等模型在生产环境中应用的关键效率优化技术,如KV缓存共享、分层嵌入和压缩注意力等。这些技术旨在更智能地分配计算资源,已成为决定模型性能差异的关键。对于从事长上下文模型、智能体或RAG开发的团队而言,文章中的视觉图解与效率对比具有重要的参考价值。

Sebastian Raschka: New article: a visual tour of recent LLM architecture advances, from Gemma 4 to DeepSeek V4. I focus on long-context eff...

推理现象/趋势部署/工程
22:01
Hacker News 热门(buzzing.cc 中文翻译)
精选70
Δ-Mem:适用于大型语言模型的高效在线内存

研究人员提出了Δ-Mem,一种专为大型语言模型设计的高效在线内存系统。该系统通过仅存储和更新模型激活的增量变化,而非完整的激活状态,显著降低了内存占用。实验表明,Δ-Mem能将内存使用量减少高达70%,同时保持模型输出的质量基本无损。这一方法有助于在资源受限的环境中部署和运行大规模语言模型,提升其在线推理和持续学习场景下的可行性。

推理论文/研究部署/工程

推荐理由:Δ-Mem 把 LLM 的在线记忆开销压得够低,如果实验结果稳得住,长上下文推理的成本结构又要改写了。
20:38
Rohan Paul@rohanpaul_ai
58
陶哲轩论大型语言模型:简单数学与不可预测行为之谜

陶哲轩指出,大型语言模型(LLMs)的训练和运行主要基于线性代数、矩阵乘法和微积分等简单数学,本科生即可掌握。然而,核心谜团在于LLMs为何在某些任务上表现卓越,却在其他任务上失败,且无法提前预测。这源于现实世界数据的性质:它介于完全噪声和完全结构化之间,而数学对此中间状态的理解薄弱,类似于物理学在原子和连续介质之间的介观尺度困境。因此,尽管我们能描述LLMs的机制,却无法解释其能力跳跃或提供可靠的任务级预测。简单机制与难以预测行为之间的不匹配,构成了当前研究的核心难题。

大佬观点推理现象/趋势
19:25
The Decoder:AI News(RSS)
44
新基准测试证实AI视频生成器视觉效果惊艳,但仍无法进行世界推理

WorldReasonBench新基准测试评估AI视频生成器的物理和逻辑合理性,而非图像质量。ByteDance的Seedance 2.0在该测试中领先,超过Veo 3.1和Sora 2。商业模型的得分大约是开源模型的两倍,逻辑推理是所有模型中最困难的类别,表现差距显著。这表明AI视频生成器虽能产生惊艳视觉效果,但尚未实现从像素生成器到真实世界模型的飞跃。

GoogleOpenAI推理视频
19:01
Hacker News 热门(buzzing.cc 中文翻译)
67
Orthrus-Qwen3:在Qwen3上每步最多可处理7.8个令牌,输出分布与原版完全一致

Orthrus-Qwen3项目在Qwen3模型上实现了每次前向传播最高可处理7.8个令牌的性能,同时确保输出分布与原版模型完全一致。该项目已在GitHub开源,并在Hacker News社区获得102点热度。这一优化显著提升了模型推理效率,且保持了生成结果的准确性。

GitHub开源/仓库推理
18:01
Hacker News 热门(buzzing.cc 中文翻译)
42
Frontier AI 打破了公开 CTF 赛制的常规

Frontier AI 的最新突破彻底颠覆了公开CTF(Capture The Flag)竞赛的传统赛制。这一变革源于AI技术在网络安全挑战中的卓越表现,使得现有公开赛制难以适应。相关讨论在Hacker News上获得108个点赞,反映出科技社区的高度关注。此举可能标志着CTF竞赛进入AI驱动的新阶段,重新定义安全测试与竞技形式。

安全/对齐推理现象/趋势
17:02
Chubby♨️@kimmonismus
精选75
研究人员利用Anthropic Mythos工具构建macOS内核漏洞,绕过苹果M5芯片内存完整性执行安全系统

三名研究人员借助Anthropic的Mythos工具,成功开发出一个可绕过苹果M5芯片内存完整性执行(MIE)安全机制的macOS内核漏洞利用程序。MIE是苹果耗时五年、投入巨资为M5和A19芯片打造的旗舰安全功能,旨在彻底消除内存损坏漏洞。研究团队于4月25日发现漏洞,5月1日即完成开发,并亲自前往苹果园区提交报告。该攻击采用纯数据攻击方式,无需操纵指针,仅通过非特权用户的标准系统调用即可获取根权限。完整技术报告将在苹果发布补丁后公开。

International Cyber Digest: Video of exploit in action. Source: https://blog.calif.io/p/first-public-kernel-memory-corruption

Anthropic安全/对齐推理编码

推荐理由:从发现漏洞到提权 root 只用了六天,Mythos 绕开了苹果最核心的安全屏障。这是 AI 辅助漏洞利用的分水岭,安全工程师现在就该看。
15:42
IT之家(RSS)
66
蚂蚁集团百灵开源万亿级思考模型 Ring-2.6-1T,支持 high 与 xhigh 两种推理强度

蚂蚁集团百灵大模型开源了面向复杂任务的万亿级思考模型 Ring-2.6-1T。该模型创新性地引入了可调节推理强度机制,提供 high 和 xhigh 两种模式。high 模式适用于高频 Agent 工作流,具有低 Token 开销和快速多步执行能力,适合多轮交互与工具协作;xhigh 模式则为数学、科研及复杂逻辑分析等高难任务提供更充分的思考深度。开发者可根据任务需求灵活选择,以平衡效果、速度与成本。模型已在 Hugging Face 和 ModelScope 平台开放。

Hugging Face开源生态推理模型发布
‹ 上一页
1…3132333435…50
下一页 ›