Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》CMU与UMD的研究团队在论文《Language Models Need Sleep》(arXiv 2605.26099)中指出,传统Transformer模型在处理长任务时,因注意力机制计算复杂度高及KV cache显存占用持续增长而导致效率低下。为此,他们提出了受生物启发的“类睡眠巩固”机制:模型会周期性进入“睡眠”状态,离线多轮处理最近的上下文,并将信息固化到模型状态空间块的fast weights中,随后清空KV cache。实验表明,增加睡眠深度或时长能显著提升模型后续的推理能力。该框架完全开源,提供了一种区别于暴力堆显存的长上下文处理新范式。
very cool research (and nomenclature)
Meta、CMU等机构在论文中提出了Self-play SWE-RL方法。该方法让编程智能体通过“自我博弈”生成训练数据,而非仅依赖人工标注的问题。具体而言,一个模型探索代码库、注入bug并留下测试用例来描述问题;另一个模型则学习根据测试修复系统。其中,测试成为了描述问题的核心语言。该方法在SWE-bench Verified上提升了+10.4分,在SWE-Bench Pro上提升了+7.8分。值得注意的是,评估使用了该系统未训练过的自然语言问题,表明其可能学到了更深层的软件理解能力。
Meta、斯坦福等机构提出AutoResearchClaw,这是一个通过AI智能体进行自主研究的框架。其核心理念是将科研过程转化为一个受流程约束的循环,而非简单的生产线。系统整合了辩论、修复、验证、记忆和选择性的人类反馈,并将失败视为有效证据。在ARC-Bench基准测试中,该系统在结果分析等任务上性能比AI Scientist v2提升54.7%。人类协作实验显示:CoPilot模式(适时介入)接受率达87.5%,完全自主仅25%,逐步监督为50%。一个关键失败案例揭示了当所有交叉验证方法返回相同零偏差输出时,系统虽通过数值验证却失去了科学意义,凸显了人类判断的关键作用。
华为将不依赖更小制程节点,通过封装与架构创新来扩展其昇腾AI芯片。根据何庭波的论文,华为计划在2025年至2030年间,通过Chiplets、2.5D扇出封装和3D堆叠技术,推进其昇腾SuperPoD系列,具体产品包括2025年的910C、2026年的950及后续的990。约2030年,Ascend 990将引入LogicFolding技术,目标是到2035年实现100倍的集成度跃升。
Google最新论文指出,LLM的幻觉问题核心在于模型在该犹豫时仍表现确定,而非单纯事实错误。论文将优化目标从追求完美的事实准确性,转向让模型能诚实地区分“我确知”与“我猜测”。作者提出了“忠实不确定性”概念,要求模型的表述与其内部置信度相符。文章还引入了“效用税”概念,解释了为何产品倾向自信但可能错误的回答。对于智能体而言,元认知能力至关重要,它决定了何时调用工具、何时信任信息源。
Meta、斯坦福与伊利诺伊的研究论文指出,AI智能体在将代码作为主要工作层时性能更佳。论文认为,大语言模型(LLM)作为文本预测器,在处理长任务时存在状态丢失、错误隐蔽等问题。真正的进步并非“AI写代码”,而是“AI在代码环境中思考”。论文的核心是提出一个以代码为中心的“智能体框架”,即工具、记忆、沙箱等系统。在此框架中,测试成为传感器,代码库成为记忆,日志成为历史,沙箱成为边界。生成的脚本成为可运行、检查、修改和共享的操控对象。总结发现,代码能通过可执行步骤帮助智能体推理,通过工具调用行动,并通过测试、日志等对环境进行建模。
微软研究院提出了SkillOpt方法,将AI智能体的技能文档视为可训练的外部状态,而非由工程师手动编写。该方法利用一个优化器模型对技能文件进行验证门控编辑,通过添加、删除或替换指令来优化文档,并引入文本学习率控制每轮重写力度,而智能体本身保持不变。实验显示,在全部52个测试单元(涵盖不同模型、基准测试和工具链)中,SkillOpt均达到最佳或并列最佳。具体在GPT-5.5上,相比无技能文档,SkillOpt在直接聊天、Codex和Claude Code下分别取得23.5、24.8和19.1分的提升,超越人类手写技能及其他自动化方法,且不增加推理时开销,学到的技能还能跨模型和工具链迁移。
华为提出了“τ缩放”和“LogicFolding”两种新方法,旨在不依赖最先进光刻工具的前提下,缩小与台积电的性能差距。其核心思想是将衡量芯片进步的指标从晶体管尺寸转向信号传输延迟(τ)。LogicFolding作为具体实现,通过垂直堆叠逻辑电路层并采用混合键合,将需要通信的电路紧邻放置,从而缩短关键线路、降低电阻和寄生电电容,提升信号速度。华为表示,其下一代麒麟手机芯片将是对τ缩放规律的首次全面测试。
🇨🇳 Huawei reveals a new chip design breakthrough under US sanctions pressure. A design approach meant to close the gap...
关联讨论 1 条IT之家(RSS)阿里巴巴与南京大学提出RTPurbo,一种轻量级适配方法。该方法发现,已训练的全注意力模型内存在隐藏的稀疏结构。它利用一个轻量的16维token查找器作为“侦察兵”,为少数需要长程信息的关键注意力头定位重要token,而让其他头主要关注局部文本。基于此,RTPurbo在100万token预填充任务上,相比FlashAttention-2实现了高达9.36倍的加速,解码阶段也约有2倍加速,同时在长上下文和推理基准上保持了接近全注意力模型的精度。该研究表明,长上下文推理中的计算浪费具有可挖掘的结构性。
Another 9 open Erdos problems solved, this time by DeepMind team. Interesting loop of LLM - Lean agents working autonomo...
论文提出ZEDA框架,可将训练后固定的静态MoE模型(如Qwen3、GLM)转变为动态模型,允许路由器在token过于简单时跳过专家调用。实验显示,在Qwen3-30B-A3B和GLM-4.7-Flash上,ZEDA可移除约50%的专家计算量,仅带来轻微准确率损失,并实现约20%的实际推理速度提升。研究发现,计算分配主要依据模型的不确定性,而非单纯跟随任务难度。
德国KIT研究人员展示,使用普通WiFi路由器即可近乎完美地识别个人身份,无需手机、特殊硬件或视线。该系统利用每个已连接设备都在广播的未加密波束成形反馈(beamforming feedback)。在197名受试者的测试中,识别准确率接近100%。该研究指出,此类监控基础设施(如咖啡馆、机场、办公室中的路由器)已普遍存在,核心问题在于谁将开始读取并利用这些信号。
一篇新论文提出对通用人工智能(AGI)的明确定义,认为AGI是一种“人工科学家”。该模型需要像人类科学家一样,具备自主规划实验、学习因果关系、平衡探索与行动的能力。其核心在于适应性,即能在计算、记忆和能量限制下,像人类科学家一样广泛、高效且科学地适应新环境和任务,评判标准是其发现和适应能力,而非通过拟人化测试。
一项新研究提出通过改进包裹冻结LLM的运行时接口来优化AI代理性能,而非修改模型本身。该方法将反复出现的交互失败转化为对运行时层的可复用干预,在7个确定性环境、126个设置中取得平均88.5%的相对性能提升。关键发现是,从单一模型轨迹中学习到的运行时方法可成功迁移至18个不同模型骨架,证明其捕捉的是环境结构而非模型特异性模式。这为生产环境中部署AI代理提供了更高可移植性的解决方案。
Meta研究发现,在编程智能体任务中,通过复用过往尝试的简短摘要,其性能显著优于使用原始日志。该论文指出,对于长程编程任务,主要瓶颈已从代码生成转向了如何有效记忆与表示智能体的工作过程。其方法是将每次充满错误的“混乱轨迹”转化为包含核心假设、进展与失败点的紧凑摘要,系统通过锦标赛式选择最佳摘要来指导新一轮尝试。在Claude 4.5 Opus的测试中,该方法使其在SWE-Bench Verified上的得分从70.9%大幅提升至77.6%,证明提升性能的关键在于以可复用的形式存储经验。
本研究指出,AI代理的实际性能更多取决于围绕模型的外部控制系统(即代理框架),而非单纯的提示词。当前许多代理看似单一模型,其行为实则由规划、工具调用、记忆管理等周边代码驱动,导致长任务易因状态丢失、验证漂移等环节失败。为此,论文提出“自然语言代理框架”理念,旨在将控制流程以结构化自然语言显式表达,使其可检查、可迁移且可测试。研究发现,虽然更复杂的框架能显著改变代理行为,但并未带来稳定的性能提升,这表明框架设计是保障可靠性的关键选择,而非一种立竿见影的万能方案。
该研究指出,AI检测器频繁失效的根本原因在于学生写作风格的多样性,使得仅凭单份文档判断是否为AI生成变得极为困难。问题不仅在于AI写作能力在提升,更在于许多真实学生的写作风格,在统计特征上已与AI输出高度相似。检测器无法事先掌握每个学生独特的写作习惯,因此“人类写作”不存在一个固定的判断标准。这意味着任何能有效识别大量AI文本的检测器,都不可避免地会误判一部分真实学生,尤其是写作更规范、公式化或受英语学习影响的学生。现有技术或许能降低错误率,但无法根除基于“单次判断”模式所带来的结构性误判问题。
谷歌研究院提出基础模型SensorFM,通过学习超过500万人产生的逾1万亿分钟可穿戴设备传感器数据,掌握了人类生理活动的一般性模式。该模型超越了将数据压缩为简单指标的传统方法,能够从数据中提取出有意义的结构并将其复用于多种健康预测任务。实验显示,模型规模和数据量越大性能越强,且其学习到的数据表征在35项预测任务中的34项上,均优于基于工程特征的基线方法。
Google DeepMind提出了AlphaProof Nexus系统,它将大型语言模型与Lean形式化验证工具相结合。该系统允许LLM在生成证明的过程中,不断读取Lean的编译错误并进行修正,还可调用更强的工具辅助解决子问题。这一机制迫使模型将每一步逻辑都转化为可编译、可验证的代码,从而将其角色从“令人信服的叙述者”转变为“候选方案生成器”。在针对353个Erdős问题和492个开放猜想的测试中,系统成功解决了9个Erdős问题并证明了44个序列猜想。该研究展示了形式化验证在暴露AI逻辑错误、建立“人类提问-模型探索-验证器把关”新分工中的关键作用。
关联讨论 2 条The Decoder:AI News(RSS)IT之家(RSS)东京大学研发了一种新型芯片组件,其处理数据速度较传统方法提升1000倍,且不产生额外热量。关键突破在于功耗仅为现有技术的百分之一,这理论上能使一个谷歌规模的数据中心能耗降低至当前的百分之一,极大缓解AI行业的能源压力。然而,该芯片原型预计2030年才问世,商用化需更长时间,凸显了AI快速发展与突破性节能技术量产时间之间的差距。
苹果Persona团队在WWDC26前发布新论文,展示了面部捕捉与动画技术的最新进展。从演示来看,其在眼部微表情、头部细微动作和皮肤质感等细节上实现了显著提升,使数字形象的真实感进一步增强,已超越简单“数字头像”,趋近于可信的“数字分身”。这类突破对AR/VR、游戏和远程协作等领域的沉浸式体验至关重要,能够有效打破虚拟交互中的“不真实感”。苹果持续重仓该技术赛道,相关论文与演示视频已公开。
Apple's Persona team continuing to do amazing work with face capture and animation. New paper released ahead of WWDC26 h...
In Oct last year, Representation Autoencoders provided an elegant solution to unified tokenization for understanding and...
OpenAI未公开的内部通用推理模型,自主解决了数学家Erdős于1946年提出的平面单位距离问题,颠覆了近80年来学界对解法结构的普遍预期。该模型通过125页思维链,创新运用代数数论工具解决离散几何问题,实现了跨领域方法论突破。更值得注意的是,该模型并非专攻数学训练,其成果表明通用推理能力达到一定阈值后可能自然催生创造性,标志着AI在基础科学领域迈出了关键一步。
Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 8 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Sam Altman (@sama)X:Noam Brown (@polynoamial)A breakthrough by OpenAI in a very famous Combinatorics problem, the Planar Unit Distance problem by Erdos 1946. The pro...
关联讨论 8 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Sam Altman (@sama)X:Noam Brown (@polynoamial)OpenAI的通用推理模型自主解决了一个自1946年以来未解的著名数学难题——平面单位距离问题。该模型没有采用专门为数学设计的定定理证明引擎,而是通过推理时增强计算能力,发现了优于传统网格结构的新构造方案。这标志着AI首次自主解决一个数学领域的核心开放问题。更重要的是,该模型能将几何问题与代数数论等深层理论连接,展示了通用人工智能在跨领域研究和拓宽人类认知边界方面的巨大潜力。
Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 8 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Sam Altman (@sama)X:Noam Brown (@polynoamial)仅1000万参数的GRAM模型,通过引入可学习的随机性,在推理时并行探索多条不同路径,打破了传统递归模型锁定单一思维的限制。该模型在测试时同时运行这些平行轨迹,并借助奖励预测器选择最优结果,从而在深度之上增加了“宽度”维度。实验表明,GRAM在困难数独任务上准确率高达97%,远超此前最佳确定性模型;在多解的皇后问题上也能维持高性能,并能高效生成有效的数独谜题。这一框架为提升小模型的推理能力提供了新思路。
OpenAI内部推理模型自主解决了存在近80年的著名数学开放问题——平面单位距离问题。该模型推翻了Paul Erdős的猜想,发现了全新的点配置构造,其效率以固定多项式因子优于传统方格网格方案。证明运用了代数数论等跨学科方法,经外部数学家验证,被Fields奖得主Tim Gowers誉为“AI数学的里程碑”。这是AI首次独立解决数学领域的核心公开问题,标志着从知识复现到知识创造的重要转变,其跨领域推理能力可能为多学科研究带来深远影响。
Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 8 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Sam Altman (@sama)X:Noam Brown (@polynoamial)OpenAI的一个AI模型自主攻克了“平面单位距离问题”,这是数学家埃尔德什于1946年提出的一个著名开放难题。近80年来,学界普遍认为最优构造近似于方格子,而该AI模型通过运用代数数论中冷门的Golod-Shafarevich理论,发现了一整族效率更高的全新构造,推翻了原有定见。此成就标志着AI首次独立解决一个数学领域的核心开放问题,其关键在于提出并完整执行了一条人类因直觉认为不可行而从未尝试的创新路径。
Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 8 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Sam Altman (@sama)X:Noam Brown (@polynoamial)随着长上下文与Prefill-Decode分离部署成为主流,GPU集群网络已从次要部件转变为制约推理吞吐、尾部延迟和成本的关键瓶颈。传统静态网络拓扑与动态非对称的KV Cache流量模式冲突,导致局部拥塞。为此,Z.ai、Harnets.AI与清华大学联合研发了ZCube网络架构。该架构采用完全扁平化拓扑与混合接入设计,从源头解耦并分散流量以减少拥塞。在GLM-5.1生产测试中,ZCube在保持GPU与软件栈不变的前提下,实现了交换机与光模块成本降低33%、平均推理吞吐提升15%、首token时间P99降低40.6%的显著效果,证明网络架构创新能有效释放硬件潜力。
关联讨论 1 条智谱:研究(网页内嵌数据)Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 8 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Sam Altman (@sama)X:Noam Brown (@polynoamial)Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 8 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Sam Altman (@sama)X:Noam Brown (@polynoamial)Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 8 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Sam Altman (@sama)X:Noam Brown (@polynoamial)