OpenAI 宣布其推理模型成功证伪了一道自1946年起悬而未决的几何猜想。与以往不同,此次声称获得了此前曾指出OpenAI相关声明存在错误的数学家们的认可与支持,这为其结论的可靠性提供了关键背书。
同一事件,精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》OpenAI 宣布其推理模型成功证伪了一道自1946年起悬而未决的几何猜想。与以往不同,此次声称获得了此前曾指出OpenAI相关声明存在错误的数学家们的认可与支持,这为其结论的可靠性提供了关键背书。
同一事件,精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》OpenAI宣布其开发的人工智能模型成功证伪了离散几何学领域的一个核心猜想。该模型通过自动化推理与证明过程,推翻了这一长期存在的数学假设,标志着AI在抽象数学研究与定理证明方面取得了实质性突破。这项成果不仅展示了大型语言模型在科学发现中的潜力,也为利用AI解决复杂科学问题提供了新的范例。
同一事件,精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 8 条The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)X:Sam Altman (@sama)If you are a mathematician, then you may want to make sure you are sitting down before reading further.
Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 8 条The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)X:Sam Altman (@sama)Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 8 条The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)X:Sam Altman (@sama)Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 8 条The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)X:Sam Altman (@sama)Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 8 条The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)X:Sam Altman (@sama)OpenAI开发的人工智能模型成功解决了数学界悬而未决逾80年的“单元距离问题”,并由此推翻了离散几何领域的一个核心猜想。这一突破被视作人工智能驱动数学研究的里程碑事件,标志着AI在基础科学理论探索中取得了实质性进展。该模型通过创新算法处理复杂的几何问题,展示了机器在自动化发现与验证数学猜想方面的巨大潜力。
关联讨论 8 条The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)X:Sam Altman (@sama)开发者Mike Veerman创建了一个名为tokenspeed的HTML应用程序,可模拟从每秒5个到800个token的LLM文本输出速度。用户能够直观感知模型广告中常见速度指标(如30 tokens/秒)的实际生成效果。该工具源代码公开,信息来源于Hacker News,适用于需要理解生成式AI响应速度的开发者与普通用户。
Google发布的Gemini 3.5 Flash在性能上实现飞跃,智能指数达55分,超越Grok 4.3等竞品,幻觉率大幅下降,输出速度超280 tokens/s。然而,其运行成本是前代的5.5倍,定价显著提高,引发对“Flash”是否仍代表“便宜”的讨论。该模型已在ZenMux平台开放免费体验,实际测试显示效果惊艳,在多项Agent和多模态榜单中表现顶尖,标志着顶级智能与极致速度的新结合。
兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...
全能模态大语言模型在处理交织的视频与音频token时,固定比例的剪枝方法无法适应跨模态重要性随网络深度的动态变化。为此,本文提出无需训练的阶段自适应token选择方法SEATS。该方法在模型输入前通过注意力加权进行去冗余,在模型内部逐层动态分配模态保留配额,并在跨模态融合完成后移除所有剩余非文本token。实验在Qwen2.5-Omni和Qwen3-Omni模型上验证,仅保留10%的视觉和音频token,即可实现9.3倍FLOPs削减与4.8倍预填充加速,同时保持96.3%的原始性能。
智能代理领域迎来新突破,Qwen3.7-Max于2026年5月20日发布,标志着前沿技术的演进。该模型聚焦智能代理创新,具体细节可通过qwen.ai博客获取。发布消息在Hacker News上获得128个关注点,显示技术社区的广泛兴趣。尽管未披露详细性能指标,但Qwen3.7-Max的推出暗示了在自主代理架构或任务处理能力上的提升,推动AI向更高效、智能的方向发展。
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》一场涵盖11个大语言模型的30轮大逃杀式评测,花费482美元推理成本,得出了一个应改变读者阅读模型基准方式的关键发现。
getting some yeses getting some nos. have you run a Deep Research recently?
英伟达发布了Nemotron-Labs-Diffusion语言模型家族,其核心创新在于将自回归、基于扩散的并行解码以及自推测解码三种解码模式统一于单一架构。该模型提供3B、8B和14B三种参数规模,并包含基础版、指令微调版和视觉语言版本。相较于Qwen3-8B,其8B参数版本在单次前向传播中能够生成多达6倍的Token数量,显著提升了吞吐效率。
Google在2026年I/O大会上发布了新一代模型Gemini 3.5 Flash。该模型在代码生成和AI智能体任务等基准测试中性能超越了此前的旗舰版本,同时运行速度提升四倍,推理成本降低一半。这一更新显著增强了模型在实际应用中的效率与经济性,特别面向需要快速响应和复杂任务处理的开发者场景。
CopT提出了一种反转传统链式思考(CoT)顺序的推理框架:先生成草稿答案,再进行策略内反思。其核心是将连续嵌入向量转化为推理时的对比验证器,通过比较模型在离散令牌与连续嵌入输入下对同一生成令牌的支持度,构建序列级反向KL估计器,以此评估答案的可靠性。当答案不可靠时,CopT会执行进一步思考,并利用第二个KL估计器动态控制草稿答案的可见性,在保留有用信息与规避误导间取得平衡。在无需额外训练的前提下,该方法在数学、编程等任务上显著提升了准确率(最高达23%)并大幅减少了令牌消耗(高达57%)。
针对现有方法在处理重复长外部上下文时未能有效保存和重用定向知识的问题,本文提出PEEK系统。该系统将关于上下文内容、组织方式及历史有用实体的知识缓存为一个小型固定大小的上下文映射,并置于智能体提示中,以持续辅助处理外部上下文。PEEK通过蒸馏、制图和驱逐模块的可编程缓存策略维护映射。实验表明,在长上下文推理和信息聚合任务上,PEEK相比强基线提升6.3-34.0%,迭代次数减少93-145次,成本比ACE低1.7-5.8倍;在上下文学习任务中,解决率和标准准确率分别提升6.0-14.0%和7.8-12.1%,成本降低1.4倍。这些成果在多种模型和智能体架构(包括OpenAI Codex)上均有效,证明了上下文映射能帮助智能体更准确高效地处理重复外部上下文。
GoLongRL是一个全开源的长期上下文强化学习方案,聚焦于使用可验证奖励的强化学习。该工作提出了面向能力的数据构建方法,公开发布了包含23K样本的数据集、完整构建管线及训练代码。数据集依据长期上下文能力分类,涵盖9种任务类型,由真实文档生成的问答对构成;实验证明该数据集性能优于闭源的QwenLong-L1.5数据集。训练得到的Qwen3-30B-A3B模型在长期上下文任务上达到了与DeepSeek-R1-0528等先进模型可比的性能。此外,提出了TMN-Reweight多任务优化方法,通过任务级归一化和难度自适应加权,在提升平均性能的同时保持或增强了通用能力。
阿里云千问大模型今日正式发布新一代旗舰智能体模型 Qwen3.7-Max,定位为全能的智能体基座。该模型在编程、办公自动化及长周期自主任务方面能力突出,其中在一项持续35小时、超过1000次工具调用的内核优化实验中验证了其稳定的推理与执行能力。基准测试显示,Qwen3.7-Max 在 SWE-Pro、MCP-Mark、GPQA Diamond 等多项评测中成绩领先,其编程、通用智能体及推理能力已达到业界顶尖水平。该模型即将通过阿里云百炼 API 提供服务。
现有投机解码方法为提高接受率而构建庞大草稿树,导致显存带宽和计算开销激增,反而制约了加速效果。动态剪枝虽能降低延迟,但会损失有效候选,无法达到理想接受率。为此,研究提出了Graft补偿框架,通过“剪枝-再嫁接”的机制,利用剪枝释放的计算预算驱动检索操作,用检索到的高预测性令牌补偿剪枝造成的覆盖损失,从而在近零额外开销下恢复接受长度。该方法无需训练且无损性能,在短上下文、长上下文及大规模模型等多种场景下建立了新的性能前沿。实验表明,它在短上下文任务中最高可实现5.41倍加速,并在大规模Qwen3-235B模型上将平均加速比相比EAGLE-3提升了高达21.8%。研究还初步探索了该方法在DFlash分块草稿范式中的应用潜力。
针对现有视频生成模型在抽象或复杂控制下表现不佳的问题,CogOmniControl框架将任务解耦为创意意图认知与内容生成。该研究通过动画数据训练专用CogVLM,提升对模糊用户意图的专业理解与推理能力。同时,利用CogOmniDiT模块统一多种条件控制,并通过强化学习将其输出与CogVLM推理对齐。系统还基于专业工作流数据构建了CogReasonBench和CogControlBench基准。实验证明,CogOmniControl性能超越现有开源模型。
阿里云在2026云峰会上发布了新一代平头哥训推一体AI芯片真武M890与ICN Switch互联芯片,并推出搭载该芯片的128卡超节点服务器。该服务器通信时延低至百纳秒级,可让128张AI芯片协同工作,以满足Agentic时代海量Agent的并发推理与大模型训练需求。阿里云表示已实现从底层芯片到上层应用的全栈技术就绪。
通义千问发布 Qwen3.7-Max,专为智能体时代设计。它具备从原型到复杂多文件工程的编码智能体能力,通过 MCP 和多智能体编排实现办公自动化,能自主执行超 1000 步工具调用(如 35 小时全自主内核优化)。兼容 Claude Code、OpenClaw、Qwen Code 等多框架。在多项基准测试中超越 Opus-4.6 Max 等模型:Terminal Bench 2.0 (69.7)、SWE-Verified (80.4)、GPQA Diamond (92.4)、HLE (41.4) 等。现已通过阿里云 Model Studio 提供 API 调用。
关联讨论 7 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)针对强化学习(RLVR)中对所有生成token给予相同奖励导致的信用分配问题,本文提出对比证据策略优化(CEPO)。该方法通过对比正确与错误答案对每个token的偏好,精准区分关键推理步骤与普通填充token,从而获得更细粒度的奖励信号。CEPO利用训练批次中已有的拒绝样本构建错误答案教师模型,不产生额外采样成本。实验表明,在2B和4B参数规模下,CEPO在多个数学推理基准上分别取得43.43%和60.56%的平均准确率,优于GRPO等基线方法。
谷歌推出Gemini 3.5 Flash模型,其输出速度提升至四倍,在终端基准测试等多项高难度任务中超越了Gemini 3.1 Pro。该模型以高速度与低成本,成为适合日常工作的强大代理工具。它已登陆Gemini应用、搜索AI模式及企业级产品等平台。配合升级的Antigravity工具,Gemini 3.5 Flash可驱动协作子代理,大规模并行处理代码审查、重写与测试等复杂任务,实现高效自动化工作流。
Gemini 3.5 in few more hours. 🔥
爆料者释出了英特尔数据中心AI推理GPU新品“Crescent Island”的PCB图片。该显卡采用PCIe Gen5+接口,配备20个LPDDR5X内存焊盘,总计容量可达160GB。供电方案为核心15相与内存3相,尾端为12V-2×6供电端子,并设计有调试用USB-C接口。这款基于Xe3P微架构的产品面向风冷服务器,预计2026年下半年向客户出样。
Kimi K2.6 终于有高速推理平台了 👍🏻 这是 @cerebras 在 GPT 5.3 Codex Spark 之后,又一次对主流 LLM 做高速推理 在 Groq Kimi K2 之后,K2.5 和 K2.6 一直都是模型很强,但官方推理实在太慢。。Groq 被 Nvidia 收购后也没有再跟进主流模型推理 现在 Cerebras 把 Kimi K2.6 这个超过 1T 参数的模型,推理速度拉到了 ~1000 tokens/s,这速度就太舒服了,用起来!!
Cerebras is now running Kimi K2.6 - a trillion parameter model - in enterprise trials. At ~1,000 tokens/s, this is the f...
llm-gemini发布了0.32a0版本。此次更新要求llm版本不低于0.32a0的alpha版,其核心变化是新增了流式处理推理token的功能。
提示词设计仍需大量人力且对格式高度敏感。现有自动化方法受限于候选搜索或固定流程,难以系统性地捕捉错误模式。文章提出反思式提示词微调(RPT)框架,通过LLM函数调用模拟人类工程师工作流:LLM优化器调用诊断函数评估目标模型,总结重复性失败模式并返回结构化报告;优化器依据该报告及历史记忆修订提示词进行下一轮迭代。框架支持置信度感知优化。实验显示,在三个推理任务上RPT最高提升12.9分,与当前最佳方法持平,并改善了置信度校准。分析表明其对多跳与数学推理任务尤为有效,能生成针对性修订。
RankJudge是一个评估大语言模型作为评判者在基于参考文档的多轮对话中表现的基准测试生成器。它通过生成配对对话来工作,其中一个对话的单一轮次被注入缺陷,从而明确评判结果并精准定位错误类别。该基准在机器学习、生物医学和金融三个领域实施,对21个前沿大语言模型评判者进行了评估,并使用Bradley-Terry模型对其排名。RankJudge还能为对话对生成难度评分,用于动态筛选评估数据以降低标签噪音。
Equilibrium Reasoners (EqR) 提出一种无需外部验证器的测试时计算扩展框架。其核心假设是,可泛化的推理能力源于学习任务条件下的吸引子,即稳定不动点对应有效解的潜在动力系统。EqR通过深度(更多迭代)与广度(聚合多条随机轨迹)两个维度扩展内部动力。实验表明,测试时扩展的收益与向解对齐吸引子的收敛强度紧密相关。该框架使模型能根据任务难度自适应分配计算:简单案例在1至5次迭代内收敛,复杂案例则受益于大规模扩展。通过展开相当于40,000层,可扩展潜在推理在Sudoku-Extreme任务上将准确率从2.6%提升至超过99%。
可验证奖励强化学习是提升大语言模型推理能力的关键技术,但奖励信号如何转化为token级概率变化的机制尚不明确。本文提出判别器视角,揭示策略梯度更新方向本质上是区分不同奖励响应的线性判别器。现有方法的正负侧质心易被格式化token等高频模式主导,稀释了关键判别信息。为此,我们提出DelTA方法,通过估计token系数来重塑更新方向,放大特定侧梯度并削弱共享模式权重。实验表明,DelTA在多项数学基准上显著提升了模型性能,并在代码生成与跨域任务中展现出良好的泛化能力。
Anthropic为构建负责任的先进AI,正与全球多元群体展开对话。首轮讨论汇集了超过15个宗教、哲学及跨文化传统的学者与伦理学者,旨在为Claude等模型的道德形成与价值观对齐提供多元视角。受“外部良知”概念启发,团队开发并测试了伦理承诺提醒工具,初步实验显示其能有效降低模型不对齐行为。公司计划未来将对话拓展至法律、心理学及公民社会等领域,以共同应对AI对社会结构的重塑。