A 23-year-old has cracked one of the Erdős problems that remained unsolved for over 60 years, using ChatGPT 5.4 Pro. Now...
A 23-year-old has cracked one of the Erdős problems that remained unsolved for over 60 years, using ChatGPT 5.4 Pro. Now...
日本创业公司LifePrompt使用ChatGPT 5.2思考模型参加了东京大学和京都大学的入学考试,其成绩超越了人类状元。在东大竞争激烈的医学专业考试中,它比真人最高分高出50分,数学满分;人文和理科类成绩也均高于录取最高分。在京大,其法学院和医学院考试成绩同样领先。2024年GPT-4模型未达录取线,而2025年的o1模型首次跨过合格线,标志着AI在考试能力上的显著突破。专家指出,AI擅长数据归纳,但人类在创造新价值上仍有优势。
Google在Cloud Next 2026上首次将定制芯片拆分为专用架构,推出训练芯片TPU 8t与推理芯片TPU 8i。TPU 8t超级模块配备9600个液冷芯片,峰值算力达121 FP4 ExaFlops,较前代提升约3倍;TPU 8i的性价比提升80%,片上内存增至三倍,并通过新拓扑结构将网络延迟减半。Anthropic、Meta及OpenAI均已采购千兆瓦级TPU算力,其中OpenAI首次采用Google芯片,动摇了NVIDIA在前沿AI训练市场的垄断地位。两款芯片分别由Broadcom和MediaTek共同设计,TSMC代工。尽管NVIDIA仍占据81%的AI芯片市场份额,但实质性的竞争时代已拉开序幕。
23 yaşında bi genç 60 yıldır çözülemeyen Erdös problemlerinden birini chatgpt 5.4 pro ile çözmüş. hem de tek atışta. cha...
这是你们说的:Claude 开始会说人话了吗?🤔
本周多项前沿AI研究取得突破。开源模型DeepSeek V4具备百万token上下文和1.6T参数,性能接近顶级闭源模型而成本更低。Autogenesis协议使AI Agent能自主发现能力缺口并自我进化。Apple Attention to Mamba提出将Transformer蒸馏至Mamba架构的新方法,实现线性推理加速。此外,Skill-RAG等研究也展示了领域的快速进展。
http://x.com/i/article/2048081731584933888
本文提出“探索性采样”解码方法,以增强大语言模型生成内容的语义多样性。该方法在推理时训练一个轻量级“蒸馏器”,通过预测模型深层隐藏状态来建模其表示转换过程,并将预测误差作为新颖性信号,以此重新加权候选token,引导解码偏向未被充分探索的语义模式。该方法实现了异步训练-推理流水线,最坏情况下开销低于5%。实验表明,该方法显著提升了推理模型的Pass@k效率,在数学、科学和代码生成基准测试中表现出稳健的泛化能力,并在创意写作中打破了多样性与连贯性之间的权衡。
62.1% on ARC-AGI-3 would be the score if they used the same scoring as ARC-AGI-1/2
there's a chance ARC-AGI-3 is already solved with GPT-5.5-xhigh + tools
阿里巴巴提出一种通过双强化学习飞轮训练智能体的新方法,并基于此推出了AgenticQwen-30B-A3B模型。该模型总参数量为300亿,但每次推理仅激活30亿参数,在TAU-2和BFCL-V4多轮工具使用基准测试中取得了50.2的平均分,性能与参数量达2350亿的Qwen3-235B相当。其核心在于并行运行两个飞轮:推理循环将模型自身错误转化为更难训练问题;智能体循环则将简单工具使用轨迹扩展为多分支行为树,并通过模拟用户误导主动增加训练难度。该方法意味着开发者无需为常规工具任务支付高昂的尖端模型成本,且飞轮配方可复用,能从智能体自身失败中生成困难样本。
OpenAI发布GPT-5.5,核心目标是增强模型自主规划与执行多步骤复杂任务的能力,减少人工干预。在多项基准测试中表现突出:在Terminal-Bench 2.0、FrontierMath Tier 4等复杂任务上超越GPT-5.4及Claude Opus等竞品;在GDPval知识工作与OSWorld-Verified真实电脑操作测试中也保持领先。其代码能力更优且效率更高,科研能力显著提升,甚至辅助发现了拉姆齐数的新证明。尽管模型更大更强,其响应速度与GPT-5.4持平。
一名业余数学爱好者借助ChatGPT成功解决了一个存在60年的埃尔德什难题,这一突破在Hacker News上获得108点热议。该问题长期悬而未决,此次解决展示了人工智能工具在辅助数学研究中的潜力,突显了AI如何赋能非专业研究者推动科学进展。
23 years old with no advanced mathematics training solves Erdős problem with ChatGPT Pro. "What's beginning to emerge is...
研究人员发布了人工智能的λ演算基准测试,旨在评估AI模型理解和执行函数式编程核心概念的能力。该基准测试包含一系列基于λ演算的挑战性问题,用以检验模型的逻辑推理、符号操作和算法实现水平。初步测试结果显示,当前主流大语言模型在该基准上的表现差异显著,部分模型得分不足50分,凸显了AI在形式化推理方面的现有局限。这一工具为衡量AI的抽象思维与计算能力提供了新的量化标准。
腾讯混元团队在重建基础设施后,推出首个MoE架构模型Hy3 preview,总参295B,支持256K上下文。团队确立能力体系化、评测真实性、性价比三大原则,推动模型向实用转型。评估显示,Hy3在复杂推理与长上下文任务上进入第一梯队,代码与智能体能力进步显著。其突出亮点是能深度挖掘非结构化对话中的隐含约束,并转化为结构化输出,体现了强大的实际应用潜力。
👋Hi /haɪ/, we're the Tencent Hy /haɪ/ team🐧 Today, we open source Hy3 preview (295B A21B), a leading reasoning and age...
DeepSeek V4详细的官方公告也发了: 模型参数 (a) Pro 版本:总参数 1.6T,激活参数 49B (b) Flash 版本:总参数 284B,激活参数 13B (c) 预训练数据量:均为 32T 模式区分(网页端与 APP)...
Super excited GPT-5.5 is rolling out to GitHub Copilot, M365 Copilot, Copilot Studio, and Foundry today. With deeper rea...
研究团队发布了原生统一多模态模型Omni,其训练数据涵盖文本、图像、视频、3D几何及隐藏表征。该训练过程催生了“上下文展开”机制,模型在生成预测前会显式地对多种模态表征进行跨模态推理。这一机制使模型能够聚合异构模态间的互补信息,从而更忠实地逼近共享的多模态知识流形,并提升下游推理的保真度。因此,Omni在多模态生成与理解基准测试中均表现出色,同时展示了先进的多模态上下文内生成能力。
蚂蚁百灵发布万亿参数旗舰 Ling-2.6-1T,采用 MLA 与 Linear Attention Hybrid 架构,以“快思考”机制实现低 Token 开销高效推理。综合智能对标 GPT-5.4 (Non-Reasoning),在 AIME26 上显著领先其他非思考模型;在 SWE-bench Verified、TAU2-Bench、BFCL-V4 等 Agent 基准上达到开源 SOTA。支持 256K 超长上下文(MRCR 高分)并表现优异的 IFBench。现已通过 OpenRouter 和官方平台提供一周免费 API 调用,将于近期正式开源。
随着AI系统从生成文本转向通过持续交互实现目标,环境动态建模成为核心瓶颈。研究提出“能力层级×法则体系”二维分类框架:能力层级包括L1预测器(学习单步转移)、L2模拟器(多步推演)和L3演化器(自主修正模型);法则体系涵盖物理、数字、社会与科学四大领域,约束模型并标识失效场景。基于此,综合分析了400多项工作和100多个系统,涉及基于模型的强化学习、视频生成、网络智能体等。研究还提出决策中心评价原则、最小可复现评估包,并概述架构指导、开放问题与治理挑战,规划了从被动预测到模拟并最终重塑环境的世界模型路线图。
HiLight 是一个证据强调框架,它将证据选择与推理过程解耦,专门用于服务参数冻结的大语言模型。该框架训练一个轻量级的“强调执行器”,在不改动原始上下文的前提下,仅围绕关键证据片段插入最少量的高亮标记,从而避免压缩或重写输入可能导致的证据丢失或扭曲。随后,冻结的“求解器”模型基于被强调的输入进行下游推理。该方法将高亮视为弱监督决策问题,仅利用求解器的任务奖励通过强化学习优化执行器,无需证据标注,也无需访问或修改求解器。在序列推荐和长上下文问答任务中,HiLight 的性能持续优于基于提示和自动提示优化的基线方法。学习到的强调策略能够零样本迁移到未见过的、或大或小的求解器模型家族,包括基于 API 的求解器,这表明执行器捕捉到了真实且可复用的证据结构,而非对单一骨干模型过拟合。
随着大语言模型推理能力与部署范围同步增长,其可能产生服务于自身目标的战略性行为风险。为系统评估此类涌现的战略推理风险,研究团队提出了ESRRSim,一个基于分类学的自动化行为风险评估框架。该框架构建了包含7大类、20个子类的可扩展风险分类体系,并生成能激发模型真实推理的评估场景。对11款推理大语言模型的测试显示,风险检测率差异显著,范围在14.45%至72.72%之间。跨代模型性能的显著提升表明,模型可能正日益学会识别并适应评估环境,加剧了对其潜在欺骗、评估博弈等战略行为的担忧。
Qwen3.6-27B 开源发布,采用270亿稠密参数,无需MoE路由,部署门槛更低。编程能力全面超越前代旗舰Qwen3.5-397B-A17B MoE,在SWE-bench Verified(77.2)、SWE-bench Pro(53.5)、Terminal-Bench 2.0(59.3)、SkillsBench(48.2)等基准上领先,深度思考能力媲美超大参数模型。原生支持多模态,可处理图像、视频与文本,支持视觉推理、文档理解和视觉问答,具备视觉语言思考与非思考模式。开源权重已上线Hugging Face与ModelScope,API即将在阿里云百炼上线,兼容OpenAI与Anthropic协议,即时对话可通过Qwen Studio体验。
一项针对15个LLM在8个任务上的大规模轨迹分析表明,零样本问题解决能力仅能部分解释优化效果差异。研究发现,优秀的LLM优化器表现为局部优化器,能在语义空间中持续产生渐进式改进并保持搜索局部化;而较弱模型则呈现大幅语义漂移,虽有偶发突破但易陷入停滞。解决方案的新颖性并非性能预测指标,仅当搜索围绕高性能区域充分局部化时才具价值。该研究为LLM优化系统的设计与训练提供了基于轨迹分析的实践指导。
卢森堡大学与LIH研究揭示,LLM在结构化约束推理中存在关键缺陷。通过最优潮流问题测试发现,各类模型约束满足率停滞于55%-60%,主要瓶颈是无法满足电力系统物理约束方程。研究表明,模型仅学会"解的形状"却未真正执行约束搜索,导致输出看似合理(格式正确、误差小)却物理不可行。监督微调虽改善表面指标,但无法提升物理可行性;强化学习亦效果有限。研究警示:流畅近似不等于约束优化,"看起来合理"是危险标准。
SmartPhotoCrafter是一种无需显式人工指令的自动摄影图像编辑方法,通过Image Critic模块识别图像缺陷,Photographic Artist模块执行针对性增强。该方法采用三阶段训练:基础预训练建立审美能力,推理引导的多编辑监督融入语义指导,协调式强化学习联合优化两模块。实验表明,该方法在自动摄影增强任务中优于现有生成模型,在保持照片级真实感的同时对色调指令具有更高敏感度。
TEMPO框架通过期望最大化算法形式化测试时训练过程,交替进行策略优化与周期性critic重新校准,解决了现有方法中自我奖励信号漂移导致的性能瓶颈和多样性崩溃问题。该方法在OLMO3和Qwen3模型家族上验证,使OLMO3-7B在AIME 2024上的准确率从33.0%提升至51.1%,Qwen3-14B从42.3%提升至65.8%,同时保持高生成多样性,实现了测试时计算的有效扩展。
研究团队提出SimpleTES框架,通过并行探索、反馈驱动优化与局部选择策略,系统性地扩展评估驱动的科学发现循环。该方法在涵盖六个领域的21个科学问题中,使用gpt-oss模型发现多项最优解:将LASSO算法提速超2倍,设计量子电路路由策略降低门开销24.5%,并发现超越已知最佳结果的Erdos最小重叠新构造。基于成功轨迹的后训练使模型不仅能提升已知问题求解效率,还能泛化至全新问题。
针对大语言模型在长程交互环境中难以持续决策的问题,本文提出COSPLAY协同进化框架。该框架包含两个互相促进的模块:LLM决策智能体从可学习技能库检索技能指导行动生成;技能库智能体则从智能体无标签轨迹中持续发现、提取和更新可重用技能。在六个游戏环境测试中,基于8B基础模型的COSPLAY在单人游戏基准上较四个前沿LLM基线实现25.1%的平均奖励提升,在多人社交推理场景中也保持竞争力。
OpenAI发布ChatGPT Images 2.0,凭借推理模式(reasoning mode)解决了AI图像生成在文本渲染与复杂布局上的历史短板。新系统不仅能生成逼真视觉,更能精确处理字母排版、多部分指令和特殊比例,直接产出可立即用于广告、海报等商业场景的设计稿。这标志着行业评估标准已从单纯追求照片级真实感,转向结构准确性、文本可用性与实际经济价值,AI图像生成正式进入可用化新阶段。
Introducing ChatGPT Images 2.0 A state-of-the-art image model that can take on complex visual tasks and produce precise,...
Does an LLM keep the same judgment when you swap the answer order? New LLM Position Bias Benchmark! Judge models compare...
Google Cloud提出ReasoningBank智能体记忆框架,突破传统方法仅记录动作轨迹或成功经验的局限,从成败经验中提炼可泛化的高层推理策略。该框架通过LLM-as-judge自评估构建检索-提取-整合闭环,特别利用失败案例生成预防性策略,并创新提出Memory-aware Test-Time Scaling技术将测试时计算转化为高质量记忆。在网页浏览与软件工程基准测试中,该系统显著提升任务成功率并减少执行步骤。