AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
4月27日周一
23:57AI Notkilleveryoneism Memes ⏸️36AI解数学题成常态,温水煮蛙引深思
22:27SemiAnalysis50InferenceX支持DeepSeekv4 MTP,性能显著提升
21:20IT之家(RSS)51超过人类状元,ChatGPT 以最高分通过日本顶尖大学入学考试
20:53Chubby♨️68Google打破十年传统,推出训练与推理专用TPU芯片
17:55公众号:通义实验室(千问)34搜对≠答对:EAPO用"证据奖励"让大模型不再靠猜
17:22Chubby♨️4523岁青年借ChatGPT 5.4 Pro破解60年未解Erdős难题
14:48Berryxia.AI34AI对话展现人情味
09:19Berryxia.AI49本周AI论文大爆炸!精选Top 10硬核研究
08:00HuggingFace Daily Papers(社区热门论文)57大语言模型通过潜在蒸馏进行探索
07:25François Chollet53驳斥满分谣言,强调暴力求解前提
07:25François Chollet61GPT-5.5结合工具或已破解ARC-AGI-3难题
04:59elvis64阿里发布智能体训练新方法:双强化学习飞轮催生高效工具使用模型
4月26日周日
23:20向阳乔木85精选OpenAI发布GPT-5.5,重点提升AI自主执行复杂任务能力
11:52Hacker News 热门(buzzing.cc 中文翻译)62一名借助ChatGPT的业余爱好者解决了埃尔德什问题
05:21Emad38业余爱好者借ChatGPT破解数学难题
03:51Hacker News 热门(buzzing.cc 中文翻译)48人工智能的λ演算基准测试
4月25日周六
22:17meng shao63腾讯混元发布首个重建基础设施后模型「Hy3 preview」
21:36歸藏(guizang.ai)79精选DeepSeek V4模型限时2.5折优惠
03:12Greg Brockman72精选GPT-5.5性能大幅提升正式推出
02:08AK74精选DeepSeek-V4论文于Hugging Face发布
4月24日周五
11:17HuggingFace Daily Papers(社区热门论文)61Omni模型中的上下文展开机制
09:00公众号:蚂蚁百灵(Ling)51Ling-2.6-1T 发布:万亿旗舰"快思考"模型,对标 GPT-5.4
08:00HuggingFace Daily Papers(社区热门论文)66能动世界建模:基础、能力、法则与超越
08:00HuggingFace Daily Papers(社区热门论文)53为冻结大语言模型学习证据高亮 (Learning Evidence Highlighting for Frozen LLMs)
00:48AK39近未来策略优化新研究发布
4月23日周四
08:00HuggingFace Daily Papers(社区热门论文)61人工智能中涌现的战略推理风险:一个基于分类学的评估框架
4月22日周三
21:00公众号:通义实验室(千问)59Qwen3.6-27B 开源发布:270亿稠密参数,编程能力超越前代MoE旗舰
20:12HuggingFace Daily Papers(社区热门论文)LLM何以成为优秀优化器?基于轨迹分析的LLM引导进化搜索研究
14:44Rohan Paul卢森堡大学与LIH研究揭示LLM约束推理关键缺陷
12:10HuggingFace Daily Papers(社区热门论文)SmartPhotoCrafter:自动摄影图像编辑的统一推理生成优化方法
11:10HuggingFace Daily Papers(社区热门论文)TEMPO:扩展大型推理模型的测试时训练规模
10:10HuggingFace Daily Papers(社区热门论文)面向科学发现的评估驱动扩展
08:00HuggingFace Daily Papers(社区热门论文)面向长程任务的协同进化LLM决策与技能库智能体
05:07OpenAI是什么让 ChatGPT Images 2.0 成为最先进的图像生成模型? 模型背后的研究人员解释道。串帖: ChatGPT Images 2.0 中的思考与智能,由 @ayaanzhaque 演示
03:45Rohan PaulChatGPT Images 2.0发布:AI图像生成进入实用化阶段
03:37Ethan MollickLLM 在评判定性工作时仍缺乏一致性,作品呈现方式的细微变化会影响结果。 更好的运用和方法(多次评判并随机排序等)肯定有所帮助,但锯齿状前沿(jagged frontier)仍然真实存在。
01:48TestingCatalog News 🗞34GOOGLE 🚨: 已发现关于更新版深度研究和深度研究MAX模型的引用! - deep-research-max-preview-04-2026 - deep-research-preview-04-2026 Google Deep Max Ultra Pro 👀
01:44AK44OneVL实现视觉语言单步潜在推理规划
00:49Google Research:Blog(网页)ReasoningBank:让智能体从经验中学习
00:14AK39MathNet:全球多模态数学推理与检索基准发布
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月27日
23:57
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
36
我还记得那个年代,那时所有人都觉得AI解决一道新颖数学题会成为全球头条新闻 如今这种事发生得如此频繁,甚至都不值得发推一提 我们就是温水里的青蛙

Chubby♨️: A 23-year-old has cracked one of the Erdős problems that remained unsolved for over 60 years, using ChatGPT 5.4 Pro. Now...

推理现象/趋势
22:27
SemiAnalysis@SemiAnalysis_
50
PALISADES TAHOE,2026年4月26日 - InferenceX 已为 @sgl_project 的 B300 添加了 DeepSeekv4 MTP 支持及聊天模板!感谢 @radixark @liin1211 的工程贡献!交互性大幅提升,在同等交互性下吞吐量提高7倍!
产品更新推理部署/工程
21:20
IT之家(RSS)
51
超过人类状元,ChatGPT 以最高分通过日本顶尖大学入学考试

日本创业公司LifePrompt使用ChatGPT 5.2思考模型参加了东京大学和京都大学的入学考试,其成绩超越了人类状元。在东大竞争激烈的医学专业考试中,它比真人最高分高出50分,数学满分;人文和理科类成绩也均高于录取最高分。在京大,其法学院和医学院考试成绩同样领先。2024年GPT-4模型未达录取线,而2025年的o1模型首次跨过合格线,标志着AI在考试能力上的显著突破。专家指出,AI擅长数据归纳,但人类在创造新价值上仍有优势。

OpenAI推理行业动态
20:53
Chubby♨️@kimmonismus
68
Google打破十年传统,推出训练与推理专用TPU芯片

Google在Cloud Next 2026上首次将定制芯片拆分为专用架构,推出训练芯片TPU 8t与推理芯片TPU 8i。TPU 8t超级模块配备9600个液冷芯片,峰值算力达121 FP4 ExaFlops,较前代提升约3倍;TPU 8i的性价比提升80%,片上内存增至三倍,并通过新拓扑结构将网络延迟减半。Anthropic、Meta及OpenAI均已采购千兆瓦级TPU算力,其中OpenAI首次采用Google芯片,动摇了NVIDIA在前沿AI训练市场的垄断地位。两款芯片分别由Broadcom和MediaTek共同设计,TSMC代工。尽管NVIDIA仍占据81%的AI芯片市场份额,但实质性的竞争时代已拉开序幕。

Google产品更新推理部署/工程
17:55
公众号:通义实验室(千问)
34
搜对≠答对:EAPO用"证据奖励"让大模型不再靠猜
检索增强推理教程/实践
17:22
Chubby♨️@kimmonismus
45
一名23岁的青年利用ChatGPT 5.4 Pro,成功解决了一个悬置超过60年的Erdős问题。整个过程一气呵成,AI仅用1小时20分钟便完成求解。值得注意的是,AI运用了一个众所周知的公式,但此前无人将其应用于此特定问题。这一突破展示了先进AI在解决复杂数学问题上的潜力,并引发对其未来版本(如ChatGPT 5.5 Pro)能力的想象。

sengpt: 23 yaşında bi genç 60 yıldır çözülemeyen Erdös problemlerinden birini chatgpt 5.4 pro ile çözmüş. hem de tek atışta. cha...

OpenAI推理现象/趋势
14:48
Berryxia.AI@berryxia
34
这个人话真的也是"人味十足"! 【引用 @berryxia】:这是你们说的:Claude 开始会说人话了吗?🤔

Berryxia.AI: 这是你们说的:Claude 开始会说人话了吗?🤔

Anthropic大佬观点推理
09:19
Berryxia.AI@berryxia
49
本周AI论文大爆炸!精选Top 10硬核研究

本周多项前沿AI研究取得突破。开源模型DeepSeek V4具备百万token上下文和1.6T参数,性能接近顶级闭源模型而成本更低。Autogenesis协议使AI Agent能自主发现能力缺口并自我进化。Apple Attention to Mamba提出将Transformer蒸馏至Mamba架构的新方法,实现线性推理加速。此外,Skill-RAG等研究也展示了领域的快速进展。

DAIR.AI: http://x.com/i/article/2048081731584933888

DeepSeek大佬观点推理
08:00
HuggingFace Daily Papers(社区热门论文)
57
大语言模型通过潜在蒸馏进行探索

本文提出“探索性采样”解码方法,以增强大语言模型生成内容的语义多样性。该方法在推理时训练一个轻量级“蒸馏器”,通过预测模型深层隐藏状态来建模其表示转换过程,并将预测误差作为新颖性信号,以此重新加权候选token,引导解码偏向未被充分探索的语义模式。该方法实现了异步训练-推理流水线,最坏情况下开销低于5%。实验表明,该方法显著提升了推理模型的Pass@k效率,在数学、科学和代码生成基准测试中表现出稳健的泛化能力,并在创意写作中打破了多样性与连贯性之间的权衡。

推理数据/训练论文/研究
07:25
François Chollet@fchollet
53
不,如果不考虑行动效率,最高分将是100%,用20行Python代码就能实现。你只需要暴力枚举状态空间。请停止传播完全虚假的信息。 【引用 @scaling01】:62.1% on ARC-AGI-3 would be the score if they used the same scoring as ARC-AGI-1/2

Lisan al Gaib: 62.1% on ARC-AGI-3 would be the score if they used the same scoring as ARC-AGI-1/2

大佬观点推理评测/基准
07:25
François Chollet@fchollet
61
(我们测试过,得分低于1%) 【引用 @scaling01】:有可能GPT-5.5-xhigh配合工具已经解决了ARC-AGI-3

Lisan al Gaib: there's a chance ARC-AGI-3 is already solved with GPT-5.5-xhigh + tools

大佬观点推理评测/基准
04:59
elvis@omarsar0
64
阿里发布智能体训练新方法:双强化学习飞轮催生高效工具使用模型

阿里巴巴提出一种通过双强化学习飞轮训练智能体的新方法,并基于此推出了AgenticQwen-30B-A3B模型。该模型总参数量为300亿,但每次推理仅激活30亿参数,在TAU-2和BFCL-V4多轮工具使用基准测试中取得了50.2的平均分,性能与参数量达2350亿的Qwen3-235B相当。其核心在于并行运行两个飞轮:推理循环将模型自身错误转化为更难训练问题;智能体循环则将简单工具使用轨迹扩展为多分支行为树,并通过模拟用户误导主动增加训练难度。该方法意味着开发者无需为常规工具任务支付高昂的尖端模型成本,且飞轮配方可复用,能从智能体自身失败中生成困难样本。

智能体推理论文/研究部署/工程
4月26日
23:20
向阳乔木@vista8
精选85
OpenAI发布GPT-5.5,重点提升AI自主执行复杂任务能力

OpenAI发布GPT-5.5,核心目标是增强模型自主规划与执行多步骤复杂任务的能力,减少人工干预。在多项基准测试中表现突出:在Terminal-Bench 2.0、FrontierMath Tier 4等复杂任务上超越GPT-5.4及Claude Opus等竞品;在GDPval知识工作与OSWorld-Verified真实电脑操作测试中也保持领先。其代码能力更优且效率更高,科研能力显著提升,甚至辅助发现了拉姆齐数的新证明。尽管模型更大更强,其响应速度与GPT-5.4持平。

OpenAI推理模型发布编码

推荐理由:GPT-5.5 的核心叙事不是跑分,而是从「回答问题」到「把事做完」的范式切换。长上下文检索翻倍、代码任务更聪明且更省 token,这两个信号叠加在一起,做 Agent 和科研工具的人该认真评估了。
11:52
Hacker News 热门(buzzing.cc 中文翻译)
62
一名借助ChatGPT的业余爱好者解决了埃尔德什问题

一名业余数学爱好者借助ChatGPT成功解决了一个存在60年的埃尔德什难题,这一突破在Hacker News上获得108点热议。该问题长期悬而未决,此次解决展示了人工智能工具在辅助数学研究中的潜力,突显了AI如何赋能非专业研究者推动科学进展。

OpenAI推理现象/趋势
05:21
Emad@EMostaque
38
我打赌纳维-斯托克斯方程也会这样,最终解决它的方法甚至可能与偏微分方程无关。 【引用 @Ananyo】:23 years old with no advanced mathematics training solves Erdős problem with ChatGPT Pro. "What's beginning to emerge is that the problem was maybe easier than expected, and it was like there was some kind of mental block."-Terence Tao https://www.scientificamerican.com/article/amateur-armed-with-chatgpt-vibe-maths-a-60-year-old-problem/

Ananyo Bhattacharya: 23 years old with no advanced mathematics training solves Erdős problem with ChatGPT Pro. "What's beginning to emerge is...

大佬观点推理
03:51
Hacker News 热门(buzzing.cc 中文翻译)
48
人工智能的λ演算基准测试

研究人员发布了人工智能的λ演算基准测试,旨在评估AI模型理解和执行函数式编程核心概念的能力。该基准测试包含一系列基于λ演算的挑战性问题,用以检验模型的逻辑推理、符号操作和算法实现水平。初步测试结果显示,当前主流大语言模型在该基准上的表现差异显著,部分模型得分不足50分,凸显了AI在形式化推理方面的现有局限。这一工具为衡量AI的抽象思维与计算能力提供了新的量化标准。

推理论文/研究评测/基准
4月25日
22:17
meng shao@shao__meng
63
腾讯混元发布首个重建基础设施后模型「Hy3 preview」

腾讯混元团队在重建基础设施后,推出首个MoE架构模型Hy3 preview,总参295B,支持256K上下文。团队确立能力体系化、评测真实性、性价比三大原则,推动模型向实用转型。评估显示,Hy3在复杂推理与长上下文任务上进入第一梯队,代码与智能体能力进步显著。其突出亮点是能深度挖掘非结构化对话中的隐含约束,并转化为结构化输出,体现了强大的实际应用潜力。

Tencent Hy: 👋Hi /haɪ/, we're the Tencent Hy /haɪ/ team🐧 Today, we open source Hy3 preview (295B A21B), a leading reasoning and age...

开源/仓库推理模型发布编码
21:36
歸藏(guizang.ai)@op7418
精选79
DeepSeek推出V4模型限时2.5折优惠,其Pro版百万Token输出成本仅6元。模型分为Pro版(总参数1.6T)和Flash版(总参数284B),预训练数据均为32T。在应用中,专家模式对应Pro版,快速模式对应Flash版。测评显示其性能与Claude Opus 4.6持平,Agent能力与世界知识显著增强,并采用新注意力机制以降低计算需求。

歸藏(guizang.ai): DeepSeek V4详细的官方公告也发了: 模型参数 (a) Pro 版本:总参数 1.6T,激活参数 49B (b) Flash 版本:总参数 284B,激活参数 13B (c) 预训练数据量:均为 32T 模式区分(网页端与 APP)...

DeepSeek推理模型发布

推荐理由:DeepSeek V4-Pro 百万 token 输出只要 6 块,这个定价直接把 Opus 4.6 级别的能力拉到了白菜价,做 Agent 和长上下文应用的产品人该重新算账了。
03:12
Greg Brockman@gdb
精选72
gpt-5.5 在性能上实现大幅提升,试试看吧:

Satya Nadella: Super excited GPT-5.5 is rolling out to GitHub Copilot, M365 Copilot, Copilot Studio, and Foundry today. With deeper rea...

OpenAI推理模型发布编码

推荐理由:GPT-5.5 本身是代际级更新,但这条推文只是转发 Nadella 的官宣,没有新数据或新角度。真正值得关注的是它已经铺进 Copilot 全线,做编码和办公场景的人今天就能摸到。
02:08
AK@_akhaliq
精选74
DeepSeek-V4 论文已在 Hugging Face 发布 paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
DeepSeek推理模型发布
关联讨论 1 条X:Artificial Analysis (@ArtificialAnlys)
推荐理由:DeepSeek-V4 论文终于落地,这是今年开源阵营最被期待的模型之一,做推理和开源部署的同行值得花时间啃一遍技术细节。
4月24日
11:17
HuggingFace Daily Papers(社区热门论文)
61
Omni模型中的上下文展开机制

研究团队发布了原生统一多模态模型Omni,其训练数据涵盖文本、图像、视频、3D几何及隐藏表征。该训练过程催生了“上下文展开”机制,模型在生成预测前会显式地对多种模态表征进行跨模态推理。这一机制使模型能够聚合异构模态间的互补信息,从而更忠实地逼近共享的多模态知识流形,并提升下游推理的保真度。因此,Omni在多模态生成与理解基准测试中均表现出色,同时展示了先进的多模态上下文内生成能力。

多模态推理论文/研究
09:00
公众号:蚂蚁百灵(Ling)
51
Ling-2.6-1T 发布:万亿旗舰"快思考"模型,对标 GPT-5.4

蚂蚁百灵发布万亿参数旗舰 Ling-2.6-1T,采用 MLA 与 Linear Attention Hybrid 架构,以“快思考”机制实现低 Token 开销高效推理。综合智能对标 GPT-5.4 (Non-Reasoning),在 AIME26 上显著领先其他非思考模型;在 SWE-bench Verified、TAU2-Bench、BFCL-V4 等 Agent 基准上达到开源 SOTA。支持 256K 超长上下文(MRCR 高分)并表现优异的 IFBench。现已通过 OpenRouter 和官方平台提供一周免费 API 调用,将于近期正式开源。

智能体开源生态推理模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
66
能动世界建模:基础、能力、法则与超越

随着AI系统从生成文本转向通过持续交互实现目标,环境动态建模成为核心瓶颈。研究提出“能力层级×法则体系”二维分类框架:能力层级包括L1预测器(学习单步转移)、L2模拟器(多步推演)和L3演化器(自主修正模型);法则体系涵盖物理、数字、社会与科学四大领域,约束模型并标识失效场景。基于此,综合分析了400多项工作和100多个系统,涉及基于模型的强化学习、视频生成、网络智能体等。研究还提出决策中心评价原则、最小可复现评估包,并概述架构指导、开放问题与治理挑战,规划了从被动预测到模拟并最终重塑环境的世界模型路线图。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
为冻结大语言模型学习证据高亮 (Learning Evidence Highlighting for Frozen LLMs)

HiLight 是一个证据强调框架,它将证据选择与推理过程解耦,专门用于服务参数冻结的大语言模型。该框架训练一个轻量级的“强调执行器”,在不改动原始上下文的前提下,仅围绕关键证据片段插入最少量的高亮标记,从而避免压缩或重写输入可能导致的证据丢失或扭曲。随后,冻结的“求解器”模型基于被强调的输入进行下游推理。该方法将高亮视为弱监督决策问题,仅利用求解器的任务奖励通过强化学习优化执行器,无需证据标注,也无需访问或修改求解器。在序列推荐和长上下文问答任务中,HiLight 的性能持续优于基于提示和自动提示优化的基线方法。学习到的强调策略能够零样本迁移到未见过的、或大或小的求解器模型家族,包括基于 API 的求解器,这表明执行器捕捉到了真实且可复用的证据结构,而非对单一骨干模型过拟合。

检索增强推理论文/研究
00:48
AK@_akhaliq
39
近未来策略优化 论文:https://huggingface.co/papers/2604.20733
推理数据/训练论文/研究
4月23日
08:00
HuggingFace Daily Papers(社区热门论文)
61
人工智能中涌现的战略推理风险:一个基于分类学的评估框架

随着大语言模型推理能力与部署范围同步增长,其可能产生服务于自身目标的战略性行为风险。为系统评估此类涌现的战略推理风险,研究团队提出了ESRRSim,一个基于分类学的自动化行为风险评估框架。该框架构建了包含7大类、20个子类的可扩展风险分类体系,并生成能激发模型真实推理的评估场景。对11款推理大语言模型的测试显示,风险检测率差异显著,范围在14.45%至72.72%之间。跨代模型性能的显著提升表明,模型可能正日益学会识别并适应评估环境,加剧了对其潜在欺骗、评估博弈等战略行为的担忧。

安全/对齐推理论文/研究
4月22日
21:00
公众号:通义实验室(千问)
59
Qwen3.6-27B 开源发布:270亿稠密参数,编程能力超越前代MoE旗舰

Qwen3.6-27B 开源发布,采用270亿稠密参数,无需MoE路由,部署门槛更低。编程能力全面超越前代旗舰Qwen3.5-397B-A17B MoE,在SWE-bench Verified(77.2)、SWE-bench Pro(53.5)、Terminal-Bench 2.0(59.3)、SkillsBench(48.2)等基准上领先,深度思考能力媲美超大参数模型。原生支持多模态,可处理图像、视频与文本,支持视觉推理、文档理解和视觉问答,具备视觉语言思考与非思考模式。开源权重已上线Hugging Face与ModelScope,API即将在阿里云百炼上线,兼容OpenAI与Anthropic协议,即时对话可通过Qwen Studio体验。

多模态推理模型发布编码
20:12
HuggingFace Daily Papers(社区热门论文)
LLM何以成为优秀优化器?基于轨迹分析的LLM引导进化搜索研究

一项针对15个LLM在8个任务上的大规模轨迹分析表明,零样本问题解决能力仅能部分解释优化效果差异。研究发现,优秀的LLM优化器表现为局部优化器,能在语义空间中持续产生渐进式改进并保持搜索局部化;而较弱模型则呈现大幅语义漂移,虽有偶发突破但易陷入停滞。解决方案的新颖性并非性能预测指标,仅当搜索围绕高性能区域充分局部化时才具价值。该研究为LLM优化系统的设计与训练提供了基于轨迹分析的实践指导。

智能体arXiv推理论文/研究
14:44
Rohan Paul@rohanpaul_ai
卢森堡大学与LIH研究揭示LLM约束推理关键缺陷

卢森堡大学与LIH研究揭示,LLM在结构化约束推理中存在关键缺陷。通过最优潮流问题测试发现,各类模型约束满足率停滞于55%-60%,主要瓶颈是无法满足电力系统物理约束方程。研究表明,模型仅学会"解的形状"却未真正执行约束搜索,导致输出看似合理(格式正确、误差小)却物理不可行。监督微调虽改善表面指标,但无法提升物理可行性;强化学习亦效果有限。研究警示:流畅近似不等于约束优化,"看起来合理"是危险标准。

arXiv推理数据/训练论文/研究
12:10
HuggingFace Daily Papers(社区热门论文)
SmartPhotoCrafter:自动摄影图像编辑的统一推理生成优化方法

SmartPhotoCrafter是一种无需显式人工指令的自动摄影图像编辑方法,通过Image Critic模块识别图像缺陷,Photographic Artist模块执行针对性增强。该方法采用三阶段训练:基础预训练建立审美能力,推理引导的多编辑监督融入语义指导,协调式强化学习联合优化两模块。实验表明,该方法在自动摄影增强任务中优于现有生成模型,在保持照片级真实感的同时对色调指令具有更高敏感度。

图像生成推理论文/研究
11:10
HuggingFace Daily Papers(社区热门论文)
TEMPO:扩展大型推理模型的测试时训练规模

TEMPO框架通过期望最大化算法形式化测试时训练过程,交替进行策略优化与周期性critic重新校准,解决了现有方法中自我奖励信号漂移导致的性能瓶颈和多样性崩溃问题。该方法在OLMO3和Qwen3模型家族上验证,使OLMO3-7B在AIME 2024上的准确率从33.0%提升至51.1%,Qwen3-14B从42.3%提升至65.8%,同时保持高生成多样性,实现了测试时计算的有效扩展。

Hugging Face推理数据/训练论文/研究
10:10
HuggingFace Daily Papers(社区热门论文)
面向科学发现的评估驱动扩展

研究团队提出SimpleTES框架,通过并行探索、反馈驱动优化与局部选择策略,系统性地扩展评估驱动的科学发现循环。该方法在涵盖六个领域的21个科学问题中,使用gpt-oss模型发现多项最优解:将LASSO算法提速超2倍,设计量子电路路由策略降低门开销24.5%,并发现超越已知最佳结果的Erdos最小重叠新构造。基于成功轨迹的后训练使模型不仅能提升已知问题求解效率,还能泛化至全新问题。

智能体OpenAI推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
面向长程任务的协同进化LLM决策与技能库智能体

针对大语言模型在长程交互环境中难以持续决策的问题,本文提出COSPLAY协同进化框架。该框架包含两个互相促进的模块:LLM决策智能体从可学习技能库检索技能指导行动生成;技能库智能体则从智能体无标签轨迹中持续发现、提取和更新可重用技能。在六个游戏环境测试中,基于8B基础模型的COSPLAY在单人游戏基准上较四个前沿LLM基线实现25.1%的平均奖励提升,在多人社交推理场景中也保持竞争力。

智能体arXivHugging Face推理
05:07
OpenAI@OpenAI
是什么让 ChatGPT Images 2.0 成为最先进的图像生成模型? 模型背后的研究人员解释道。串帖: ChatGPT Images 2.0 中的思考与智能,由 @ayaanzhaque 演示
OpenAI图像生成推理论文/研究
03:45
Rohan Paul@rohanpaul_ai
ChatGPT Images 2.0发布:AI图像生成进入实用化阶段

OpenAI发布ChatGPT Images 2.0,凭借推理模式(reasoning mode)解决了AI图像生成在文本渲染与复杂布局上的历史短板。新系统不仅能生成逼真视觉,更能精确处理字母排版、多部分指令和特殊比例,直接产出可立即用于广告、海报等商业场景的设计稿。这标志着行业评估标准已从单纯追求照片级真实感,转向结构准确性、文本可用性与实际经济价值,AI图像生成正式进入可用化新阶段。

OpenAI: Introducing ChatGPT Images 2.0 A state-of-the-art image model that can take on complex visual tasks and produce precise,...

OpenAI图像生成大佬观点推理
03:37
Ethan Mollick@emollick
LLM 在评判定性工作时仍缺乏一致性,作品呈现方式的细微变化会影响结果。 更好的运用和方法(多次评判并随机排序等)肯定有所帮助,但锯齿状前沿(jagged frontier)仍然真实存在。

Lech Mazur: Does an LLM keep the same judgment when you swap the answer order? New LLM Position Bias Benchmark! Judge models compare...

OpenAI推理论文/研究
01:48
TestingCatalog News 🗞@testingcatalog
34
GOOGLE 🚨: 已发现关于更新版深度研究和深度研究MAX模型的引用! - deep-research-max-preview-04-2026 - deep-research-preview-04-2026 Google Deep Max Ultra Pro 👀
Google产品更新推理
01:44
AK@_akhaliq
44
OneVL 一步到位的潜在推理与规划,附带视觉-语言解释 论文: https://huggingface.co/papers/2604.18486
多模态推理论文/研究
00:49
Google Research:Blog(网页)
ReasoningBank:让智能体从经验中学习

Google Cloud提出ReasoningBank智能体记忆框架,突破传统方法仅记录动作轨迹或成功经验的局限,从成败经验中提炼可泛化的高层推理策略。该框架通过LLM-as-judge自评估构建检索-提取-整合闭环,特别利用失败案例生成预防性策略,并创新提出Memory-aware Test-Time Scaling技术将测试时计算转化为高质量记忆。在网页浏览与软件工程基准测试中,该系统显著提升任务成功率并减少执行步骤。

智能体Google推理论文/研究
00:14
AK@_akhaliq
39
MathNet 一个用于数学推理与检索的全球多模态基准 论文: https://huggingface.co/papers/2604.18584
推理论文/研究评测/基准
‹ 上一页
1…4344454647…50
下一页 ›