AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
5月21日周四
04:28TechCrunch:AI(RSS)79同事件精选OpenAI 声称其解决了一道存在了80年的数学问题--这次来真的同一事件,精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》
04:03Hacker News 热门(buzzing.cc 中文翻译)93同事件精选OpenAI的一个模型推翻了离散几何学中的一项核心猜想同一事件,精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》
04:01Emad91AI首破数学80年悬疑,人类解题时代或将终结
03:48Noam Brown67数学家评OpenAI模型攻克Erdos单位距离问题
03:36Greg Brockman92AI突破数学难题,推翻80年猜想
03:36AI Notkilleveryoneism Memes ⏸️87AI首次自主解决重大数学开放问题
03:17Noam Brown86OpenAI模型自主解决80年数学猜想
03:17Noam Brown83OpenAI模型首次自主攻克数学开放难题
03:17OpenAI81AI首次自主解决数学领域著名开放问题
03:07OpenAI:官网动态(RSS · 排除企业/客户案例)88精选OpenAI模型证伪了离散几何中的一个核心猜想
02:15Simon Willison 博客52每秒10个token到底有多快?
00:44Google Gemini74同事件精选Gemini 3.5 Flash快速整理混乱输入同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
00:05AK67基于点互信息的推理强化学习反自蒸馏方法
5月20日周三
22:08Berryxia.AI72性能飞跃但成本激增,Gemini 3.5 Flash重新定义"轻量"?
22:08HuggingFace Daily Papers(社区热门论文)65用于高效全能模态大语言模型的阶段自适应Token选择
22:02Hacker News 热门(buzzing.cc 中文翻译)81同事件精选Qwen3.7-Max:智能代理的前沿同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
20:00OpenRouter:Announcements(RSS)50一个机器人正朝你奔来:你希望它运行在Claude还是Grok上?
19:45swyx🛬 SFO47深度研究已死,交互式学习才是未来
18:41MarkTechPost(RSS)63英伟达AI发布Nemotron-Labs-Diffusion:单次前向传播生成Token数较Qwen3-8B提升6倍的三模式语言模型
18:33Alibaba Cloud60Qwen 2026大会:AI原生云架构蓝图发布
15:12MarkTechPost(RSS)68Google发布Gemini 3.5 Flash:在2026年I/O大会上推出一款更快速、更经济的AI智能体与编码模型
15:07HuggingFace Daily Papers(社区热门论文)72精选CopT:基于连续空间对比验证的在策略推理
13:05HuggingFace Daily Papers(社区热门论文)69PEEK:面向长上下文LLM智能体的上下文映射缓存
12:05HuggingFace Daily Papers(社区热门论文)72精选GoLongRL:面向能力的长期上下文强化学习与多任务对齐
11:55IT之家(RSS)76阿里千问最强智能体模型 Qwen3.7-Max 发布
11:55IT之家(RSS)56国外红绿灯也能预测:高德红绿灯倒计时宣布出海,将逐步覆盖全球
11:05HuggingFace Daily Papers(社区热门论文)55精简草稿,多做检索:投机解码的混合树构造
11:05HuggingFace Daily Papers(社区热门论文)65CogOmniControl:基于创意意图认知的推理驱动可控视频生成
10:55IT之家(RSS)64阿里云发布"真武 M890"AI 芯片及 128 卡超节点服务器,可支持海量 Agent 并发推理
10:49Qwen:Blog Retrieval(API)79精选Qwen3.7-Max:面向智能体时代的最新专有模型
10:05HuggingFace Daily Papers(社区热门论文)65CEPO:基于对比证据的策略优化方法
10:04Rohan Paul74谷歌发布Gemini 3.5 Flash:速度更快、性价比更高的代理模型
08:55IT之家(RSS)50英特尔数据中心 AI 推理 GPU "Crescent Island" PCB 曝光
08:44meng shao56Cerebras实现Kimi K2.6超高速推理
08:10Simon Willison 博客58llm-gemini 0.32a0发布
08:00HuggingFace Daily Papers(社区热门论文)42基于大语言模型函数调用的反思式提示词微调
08:00HuggingFace Daily Papers(社区热门论文)53RankJudge:一个用于多轮对话中大语言模型评判者的合成基准测试生成器
08:00HuggingFace Daily Papers(社区热门论文)54Equilibrium Reasoners:学习吸引子实现可扩展推理
08:00HuggingFace Daily Papers(社区热门论文)64DelTA:基于可验证奖励强化学习的判别性Token信用分配
07:33Anthropic:Newsroom(网页)65精选拓宽关于前沿AI的对话
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月21日
04:28
TechCrunch:AI(RSS)
同事件精选79
OpenAI 声称其解决了一道存在了80年的数学问题--这次来真的

OpenAI 宣布其推理模型成功证伪了一道自1946年起悬而未决的几何猜想。与以往不同,此次声称获得了此前曾指出OpenAI相关声明存在错误的数学家们的认可与支持,这为其结论的可靠性提供了关键背书。

OpenAI推理论文/研究
同一事件,精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》
推荐理由:从上次的虚报到这次拿出数学家背书,OpenAI 真的让 AI 自主推翻了一个 80 年猜想,这不仅是数学突破,更证明推理模型能处理超长链条的复杂问题。
04:03
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选93
OpenAI的一个模型推翻了离散几何学中的一项核心猜想

OpenAI宣布其开发的人工智能模型成功证伪了离散几何学领域的一个核心猜想。该模型通过自动化推理与证明过程,推翻了这一长期存在的数学假设,标志着AI在抽象数学研究与定理证明方面取得了实质性突破。这项成果不仅展示了大型语言模型在科学发现中的潜力,也为利用AI解决复杂科学问题提供了新的范例。

OpenAI推理论文/研究
同一事件,精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》
推荐理由:一个通用推理模型自主攻破了 80 年未解的厄尔多斯单位距离猜想,证明被顶级数学家背书。这不再是辅助证明,而是独立的数学发现,对 AI 推理能力的证明比任何基准都直接。
04:01
Emad@EMostaque
91
OpenAI模型首次自主解决了Paul Erdős于1946年提出的平面单位距离问题,这一突破推翻了数学界近80年来的主流猜想。AI不仅给出了更优的解法,更发现了一族全新的构造方式。这一事件被视为AI能力的里程碑,暗示着在解决科学开放性问题上,AI正开始以新颖方式持续突破,可能标志着人类主导此类问题求解的"最终阶段"的到来。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究
关联讨论 8 条The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)X:Sam Altman (@sama)
03:48
Noam Brown@polynoamial
67
数学家Tim Gowers关于@OpenAI模型在Erdos单位距离问题上取得突破的重要长文! 【引用 @wtgowers】:如果你是数学家,那么在继续阅读之前,你可能需要确保自己是坐着的。

Timothy Gowers @wtgowers: If you are a mathematician, then you may want to make sure you are sitting down before reading further.

OpenAI大佬观点推理
03:36
Greg Brockman@gdb
92
OpenAI的模型在离散几何领域取得重大突破,自主解决了由数学家Paul Erdős于1946年首次提出的平面单位距离猜想。该突破是AI首次独立解决一个学科的核心著名开放问题。此前近80年间,数学家普遍认为该问题的最优解大致呈现为方形网格结构,而OpenAI模型发现了全新的、性能更优的构造方式,颠覆了这一长期信念。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究
关联讨论 8 条The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)X:Sam Altman (@sama)
03:36
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
87
OpenAI模型自主攻克了数学领域一个长达近80年的著名开放问题--平面单位距离问题。该问题由Paul Erdős于1946年提出,传统观点认为最优解结构近似于方格网格。OpenAI模型的突破性发现不仅推翻了这一长期假设,还构造出性能更优的全新解法,标志着人工智能首次在数学核心领域独立解决重大未解难题。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究
关联讨论 8 条The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)X:Sam Altman (@sama)
03:17
Noam Brown@polynoamial
86
OpenAI的通用AI模型在组合几何领域取得突破,首次自主解决了平面单位距离问题。该问题由数学家Paul Erdős于1946年提出,近80年来学界普遍认为最优解类似方格结构,但AI模型推翻了这一假设,发现了一族全新的更优构造方法。这一突破标志着AI在数学领域首次独立解决一个核心开放问题,显示出AI在基础科学发现中的快速进展能力。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究
关联讨论 8 条The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)X:Sam Altman (@sama)
03:17
Noam Brown@polynoamial
83
OpenAI宣布其一个内部通用模型在组合几何领域取得突破,自主解决了平面单位距离问题。这一问题由数学家Paul Erdős于1946年提出,近80年来学界普遍认为最优解应近似于方形网格结构。新模型推翻了这一长期信念,发现了一族全新的、更优的构造方案。此事件标志着人工智能首次独立解决数学领域的核心开放问题,展示了AI在科学发现方面快速且持续的进展能力。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究
关联讨论 8 条The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)X:Sam Altman (@sama)
03:17
OpenAI@OpenAI
81
今天,我们分享一个关于平面单位距离问题的突破,这是一个由保罗·埃尔德什在1946年首次提出的著名开放问题。 近80年来,数学家们一直认为最佳可能的解决方案大致类似于方形网格。 现在,一个OpenAI模型推翻了这一信念,发现了一个全新的、性能更优的构造家族。 这标志着AI首次自主解决了一个数学领域的核心著名开放问题。
OpenAI推理论文/研究
关联讨论 8 条The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)X:Sam Altman (@sama)
03:07
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选88
OpenAI模型证伪了离散几何中的一个核心猜想

OpenAI开发的人工智能模型成功解决了数学界悬而未决逾80年的“单元距离问题”,并由此推翻了离散几何领域的一个核心猜想。这一突破被视作人工智能驱动数学研究的里程碑事件,标志着AI在基础科学理论探索中取得了实质性进展。该模型通过创新算法处理复杂的几何问题,展示了机器在自动化发现与验证数学猜想方面的巨大潜力。

OpenAI推理论文/研究
关联讨论 8 条The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)X:Sam Altman (@sama)
推荐理由:数学界等了80年的猜想被AI自己证伪了,而且用的是代数数论这种“跨界”手法,这个里程碑说明AI的创造性推理已经进入前沿研究。虽然实战还用不上,但作为能力信号,值得每个关心AI前沿的人看。
02:15
Simon Willison 博客
52
每秒10个token到底有多快?

开发者Mike Veerman创建了一个名为tokenspeed的HTML应用程序,可模拟从每秒5个到800个token的LLM文本输出速度。用户能够直观感知模型广告中常见速度指标(如30 tokens/秒)的实际生成效果。该工具源代码公开,信息来源于Hacker News,适用于需要理解生成式AI响应速度的开发者与普通用户。

开源/仓库推理
00:44
Google Gemini@GeminiApp
同事件精选74
Gemini 3.5 Flash能快速提供整理好的结果,无论输入多么混乱。 看看Gemini如何将与客户的聊天和文本,转化为您小企业可用的文档。
Google推理模型发布
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Gemini 3.5 Flash 的核心不是刷榜,而是解决现实中‘信息像一堆垃圾’的问题,这种从杂乱输入直接生成文档的能力,对小企业和自由职业者比 SOTA 更有用。
00:05
AK@_akhaliq
67
基于点互信息的推理强化学习反自蒸馏方法
arXiv推理数据/训练论文/研究
5月20日
22:08
Berryxia.AI@berryxia
72
性能飞跃但成本激增,Gemini 3.5 Flash重新定义"轻量"?

Google发布的Gemini 3.5 Flash在性能上实现飞跃,智能指数达55分,超越Grok 4.3等竞品,幻觉率大幅下降,输出速度超280 tokens/s。然而,其运行成本是前代的5.5倍,定价显著提高,引发对“Flash”是否仍代表“便宜”的讨论。该模型已在ZenMux平台开放免费体验,实际测试显示效果惊艳,在多项Agent和多模态榜单中表现顶尖,标志着顶级智能与极致速度的新结合。

Berryxia.AI: 兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...

Google多模态推理评测/基准
22:08
HuggingFace Daily Papers(社区热门论文)
65
用于高效全能模态大语言模型的阶段自适应Token选择

全能模态大语言模型在处理交织的视频与音频token时,固定比例的剪枝方法无法适应跨模态重要性随网络深度的动态变化。为此,本文提出无需训练的阶段自适应token选择方法SEATS。该方法在模型输入前通过注意力加权进行去冗余,在模型内部逐层动态分配模态保留配额,并在跨模态融合完成后移除所有剩余非文本token。实验在Qwen2.5-Omni和Qwen3-Omni模型上验证,仅保留10%的视觉和音频token,即可实现9.3倍FLOPs削减与4.8倍预填充加速,同时保持96.3%的原始性能。

arXivHugging Face多模态推理
22:02
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选81
Qwen3.7-Max:智能代理的前沿

智能代理领域迎来新突破,Qwen3.7-Max于2026年5月20日发布,标志着前沿技术的演进。该模型聚焦智能代理创新,具体细节可通过qwen.ai博客获取。发布消息在Hacker News上获得128个关注点,显示技术社区的广泛兴趣。尽管未披露详细性能指标,但Qwen3.7-Max的推出暗示了在自主代理架构或任务处理能力上的提升,推动AI向更高效、智能的方向发展。

智能体推理模型发布编码
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
推荐理由:Qwen3.7-Max 在多个 agent 基准上达到甚至超越 Opus 4.6 水平,长程自主优化 35 小时跑出 10 倍速度提升,证明 agent 长跑能力不是概念,做自动化工具的值得跟进。
20:00
OpenRouter:Announcements(RSS)
50
一个机器人正朝你奔来:你希望它运行在Claude还是Grok上?

一场涵盖11个大语言模型的30轮大逃杀式评测,花费482美元推理成本,得出了一个应改变读者阅读模型基准方式的关键发现。

推理评测/基准
19:45
swyx🛬 SFO@swyx
47
IMO深度研究自o3以来已近乎停滞,而交互性对于主动学习和激发意图始终更为重要。 不假思索的提示 → 写出无人阅读的长篇报告 不如 阅读 → 思考 → 提问 → 阅读 → 思考 → 提问

swyx🛬 SFO: getting some yeses getting some nos. have you run a Deep Research recently?

OpenAI大佬观点推理
18:41
MarkTechPost(RSS)
63
英伟达AI发布Nemotron-Labs-Diffusion:单次前向传播生成Token数较Qwen3-8B提升6倍的三模式语言模型

英伟达发布了Nemotron-Labs-Diffusion语言模型家族,其核心创新在于将自回归、基于扩散的并行解码以及自推测解码三种解码模式统一于单一架构。该模型提供3B、8B和14B三种参数规模,并包含基础版、指令微调版和视觉语言版本。相较于Qwen3-8B,其8B参数版本在单次前向传播中能够生成多达6倍的Token数量,显著提升了吞吐效率。

多模态推理模型发布
18:33
Alibaba Cloud@alibaba_cloud
60
Qwen Conference 2026:主题演讲议程 AI原生云、Agent原生云架构、推理的未来,以及多模态视觉技术发布。没有冗余内容,只有面向全球规模的工程蓝图。 注册:https://click.qwencloud.com/m/20000000190/
推理行业动态部署/工程
15:12
MarkTechPost(RSS)
68
Google发布Gemini 3.5 Flash:在2026年I/O大会上推出一款更快速、更经济的AI智能体与编码模型

Google在2026年I/O大会上发布了新一代模型Gemini 3.5 Flash。该模型在代码生成和AI智能体任务等基准测试中性能超越了此前的旗舰版本,同时运行速度提升四倍,推理成本降低一半。这一更新显著增强了模型在实际应用中的效率与经济性,特别面向需要快速响应和复杂任务处理的开发者场景。

智能体Google推理模型发布
15:07
HuggingFace Daily Papers(社区热门论文)
精选72
CopT:基于连续空间对比验证的在策略推理

CopT提出了一种反转传统链式思考(CoT)顺序的推理框架:先生成草稿答案,再进行策略内反思。其核心是将连续嵌入向量转化为推理时的对比验证器,通过比较模型在离散令牌与连续嵌入输入下对同一生成令牌的支持度,构建序列级反向KL估计器,以此评估答案的可靠性。当答案不可靠时,CopT会执行进一步思考,并利用第二个KL估计器动态控制草稿答案的可见性,在保留有用信息与规避误导间取得平衡。在无需额外训练的前提下,该方法在数学、编程等任务上显著提升了准确率(最高达23%)并大幅减少了令牌消耗(高达57%)。

智能体GitHub推理论文/研究

推荐理由:CopT把推理流程反了过来,先草稿答案再自我反思,用连续嵌入对比验证可靠性,在数学/编码/Agent任务上提点23%省token57%,思路可能改写推理范式。
13:05
HuggingFace Daily Papers(社区热门论文)
69
PEEK:面向长上下文LLM智能体的上下文映射缓存

针对现有方法在处理重复长外部上下文时未能有效保存和重用定向知识的问题,本文提出PEEK系统。该系统将关于上下文内容、组织方式及历史有用实体的知识缓存为一个小型固定大小的上下文映射,并置于智能体提示中,以持续辅助处理外部上下文。PEEK通过蒸馏、制图和驱逐模块的可编程缓存策略维护映射。实验表明,在长上下文推理和信息聚合任务上,PEEK相比强基线提升6.3-34.0%,迭代次数减少93-145次,成本比ACE低1.7-5.8倍;在上下文学习任务中,解决率和标准准确率分别提升6.0-14.0%和7.8-12.1%,成本降低1.4倍。这些成果在多种模型和智能体架构(包括OpenAI Codex)上均有效,证明了上下文映射能帮助智能体更准确高效地处理重复外部上下文。

智能体推理数据/训练论文/研究
12:05
HuggingFace Daily Papers(社区热门论文)
精选72
GoLongRL:面向能力的长期上下文强化学习与多任务对齐

GoLongRL是一个全开源的长期上下文强化学习方案,聚焦于使用可验证奖励的强化学习。该工作提出了面向能力的数据构建方法,公开发布了包含23K样本的数据集、完整构建管线及训练代码。数据集依据长期上下文能力分类,涵盖9种任务类型,由真实文档生成的问答对构成;实验证明该数据集性能优于闭源的QwenLong-L1.5数据集。训练得到的Qwen3-30B-A3B模型在长期上下文任务上达到了与DeepSeek-R1-0528等先进模型可比的性能。此外,提出了TMN-Reweight多任务优化方法,通过任务级归一化和难度自适应加权,在提升平均性能的同时保持或增强了通用能力。

开源生态推理数据/训练论文/研究

推荐理由:开源长上下文RL的配方直接放出来了,数据集+代码全都有。更狠的是单靠数据多样性就干掉了闭源竞品,甚至摸到了DeepSeek-R1的水平,做长上下文的值得复现。
11:55
IT之家(RSS)
76
阿里千问最强智能体模型 Qwen3.7-Max 发布

阿里云千问大模型今日正式发布新一代旗舰智能体模型 Qwen3.7-Max,定位为全能的智能体基座。该模型在编程、办公自动化及长周期自主任务方面能力突出,其中在一项持续35小时、超过1000次工具调用的内核优化实验中验证了其稳定的推理与执行能力。基准测试显示,Qwen3.7-Max 在 SWE-Pro、MCP-Mark、GPQA Diamond 等多项评测中成绩领先,其编程、通用智能体及推理能力已达到业界顶尖水平。该模型即将通过阿里云百炼 API 提供服务。

智能体推理模型发布
11:55
IT之家(RSS)
56
国外红绿灯也能预测:高德红绿灯倒计时宣布出海,将逐步覆盖全球
产品更新多模态推理
11:05
HuggingFace Daily Papers(社区热门论文)
55
精简草稿,多做检索:投机解码的混合树构造

现有投机解码方法为提高接受率而构建庞大草稿树,导致显存带宽和计算开销激增,反而制约了加速效果。动态剪枝虽能降低延迟,但会损失有效候选,无法达到理想接受率。为此,研究提出了Graft补偿框架,通过“剪枝-再嫁接”的机制,利用剪枝释放的计算预算驱动检索操作,用检索到的高预测性令牌补偿剪枝造成的覆盖损失,从而在近零额外开销下恢复接受长度。该方法无需训练且无损性能,在短上下文、长上下文及大规模模型等多种场景下建立了新的性能前沿。实验表明,它在短上下文任务中最高可实现5.41倍加速,并在大规模Qwen3-235B模型上将平均加速比相比EAGLE-3提升了高达21.8%。研究还初步探索了该方法在DFlash分块草稿范式中的应用潜力。

推理论文/研究部署/工程
11:05
HuggingFace Daily Papers(社区热门论文)
65
CogOmniControl:基于创意意图认知的推理驱动可控视频生成

针对现有视频生成模型在抽象或复杂控制下表现不佳的问题,CogOmniControl框架将任务解耦为创意意图认知与内容生成。该研究通过动画数据训练专用CogVLM,提升对模糊用户意图的专业理解与推理能力。同时,利用CogOmniDiT模块统一多种条件控制,并通过强化学习将其输出与CogVLM推理对齐。系统还基于专业工作流数据构建了CogReasonBench和CogControlBench基准。实验证明,CogOmniControl性能超越现有开源模型。

推理视频论文/研究
10:55
IT之家(RSS)
64
阿里云发布"真武 M890"AI 芯片及 128 卡超节点服务器,可支持海量 Agent 并发推理

阿里云在2026云峰会上发布了新一代平头哥训推一体AI芯片真武M890与ICN Switch互联芯片,并推出搭载该芯片的128卡超节点服务器。该服务器通信时延低至百纳秒级,可让128张AI芯片协同工作,以满足Agentic时代海量Agent的并发推理与大模型训练需求。阿里云表示已实现从底层芯片到上层应用的全栈技术就绪。

智能体产品更新推理
10:49
Qwen:Blog Retrieval(API)
精选79
Qwen3.7-Max:面向智能体时代的最新专有模型

通义千问发布 Qwen3.7-Max,专为智能体时代设计。它具备从原型到复杂多文件工程的编码智能体能力,通过 MCP 和多智能体编排实现办公自动化,能自主执行超 1000 步工具调用(如 35 小时全自主内核优化)。兼容 Claude Code、OpenClaw、Qwen Code 等多框架。在多项基准测试中超越 Opus-4.6 Max 等模型:Terminal Bench 2.0 (69.7)、SWE-Verified (80.4)、GPQA Diamond (92.4)、HLE (41.4) 等。现已通过阿里云 Model Studio 提供 API 调用。

智能体推理模型发布编码
关联讨论 7 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)
推荐理由:Qwen3.7-Max 把 agent 能力拉到了新高度,35 小时自主内核优化证明长程执行有真实生产力,做 coding agent 的团队该认真测一下。
10:05
HuggingFace Daily Papers(社区热门论文)
65
CEPO:基于对比证据的策略优化方法

针对强化学习(RLVR)中对所有生成token给予相同奖励导致的信用分配问题,本文提出对比证据策略优化(CEPO)。该方法通过对比正确与错误答案对每个token的偏好,精准区分关键推理步骤与普通填充token,从而获得更细粒度的奖励信号。CEPO利用训练批次中已有的拒绝样本构建错误答案教师模型,不产生额外采样成本。实验表明,在2B和4B参数规模下,CEPO在多个数学推理基准上分别取得43.43%和60.56%的平均准确率,优于GRPO等基线方法。

开源/仓库推理论文/研究
10:04
Rohan Paul@rohanpaul_ai
74
谷歌发布Gemini 3.5 Flash:速度更快、性价比更高的代理模型

谷歌推出Gemini 3.5 Flash模型,其输出速度提升至四倍,在终端基准测试等多项高难度任务中超越了Gemini 3.1 Pro。该模型以高速度与低成本,成为适合日常工作的强大代理工具。它已登陆Gemini应用、搜索AI模式及企业级产品等平台。配合升级的Antigravity工具,Gemini 3.5 Flash可驱动协作子代理,大规模并行处理代码审查、重写与测试等复杂任务,实现高效自动化工作流。

Rohan Paul: Gemini 3.5 in few more hours. 🔥

智能体Google推理模型发布
08:55
IT之家(RSS)
50
英特尔数据中心 AI 推理 GPU "Crescent Island" PCB 曝光

爆料者释出了英特尔数据中心AI推理GPU新品“Crescent Island”的PCB图片。该显卡采用PCIe Gen5+接口,配备20个LPDDR5X内存焊盘,总计容量可达160GB。供电方案为核心15相与内存3相,尾端为12V-2×6供电端子,并设计有调试用USB-C接口。这款基于Xe3P微架构的产品面向风冷服务器,预计2026年下半年向客户出样。

产品更新推理
08:44
meng shao@shao__meng
56
Cerebras实现Kimi K2.6超高速推理

Kimi K2.6 终于有高速推理平台了 👍🏻 这是 @cerebras 在 GPT 5.3 Codex Spark 之后,又一次对主流 LLM 做高速推理 在 Groq Kimi K2 之后,K2.5 和 K2.6 一直都是模型很强,但官方推理实在太慢。。Groq 被 Nvidia 收购后也没有再跟进主流模型推理 现在 Cerebras 把 Kimi K2.6 这个超过 1T 参数的模型,推理速度拉到了 ~1000 tokens/s,这速度就太舒服了,用起来!!

Cerebras: Cerebras is now running Kimi K2.6 - a trillion parameter model - in enterprise trials. At ~1,000 tokens/s, this is the f...

产品更新推理部署/工程
08:10
Simon Willison 博客
58
llm-gemini 0.32a0发布

llm-gemini发布了0.32a0版本。此次更新要求llm版本不低于0.32a0的alpha版,其核心变化是新增了流式处理推理token的功能。

GitHub开源/仓库推理
08:00
HuggingFace Daily Papers(社区热门论文)
42
基于大语言模型函数调用的反思式提示词微调

提示词设计仍需大量人力且对格式高度敏感。现有自动化方法受限于候选搜索或固定流程,难以系统性地捕捉错误模式。文章提出反思式提示词微调(RPT)框架,通过LLM函数调用模拟人类工程师工作流:LLM优化器调用诊断函数评估目标模型,总结重复性失败模式并返回结构化报告;优化器依据该报告及历史记忆修订提示词进行下一轮迭代。框架支持置信度感知优化。实验显示,在三个推理任务上RPT最高提升12.9分,与当前最佳方法持平,并改善了置信度校准。分析表明其对多跳与数学推理任务尤为有效,能生成针对性修订。

arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
RankJudge:一个用于多轮对话中大语言模型评判者的合成基准测试生成器

RankJudge是一个评估大语言模型作为评判者在基于参考文档的多轮对话中表现的基准测试生成器。它通过生成配对对话来工作,其中一个对话的单一轮次被注入缺陷,从而明确评判结果并精准定位错误类别。该基准在机器学习、生物医学和金融三个领域实施,对21个前沿大语言模型评判者进行了评估,并使用Bradley-Terry模型对其排名。RankJudge还能为对话对生成难度评分,用于动态筛选评估数据以降低标签噪音。

推理评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
54
Equilibrium Reasoners:学习吸引子实现可扩展推理

Equilibrium Reasoners (EqR) 提出一种无需外部验证器的测试时计算扩展框架。其核心假设是,可泛化的推理能力源于学习任务条件下的吸引子,即稳定不动点对应有效解的潜在动力系统。EqR通过深度(更多迭代)与广度(聚合多条随机轨迹)两个维度扩展内部动力。实验表明,测试时扩展的收益与向解对齐吸引子的收敛强度紧密相关。该框架使模型能根据任务难度自适应分配计算:简单案例在1至5次迭代内收敛,复杂案例则受益于大规模扩展。通过展开相当于40,000层,可扩展潜在推理在Sudoku-Extreme任务上将准确率从2.6%提升至超过99%。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
DelTA:基于可验证奖励强化学习的判别性Token信用分配

可验证奖励强化学习是提升大语言模型推理能力的关键技术,但奖励信号如何转化为token级概率变化的机制尚不明确。本文提出判别器视角,揭示策略梯度更新方向本质上是区分不同奖励响应的线性判别器。现有方法的正负侧质心易被格式化token等高频模式主导,稀释了关键判别信息。为此,我们提出DelTA方法,通过估计token系数来重塑更新方向,放大特定侧梯度并削弱共享模式权重。实验表明,DelTA在多项数学基准上显著提升了模型性能,并在代码生成与跨域任务中展现出良好的泛化能力。

推理数据/训练论文/研究
07:33
Anthropic:Newsroom(网页)
精选65
拓宽关于前沿AI的对话

Anthropic为构建负责任的先进AI,正与全球多元群体展开对话。首轮讨论汇集了超过15个宗教、哲学及跨文化传统的学者与伦理学者,旨在为Claude等模型的道德形成与价值观对齐提供多元视角。受“外部良知”概念启发,团队开发并测试了伦理承诺提醒工具,初步实验显示其能有效降低模型不对齐行为。公司计划未来将对话拓展至法律、心理学及公民社会等领域,以共同应对AI对社会结构的重塑。

Anthropic安全/对齐推理

推荐理由:Anthropic在做一件少见的事——请神学家和哲学家帮忙塑造Claude的‘性格’,初步实验发现让模型在决策前暂停反思能降低偏差,做AI对齐的值得读一下。
‹ 上一页
1…2930313233…50
下一页 ›