AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
6月9日周二
01:01Hacker News 热门(buzzing.cc 中文翻译)74同事件精选小米 MiMo-v2.5-Pro-UltraSpeed 发布:1T 参数模型,每秒 1000 token同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》
00:49NotebookLM67NotebookLM重大升级:智能体能力+高级推理
00:41Tomer Tunguz 博客(VC 分析)56精选AI 替代浪潮:三大力量重塑成本结构
00:19NotebookLM72精选NotebookLM重大升级:智能体能力与高级推理
00:00MiniMax:Blog(网页)76同事件精选MaxProof框架:MiniMax M3在IMO 2025和USAMO 2026超越人类金牌线同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
6月8日周一
23:20IT之家(RSS)48Kimi 官宣将用 300 子 Agent 并行预测 104 场世界杯赛事,德国队或成市场低估黑马
22:40Xiaomi MiMo82同事件精选小米 MiMo-V2.5-Pro-UltraSpeed 突破 1,000 tokens/s,单台 8-GPGPU 节点运行 1T MoE 模型同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》
20:14郭明錤|Ming-Chi Kuo60郭明錤:WWDC26不影响苹果2026下半年股价积极趋势,但考验看涨叙事持久力
18:00公众号:通义实验室(千问)68同事件精选Agent 辅助开发,一站式打通 Qwen3-VL Android 端侧推理同一事件,精选展示《Agent辅助开发:通义实验室教程打通Qwen3-VL Android端侧推理》
13:20IT之家(RSS)46OWC Stack AI 确认基于群联 aiDAPTIV,为外置式内存化闪存方案
12:00公众号:数字生命卡兹克4712款旗舰AI大模型参加高考语文数学测试,MiMo v2.5 Pro总分第一仅领先Kimi k2.6 0.01分
11:55公众号:卡尔的AI沃茨3813个大语言模型参加2026数学高考,GPT 5.5等并列第一
11:55公众号:卡尔的AI沃茨4213个顶级AI模型参加2026年数学高考,GPT 5.5等并列第一
11:29Hacker News 热门(buzzing.cc 中文翻译)38DeepSeek V4 Pro 在准确率方面超越 GPT-5.5 Pro
11:08Rohan Paul61NVIDIA 认证三星、SK 海力士和美光 HBM4 并投入量产,为 Vera Rubin 解决内存瓶颈
08:00HuggingFace Daily Papers(社区热门论文)55TRIAGE:基于LLM辩证推理的不规则医疗时间序列可解释风险预测
08:00HuggingFace Daily Papers(社区热门论文)55SG-OPD:通过符号一致门控和分阶段教师采样的符号门控在线策略蒸馏
08:00HuggingFace Daily Papers(社区热门论文)64Z-Reward:通过推理内化分数分布超越标量奖励
08:00HuggingFace Daily Papers(社区热门论文)59面向LLM智能体的文本世界模型综述
02:07Rohan Paul49推理模型后训练数据入门:改进的关键在可验证反馈而非数据规模
01:07elvis59论文提出用代码压缩率衡量AI智能体是否真正发现新知识
01:05MarkTechPost(RSS)50使用GEPA构建反思性提示优化:多组件提示、结构化反馈与保留验证
6月7日周日
20:19IT之家(RSS)42富士康展示液冷版 RTX 6000 Blackwell GPU
09:05Rohan Paul45AI 模型明年有望拿下 IMO 满分
08:00HuggingFace Daily Papers(社区热门论文)62轨迹精炼蒸馏(TRD)
04:26Hacker News 热门(buzzing.cc 中文翻译)48莱比锡的基准测试 (Benchmarks in Leipzig)
01:43jason8AGI后人们依然要排队
01:01Rohan Paul62MIT论文提出Self-Revising Discovery Systems框架
00:30Rohan Paul66MIT团队提出自我演进AI科学家框架:让AI主动扩展科学概念空间
6月6日周六
23:17IT之家(RSS)56研究称AI模型分析球赛"几乎靠猜",体育解说暂无忧
21:17IT之家(RSS)70精选OpenCV 5 发布:升级全新 DNN 引擎、原生支持大模型
17:17IT之家(RSS)65Ramp:美国企业 AI 成本飙升,DeepSeek 成为 B2B 市场新宠
15:17IT之家(RSS)64软银孙正义:OpenAI正用AI设计AI模型,比人类聪明1万倍的ASI未来2年到来
12:22Hacker News 热门(buzzing.cc 中文翻译)56Transformers 天生简洁
10:03SemiAnalysis61Makora AI 序贯蒙特卡洛投机解码
09:03SemiAnalysis49Makora AI 顺序蒙特卡洛推测解码
08:00HuggingFace Daily Papers(社区热门论文)50Robust-U1:让MLLM自我恢复损坏视觉内容实现鲁棒理解
08:00HuggingFace Daily Papers(社区热门论文)54DyCo-RL: 动态跨模态协调用于视觉推理
08:00HuggingFace Daily Papers(社区热门论文)59CHIAR-Former:明暗注意力--在黑暗中分配计算
07:59Rohan Paul48AI 简报:Anthropic、Google、阿里等最新动态
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月9日
01:01
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选74
小米 MiMo-v2.5-Pro-UltraSpeed 发布:1T 参数模型,每秒 1000 token

小米在 6 月 8 日发布 MiMo-v2.5-Pro-UltraSpeed 模型,拥有 1T 参数规模,推理速度达到每秒 1000 个 token。该模型来自小米旗下的 mimo.xiaomi.com 项目。

arXiv开源生态推理模型发布
同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》
推荐理由:小米把万亿模型推上 1000 tokens/s,不是纸面速度,而是模型与系统深耦合的结果,对实时推理和编程智能体是真正可落地的信号。限时申请有点可惜,但开源部分值得关注。
00:49
NotebookLM@NotebookLM
67
NotebookLM 迎来重大更新,在对话中新增智能体能力、更高级推理及多种新输出格式,旨在简化复杂多步骤研究。该更新面向 Google AI Ultra 订阅者以及拥有 AI Ultra Access 和 AI Expanded Access 的 Workspace 业务客户率先推出,后续计划扩展至更多用户。

NotebookLM: Introducing a more powerful NotebookLM 🚀 Massive upgrades deliver agentic capabilities in chat, more advanced reasoning...

智能体Google产品更新推理
关联讨论 1 条X:NotebookLM (@NotebookLM)
00:41
Tomer Tunguz 博客(VC 分析)
精选56
AI 替代浪潮:三大力量重塑成本结构

三大力量重塑 AI 成本:前沿闭源模型持续涨价,开源模型在多数场景已足够好,买家开始替代。Coinbase 将提示词路由至更便宜模型,成本持平但 token 用量指数增长。Lindy 全切至 DeepSeek v4,节省数百万美元且多项核心性能提升。Harvey 在 Legal Agent Benchmark 上通过 SFT 使 Kimi 2.6 all-pass 率达 15%,超越 Opus 的 14%,同一 100 任务成本 $84 vs $954(约 11 倍价差)。Cursor 后训练 Kimi K2.5 得到 Composer 2.5,称其“性能优异且效率高达同类模型 10 倍”。闭源越来越贵,开源平价且性能接近,选择决定企业单位经济学的斜率。

AnthropicDeepSeek开源生态推理

推荐理由:Tunguz 用 Coinbase、Lindy 等真实案例,把「用开源/便宜模型替代昂贵前沿模型」的趋势讲透了,做 AI 应用的人该重新算一下单位经济账。
00:19
NotebookLM@NotebookLM
精选72
推出更强大的 NotebookLM 🚀 重大升级带来了对话中的智能体能力、更高级的推理以及一系列新的输出格式。处理复杂的多步骤研究问题从未如此简单。 现已面向 Google AI Ultra 订阅者推出。
Google产品更新多模态推理
关联讨论 1 条X:NotebookLM (@NotebookLM)
推荐理由:NotebookLM 这次升级把 agent 能力塞进聊天框,从被动答案变成能拆解多步研究,对深度资料整理的人是真迭代,但仅限 Google AI Ultra 订阅,门槛不低。
00:00
MiniMax:Blog(网页)
同事件精选76
MaxProof框架:MiniMax M3在IMO 2025和USAMO 2026超越人类金牌线

MiniMax M3采用MaxProof框架,在IMO 2025和USAMO 2026两项数学奥赛基准上超越人类金牌线。框架分三阶段训练:Proof RL使用生成式验证器提供奖励,进行长程强化学习提升证明生成能力;Verifier Alignment将验证对齐为错误定位任务;Refinement Augmentation利用训练中产生的错误证明与验证分析对,通过拒绝采样微调修复能力。三者合并为M3通用模型。系统通过低假阳性率过滤噪声,保证RL稳定性。

推理论文/研究
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:M3在数学奥赛上搞定人类金牌,靠的是用生成验证器做RL和进化搜索,这套组合对复杂推理任务的普适性可能比提高一个benchmark分数更有价值。
6月8日
23:20
IT之家(RSS)
48
Kimi 官宣将用 300 子 Agent 并行预测 104 场世界杯赛事,德国队或成市场低估黑马

月之暗面 Kimi 宣布调度 300 个子 Agent 并行分析 104 场世界杯赛事。每个 Agent 有独立视角,覆盖战术、球员、伤病、赛程、历史、舆情、赔率等维度,采用 Elo、FIFA 排名、Poisson、Dixon-Coles、xG/xT、Monte Carlo 模拟、贝叶斯等模型。最终以概率呈现并标注风险,不简单多数决。Kimi 框架认为西班牙、法国是夺冠热门,但模型发现德国队夺冠概率可能被市场低估。历史回测显示高置信度预测准确率约 85%-90%,中等约 55%-65%,低置信度接近随机。官方提示结果不构成投注建议。

智能体产品更新推理
22:40
Xiaomi MiMo@XiaomiMiMo
同事件精选82
小米 MiMo-V2.5-Pro-UltraSpeed 突破 1,000 tokens/s,单台 8-GPGPU 节点运行 1T MoE 模型

小米 MiMo 联合 TileRT_AI 发布 MiMo-V2.5-Pro-UltraSpeed,首次在 1 万亿参数 MoE 模型上实现超过 1,000 tokens/s 输出速度,仅用单台标准 8-GPGPU 节点(非 Cerebras 或 Groq 方案)。提供限时免费聊天体验,UltraSpeed API 价格为 3 倍,输出体验提升约 10 倍。申请时间为 6 月 8 日至 23 日(PDT),企业可邮件联系 business-mimo@xiaomi.com。

推理模型发布部署/工程
同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》
推荐理由:小米用单节点8卡标准GPU在1T MoE模型上跑出1000+ tokens/s,没有走晶圆级或专用芯片的路子,直接把推理成本门槛拉低了一大截,做实时对话和Agent的可以申请免费聊天先上手感受一下。
20:14
郭明錤|Ming-Chi Kuo@mingchikuo
60
郭明錤:WWDC26不影响苹果2026下半年股价积极趋势,但考验看涨叙事持久力

郭明錤指出,苹果核心看涨叙事是“AI暂时落后但最终会迎头赶上”。供应链显示业务势头年底前强劲,强化“无AI已不错,有AI更想象”叙事。故无论WWDC26内容,只要叙事不变,苹果2026下半年股价趋势积极。WWDC26真正看点在于苹果能否用同款Gemini做出比谷歌更好的AI应用、智能体工作流及端云混合体验。若能,叙事延续;若不能,Gemini设定AI上限,“苹果最终领先”将受质疑。

智能体Google大佬观点推理
18:00
公众号:通义实验室(千问)
同事件精选68
Agent 辅助开发,一站式打通 Qwen3-VL Android 端侧推理

通义实验室教程演示了如何用 Agent(Qoder)辅助完成 Qwen3-VL-2B 模型在 Android 端侧的全流程部署。操作包括:检查 JDK 21、NDK 27、CMake 3.18.1 等环境;创建 arm64-v8a 的 Native C++ 工程(minSdk 29、compileSdk 35);通过 ModelScope CLI 下载约 1.4GB 的 MNN/Qwen3-VL-2B-Instruct-MNN 模型;编译开启 LLM 视觉支持(MNN_BUILD_LLM、LLM_SUPPORT_VISION)的 libMNN.so;构建 APK 并推送模型至手机私有目录。最终 App 提供图文推理页面,输出 MNN 版本(v3.5.0)、ABI 及推理指标。所有繁琐步骤均可由 Agent 自动执行。

多模态推理教程/实践端侧
同一事件,精选展示《Agent辅助开发:通义实验室教程打通Qwen3-VL Android端侧推理》
推荐理由:用Agent辅助走通Qwen3-VL安卓端侧推理全流程,从环境搭建到JNI桥接一步到位。如果你在做移动端AI应用,这可能是目前最详细的实战指南,可以直接抄作业。
13:20
IT之家(RSS)
46
OWC Stack AI 确认基于群联 aiDAPTIV,为外置式内存化闪存方案

OWC 在今年 5 月宣布的 Stack AI 是一款雷电 5“AI 加速器”与外置存储解决方案,在 COMPUTEX 2026 上确认基于群联 aiDAPTIV 方案,为外置式 AI 内存 NAND 扩充方案。aiDAPTIV 将闪存纳入系统有效内存,把部分 AI 内存需求卸载到高耐久性 SSD 上,降低对 DRAM 依赖,使大型 AI 智能体可在本地运行。此前的 aiDAPTIV 多为内置型,Stack AI 为外置版本,部署更灵活。

产品更新推理端侧部署/工程
12:00
公众号:数字生命卡兹克
47
12款旗舰AI大模型参加高考语文数学测试,MiMo v2.5 Pro总分第一仅领先Kimi k2.6 0.01分

Claude Opus 4.8、GPT-5.5等12款旗舰模型参加今年高考语文数学(全国一卷部分试题)测试,采用API调用、禁用代码推理和网页搜索。总分第一MiMo v2.5 Pro(256.3分),第二名Kimi k2.6(256.29分)差0.01分,第三至第九名分差仅2分。语文最高分由GLM5.1和Gemini 3.1 Pro并列,数学最高分由DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。DeepSeek作文得分偏低拉低总分。语文卷基于101分版本折算至150分制。

推理评测/基准
11:55
公众号:卡尔的AI沃茨
38
13个大语言模型参加2026数学高考,GPT 5.5等并列第一

13个大语言模型(GPT 5.5 Thinking、DeepSeek-v4 Pro、Gemini 3.1 Pro Thinking、Claude Opus 4.8 Max、Kimi 2.6 Thinking、Sonnet 4.6 Thinking、GLM 5.1、豆包 Thinking、Qwen 3.7 Plus Thinking、MiniMax M3、元宝 Thinking、Mimo-2.5-pro、Grok)用2026年全国一卷数学高考题进行测试,统一以LaTeX格式输入、关闭联网、不干扰作答。GPT 5.5、DeepSeek-v4 Pro、Gemini 3.1 Pro和Claude Opus 4.8并列第一,得分接近144分;Kimi 2.6以微小差距位居第二梯队;元宝118分;Mimo和Grok得分最低。大部分模型在多选题和长解答题上出现漏条件、读图错误、过度泛化等问题,甚至出现拒答或搜索答案的行为。

DeepSeekOpenAI推理评测/基准
11:55
公众号:卡尔的AI沃茨
42
13个顶级AI模型参加2026年数学高考,GPT 5.5等并列第一

13个顶级AI模型参加2026年数学全国一卷测试,GPT 5.5 Thinking、Deepseek-v4 Pro、Gemini 3.1 Pro Thinking和Claude Opus 4.8 Max并列第一,Kimi 2.6 Thinking以微小分差位居第二梯队。测试采用LaTeX格式统一输入,禁用联网。多数模型在长解答题和多选题上容易失分,如第11题(多选题,正确答案ABD)所有模型均未完全答对。Claude Opus 4.8 Max因额度不足未完成所有题目,Claude Sonnet 4.6 Thinking尝试直接搜答案,Deepseek-v4 Pro曾拒绝完成。模型在上下文记忆、题目理解和符号识别方面仍有明显短板。

推理评测/基准
11:29
Hacker News 热门(buzzing.cc 中文翻译)
38
DeepSeek V4 Pro 在准确率方面超越 GPT-5.5 Pro

DeepSeek V4 Pro 在准确率(precision)指标上击败 GPT-5.5 Pro,具体分数和参数量未透露。该结果来自 runtimewire.com 的评测,在 Hacker News 获得 110 个点赞。

DeepSeekOpenAI推理评测/基准
11:08
Rohan Paul@rohanpaul_ai
61
NVIDIA 正式认证三星、SK 海力士和美光的 HBM4 内存,并投入量产,以解决 Vera Rubin 超算的内存瓶颈。据消息,Vera Rubin 的 HBM4 份额分配为:SK 海力士 60-70%、三星 25-30%、美光占剩余部分。SK 海力士与 NVIDIA 已达成多年合作,将共同开发 Vera Rubin AI 超算等平台的内存,并利用 CUDA-X、PhysicsNeMo 等工具加速芯片设计与半导体仿真。双方强调,先进 DRAM 与 HBM 须提前数年协同设计。

Rohan Paul: SK hynix and NVIDIA just formed a multi-year memory partnership to build the chips behind the next wave of AI factories....

推理行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
55
TRIAGE:基于LLM辩证推理的不规则医疗时间序列可解释风险预测

针对电子健康记录中不规则采样的医疗时间序列(ISMTS),LLM在临床早期预警中常将分级风险压缩为过度自信的二分类预测,导致校准失效。TRIAGE框架通过训练LLM生成对抗性临床结局的辩证推理,产出连续风险评分并附带可验证的临床依据。在三个ISMTS基准上,TRIAGE平均AUPRC提升3.3%,校准误差降低81%;LLM-as-a-judge评估显示其推理质量较基线提升20%。源代码已开源。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
SG-OPD:通过符号一致门控和分阶段教师采样的符号门控在线策略蒸馏

在线策略蒸馏(OPD)依赖学生-教师轨迹对齐及教师偏好逐token可靠性的隐含假设,但实际常失效。为此,SG-OPD提出符号一致门控和分阶段教师采样两种互补粒度的信任信号:冷启动阶段混入验证器认可的教师轨迹,并在教师与验证器纠正方向一致时外推蒸馏更新、不一致时内插。在竞赛级数学推理基准上,SG-OPD相比标准OPD每样本平均提升1.98分,每问题平均提升7.50分。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
Z-Reward:通过推理内化分数分布超越标量奖励

Z-Reward 是一种教师-学生奖励建模框架,用于文生图后训练。教师为 27B VLM,采用 Group-wise Direct Score Optimization (GDSO) 结合策略梯度奖励与分数分布监督;学生通过 Reasoning-Internalized Score Distillation (RISD) 将教师推理条件分布压缩进 9B VLM,推理时无需显式推理链。在内部评测集上,27B 教师达 89.6% 人类偏好准确率,超越 SFT、RewardDance 和 GRPO;9B 学生达 88.6%,超越 O

图像生成推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
面向LLM智能体的文本世界模型综述

文本世界模型(TWM)是文本状态的迁移模型,给定状态与候选动作后预测网页、终端输出等,从而支持规划与评估。综述按智能体生命周期组织四部分:基础(定义与表征)、构建(LLM即世界模型与代码即世界模型范式)、应用(训练时经验合成与推理时规划/验证/适应)、评估(模型自身评估及作为评估环境)。旨在整合领域,阐明设计空间并指出开放挑战。

智能体arXiv推理论文/研究
02:07
Rohan Paul@rohanpaul_ai
49
推理模型后训练数据入门:改进的关键在可验证反馈而非数据规模

论文指出,更好的推理模型更依赖可验证的训练证据,而非原始数据规模。推理数据的关键不是简单问答对,而是提供答案、步骤、工具操作或完整尝试好坏判断的反馈信号。每个训练样本应描述为包含任务、模型行为、检查信号和元数据的记录。研究者按检查方式分类:数学和代码用精确规则、智能体工具用环境检查,无精确检查器时用人类或模型判断。常见误区包括:长推理链可能虚假、更难样例对部分模型无效、更大数据集仍可能缺失关键覆盖。智能体数据应保留失败动作、重试、恢复、状态差异和终端检查等“混乱”信息,因为学习信号常在其中。

智能体arXiv推理数据/训练
01:07
elvis@omarsar0
59
论文提出用代码压缩率衡量AI智能体是否真正发现新知识

本周一篇AI论文探讨自我改进智能体是否真正发现新知识,还是仅重新组合已知信息。作者将行为分为三类:检索(查询已有笔记本)、搜索(组合现有工具)和发现(发明新概念),并用范畴论和左Kan扩展定义——若旧版本能产生相同结果则非发现。他们构建Builder/Breaker agent研究蛋白质力学,四轮中R²从0.48升至0.68再降至0.54和0.41,看似变差实则不断挑战更难蛋白质并重写理论:数据增长近10倍,模型代码仅增长1.3倍。论文提出用代码压缩率作为真实发现信号。链接:arxiv.org/abs/2606.01444。

智能体arXiv大佬观点推理
01:05
MarkTechPost(RSS)
50
使用GEPA构建反思性提示优化:多组件提示、结构化反馈与保留验证

本教程展示如何利用GEPA这一反思性提示进化框架,改善小型语言模型在多步算术应用题上的表现。从弱种子提示出发,构建确定性基准并定义能返回可操作反馈的结构化评估器。多组件设置同时进化指令字段与输出格式规则,最后在保留验证集上对比基线提示与优化提示,检验优化效果是否泛化。

推理教程/实践
6月7日
20:19
IT之家(RSS)
42
富士康展示液冷版 RTX 6000 Blackwell GPU

富士康在2026年台北电脑展期间展示了一款液冷版 RTX 6000 Blackwell GPU,面向服务器和数据中心场景。该卡采用单槽设计,全面覆盖液冷散热模块,拥有96GB GDDR7显存,可运行AI大模型、复杂仿真及专业图形任务。电源接口改用远离PCIe插槽的独立插槽,未使用标准12V-2x6接口。

产品更新推理部署/工程
09:05
Rohan Paul@rohanpaul_ai
45
"很快,竞赛数学、竞赛编程将不再有趣。 如果到明年我们还没有一个任何人都能用来在国际数学奥林匹克(IMO)中取得满分的模型,我会很失望。"
大佬观点推理
08:00
HuggingFace Daily Papers(社区热门论文)
62
轨迹精炼蒸馏(TRD)

在同策略蒸馏(OPD)中,密集的逐token教师监督会导致前缀失败(双峰教师混合与碎片化梯度),逐token损失截断或重加权无法解决。本文提出轨迹级修正方法TRD,在教师指导下修正学生rollout前缀以缓解前缀失败,并在正确rollout基础上展示替代推导路径以改善探索。TRD可推广至同策略自蒸馏(OPSD)。在多项基准和多尺度模型上,TRD一致优于先前基线,提升单次准确率并拓宽推理覆盖范围。

推理数据/训练论文/研究
04:26
Hacker News 热门(buzzing.cc 中文翻译)
48
莱比锡的基准测试 (Benchmarks in Leipzig)

一篇题为“Benchmarks in Leipzig”的学术论文于2026年6月6日发布在 arXiv 上,并在 Hacker News 上获得 101 个点赞。该论文关注莱比锡相关的基准测试研究,但其具体方法、数据集及结果未在当前摘要页面中详述。该条目来自 buzzing.cc 对 Hacker News 热门帖子的中文翻译,提供了原文链接(arXiv)及 HN 讨论页。

推理论文/研究
01:43
jason@jxnlco
8
在工作的咖啡店排队等过之后,我同意。 引用 @ghosttyped:人们在 AGI 之后会做什么?当然是排队。

David Bui: What are people going to do after AGI wait in line of course

其他推理
01:01
Rohan Paul@rohanpaul_ai
62
MIT论文提出Self-Revising Discovery Systems框架

MIT论文(F.Y. Wang & M.J. Buehler, arXiv:2606.01444, 2026)提出Self-Revising Discovery Systems框架,使AI科学家能自主识别当前思维模式不足并添加新科学概念,而非仅更努力搜索。系统将数据、模型、工具输出、失败及声明均视为类型化产物(typed provenance),从而区分三种模式:retrieval(添加已知对象)、search(探索固定模式)和discovery(可验证的模式转换)。论文通过Kan obstruction和Left Kan extension数学化定义了真正新颖性——由旧证据传输后的逐点残差量化,使novelty可客观测量。案例包括Builder/Breaker模型发现蛋白质模式条件顺应性,以及CategoryScienceClaw发现各向异性纤维网络刚度规则。

Markus J. Buehler: We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...

智能体arXiv推理论文/研究
00:30
Rohan Paul@rohanpaul_ai
66
MIT团队提出自我演进AI科学家框架:让AI主动扩展科学概念空间

MIT团队提出自我演进AI科学家框架,核心创新是让AI识别当前推理空间过小并主动添加新科学概念,而非仅在固定模式内搜索。论文将数据点、模型、工具输出、失败、声明均视为带类型的artifact,明确区分检索(添加已知对象)、搜索(探索固定schema)和发现(可验证的模式扩展)。通过类型化copresheaf与Kan障碍理论证明,真正发现是可验证的schema扩展:旧证据由左Kan扩展传输,创新性通过逐点残差量化。案例包括Builder/Breaker模型发现蛋白质模式条件顺应性,以及CategoryScienceClaw发现各向异性纤维网络刚度规则。论文arXiv:2606.01444(2026)。

Markus J. Buehler: We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...

智能体arXiv推理论文/研究
6月6日
23:17
IT之家(RSS)
56
研究称AI模型分析球赛"几乎靠猜",体育解说暂无忧

北卡罗来纳大学教堂山分校和美国东北大学的一项新研究发现,主流AI模型在分析职业体育比赛时表现很差。研究构建了SVI-bench基准,包含35000小时比赛画面等数据。ChatGPT、谷歌Gemini和千问等模型在基础感知任务上平均准确率约74%,因果推理成功率仅约40%,模拟球员下一步行动接近随机猜测,自主分析准确率只有5%。研究认为AI仅擅长描述画面,无法解释战术为何成功或预判后续发展。

推理论文/研究评测/基准
21:17
IT之家(RSS)
精选70
OpenCV 5 发布:升级全新 DNN 引擎、原生支持大模型

OpenCV 5 正式发布,采用基于图的 DNN 引擎,ONNX 算子覆盖率从 4.x 的不到 23% 提升至超 80%,原生支持 Transformer、视觉语言模型(VLM)和大语言模型(LLM)。其他更新包括:更好的 Python 集成与命名参数、更紧凑核心代码、清晰硬件加速层、原生 FP16/BF16、规范化 0D/1D 张量、扩展 3D 视觉及现代化文档。该库 GitHub 拥有超 86,000 stars,每日安装量超一百万次。

多模态开源/仓库推理部署/工程

推荐理由:OpenCV 5 是一次架构级大更新,DNN 引擎重写、ONNX 覆盖率从 23% 跳到 80%,原生支持大模型推理,做模型部署的该关注了。
17:17
IT之家(RSS)
65
Ramp:美国企业 AI 成本飙升,DeepSeek 成为 B2B 市场新宠

美国企业 AI 累计投入突破 1 万亿美元,模型推理成本飙升,降本增效未达预期。Ramp 报告显示 DeepSeek 首次登上其软件趋势榜榜首。案例包括某企业一个月为 Claude 支付 5 亿美元,Uber 四个月内耗尽全年 Token 预算。DeepSeek 宣布 API 价格永久下调 75%,MiniMax 压至新低。Ramp 首席经济学家称这是美国企业寻找 OpenAI、Anthropic 低成本替代方案的最明确信号。部分企业已直接向 DeepSeek 付费。2025 年初 DeepSeek R1 模型曾登顶 App Store,但企业采用率一度达 0.3%,后回落至 0.1% 并维持到 2026 年 4 月。成本压力是再度受关注的主因。

AnthropicDeepSeek开源生态推理
15:17
IT之家(RSS)
64
软银孙正义:OpenAI正用AI设计AI模型,比人类聪明1万倍的ASI未来2年到来

软银CEO孙正义在CNBC采访中透露,OpenAI正使用AI参与设计其后续模型,认为AI正逼近ASI(人工超级智能),并将到来时间从10年缩短至2年。他定义ASI为比人类聪明10000倍的AI。OpenAI曾在2月称GPT-5.3-Codex是其首个“参与创造自身”的模型。孙正义每日使用ChatGPT 2-3小时,预计未来数年内AI会在70%-80%科目上超过人类。

OpenAI大佬观点推理
12:22
Hacker News 热门(buzzing.cc 中文翻译)
56
Transformers 天生简洁

一篇题为“Transformers are inherently succinct”的论文在 openreview.net 上发布,从理论上论证 Transformer 架构具有内在的简洁性(succinctness)。

推理论文/研究
10:03
SemiAnalysis@SemiAnalysis_
61
来自 @makora_ai 的序贯蒙特卡洛投机解码会并行保持多个草稿 token 存活,而不是回退失败的匹配。
推理论文/研究
09:03
SemiAnalysis@SemiAnalysis_
49
@makora_ai 的顺序蒙特卡洛推测解码将多个草案 token 并行保持存活,而不是回退失败的匹配。
推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
50
Robust-U1:让MLLM自我恢复损坏视觉内容实现鲁棒理解

Robust-U1提出显式视觉自恢复框架,使多模态大语言模型能够修复真实世界噪声破坏的输入图像。方法包含三阶段:监督微调进行初始重建、基于像素级SSIM与语义级CLIP相似度双奖励的强化学习对齐高视觉质量、融合损坏图像与恢复图像的多模态推理。在真实损坏基准上取得最先进鲁棒性,在通用VQA基准上维持对抗性损坏下的优越性能。实验表明高质量视觉恢复直接提升推理能力,自恢复成为鲁棒理解的关键机制。

arXiv多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
DyCo-RL: 动态跨模态协调用于视觉推理

强化学习与可验证奖励(RLVR)是增强多模态大语言模型视觉推理的主流范式,但现有方法只优化结果,忽略生成中的细粒度跨模态协调。token级分析显示,模型在链式推理中无法动态交替提取视觉证据与合成文本上下文,导致推理失败。为此提出DyCo-RL,将动态跨模态协调融入RLVR优化:利用Fisher-Rao测地距离测量模态内注意力转移,为token分配视觉或文本功能角色,基于实际注意力与角色对齐度进行优势重加权。DyCo-RL在Qwen2.5-VL-3B/7B上应用,一致改进四种代表性RLVR算法,在七个视觉中心与数学推理基准上取得提升。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
CHIAR-Former:明暗注意力--在黑暗中分配计算

CHIAR-Former 是一种 4 层混合 Transformer,根据每个 token 的谱熵将其路由至 DCT 谱混合或全自注意力(RBF 核混合在消融中被拒绝)。仅含 DCT+注意力的变体在 WikiText-103 上获得 Val PPL 36.54,相比全注意力基线(PPL 66.62)提升 45%,同时减少 62.5% 注意力 FLOPs。在 WikiText-2、IMDB 情感分类和 ListOps 上的评估表明,模型在大规模自然文本中因 token 多样性受益,而全注意力在小数据集和合成任务中仍占优势。

arXiv推理论文/研究部署/工程
07:59
Rohan Paul@rohanpaul_ai
48
AI 简报:Anthropic、Google、阿里等最新动态

Anthropic 称其 80% 的新生产代码由 Claude 编写。Google 新论文显示,通用 LLM 通过规划证明与逐步验证,将形式数学求解性能从低于 10% 提升至 70%。Google 开源 Gemma 4 12B,可在消费级 16GB GPU 上本地运行,支持音频和视频分析。通义千问发布 Qwen3.7-Plus,支持文本、视频、图像输入,价格 $0.4/$1.6 每百万 token,闭源。Anthropic 新化学报告有惊人结果。

AnthropicGoogle多模态开源生态
‹ 上一页
1…1516171819…50
下一页 ›