AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
6月10日周三
03:17Rohan Paul50Claude Fable 5:从"工作正确"到"正确工作"
03:13TechCrunch:AI(RSS)65技术公司能学会爱上更便宜的AI模型吗?
02:11Nathan Lambert63Claude Fable 5 在 APEX-SWE 评测中夺冠,Observability 类别首破 50%
02:09Ethan Mollick:One Useful Thing(RSS)77同事件精选Claude Fable 发布:Anthropic 带来的另一种推理体验同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
01:42宝玉77Anthropic发布Claude Fable 5与Mythos 5
01:38Hacker News 热门(buzzing.cc 中文翻译)81同事件精选Claude Fable 5同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
01:37Chubby♨️73Claude 5 Fable 要点
01:23🚨 AI News | TestingCatalog81Claude Fable 5 上线 Claude 和 API
01:19Yuchen Jin32Claude Fable 5 (Mythos) 正式发布
01:13The Verge:AI(RSS)77Anthropic 发布首个 Mythos 系列模型 Claude Fable 5
00:15Rohan Paul69Anthropic 今日发布 Mythos 公开版"Fable",定价为 Opus 两倍
00:00OpenRouter:Announcements(RSS)60同事件精选Gemini 2.5 Flash API:定价、快速入门与提供商对比同一事件,精选展示《Gemini 2.5 Flash API - 定价、快速入门与提供商比较》
6月9日周二
22:50SemiAnalysis65DeepSeek V4 1.6T 43天性能追踪
22:34Google DeepMind:Blog(RSS)80同事件精选Google DeepMind 发布 Gemma 4 12B:统一的无编码器多模态模型同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
21:18Ars Technica:AI(RSS)57苹果称其 AI 在谷歌服务器上运行仍保持隐私
20:21Tencent Hy74腾讯混元发布UniRL及两种新RL算法
20:07Kimi.ai63Kimi 预测全部104场世界杯比赛:德国或被低估
19:44Rohan Paul64Transformer QKV投影必要性研究
16:52HuggingFace Daily Papers(社区热门论文)61基于并行回火的大语言模型科学假设搜索
16:18歸藏(guizang.ai)63MiMo推出V2.5 Pro UltraSpeed超高速模型,每秒输出超1000 Token
15:55HuggingFace Daily Papers(社区热门论文)69SwiftVR:实时一步生成式视频恢复
15:55HuggingFace Daily Papers(社区热门论文)61光学推理(Optical Reasoning):将图像作为独立推理媒介,token效率达文本1.96倍
15:26IT之家(RSS)78小米MiMo发布V2.5-Pro-UltraSpeed模式,突破万亿参数模型千tokens/s输出速度
14:55HuggingFace Daily Papers(社区热门论文)74精选Reasoning Arena:可验证奖励不足时的迹线锦标赛
13:55HuggingFace Daily Papers(社区热门论文)67SkeMex:通过自进化技能记忆实现可泛化医学智能体推理
13:07Noam Brown74Noam Brown:大规模测试时计算对LLM评估的影响
12:55HuggingFace Daily Papers(社区热门论文)68FlashMemory-DeepSeek-V4: 通过前瞻稀疏注意力实现闪电索引超长上下文
12:43Xiaomi MiMo35小米MiMo千token每秒速度解锁什么?
11:55HuggingFace Daily Papers(社区热门论文)67大规模端到端上下文压缩
11:40公众号:小米 MiMo80精选小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s
11:40公众号:月之暗面(Kimi)47Kimi 将公开预测 104 场世界杯赛事:德国队或爆冷夺冠
08:00HuggingFace Daily Papers(社区热门论文)45将行为预测作为可学习任务:训练行为预测器绕过解释步骤
08:00HuggingFace Daily Papers(社区热门论文)56N-GRPO:嵌入级语义邻居混合用于增强策略优化
08:00HuggingFace Daily Papers(社区热门论文)56ComBench:面向奥林匹克级组合数学的推理与构造基准
07:21IT之家(RSS)57三星电子全永铉:正与英伟达商讨下一代 Groq LPU 合作事宜
06:41Ethan Mollick63Ethan Mollick 引用研究:AI 导致"论点坍缩",人类应充当"骰子"保持多样性
04:53NotebookLM72NotebookLM升级:AI思考过程更清晰
04:46OpenAI:官网动态(RSS · 排除企业/客户案例)74精选OpenAI 公布让 AGI 造福所有人的计划
01:20IT之家(RSS)59小米发布 MiMo-V2.5-Pro UltraSpeed 模式,3 倍价格 10 倍输出体验
01:09MarkTechPost(RSS)66小米MiMo与TileRT推出MiMo-V2.5-Pro-UltraSpeed,万亿参数模型在8-GPU节点上解码超1000 tokens/s
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月10日
03:17
Rohan Paul@rohanpaul_ai
50
Claude Fable 5:从"工作正确"到"正确工作"

Rohan Paul: @claudeai Fantastic. In one 50-million-line Ruby codebase, Fable 5 finished a migration in one day that would have taken...

智能体Anthropic大佬观点推理
03:13
TechCrunch:AI(RSS)
65
技术公司能学会爱上更便宜的AI模型吗?

如果技术公司能用更便宜的模型处理相同AI工作负载且不影响质量,这将意味着AI经济性的巨大转变。

推理现象/趋势部署/工程
02:11
Nathan Lambert@natolambert
63
Claude Fable 5 在 APEX-SWE 软件工程评测中取得 65.5% Pass@1 总体成绩,较 Claude Opus 4.8 高约 18 个百分点。两个子类别中,Integration 为 61.3%,Observability 高达 69.7%,后者比 Opus 4.8 领先 26 个百分点。Fable 5 是首个在 Observability 类别突破 50% 的模型,也是唯一在该项上得分高于 Integration 的模型(其他模型均相反)。Observability 此前一直是所有模型的瓶颈,Fable 5 首次打破这一局面。主推文认为,虽然模型 token 价格不菲,但对大量企业而言物有所值。

Mercor: Claude Fable 5 takes #1 on APEX-SWE: 65.5% Pass@1 overall. It scores ~18pp higher than Opus 4.8. We tested @claudeai Fab...

Anthropic推理编码评测/基准
02:09
Ethan Mollick:One Useful Thing(RSS)
同事件精选77
Claude Fable 发布:Anthropic 带来的另一种推理体验

Anthropic 发布 Claude Fable,这是一款提供截然不同推理体验的 AI 模型。它擅长规划与生成复杂代码库,在需要精确构建代码结构或理解程序员深层需求的场景中,其表现相比 Claude Sonnet 有了大幅提升。用户描述与它协作更像与一位直觉敏锐的资深工程师合作,其对代码意图的捕捉和方案生成能力令人惊叹,但并非通用型 AI。

Anthropic大佬观点推理
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
推荐理由:Ethan Mollick 对 Mythos 级模型的实际体验,比任何参数对比都更清晰地描绘了未来人机协作的形态改变:从“指导者”变成“赞助者”。这篇体验不是评测,是一个信号。
01:42
宝玉@dotey
77
Anthropic发布Claude Fable 5与Mythos 5

Anthropic同日推出两款模型:Fable 5面向所有用户,配备安全分类器(检测攻击/生化武器/蒸馏时降级至Opus 4.8,超95%对话不触发);Mythos 5仅限Project Glasswing合作伙伴。Fable 5能力超越以往:Stripe在5000万行Ruby代码库完成全库迁移(原需两月团队→一天);FrontierCode测试获最高分;仅基础视觉接口通关宝可梦火红版;蛋白质设计加速约10倍;基因组学中自主工作一周多,训练出超越Science论文的模型。API定价输入$10/百万token、输出$50。订阅用户6月22日前免费。所有Mythos级别模型流量强制保留30天(仅安全监控)。

Claude: Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...

Anthropic安全/对齐推理模型发布
关联讨论 30 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)X:Testing Catalog (@testingcatalog)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
01:38
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选81
Claude Fable 5

Claude Fable 5 登上 Hacker News 热门,获得 158 个赞同,源页面为 Anthropic 官网。

Anthropic多模态安全/对齐推理
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
推荐理由:Anthropic 的 Mythos 系列首款公开发行模型,编码和科学推理能力在多个基准上超越 GPT-5.5,虽然安全分类器导致 5% 会话降级到 Opus 4.8,但价格大幅降低,是当前最强的可用模型之一。
01:37
Chubby♨️@kimmonismus
73
Claude 5 Fable 要点

据推文透露,Claude 5 Fable(代号Fable)在几乎所有AI能力基准测试上达到SOTA,尤其在软件工程、知识工作、视觉、科学研究中表现优异。任务越长越复杂,其领先幅度越大;token效率高于以往Claude模型,能在百万token长任务中保持专注并自我优化输出。相比上一代Mythos有显著提升。实际案例:Stripe报告称Fable将数月工程压缩至数天,在5000万行Ruby代码库中一天完成代码库迁移(原需团队两月以上手工操作)。

Chubby♨️: Claude 5 Fable Benchmarks! Holy moly, significant jump even to Mythos

Anthropic推理模型发布
01:23
🚨 AI News | TestingCatalog@testingcatalog
81
BREAKING 🔥:Claude Fable 5(Mythos)正在 Claude 和 API 上推出! 它正在发生 👀
Anthropic推理模型发布
关联讨论 30 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)X:Testing Catalog (@testingcatalog)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
01:19
Yuchen Jin@Yuchenj_UW
32
Claude Fable 5 (Mythos) 终于发布了! 这正是我一直在寻找的!!
Anthropic推理模型发布
01:13
The Verge:AI(RSS)
77
Anthropic 发布首个 Mythos 系列模型 Claude Fable 5

Anthropic 发布 Claude Fable 5,称其为迄今广泛可用的最强模型。该模型在软件工程、知识工作与视觉任务中表现突出,且随着任务变长、变复杂,领先优势进一步扩大。Fable 5 是 Anthropic 首次大规模发布的 Mythos 类 AI 模型,此前该公司因该类模型在网络安全任务中能力过强、风险过高而未公开。此次发布得益于新增的安全措施,可在特定高风险领域阻止模型生成响应。

Anthropic多模态推理模型发布
关联讨论 30 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)X:Testing Catalog (@testingcatalog)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
00:15
Rohan Paul@rohanpaul_ai
69
Anthropic 今日发布 Mythos 公开版"Fable",定价为 Opus 两倍

Anthropic 今日发布 Mythos 的公开版本,代号“Fable”。其成本约为 Opus 的两倍,低于此前预览版 5 倍 Opus 的定价。Fable 配备严格安全限制,在网络安全方面比 Project Glasswing 合作伙伴的受限预览版更保守,且在长时间、多步骤任务及智能体式工作流上表现更强。Mythos 预览版于 2026 年 4 月推出,是当时最强前沿模型,尤其擅长编程、推理和网络安全(含发现零日漏洞);因安全问题未公开,仅限 Project Glasswing 合作伙伴用于防御性网络安全,目前已报告发现数千个重大漏洞。

智能体Anthropic安全/对齐推理
00:00
OpenRouter:Announcements(RSS)
同事件精选60
Gemini 2.5 Flash API:定价、快速入门与提供商对比

Gemini 2.5 Flash API 的定价与快速入门指南,指导用户配置 thinking budgets、比较不同提供商,并在 5 分钟内完成首次 API 调用。

Google推理教程/实践部署/工程
同一事件,精选展示《Gemini 2.5 Flash API - 定价、快速入门与提供商比较》
推荐理由:Gemini 2.5 Flash 最值得关注的是 thinking budget,这篇教程把怎么用、怎么省都讲清楚了,但对早已熟悉文档的开发者来说新东西有限。
6月9日
22:50
SemiAnalysis@SemiAnalysis_
65
DeepSeek V4 1.6T 第0天至第43天性能随时间变化 - 华为, GB300 NVL72, MI355X, B200 第0天在InferenceX上的推理性能 26天内100倍性能提升 每百万Token成本 华为950DT推理追踪分析 https://semianalysis.substack.com/p/deepseekv4-16t-day-0-to-day-43-performance
DeepSeek推理评测/基准部署/工程
22:34
Google DeepMind:Blog(RSS)
同事件精选80
Google DeepMind 发布 Gemma 4 12B:统一的无编码器多模态模型

Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型,采用无编码器统一架构,原生支持音频输入。其基准测试性能接近 26B MoE 模型,但内存占用不到一半,仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测(MTP)drafter 以降低延迟,基于 Apache 2.0 开源许可发布,已累计超过 1.5 亿次下载。

Google多模态开源/仓库推理
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:统一无编码器架构让 12B 模型在消费级笔记本上跑出接近 26B 的多模态 Agent 体验,开源 + Apache 2.0,本地部署门槛又压低了。
21:18
Ars Technica:AI(RSS)
57
苹果称其 AI 在谷歌服务器上运行仍保持隐私

苹果表示,部分 AI 模型运行在谷歌云服务器上,但谷歌无法以任何方式访问数据,从而确保用户隐私不受影响。

Google产品更新推理部署/工程
20:21
Tencent Hy@TencentHunyuan
74
🚀推出UniRL,一个用于统一多模态模型的RL基础设施。附带两种新RL算法:DRPO和Flow-DPPO。 一个覆盖扩散/流匹配模型、LLM/VLM以及统一多模态模型的RL循环👇 代码:http://github.com/Tencent-Hunyuan/UniRL (是的--U(you)-ni-(need) RL 😉)
GitHub多模态开源/仓库推理
关联讨论 1 条X:腾讯混元 (@TencentHunyuan)
20:07
Kimi.ai@Kimi_Moonshot
63
Kimi 预测全部104场世界杯比赛:德国或被低估

Kimi 利用 Agent Swarm 系统并行协调300个子智能体,分析战术、球员状态、伤病、赛程、天气、赔率等因素,预测2026年美加墨世界杯全部104场比赛,并发布每轮赛前预测和赛后回顾。模型层融合了 Elo/FIFA 强度、Poisson 进球分布、xG/xT 指标、蒙特卡洛模拟等方法。预测结果显示西班牙和法国为头号热门,但德国夺冠概率可能被市场低估:模型基线估计约11.0%,校准估计约11.3%,而部分市场隐含概率仅约7.4%,正向偏差约+3.6个百分点。该判断基于多分析链交叉验证,可能源于对德国近两届小组出局的近因偏差以及纳格尔斯曼高位压迫体系与穆西亚拉/维尔茨新创造轴的复苏信号。

智能体产品更新推理
19:44
Rohan Paul@rohanpaul_ai
64
Transformer QKV投影必要性研究

一篇论文系统研究了Transformer注意力中QKV投影的必要性,发现Key和Value可共享同一投影(Q-K=V变体),仅增加3.1%的困惑度,便将KV cache削减50%,大幅降低推理内存。最佳变体保留Query独立,使注意力保持方向性。与GQA和MQA结合时,可分别实现87.5%和96.9%的cache缩减。弱变体Q=K-V因导致因果注意力过于对称且无cache节省而无效。

arXiv推理论文/研究部署/工程
16:52
HuggingFace Daily Papers(社区热门论文)
61
基于并行回火的大语言模型科学假设搜索

大语言模型用于生成科学假设,但常见进化搜索因过度优化导致多样性坍塌。本文将假设搜索建模为采样问题,目标是在固定验证预算下高效产出多样且高质量的候选假设。受并行回火算法启发,提出一种进化框架,在多个温度水平同时搜索,并通过跨温度信息交换增强探索而不破坏收敛。在分子发现、方程发现和算法发现三个领域,该方法在同等验证预算下同时提升了假设质量与多样性,且候选假设在更昂贵的下游计算验证中仍保持鲁棒。

arXiv推理论文/研究
16:18
歸藏(guizang.ai)@op7418
63
MiMo推出V2.5 Pro UltraSpeed超高速模型,每秒输出超1000 Token

MiMo推出V2.5 Pro UltraSpeed超高速模型版本,每秒输出超1000 Token,号称全球首个达此速度的万亿参数模型。实测显示:复杂3D小游戏TPS 804 Token/s(峰值810),首次响应4.71秒;官网3D动画峰值1426 Token/s,首次响应0.83秒,32秒输出25624 Token(1000行代码);另一复杂官网3D效果TPS 1136,首次响应4.5秒。相比此前超高速推理方案常见能力下降,MiMo未出现此类迹象。该模型主要面向效率要求极高的ToB客户,在Agent和Sub-Agent并发场景下效率提升明显。

智能体推理模型发布
15:55
HuggingFace Daily Papers(社区热门论文)
69
SwiftVR:实时一步生成式视频恢复

SwiftVR 提出流式一步生成式视频恢复框架,采用无掩码移位窗口自注意力和轻量级恢复感知自编码器,消除二次空间注意力与大型视频自编码器的延迟及内存瓶颈。模型仅用标准密集 SDPA 调用,无需重训练或自定义内核即可部署至消费级 GPU。在单张 H100 上,2560×1440 分辨率达 31 FPS,3840×2160 达 14 FPS,而扩散 VR 基线在 4K 已超出内存。在 RTX 5090 上,1080p 达 26 FPS,为首个实现消费级 GPU 实时 1080p 流媒体的生成式视频恢复模型。

推理视频论文/研究
15:55
HuggingFace Daily Papers(社区热门论文)
61
光学推理(Optical Reasoning):将图像作为独立推理媒介,token效率达文本1.96倍

光学推理(Optical Reasoning)提出将图像作为语言和多模态任务的独立推理媒介,包含基于印刷字体与基于图形两种变体,分别优化视觉布局和图文结构化组织。在数学、科学及交错模态推理基准上,光学推理匹配甚至超越传统文本推理,同时语言任务减少推理token 28.57%,多模态任务减少16%,token效率达到文本推理的1.96倍,证明图像能高效编码推理过程并提供统一的视觉推理画布。

多模态推理论文/研究
15:26
IT之家(RSS)
78
小米MiMo发布V2.5-Pro-UltraSpeed模式,突破万亿参数模型千tokens/s输出速度

小米与TileRT联合推出MiMo-V2.5-Pro的UltraSpeed模式,在1万亿参数模型上首次达到超1000 tokens/s输出速度。UltraSpeed API同步上线,定价为原版的3倍,输出速度提升约10倍。由于资源有限,采取申请制限时开放,通过用户可在2026年6月9日至6月23日23:59接入API体验,并获限时免费Chat。试用规则:每账号每日最多成功进入队列10次,单次会话上限30分钟,空闲超5分钟自动释放资源。

推理模型发布部署/工程
关联讨论 1 条X:小米 MiMo (@XiaomiMiMo)
14:55
HuggingFace Daily Papers(社区热门论文)
精选74
Reasoning Arena:可验证奖励不足时的迹线锦标赛

针对基于可验证奖励的强化学习(RLVR)在组级别奖励无信息时无法提供梯度信号的问题,提出Reasoning Arena自适应训练框架。该框架将非多样化奖励组路由至评判系统,通过迹线锦标赛(trace tournaments)对推理迹线进行头对头比较,转化为相对奖励信号。每个新迹线仅与动态更新的少量锚点比较,然后在不完全比较图上拟合Bradley-Terry模型。在竞赛数学和编程基准上,平均超越RLVR基线7.6%,训练加速27%至41%,节省近50%生成计算量。

arXiv推理数据/训练论文/研究

推荐理由:强化学习训推理模型常遇到奖励无法区分,这篇把被浪费的样本变成有效梯度,训练加速近 50% 同时性能还涨 7.6%,做 RL 训练的人值得细读。
13:55
HuggingFace Daily Papers(社区热门论文)
67
SkeMex:通过自进化技能记忆实现可泛化医学智能体推理

SkeMex 是一种部署后自进化框架,通过技能记忆提升医学智能体的临床交互推理能力,无需更新模型权重。它将历史交互轨迹蒸馏为结构化技能(可复用流程知识),组成跨通用、任务特定及行动级的多分支仓库。利用环境反馈估计上下文效用,指导价值感知检索与仓库治理,形成“读取—写入—评估—治理”闭环生命周期。实验表明,在多种临床任务中,SkeMex 在离线和在线设置下均优于代表记忆型智能体,且能跨模型骨干泛化并实现可转移技能记忆。

智能体推理论文/研究
13:07
Noam Brown@polynoamial
74
Noam Brown:大规模测试时计算对LLM评估的影响

Noam Brown指出,LLM基准性能日益依赖测试时计算,当前标准评估因忽略推理预算而低估模型能力。以GPT-5.5与GPT-5.4为例:控制测试时计算后,5.5表现远超5.4。Karpathy的自动化实验和AISecurityInst的网络评估均显示,即使消耗超1亿token,强模型性能仍持续提升。Brown建议改用性能-测试时计算曲线评估,安全评估也应计入推理预算,如Gemini 3 Deep Think发布时未配套风险说明,关键在于业界未统一考虑测试时计算。

OpenAI大佬观点安全/对齐推理
12:55
HuggingFace Daily Papers(社区热门论文)
68
FlashMemory-DeepSeek-V4: 通过前瞻稀疏注意力实现闪电索引超长上下文

FlashMemory-DeepSeek-V4(FM-DS-V4)提出Lookahead Sparse Attention(LSA)推理范式,基于DeepSeek-V4架构构建神经记忆索引器,主动预测未来上下文需求,仅保留查询关键KV块。采用解耦训练策略,索引器作为独立双编码器训练,无需加载主干模型。在LongBench-v2、LongMemEval、RULER等长上下文基准上,平均物理KV缓存压缩至全上下文基线的13.5%,下游精度平均提升0.6%;在500K极端长度下,物理KV开销减少超过90%,且不损害主干模型的核心推理能力。

DeepSeek推理论文/研究
12:43
Xiaomi MiMo@XiaomiMiMo
35
1000+ tokens/s 很快。🚀 但这实际解锁了什么?
产品更新推理
11:55
HuggingFace Daily Papers(社区热门论文)
67
大规模端到端上下文压缩

长上下文语言模型推理受KV缓存内存瓶颈制约。现有压缩方法或大幅降低质量,或耗时耗算力。本文通过架构搜索和从头预训练,在350B tokens上持续预训练了0.6B编码器、4B解码器的模型家族,支持1:4、1:8、1:16压缩比,命名为Latent Context Language Models (LCLMs)。该家族在通用任务性能、压缩速度和峰值内存上提升了帕累托前沿,并能作为长时程智能体的高效骨干,快速扫描压缩后的长上下文并按需展开相关片段。

智能体推理论文/研究
11:40
公众号:小米 MiMo
精选80
小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s

小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式,使 1T 参数旗舰模型输出速度首次突破 1000 tokens/s。模型侧采用 FP4 混合量化(仅量化 MoE Expert)与 DFlash 块级 masked 并行推测解码(coding 场景平均接受长度 6.30 tokens);系统侧 TileRT 引入常驻内核引擎与异构流水线协作。API 限时开放(2026 年 6 月 9 日至 23 日),定价为 MiMo-V2.5-Pro 的 3 倍,速度提升约 10 倍。FP4 权重与 DFlash 模型 checkpoint 已开源至 HuggingFace。

开源生态推理模型发布部署/工程
关联讨论 1 条X:小米 MiMo (@XiaomiMiMo)
推荐理由:万亿模型首次在通用GPU上突破1000 tokens/s,不是专用硬件的胜利而是模型与系统Codesign的胜利,做实时AI应用的都应该盯紧这一套方案。
11:40
公众号:月之暗面(Kimi)
47
Kimi 将公开预测 104 场世界杯赛事:德国队或爆冷夺冠

Kimi 通过「Agent 集群」同时调度 300 个子 Agent,从战术、球员、伤病等维度并行分析 104 场世界杯赛事,并公开预测与复盘。模型综合采用 Elo/FIFA 强度模型、Poisson 与 Dixon-Coles 进球分布模型、xG/xT 指标体系、Monte Carlo 模拟等。分析发现德国队夺冠概率被市场低估:基准约 11.0%,校准后约 11.3%,而部分市场隐含概率仅约 7.4%,存在约 +3.6 个百分点的正向偏离。同时推出总奖池 1 万亿 Token 的竞猜活动,并发布 Kimi Work——面向知识工作者的通用型本地 Agent,集成了建站、PPT 等专业 Skills 及 Kimi WebBridge。

智能体推理行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
45
将行为预测作为可学习任务:训练行为预测器绕过解释步骤

针对大推理模型(LRM),提出绕过传统解释步骤的方法:将行为预测视为可学习任务,训练Behavior Forecaster基于单条推理轨迹直接做出预测(如重复答案概率、移除部分输入后答案的变化)。训练数据通过查询LRM自动生成,无需人工标注,推理仅需单次前向传播。在三个推理数据集上,该预测器表现优于作为朴素读者读取相同轨迹的GPT-5.4和Claude Opus-4.6,且推理成本远低于它们。端到端微调骨干网络并从目标LRM初始化是实现高性能的必要条件。

安全/对齐推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
N-GRPO:嵌入级语义邻居混合用于增强策略优化

针对token级采样易产生冗余轨迹、嵌入级随机噪声破坏语义一致性的问题,N-GRPO将语义邻居混合(Semantic Neighbor Mixing)机制集成到GRPO框架中。该方法通过混合锚点token及其最近语义邻居的嵌入构造输入表示,在注入多样性的同时保持局部语义流形。在DeepSeek-R1-Distill-Qwen系列不同规模模型上的实验表明,N-GRPO在数学推理基准上持续优于强基线,并在分布外任务上展现稳健泛化能力。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
ComBench:面向奥林匹克级组合数学的推理与构造基准

ComBench是一个面向奥林匹克级组合数学的基准,包含100个人工标注的竞赛级别问题,分为分析型(侧重严谨数学论证)和构造型(需要明确构造及正确性证明)。评估结合评分指南的证明评分与确定性构造验证,揭示证明质量与构造有效性的差异。前沿模型在该基准上远未饱和:最强模型整体平均分65.4%,Best@4达75.3%。Kimi-K2.6在分析型证明评分上落后于GPT-5.5,但在构造型Best@4上反超;存在性和构造类问题对所有代表性模型始终最难。

arXiv推理论文/研究评测/基准
07:21
IT之家(RSS)
57
三星电子全永铉:正与英伟达商讨下一代 Groq LPU 合作事宜

三星电子副董事长全永铉昨日与英伟达CEO黄仁勋会面后透露,双方正商讨下一代Groq LPU系列AI加速器芯片的合作。三星晶圆代工已是Groq 3 (LP30) LPU芯片的4nm合同制造伙伴。英伟达后续规划Rubin世代的LP35 LPU和Feynman世代的LP40 LPU。台积电此前也表示正与客户合作开发下一代LPU。

推理行业动态
06:41
Ethan Mollick@emollick
63
Ethan Mollick 引用 @YekyungKim 的研究指出,AI 正日益塑造从报纸评论到 NeurIPS 立场论文的长篇公共话语,但看似流畅的论点背后存在"论点坍缩":不同大语言模型会收敛到相同的主要论点、支撑论点和结构。Mollick 调侃《黑客帝国》把人当电池的想法很怪,认为人类作为"骰子"更有用,意在强调多样性在思考中的价值。

Yekyung Kim: From op-eds in newspapers to NeurIPS position papers, AI is increasingly shaping long-form public discourse. Its argumen...

大佬观点推理现象/趋势
04:53
NotebookLM@NotebookLM
72
想更详细了解今天的发布吗?以下是新功能和亮点的介绍🧵: 首先:升级版、更周到的聊天体验。 由Gemini 3.5和@Antigravity提供支持,您现在将更清晰地看到AI的思考过程。此外,每个笔记本都有一台安全的云电脑,包含100多种精选软件技能,解锁更深入的研究和更复杂的分析。
GoogleMCP/工具产品更新推理
关联讨论 1 条X:NotebookLM (@NotebookLM)
04:46
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选74
OpenAI 公布让 AGI 造福所有人的计划

OpenAI 发布计划,阐述让 AGI 造福所有人的愿景。该计划聚焦于 AI 的可及性、安全性和共享繁荣,确保技术进步惠及每个人。

智能体OpenAI大佬观点推理
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Sam Altman (@sama)
推荐理由:Altman 和 Pachocki 把 OpenAI 的下一步讲清楚了,2028 年让 AI 做大部分研究的内部目标很具体,这比任何产品发布都更能说明他们对 AGI 的判断。
01:20
IT之家(RSS)
59
小米发布 MiMo-V2.5-Pro UltraSpeed 模式,3 倍价格 10 倍输出体验

小米与 TileRT 联合发布 MiMo-V2.5-Pro UltraSpeed 模式,在通用 GPU 上突破万亿参数模型生成速度 1000 tokens/s。API 同步上线,定价为原版 3 倍,输出速度提升约 10 倍,采取申请制限时开放(6 月 9 日至 23 日)。通过审核用户可获两周免费 Chat 体验,每日最多队列 10 次,单会话上限 30 分钟,空闲超 5 分钟自动释放资源。

产品更新推理
01:09
MarkTechPost(RSS)
66
小米MiMo与TileRT推出MiMo-V2.5-Pro-UltraSpeed,万亿参数模型在8-GPU节点上解码超1000 tokens/s

小米MiMo团队与TileRT合作发布MiMo-V2.5-Pro-UltraSpeed服务模式,专为MiMo-V2.5-Pro模型设计。该方案在单个8-GPU消费级节点上,实现了1万亿参数模型超过1000 tokens/s的解码速度。

推理论文/研究部署/工程
‹ 上一页
1…1415161718…50
下一页 ›