AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1187 条
全部一手资讯X论文
标签「推理」清除
今天7月3日 周五
05:50Runway:News(网页)51借用夜晚:将闲置推理GPU回收用于研究
05:08Apple Machine Learning Research(RSS)52Conformal Thinking:计算预算下推理的风险控制框架
05:08Apple Machine Learning Research(RSS)51残差上下文扩散语言模型(Residual Context Diffusion Language Models)
02:37LMSYS:Blog(Chatbot Arena 团队)59精选Agent辅助的SGLang开发:初步探索
01:08Apple Machine Learning Research(RSS)46通过可追踪轨迹控制学习结构化推理
01:08Apple Machine Learning Research(RSS)62精选RL微调VLM的鲁棒性与思维链一致性研究
7月2日周四
21:14Hacker News 热门(buzzing.cc 中文翻译)57"定理经济"的衰落
17:31HuggingFace Daily Papers(社区热门论文)49图原生强化学习通过概念重组实现可追溯的科学假设生成
15:28HuggingFace Daily Papers(社区热门论文)39ELDR: 面向PD分离式MoE服务的专家局部性感知解码路由
15:28HuggingFace Daily Papers(社区热门论文)54多模态连续推理:非对称互变分学习
15:04IT之家(RSS)42阿里云秒悟 Meoo 上线夜间计划,每晚 22:00 后用 Qwen3.7-Max AI 工具最低 2 折
11:28HuggingFace Daily Papers(社区热门论文)51Perceive-to-Reason (P2R):解耦感知与推理的细粒度视觉推理框架
7月1日周三
20:28HuggingFace Daily Papers(社区热门论文)44QVal:低成本评估长周期LLM智能体密集监督信号的测试平台
19:40The Decoder:AI News(RSS)58Claude Sonnet 5延续Anthropic隐藏涨价的模式
18:10The Decoder:AI News(RSS)70精选OpenAI论文揭示GPT-5.6三个Pro变体,打破单一顶级策略
16:32MarkTechPost(RSS)73精选NVIDIA 发布 Nemotron-Labs-TwoTower 开放权重扩散语言模型
14:28HuggingFace Daily Papers(社区热门论文)40多块扩散语言模型
14:03IT之家(RSS)49英伟达刷新 DeepSeek V4 推理纪录:单 Token 成本降至 1/5,AI 吞吐量最高提升 20 倍
12:00公众号:龙猫LongCat(美团)82精选美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型
11:28HuggingFace Daily Papers(社区热门论文)42BlockPilot:基于实例自适应策略学习的扩散投机解码方法
10:08Hacker News 热门(buzzing.cc 中文翻译)40Leanstral 1.5 发布
10:03IT之家(RSS)51Etched 推理加速器芯片完成流片,获超10亿美元订单和8亿美元融资
10:03IT之家(RSS)39Tenstorrent 发布 RISC-V CPU 内核 TT-Ascalon S,单位面积性能达旗舰 IP 的 140%
06:01MarkTechPost(RSS)70Anthropic 发布 Claude Sonnet 5:中端智能体模型,基准与定价详解
02:37Hacker News 热门(buzzing.cc 中文翻译)78Anthropic 发布 Claude Sonnet 5:最具智能体能力的 Sonnet 模型
02:28TechCrunch:AI(RSS)73Anthropic 推出 Claude Sonnet 5,主打低成本智能体能力
02:28TechCrunch:AI(RSS)64AI芯片初创公司Etched获10亿美元订单,台积电已量产其芯片
02:08The Decoder:AI News(RSS)56OpenAI 将访客 ChatGPT 用户的推理成本降低逾一半
01:03OpenAI:官网动态(RSS · 排除企业/客户案例)70精选OpenAI 发布 GeneBench-Pro:计算生物学研究级基准测试
00:42Dwarkesh Patel:Podcast & Blog(RSS)61精选Grant Sanderson 谈 AI 与数学的未来
6月30日周二
23:02IT之家(RSS)62消息称 OpenAI 通过系统底层优化,将 AI 模型推理成本减半
23:02IT之家(RSS)46单芯片混合精度浮点算力达 896TFLOPS,中昊芯英新一代 TPU 芯片「须臾」发布
16:38The Decoder:AI News(RSS)67Deepseek发布DSpark推理框架,AI响应速度最高提升85%
16:37Hacker News 热门(buzzing.cc 中文翻译)43Moondream Photon 通过流水线解码消除 GPU 气泡,提升 35% 吞吐量
15:37Hacker News 热门(buzzing.cc 中文翻译)77LongCat-2.0 开源:1.6T 总参数、48B 活跃参数的 MoE 模型
15:02IT之家(RSS)55AI 老板 500 天模拟经营:多数模型亏惨,Claude Fable 5 独占鳌头
12:02IT之家(RSS)50寒武纪成科创板首支万亿市值股,年初至今涨超75%
12:02IT之家(RSS)54微软全面推出 Anthropic Claude 模型 Azure 云服务,基于英伟达 GB300
11:26HuggingFace Daily Papers(社区热门论文)77精选Agents-A1:35B MoE 智能体模型通过扩展 horizon 达到万亿参数级性能
11:02IT之家(RSS)76美团发布万亿参数大模型 LongCat-2.0,五万卡国产算力训练并开源
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
05:50
Runway:News(网页)
51
借用夜晚:将闲置推理GPU回收用于研究

Runway 开发了名为 deckard 的容量控制器,在生产推理集群与研究集群间动态重分配 GPU。生产流量在北美工作日上午 9 点 ET 达峰,晚 8 点 ET 跌至不足一半。控制器基于预计算的时间窗口(如工作日 8:30–12:30 ET 高峰子窗口)提前扩容和回收,每次集群间转移耗时 20–60 分钟。利用排队论(Erlang‑C、Little's Law)确定目标利用率,避免接近 85% 后的队列发散(90% 利用率下等待时间约为服务时间的 10 倍)。此方案使夜间闲置 GPU 回归研究、白天排队等待缩短。

推理教程/实践部署/工程
05:08
Apple Machine Learning Research(RSS)
52
Conformal Thinking:计算预算下推理的风险控制框架

推理大语言模型支持测试时扩展,准确率随 token 预算增加而提升,但预算设定带来风险-精度权衡。Conformal Thinking 框架将预算设定重定义为风险控制问题:在最小化计算量的同时限制错误率。该框架引入上阈值(模型足够自信时停止推理,承担输出错误的风险)和下阈值(提前终止无法解决的实例,承担过早停止的风险)。给定目标风险与验证集后,使用无分布风险控制来最优指定这些停止机制。跨多种推理任务和模型的实验表明,该方法在遵守用户指定风险目标的同时,通过下阈值与集成停止机制实现了计算效率提升。代码已开源。

推理论文/研究
05:08
Apple Machine Learning Research(RSS)
51
残差上下文扩散语言模型(Residual Context Diffusion Language Models)

扩散大语言模型(dLLM)可并行解码多个token,但现有分块式dLLM依赖重新掩码机制,仅保留最置信token而丢弃其余,造成计算浪费。本文提出Residual Context Diffusion(RCD)模块,将丢弃token的表示转化为上下文残差并注入下一次去噪步骤,采用解耦两阶段训练绕过内存瓶颈。在长CoT推理(SDAR)和短CoT指令跟随(LLaDA)模型上验证,标准dLLM仅需约10亿token即可高效转换为RCD。RCD在多项基准上以极小额外计算将前沿dLLM精度提升5–10个点,在最具挑战的AIME任务上几乎翻倍基线准确率,等效精度下减少4–5倍去噪步数。

推理论文/研究
02:37
LMSYS:Blog(Chatbot Arena 团队)
精选59
Agent辅助的SGLang开发:初步探索

SGLang团队将LLM服务、分布式运行时、GPU内核、扩散管道等工作流编码为可执行的SKILL.md文件、脚本、基准合约和审查循环。现有技能包括:SGLang .claude/skills(CUDA调试、内核集成、性能分析等)、SGLang diffusion .claude/skills(扩散模型添加与调优)、BBuf/AI-Infra-Auto-Driven-SKILLS(跨框架SOTA循环)、KDA(MLSys 2026 FlashInfer内核竞赛获胜方案)以及BBuf/KDA-Pilot(已合并三个SGLang集成PR)。Profile证据是性能工作的核心,长期优化转向Loop Engineering——SGLang SOTA Performance Loop将追求SOTA分解为公平基准测试、差距决策、性能分析、补丁和再验证,Humanize/RLCR添加外部审查,Codex Goal以更低协调开销运行相同循环。评审重要性提升,开发者需定义问题、选择证据、设计工作流并判断结果是否可用于生产。

推理教程/实践部署/工程

推荐理由:这不是一篇普通的开发经验总结,而是 SGLang 团队把调试、基准测试和性能调优等重复劳动变成可执行 agent 技能的实操手册,对于做推理框架和复杂工程的人非常值得一看。
01:08
Apple Machine Learning Research(RSS)
46
通过可追踪轨迹控制学习结构化推理

大语言模型可涌现推理行为,但复杂推理轨迹在无约束采样中稀疏,标准强化学习难以保证多样性。Ctrl-R框架通过可追踪轨迹控制主动引导rollout,激励探索多样推理模式,并利用重要性采样实现无偏on-policy优化,引入重要性采样权重的幂缩放因子以选择性学习分布外轨迹。实验表明,Ctrl-R在语言和视觉-语言模型的数学推理任务上均取得一致改进。

推理数据/训练论文/研究
01:08
Apple Machine Learning Research(RSS)
精选62
RL微调VLM的鲁棒性与思维链一致性研究

强化学习(RL)微调被扩展至视觉语言模型(VLM)。研究发现,简单的文本扰动——误导性标题或错误思维链(CoT)——会显著降低模型鲁棒性和置信度,且开源模型衰退更明显。闭源模型呈现类似失败模式,但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡:微调提升基准准确率,但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性;对抗性增强可改善鲁棒性,却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐,但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。

多模态推理论文/研究

推荐理由:RL微调让VLM基准分变好看,却可能让它的推理链变得靠不住,这个反直觉的诊断对正在用RL打磨多模态模型的团队是个警醒。
7月2日
21:14
Hacker News 热门(buzzing.cc 中文翻译)
57
"定理经济"的衰落

数学家 David Bessis 在文中反思,数学的核心产物是清晰与理解,而非定理本身。他用自己的两个未发表定理经历说明,证明定理并非最难,难点在于直觉和概念框架的构建。面对 AI 的快速发展,他感到既兴奋又担忧:AI 可能摧毁数学的“定理经济”,但几乎不触及数学本质——人类的直觉与创造力。他认为公众对数学的误解正在成为学科本身的生存威胁。

DeepMindOpenAI大佬观点开源生态
17:31
HuggingFace Daily Papers(社区热门论文)
49
图原生强化学习通过概念重组实现可追溯的科学假设生成

研究团队开发 Graph-PRefLexOR,一组图原生推理模型,用 GRPO 微调,将推理组织为机制探索、图构建、模式提取和假设合成等显式阶段。在材料科学与力学的 100 个开放式问题上,相较基础模型提升 40–65%,最大增益来自推理可追溯性。嵌入分析显示语义多样性约为基线 2–3 倍;层间隐藏状态分析表明结构化推理与最终答案对齐更强。测试时图扩展表明,额外算力主要增加有限语义空间内的长距离概念重组。

arXiv推理数据/训练论文/研究
15:28
HuggingFace Daily Papers(社区热门论文)
39
ELDR: 面向PD分离式MoE服务的专家局部性感知解码路由

ELDR是为预填充-解码分离式MoE服务设计的解码路由算法。它从请求预填充阶段提取专家激活特征,构建预测生成阶段所需专家的签名,通过离线平衡K-means聚类将签名空间分配到解码节点,在线路由时优先将请求发往签名匹配且负载最轻的节点。签名缓存与KV缓存以KV-block粒度协同索引,保证前缀缓存下签名准确。在vLLM实现,最高40块GPU部署测试,相比四种负载均衡基线中最强的一种,在三个MoE模型和两种负载上降低中位TPOT 5.9–13.9%,模型输出不变。

推理论文/研究部署/工程
15:28
HuggingFace Daily Papers(社区热门论文)
54
多模态连续推理:非对称互变分学习

多模态大语言模型受语言空间瓶颈限制,连续潜在推理虽能绕过离散token的感知损失,但存在训练-推理不匹配:训练时后验利用答案捷径,迫使推理时先验模仿包含不可用信息的后验,导致性能下降。提出非对称互变分学习(AMVL)框架,通过双向KL校准解决——前向KL训练先验匹配后验,反向KL正则化后验防止崩溃至推理不兼容区域,缓解“答案泄露”。理论分析将后验污染形式化为先验污染,证明双KL目标可降低污染。在latent-integrated MLLM上,AMVL在复杂BLINK基准平均提升+10.83,单项推理任务最高提升+32.00,潜在空间稳定性得到改善。

多模态推理论文/研究
15:04
IT之家(RSS)
42
阿里云秒悟 Meoo 上线夜间计划,每晚 22:00 后用 Qwen3.7-Max AI 工具最低 2 折

阿里云为秒悟 Meoo 推出夜间计划,每晚 22:00 至次日 08:00 期间,用户通过 Qoder 或 Meoo 调用 Qwen 3.7-Max 旗舰模型可享 2 折优惠,调用 Qwen 3.7-Plus 模型可享 4 折优惠。活动面向 Meoo Pro 或 Max 套餐用户,系统自动按比例扣减积分,不影响模型质量与响应速度,旨在利用夜间算力资源实现最高 80% 的成本节省。

产品更新推理
11:28
HuggingFace Daily Papers(社区热门论文)
51
Perceive-to-Reason (P2R):解耦感知与推理的细粒度视觉推理框架

Perceive-to-Reason (P2R) 提出两阶段统一框架:模型先作为感知器定位与问题相关的视觉证据,再作为推理器基于标注图像和裁剪区域回答问题。为对齐训练,引入感知-推理交替 GRPO(PRA-GRPO),一种仅用最终答案监督的、区分角色的强化学习策略。基于 Qwen3-VL-Instruct-2B/4B/8B,P2R 在各规模上持续提升性能。其中 P2R-4B 在 V-Star 达 93.2%,在 HR-Bench-4K 和 HR-Bench-8K 上分别达 81.9% 和 80.5%,显著超越对应基线。进一步实验表明,P2R 的收益可延伸至更广泛的多模态推理任务。

多模态推理论文/研究
7月1日
20:28
HuggingFace Daily Papers(社区热门论文)
44
QVal:低成本评估长周期LLM智能体密集监督信号的测试平台

QVal提出一种无需训练的测试平台,通过Q对齐度量直接评估密集监督信号质量,判断动作排序是否匹配强参考策略的Q值。QVal-v1.0在4个环境、7类方法族、6个开放权重模型骨干上对21种密集监督方法进行了超过1200次评估实验,发现简单提示基线一致优于近年文献中的密集监督方法,且性能按方法族显著聚类。该平台易于扩展至新环境和新方法。

智能体推理论文/研究评测/基准
19:40
The Decoder:AI News(RSS)
58
Claude Sonnet 5延续Anthropic隐藏涨价的模式

Claude Sonnet 5在Artificial Analysis评测中以53分(峰值)排名第五,与GPT-5.5 (high)并列。虽输入/输出token价格维持$3/$15不变,但每任务平均成本达$2.29,高于Opus 4.8的$1.97。原因:max设置下输出token消耗比Sonnet 4.6多40%,在agent任务中运行约3倍循环,成本接近翻倍。Anthropic延续了通过新tokenizer增加约30% token消耗的隐藏涨价策略。Sonnet 5在CritPt仅得17%,低于多个更强模型;但Terminal-Bench v2.1、HLE、SciCode分别提升9、10、7分。目前有促销价$2/$10至9月1日,但隐藏成本上涨使其与低价竞品竞争时处于劣势。

Anthropic推理行业动态
18:10
The Decoder:AI News(RSS)
精选70
OpenAI论文揭示GPT-5.6三个Pro变体,打破单一顶级策略

OpenAI论文首次列出GPT-5.6的三个Pro变体:Luna Pro、Terra Pro和Sol Pro,取代以往单一Pro模式。在基因组学基准中,Sol Pro通过率31.5%居60个测试模型之首,领先标准Sol(28.7%)和Claude Opus 4.8(16.0%)。Pro相比标准版本提升逐级递减:Luna Pro提升7.1个百分点(16.5%→23.6%),Terra Pro提升5.2(23.3%→28.5%),Sol Pro仅提升2.8(28.7%→31.5%)。Terra Pro(28.5%)几乎与标准Sol(28.7%)持平。论文未披露Pro运行的token用量,也不清楚该分层是否会在ChatGPT中实际推出。

OpenAI推理行业动态

推荐理由:论文意外曝光 GPT-5.6 Pro 将有三个变体,Pro 不再只是一个最强模型,而是让用户按推理需求选版本,这才是匹配 200 美元月费该有的逻辑。
16:32
MarkTechPost(RSS)
精选73
NVIDIA 发布 Nemotron-Labs-TwoTower 开放权重扩散语言模型

NVIDIA 发布 Nemotron-Labs-TwoTower,基于冻结的自回归骨干 Nemotron-3-Nano-30B-A3B 的扩散语言模型。采用双塔架构:上下文塔冻结,降噪器塔训练,通过层对齐交叉注意力和状态播种协作。在 2×H100 上 BF16 评估,保留 98.7% 的 AR 基线质量,生成吞吐量提升 2.42 倍(γ=0.8,块大小 S=16)。降噪器在约 2.1T token 上训练,骨干使用 25T token 预训练。总参数约 60B,每 token 活跃参数约 3B/塔。支持扩散、模拟 AR 和 AR 三种解码模式。

开源生态推理模型发布部署/工程

推荐理由:NVIDIA这个TwoTower把扩散解码接在已有的AR骨干上,几乎无损质量却让吞吐翻倍,并且开源可商用,对批量文本生成的团队是实在的加速工具。
14:28
HuggingFace Daily Papers(社区热门论文)
40
多块扩散语言模型

MBD-LMs通过多块教师强制(MultiTF)后训练块扩散语言模型(BD-LMs)得到。MultiTF结合教师强制与扩散强制,在干净前缀上训练有界噪声组,采用随机噪声调度器匹配多块扩散推理状态。基于Block Buffer的优化解码实现前缀缓存复用和输入形状静态化,将更高并行度转为实际加速。MBD-LLaDA2-Mini的TPF从3.47提升至6.19,准确率从79.95%提升至81.03%;结合DMax后TPF

推理数据/训练论文/研究
14:03
IT之家(RSS)
49
英伟达刷新 DeepSeek V4 推理纪录:单 Token 成本降至 1/5,AI 吞吐量最高提升 20 倍

英伟达 6 月 30 日发布博文,宣布在 Blackwell 平台上通过全栈推理优化,使 DeepSeek V4 模型的单 Token 成本降至 1 个月前的五分之一,达到行业最低水平。优化涵盖生产运营、应用加速和基础设施访问三层,采用分离式服务、大规模专家并行、NVLink 并行通信、NVFP4 精度及多 token 预测等技术,单 GPU 的 token 吞吐量最高提升 20 倍。

DeepSeek推理行业动态部署/工程
12:00
公众号:龙猫LongCat(美团)
精选82
美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型

美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T,平均激活约48B,原生支持1M超长上下文,在五万卡国产算力集群上完成全流程训练与推理。采用LSA稀疏注意力、零计算专家、ScMoE及MOPD多专家融合(Agent/Reasoning/Interaction三组专家)架构。评测中SWE-bench Pro获59.5,SWE-bench Multilingual获77.3。预览版已通过OpenRouter和longcat.ai开放,月调用量跻身OpenRouter全球前三。

开源生态推理模型发布编码
关联讨论 7 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)X:Emad Mostaque (@EMostaque)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)
推荐理由:国产算力上首个全流程自训的万亿开源模型,1M上下文和动态专家架构直指Agentic Coding场景,OpenRouter调用量已经冲到前三,不是Demo是生产力。
11:28
HuggingFace Daily Papers(社区热门论文)
42
BlockPilot:基于实例自适应策略学习的扩散投机解码方法

针对扩散投机解码中固定推理块大小且假设最优解码策略对所有输入统一的问题,BlockPilot 提出一种样本自适应策略,利用预填充层的表示首次预测每个样本的最优块大小,将选择问题转化为低维结构化决策空间的轻量策略学习。该方法即插即用、开销极低,在 Qwen3-4B 模型、温度 T=1 条件下,实现接受长度 5.92 和 4.20 倍加速,无需牺牲生成质量。

arXiv推理论文/研究
10:08
Hacker News 热门(buzzing.cc 中文翻译)
40
Leanstral 1.5 发布

Leanstral 1.5 是 Lean 4 形式证明工程模型的更新版,专为自动定理证明和自动形式化优化。总参数量 119B,激活参数 6.5B,上下文窗口 256k,免费使用。支持 Chat Completions、Function Calling、Agents、Structured Outputs、OCR、Embeddings 等 API 功能。

推理模型发布
10:03
IT之家(RSS)
51
Etched 推理加速器芯片完成流片,获超10亿美元订单和8亿美元融资

Etched 宣布推理加速器芯片完成 A0 步进流片和首批机架构建,获超10亿美元订单和8亿美元B轮融资,首批机架产品预计2026年夏天出货。该芯片基于台积电N4P制程,数学模块电压比大多数竞品低50%以上,能以超80%算力效率运行1T规模稀疏MoE模型。缓存采用片上SRAM+片外HBM组合设计,结合高带宽互联技术,兼顾低延迟与大容量。

产品更新推理
10:03
IT之家(RSS)
39
Tenstorrent 发布 RISC-V CPU 内核 TT-Ascalon S,单位面积性能达旗舰 IP 的 140%

Tenstorrent 发布 RISC-V CPU 内核 TT-Ascalon S,以旗舰核心 Ascalon X 一半面积实现其 70% 性能,单位面积性能达 1.4 倍。该内核为乱序超标量 4 宽解码,符合 RVA23 配置文件,IPC 每 GHz 在 SPECint2006 中得 15 分,单集群可扩展至 8 核。面向代理式 AI,优化智能体混合执行模式。在 Kimi K2.6 上达 900 Token/s/user(GPU 三倍),DeepSeek-R1-0528 671B 达 400+ Token/s/user,LTX 2.3 Fast 视频生成速度为 GPU 四倍。

产品更新推理
06:01
MarkTechPost(RSS)
70
Anthropic 发布 Claude Sonnet 5:中端智能体模型,基准与定价详解

Anthropic 发布 Claude Sonnet 5,定位为最具智能体能力的中端模型,即日起成为 Free 和 Pro 计划的默认模型。在 SWE-bench Pro 上得分 63.2%(前代 58.1%),OSWorld-Verified 达 81.2%(前代 78.5%),HLE(带工具)57.4%。输入/输出定价 2026 年 8 月 31 日前 $2/$10 每百万 token,之后 $3/$15。支持低/中/高/超高四档 effort 级别,低中 effort 下性价比最优。上下文窗口 1M token,采用新 tokenizer,相同文本 token 数增长约 1.0–1.35 倍。幻觉与谄媚率低于前代。开发者仅需更换模型字符串为 claude-sonnet-5 即可调用 API。

智能体Anthropic推理模型发布
关联讨论 11 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Claude Code:GitHub Releases(RSS)The Decoder:AI News(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)Anthropic:Newsroom(网页)
02:37
Hacker News 热门(buzzing.cc 中文翻译)
78
Anthropic 发布 Claude Sonnet 5:最具智能体能力的 Sonnet 模型

Anthropic 发布 Claude Sonnet 5,定位为迄今最具智能体能力的 Sonnet 模型。它在推理、工具使用、编码和知识工作等智能体性能上较前代 Sonnet 4.6 显著提升,表现接近 Opus 4.8 但价格更低。即日起在所有计划中可用,成为 Free 和 Pro 计划的默认模型,并支持 Claude Code 及 Claude 平台。API 推出优惠定价:每百万输入 token $2、每百万输出 token $10(持续至 2026 年 8 月 31 日),之后恢复为 $3 和 $15。安全评估显示,Sonnet 5 在拒绝恶意请求、抵抗提示注入攻击、减少幻觉和谄媚行为上优于前代,但在网络安全任务上的能力显著弱于 Opus 4.8。

智能体Anthropic推理模型发布
关联讨论 11 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Claude Code:GitHub Releases(RSS)The Decoder:AI News(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)Anthropic:Newsroom(网页)
02:28
TechCrunch:AI(RSS)
73
Anthropic 推出 Claude Sonnet 5,主打低成本智能体能力

Anthropic 发布 Claude Sonnet 5,这是其中端模型的最新版本,具备制定计划、使用浏览器和终端等工具并自主运行的能力。其性能接近 Opus 4.8,但成本更低:即日起至 8 月 31 日,输入每百万 tokens $2,输出每百万 tokens $10,之后分别涨至 $3 和 $10。在智能体编程基准上得分为 63.2%(Opus 4.8 为 69.2%,Sonnet 4.6 为 58.1%),在知识工作基准上略超 Opus 4.8。安全方面,不当行为、幻觉和谄媚率低于 Sonnet 4.6,且更善于拒绝恶意请求和提示词注入攻击。

智能体Anthropic推理模型发布
关联讨论 11 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Claude Code:GitHub Releases(RSS)The Decoder:AI News(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)Anthropic:Newsroom(网页)
02:28
TechCrunch:AI(RSS)
64
AI芯片初创公司Etched获10亿美元订单,台积电已量产其芯片

AI芯片初创公司Etched近日披露,其芯片已由台积电成功制造,并已获得10亿美元合同订单。公司正与客户测试首批“前沿推理集群”系统,声称比竞品推理更快、成本更低、能效更高。Etched成立于2022年,累计融资8亿美元,最新一轮5亿美元于去年12月完成,投后估值50亿美元。投资者包括VentureTech Alliance、Jane Street等,天使投资人包括Andrej Karpathy、Geoffrey Hinton等。

推理行业动态部署/工程
02:08
The Decoder:AI News(RSS)
56
OpenAI 将访客 ChatGPT 用户的推理成本降低逾一半

本月早些时候,OpenAI 工程师将现有 AI 模型的推理成本削减了一半以上,并应用于未注册账户的访客 ChatGPT 用户。所需 Nvidia GPU 数量降至仅几百块。同时,DeepSeek 开源了一种新方法,可将推理请求速度提高 60% 至 85%。这些节省的资源可用于扩大服务规模、优化模型或改善响应速度。

OpenAI推理行业动态
01:03
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选70
OpenAI 发布 GeneBench-Pro:计算生物学研究级基准测试

OpenAI 发布 GeneBench-Pro,用于评估 AI 智能体在计算生物学中处理模糊性和做出判断性分析的能力。该基准包含 129 个问题,覆盖统计遗传学、群体遗传学等 10 个领域 21 个子领域。每个问题提供真实混乱的数据集和实验背景,要求模型探索数据、选择分析路径并迭代实验。采用合成数据构建,已知完整因果结构。82 个问题已由外部领域专家审核确认其现实性。

OpenAI推理论文/研究

推荐理由:OpenAI 的新基准揭示了一个信号,GPT-5.6 在需要科学判断的模糊任务上进步神速,从不足 5% 到接近 30%,且单题成本仅几美元,这对 AI for Science 的落地想象空间影响不小。
00:42
Dwarkesh Patel:Podcast & Blog(RSS)
精选61
Grant Sanderson 谈 AI 与数学的未来

3Blue1Brown 创办人 Grant Sanderson 正在制作记录 AI 在数学领域进展的新项目。他在与 Dwarkesh Patel 的对谈中指出,AI 在 IMO 获金牌并不等于 AGI,只是又一个被攻克的基准。即使 AI 未来解决千禧年大奖难题,仍可能存在大量人类任务无法被自动化。对话还探讨了概念突破验证周期可长达一个世纪、Riemann 假设的 AI 证明能否被人类理解、AI 能否在已有文献间发现隐藏联系,以及现实经济任务难以套用强化学习环境等话题。

大佬观点推理现象/趋势

推荐理由:这次对谈没有停留在AI刷数学题的喜报上,而是追问了‘验证循环’和‘定义生成’两个终极难题。Grant Sanderson的视角让人重新思考AI的进展究竟缺什么,数学家未来的角色会是什么。
6月30日
23:02
IT之家(RSS)
62
消息称 OpenAI 通过系统底层优化,将 AI 模型推理成本减半

OpenAI 工程师在内部透露,公司通过一系列系统底层优化,将 AI 模型的推理(运行)成本降低了 50% 以上。此次优化主要得益于提升现有服务器资源利用率,而非新增计算芯片投入,使得所需英伟达芯片更少。节省的成本可用于降低 API 定价或提高用户使用限额。

OpenAI推理行业动态
23:02
IT之家(RSS)
46
单芯片混合精度浮点算力达 896TFLOPS,中昊芯英新一代 TPU 芯片「须臾」发布

中昊芯英发布新一代全自研 TPU 芯片「须臾」,单芯片混合精度浮点算力 896 TFLOPS,为上一代「刹那」3 倍;8-bit 推理算力 1792 TOPS。单卡功耗 600W,较传统芯片降低 50%。同步推出智算底座「泰则 2.0」,搭载两路 CPU 与 8 片 TPU,混合精度算力 7.168P,整机能耗为传统 GPU 服务器 80%。平台原生支持 PyTorch、vLLM、SGLang 等框架,已完成 Qwen、DeepSeek、GLM 等数十款大模型适配,满足政务、金融等行业安全合规要求。

产品更新推理部署/工程
16:38
The Decoder:AI News(RSS)
67
Deepseek发布DSpark推理框架,AI响应速度最高提升85%

Deepseek推出DSpark推理框架,采用推测解码技术,由小模型生成候选答案、大模型批量验证,并一次生成多个token而非单个,使每用户响应速度提升60–85%。系统基于置信度动态调整验证深度,减少无效计算。DSpark与Deepseek-V4-Pro模型(与北京大学联合开发)已在HuggingFace和GitHub以MIT许可证开源。高效推理降低对高端芯片需求,有助于中国与欧盟在芯片受限下获取更多AI性能,短期构成战略优势。

DeepSeek开源/仓库开源生态推理
16:37
Hacker News 热门(buzzing.cc 中文翻译)
43
Moondream Photon 通过流水线解码消除 GPU 气泡,提升 35% 吞吐量

Moondream 推理引擎 Photon 在 NVIDIA B200 上实现约 33ms 近实时 VLM 推理。其利用流水线解码技术,将 GPU 计算与 CPU 任务重叠,消除传统循环中 GPU 空闲等待的“GPU 气泡”,使解码吞吐量提升高达 35%。文章详述三种关键机制:乒乓缓存槽位避免缓冲冲突、前向计算与采样解耦实现受约束解码、以及已结束请求的清理流程(zombies)。

推理教程/实践部署/工程
15:37
Hacker News 热门(buzzing.cc 中文翻译)
77
LongCat-2.0 开源:1.6T 总参数、48B 活跃参数的 MoE 模型

LongCat-2.0 正式开源,总参数 1.6 万亿,每 token 激活约 480 亿参数,采用 MoE 架构。新引入 LongCat Sparse Attention(LSA)和 N-gram Embedding 模块,支持百万级上下文窗口。模型在 5 万+ AI ASIC 上训练,消耗超 35 万亿 tokens,训练全程无回滚。在编码和智能体任务上表现优异,深度集成 Claude Code 等工具。提供 GitHub、HuggingFace 及 API 访问。

智能体开源生态推理模型发布
关联讨论 7 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)X:Emad Mostaque (@EMostaque)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)
15:02
IT之家(RSS)
55
AI 老板 500 天模拟经营:多数模型亏惨,Claude Fable 5 独占鳌头

普林斯顿大学发布 CEO-Bench 基准测试,模拟创业公司 500 天经营,启动资金 100 万美元,评估 AI 模型担任 CEO 的能力。多数模型在 500 天后破产。最佳单次运行中,Claude Fable 5 期末现金达 4715 万美元,是唯一多次运行均高于初始余额的模型;Claude Opus 4.8 为 2778 万美元,GPT-5.5 为 2130 万美元。Grok 4.20 平均仅存活 28 天,DeepSeek V4 Pro 和 Gemini 3 Flash 亦全部破产。基于规则的基准模型最终余额为 1580 万美元。

智能体Anthropic推理评测/基准
12:02
IT之家(RSS)
50
寒武纪成科创板首支万亿市值股,年初至今涨超75%

寒武纪今日盘中涨幅扩大至7%,总市值突破1万亿元,成为科创板首支万亿市值个股,位居A股第9位,年初至今累计上涨超75%。一季度报告显示,公司营收28.85亿元,同比增长159.56%;归母净利润10.13亿元,同比增长185.04%;扣非净利润9.34亿元,同比增长238.56%;基本每股收益2.40元/股,同比增长182.35%。董事长陈天石表示,互联网企业自研芯片主要围绕主营业务或特定场景,寒武纪提供云边端一体、软硬件协同、训练推理融合的系列化智能芯片产品与平台系统。

推理行业动态
12:02
IT之家(RSS)
54
微软全面推出 Anthropic Claude 模型 Azure 云服务,基于英伟达 GB300

英伟达宣布,微软在 Microsoft Foundry 平台正式推出托管于 Azure 云服务的 Anthropic Claude 模型。硬件基于 NVIDIA GB300 NVL72 机架,采用 Quantum-X800 InfiniBand 互联。首批提供 Claude Opus 4.8 和 Claude Haiku 4.5,核心功能包括提示缓存和扩展思维,支持编程、代理式工作到复杂推理等用例。该服务原生集成 Azure 云控制功能,可将 Claude 模型接入 Azure 生态系统。英伟达还提供了智能体技能和安全智能体工作区参考设计。

AnthropicMicrosoft产品更新推理
11:26
HuggingFace Daily Papers(社区热门论文)
精选77
Agents-A1:35B MoE 智能体模型通过扩展 horizon 达到万亿参数级性能

研究人员提出 Agents-A1,一个 35B 参数的 Mixture-of-Experts 智能体模型,通过扩展智能体 horizon(长轨迹与异构能力两个视角)达到万亿参数模型性能。团队构建了长 horizon 知识-行动基础设施,生成平均 45K token 的智能体轨迹,并采用三阶段训练:全领域监督微调、领域级教师模型训练、多教师领域路由在线蒸馏(含显著词汇对齐)。对比万亿参数模型 Kimi-K2.6 和 DeepSeek-V4-pro,Agents-A1 在 SEAL-0(56.4)、IFBench(80.6)、HiPhO(46.4)、FrontierScience-Olympiad(79.0)和 MolBench-Bind(56.8)上领先,并在 SciCode(44.3)、HLE(47.6)和 BrowseComp(75.5)上保持强竞争力。

智能体推理论文/研究

推荐理由:用35B模型追平1T参数模型,这条“扩展智能体视野”的路比无脑堆参数务实得多,做Agent和长程推理的团队必须认真读。
11:02
IT之家(RSS)
76
美团发布万亿参数大模型 LongCat-2.0,五万卡国产算力训练并开源

美团今日发布万亿参数大模型 LongCat-2.0,总参数 1.6T,平均激活约 48B(动态 33B~56B),从零预训练,原生支持 1M 超长上下文,是业界首个在五万卡国产算力集群上完成全流程训练与推理的模型。预览版已在 OpenRouter 及 longcat.ai 开放,月调用量跻身 OpenRouter 全球前三。预训练数据超 30T tokens,通过 HCCL 异常处理等将月均日故障率降低 70% 以上,训练 MFU 提升 1.5 倍,稳态日吞吐超 1T tokens/day。推理采用 LSA 稀疏注意力和零计算专家实现 token 级动态激活。在 SWE-bench Pro 上获 59.5,领先 Gemini 3.1 Pro、GPT-5.5 和 Claude Opus 4.6;在其他多项评测中达到或接近前沿闭源模型水平。

开源生态推理模型发布编码
关联讨论 7 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)X:Emad Mostaque (@EMostaque)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)
‹ 上一页
123…30
下一页 ›