AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
6月15日周一
23:42Ethan Mollick53AI数学测试解7/10难题仍被指未达标
22:24Baidu Inc.53DuMate 核心升级,token 消耗降 75%
22:23Hacker News 热门(buzzing.cc 中文翻译)63Openrouter Fusion API
21:55Cloudflare Blog50Cloudflare 引入 Ensemble AI 团队,加速 AI 基础设施研发
21:30公众号:百度智能云(文心)50上海交大🤝百度智能云:首破世界-动作模型时间绑定,无需预训练即达SOTA
18:31公众号:月之暗面(Kimi)69精选6倍速!Kimi K2.7 Code 高速版已上线
17:43IT之家(RSS)52理想马赫 M100 发布:全球首款动态数据流 AI 芯片,5nm 车规级工艺,单芯算力 1280 TOPS
16:23Berryxia.AI60Gemma 4 12B Coder GGUF 发布:将 Fable 5 推理链蒸馏至本地可跑
15:42IT之家(RSS)51消息称字节跳动正与天数智芯洽谈购买 AI 芯片
14:38MarkTechPost(RSS)63Z.ai 发布 GLM-5.2,支持可用 1M Token 上下文窗口及两种思考强度
08:00HuggingFace Daily Papers(社区热门论文)51后训练如何塑造生物推理模型
08:00HuggingFace Daily Papers(社区热门论文)41RL-Index:面向检索索引推理的强化学习方法
08:00HuggingFace Daily Papers(社区热门论文)51反思掩码(RM)激发掩码扩散模型的推理能力
08:00HuggingFace Daily Papers(社区热门论文)46ContextRL:面向智能体与多模态大语言模型的上下文感知强化学习
08:00HuggingFace Daily Papers(社区热门论文)44Taylor-Calibrate:混合线性注意力蒸馏的原则性初始化方法
08:00HuggingFace Daily Papers(社区热门论文)48视觉锚定推理(Thinking with Visual Grounding)
08:00HuggingFace Daily Papers(社区热门论文)54基于梯度的 RLVR 稳定性分析与 WAPO
07:55karminski-牙医53Qwen3.6-27B在Iterative-Contextual-Refinements框架下超越Anthropic Fable5
6月14日周日
23:45HuggingFace Daily Papers(社区热门论文)42SciOrch:训练轻量8B模型编排专家LLM解决前沿科学推理
22:44Rohan Paul59研究:LLM智能体并未真正从抽象规则中学习
18:38IT之家(RSS)49富国银行:亚马逊 AWS 为降低 AI 推理成本,有望采购高通 AI200 芯片
17:50公众号:千问APP(阿里)10千问预测世界杯四场比赛结果:荷兰胜日本、德国胜库拉索
16:31Chubby♨️58OpenRouter 推出 Fusion API:多模型并行协作降本增效
15:41StepFun48Step 3.7 Flash 上线 DeepInfra
15:11StepFun43Step 3.7 Flash 上线 DeepInfra
12:11Yuchen Jin48中国开源AI或6个月内首超美国闭源模型
08:00HuggingFace Daily Papers(社区热门论文)53谁在翻转?自我与跨模型反驳揭示LLM答案不稳定性
07:48🚨 AI News | TestingCatalog56OpenRouter Fusion API
04:44SemiAnalysis47Rio 3.5 Open 397B 推出动态推理框架
02:11Ethan Mollick48非关键任务用小模型?假设有缺陷
01:12SemiAnalysis66MiniMax M3 上线 HuggingFace 并接入 InferenceX
00:39Rohan Paul44面向大语言模型的智能体强化学习综述论文摘要
00:17OpenRouter:Announcements(RSS)73同事件精选OpenRouter融合预算模型面板超越GPT-5.5和Claude Opus 4.8同一事件,精选展示《OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7》
6月13日周六
20:33The Decoder:AI News(RSS)50Google Research 的 Gemini-SQL2 在 text-to-SQL 基准测试中以大幅优势领先
18:36IT之家(RSS)63科大讯飞发布星火多模态大模型 X2-VL,当前唯一基于全国产算力训练的主流大模型
18:33The Decoder:AI News(RSS)35Claude Fable 5 在 FrontierMath 最难题目上超越 GPT-5.5 13 个百分点
17:54公众号:龙猫LongCat(美团)26美团履约AI算法团队ACL'26论文分享会
17:54公众号:卡尔的AI沃茨5813个顶级AI重考2026高考数学,咋还没一个拿到满分
14:36IT之家(RSS)55谷歌发布Gemini-SQL2,Text-to-SQL准确率80.04%登顶
14:36IT之家(RSS)73精选SemiAnalysis 洞察 Token 经济:200 美元 AI 订阅榨出 70 倍用量
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月15日
23:42
Ethan Mollick@emollick
53
奇怪的标题--我不确定解决10个极其困难的新问题中的7个就意味着AI"没有完成任务",而15个月前大语言模型还不会做数学。 但实际研究很有趣,揭示了AI在数学中的缺陷与成功。https://1stproof.org/assets/docs/report.pdf 【引用 @Nature】:人工智能经历了其最严谨的数学测试,然而它并未完成任务 https://go.nature.com/4oqlNk6

nature: Artificial intelligence has undergone its most scrupulous maths test yet, and it did not live up to the task https://go....

大佬观点推理评测/基准
22:24
Baidu Inc.@Baidu_Inc
53
DuMate 变得更高效了。 凭借最新的核心引擎升级,通过对 Harness 引擎及相关工程工作流的优化,DuMate 现在能以降低 75% 的 token 消耗完成相同任务,且不影响任务性能。 对用户而言,这也意味着积分消耗降低 75%。
产品更新推理
22:23
Hacker News 热门(buzzing.cc 中文翻译)
63
Openrouter Fusion API

Openrouter 推出 Fusion API,可通过 openrouter.ai 使用,在 Hacker News 上获得 103 个用户点赞。

智能体产品更新推理
21:55
Cloudflare Blog
50
Cloudflare 引入 Ensemble AI 团队,加速 AI 基础设施研发

Cloudflare 宣布 Ensemble AI 团队关键成员加入,以加速 AI 基础设施研发。Ensemble 专注于模型压缩与高效推理,开发了 NdLinear(可直接替换 Transformer 标准线性层并保持多维激活结构)和 NdLinear-LoRA(降低大模型微调所需可训练参数)。这些技术与量化等方法互补,旨在降低大语言模型和多模态架构的内存、计算与部署开销。Cloudflare 将把 Ensemble 的成果整合到 Workers AI 平台,通过全球网络与 serverless GPU 推理服务,进一步提升推理效率、GPU 利用率和部署经济性。

推理行业动态部署/工程
21:30
公众号:百度智能云(文心)
50
上海交大🤝百度智能云:首破世界-动作模型时间绑定,无需预训练即达SOTA

上海交大ScaleLab团队联合上海人工智能实验室、百度智能云推出机器人操控模型AHA-WAM,突破世界-动作模型延迟瓶颈。在RoboTwin 2.0上以92.8%平均成功率超越主流模型,真实场景综合成功率78.3%。闭环控制频率从5.26Hz提升至24.17Hz,轻量版AHA-WAM-Flash达56.95Hz,提速超10倍。百度百舸平台实现单步推理延迟从415ms降至41ms。异步架构与蒸馏技术实现高实时控制。

具身智能推理论文/研究
18:31
公众号:月之暗面(Kimi)
精选69
6倍速!Kimi K2.7 Code 高速版已上线

Kimi K2.7 Code 高速版上线,与普通版为同一模型,输出速度约 5-6 倍,常规编程场景约 180 Token/s,短上下文可达 260 Token/s。API 定价为普通版 2 倍,模型 ID:kimi-k2.7-code-highspeed。Kimi Code Plan 用户可通过「抢先体验计划」使用,用量消耗为普通版 3 倍。使用须开启思考模式,关闭会报错或回退至 K2.6。庆祝发布,Kimi API 开放平台推出为期三周充赠活动,充值 500 元及以上享 20%-30% 代金券。相比 K2.6,K2.7 Code 在长上下文编程指令遵循、长程任务性能提升,平均 token 消耗减少 30%,内部基准测试显著提升。普通版输入 6.5 元/百万 token、输出 27 元,缓存输入 1.3 元。非编程任务推荐 K2.6。

产品更新推理编码
关联讨论 4 条X:硅基流动 SiliconFlow (@SiliconFlowAI)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:Kimi.ai (@Kimi_Moonshot)
推荐理由:这不是 K2.7 的换代,而是给开发者开了条高速车道,180 token/s 让代码补全几乎无感,虽然贵但省时间,重度编程用户值得切。
17:43
IT之家(RSS)
52
理想马赫 M100 发布:全球首款动态数据流 AI 芯片,5nm 车规级工艺,单芯算力 1280 TOPS

今日理想汽车在 Livis Day 发布会上推出全球首款动态数据流 AI 芯片——理想马赫 M100。该芯片采用 5nm 车规级工艺,单芯片算力 1280 TOPS,是目前量产最强大的车规级推理芯片。因数据流架构设计,实际运行效率超过 82%。

产品更新具身智能推理
16:23
Berryxia.AI@berryxia
60
Gemma 4 12B Coder GGUF 发布:将 Fable 5 推理链蒸馏至本地可跑

Berry Xia 介绍了基于 Google gemma-4-12B-it 微调的 Gemma 4 12B Coder GGUF 模型。它将 Fable 5 的推理链条蒸馏进 12B 参数模型,训练数据使用 Composer 2.5 真实通过案例并由 Fable 5 辅助补全。GGUF 格式让模型在 12GB 消费级显卡即可本地运行,甚至支持 CPU。模型专为代码生成、调试、复杂算法、链式思考提示等任务优化,无需 API 费用且无导出限制。该模型基于 Google 最新 gemma-4 架构,目前下载量已破六千,社区反馈其在本地 coding 场景表现出色,填补了云端模型与本地可用之间的鸿沟。

Hugging Models: Gemma 4 12B Coder is here and it's a game changer for local code generation. This GGUF model packs Google's latest gemma...

Google开源生态推理模型发布
15:42
IT之家(RSS)
51
消息称字节跳动正与天数智芯洽谈购买 AI 芯片

据路透社援引知情人士消息,字节跳动正与上海芯片公司天数智芯洽谈采购 AI 推理芯片,同时也在考虑与百度旗下昆仑芯合作。若交易达成,天数智芯将成为字节跳动继华为、寒武纪后的第三家国产 GPU 主要供应商。消息人士称,天数智芯预计今年向字节跳动供应至少 5 万颗芯片,主要用于 AI 推理任务,以支撑豆包用户规模持续扩张。目前交易细节尚未敲定,仍存变数。

推理行业动态
14:38
MarkTechPost(RSS)
63
Z.ai 发布 GLM-5.2,支持可用 1M Token 上下文窗口及两种思考强度

Z.ai 于 6 月 13 日发布 GLM-5.2,这是 GLM-5 系列四个月内的第四款旗舰编码模型。核心亮点是可用的 100 万 token 上下文窗口(标识为 glm-5.2[1m]),每轮最多输出 131,072 token,约为 GLM-5.1 的 5 倍。新增 High 和 Max 两种思考强度级别,Max 推荐用于复杂多步编码任务。架构未在发布时公开,但社区指出 GLM-5 基础为 744B 参数的 MoE 模型,每 token 激活 40B 参数。Z.ai 未公布任何基准测试分数。GLM-5.2 兼容 Claude Code、Cline 等 8 种编码智能体工具,可通过 Anthropic 兼容端点直接替换使用,对所有 GLM Coding Plan 用户(Lite/Pro/Max/Team)开放。

推理模型发布编码
08:00
HuggingFace Daily Papers(社区热门论文)
51
后训练如何塑造生物推理模型

研究分析后训练各阶段对生物推理模型泛化能力的影响。在基因组学、转录组学、蛋白质组学上训练并评估超过100个模型,控制backbone、继续预训练(CPT)、监督微调(SFT)和强化学习(RL)的变化,测量域内(ID)与域外(OOD)性能。结果发现:CPT通过对齐生物语言提升下游性能;SFT持续提高ID但导致OOD先升后降;RL作用于强SFT检查点时可改善OOD并部分恢复泛化。生物推理不随监督或计算量单调提升,最佳ID-OOD权衡来自短SFT、大RL分配和跨阶段非对称适应能力。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
41
RL-Index:面向检索索引推理的强化学习方法

RL-Index 是一种智能体索引框架,将检索索引推理形式化为强化学习问题。它在索引阶段利用 LLM 生成的推理(rationales)增强文档,并采用 Group Relative Policy Optimization(GRPO)与检索相似度作为可验证奖励信号,直接优化索引决策以提升检索效果。在 BRIGHT 基准上,RL-Index 持续提升检索与下游问答性能,显著降低在线推理延迟,且所学的推理增强可跨不同检索器与生成器泛化,作为一种即插即用的索引策略。

检索增强推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
反思掩码(RM)激发掩码扩散模型的推理能力

自回归模型推理依赖链式思维和反思,但局部修改仍需完全顺序生成。掩码扩散模型(MDMs)的掩码机制天然支持选择性局部编辑,但现有MDMs不支持多轮掩码与去噪。本文提出反思掩码(RM),通过轻量后训练激发MDMs的多轮掩码能力,迭代修改先前输出。RM还引入免参数的历史参考机制,利用中间去噪状态提升修订效果。无需架构改动,在文本生成、数独、图像编辑等任务上一致优于标准掩码基线。

arXiv多模态推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
46
ContextRL:面向智能体与多模态大语言模型的上下文感知强化学习

ContextRL 是一种上下文感知强化学习方法,通过让模型从两个相似上下文中选出支持查询-答案对的上下文,改善长上下文和多模态细粒度理解。针对代码智能体用轨迹构建 1k 对对比数据,针对多模态推理用图像构建 7k 对。在 5 个长程推理基准上平均提升 +2.2%,在 12 个多模态视觉问答基准上平均提升 +1.8%。与使用相同数据但仅作为标准示例的基线对比,后者几乎无改进,表明增益来自上下文选择目标而非额外数据。

多模态推理编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
Taylor-Calibrate:混合线性注意力蒸馏的原则性初始化方法

混合线性注意力模型可加速长上下文推理,但将预训练Transformer转换为Gated DeltaNet学生模型时,直接复制教师注意力投影会导致初始化脆弱,需大量蒸馏token修复。Taylor-Calibrate是一种轻量级初始化方法,利用Taylor引导的教师注意力统计设定值投影、记忆时间尺度、写门和输出门,再通过短逐层对齐匹配教师输出。在四个教师设置和三种保留层策略下,Taylor-Calibrate显著提升零样本学生性能,代表性消融改进高达88倍,达到匹配恢复目标所需训练token比朴素转换少4.9至9.2倍。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
视觉锚定推理(Thinking with Visual Grounding)

提出视觉锚定推理,让VLM在生成自然语言推理步骤时,显式输出点或框来锚定每一步依赖的图像区域。训练管道从正确推理轨迹提取对象,用SAM3-based agent获取锚定掩码,派生点与框监督。进一步提出锚定感知强化学习,结合答案正确性奖励和密集锚定奖励。在2个计数基准和4个空间推理基准上,Gemma3-4B-IT应用后性能提升,空间推理任务上匹配或超越Gemma3-27B-IT。点锚定适用于计数,框锚定在空间任务受益于显式锚定奖励。

多模态推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
基于梯度的 RLVR 稳定性分析与 WAPO

带可验证奖励的强化学习(RLVR)可提升语言模型推理能力,但 GRPO 式优化易出现不稳定性。通过 token 级梯度动态分析,发现更新受优势符号与当前策略下 token 分布共同影响。为此提出胜者优势策略优化(WAPO),一种仅对正优势补全进行更新的在线剪切策略梯度目标。在数学推理与多跳问答基准上,WAPO 提升了训练稳定性,并在多个模型族上达到或超越基线表现。完整代码已开源。

GitHub推理数据/训练论文/研究
07:55
karminski-牙医@karminski3
53
Qwen3.6-27B在Iterative-Contextual-Refinements框架下超越Anthropic Fable5

Iterative-Contextual-Refinements框架使Qwen3.6-27B在CGRE测试中获95.5分,超越Anthropic Fable5(Mythos)的94.1分。该框架通过BFS探索多种方案(如KMP、滑动窗口)、DFS结合性能工具迭代优化代码,以及路由统筹形成闭环,克服小模型易陷入局部最优的弱点。代价是token消耗增加25-40倍。框架与论文已开源。

智能体arXivGitHub开源生态
6月14日
23:45
HuggingFace Daily Papers(社区热门论文)
42
SciOrch:训练轻量8B模型编排专家LLM解决前沿科学推理

SciOrch框架训练一个轻量8B模型,用于编排多款前沿大语言模型进行科学推理。它通过API调用将问题分解、委托给商业模型并合成最终答案,训练采用基于MCTS的轨迹生成与GRPO风格优化。在240题测试集(SGI-Reasoning与Scientists' First Exam)上,SciOrch达到56.66%平均准确率,超过最强单个商用模型3.74%,超过最强多智能体基线3.33%,同时API成本不到多智能体方法的一半。

智能体推理论文/研究
22:44
Rohan Paul@rohanpaul_ai
59
研究:LLM智能体并未真正从抽象规则中学习

一项新研究发现,当前提升AI随时间表现的方法存在盲点:LLM智能体实际上并不理解或应用抽象规则总结,而是仅依赖直接复制原始逐步骤历史日志。实验显示,当研究者将浓缩的规则总结替换为随机垃圾文本时,智能体表现无下降;但破坏逐步执行历史则导致明显失败。这表明智能体只是在机械模仿过往步骤,而非真正从教训中学习。论文质疑需重新设计AI记忆机制,因为当前系统仅是模仿而非理解。

智能体推理论文/研究
18:38
IT之家(RSS)
49
富国银行:亚马逊 AWS 为降低 AI 推理成本,有望采购高通 AI200 芯片

富国银行报告指出,高通有望与亚马逊 AWS 深化合作,为其提供 AI200 等新一代 AI 芯片,以降低推理成本、提升运营利润率。高通于 2025 年 10 月发布 AI200,单颗支持 768GB 内存,并推出专为机架级 LLM、LMM 推理设计的方案。AI200 预计 2026 年扩大部署。AWS 已在提供性价比强劲的高通 AI100 Ultra 芯片服务,富国银行认为 AWS 有望成为高通最重要的超大规模云端合作伙伴。

推理行业动态部署/工程
17:50
公众号:千问APP(阿里)
10
千问预测世界杯四场比赛结果:荷兰胜日本、德国胜库拉索

千问对世界杯四场比赛做出预测:德国胜库拉索、荷兰胜日本、厄瓜多尔胜科特迪瓦、瑞典与突尼斯战平。此前巴西1:1摩洛哥的预测接近但未完全命中。千问表示正在加紧“蒸馏章鱼哥”以提升准确率,并透露AI竞猜累积积分已达89%,将用于捐建乡村足球场。

推理行业动态
16:31
Chubby♨️@kimmonismus
58
OpenRouter 发布 Fusion API,一种服务器端复合模型,将同一提示词并行发送给多个模型,允许它们调用网络搜索和 bash 工具。系统通过法官模型比较各模型回答,再由合成器生成最终回复。官方声称,Fusion 在 Perplexity 的 DRACO 深度研究基准上击败前沿模型,同时成本更低--以一半价格即可达到 Fable 级别的智能。

OpenRouter: Introducing the Fusion API, the smartest compound model in the market. Fusion achieves Fable-level intelligence at half ...

MCP/工具产品更新推理
15:41
StepFun@StepFun_ai
48
Step 3.7 Flash 现已上线 @DeepInfra 🚀 开发者和团队现可通过 DeepInfra 的 API 试用我们的开源多模态推理模型,并可为专用工作负载部署私有端点。 专为智能体编程、工具使用、搜索和视觉工作流而构建。 感谢 DeepInfra 团队!

DeepInfra: Step 3.7 Flash is Live on DeepInfra: An Agentic, Multimodal Model Built for Production

多模态开源生态推理行业动态
15:11
StepFun@StepFun_ai
43
Step 3.7 Flash 现已在 @DeepInfra 上线 🚀 开发者现在可以通过 DeepInfra 的 API 试用我们的开源多模态推理模型,并支持为专用工作负载部署私有端点。 专为智能体编程、工具使用、搜索和视觉工作流打造。 感谢 DeepInfra 团队!

DeepInfra: Step 3.7 Flash is Live on DeepInfra: An Agentic, Multimodal Model Built for Production

多模态推理模型发布
12:11
Yuchen Jin@Yuchenj_UW
48
一个假设: 如果Anthropic的非公民不能参与Mythos/Fable项目,且LLM越狱问题仍未解决,美国前沿实验室将被迫放缓训练和模型发布。 中国开源AI是否会在约6个月内首次超越美国闭源模型?
Anthropic大佬观点安全/对齐推理
08:00
HuggingFace Daily Papers(社区热门论文)
53
谁在翻转?自我与跨模型反驳揭示LLM答案不稳定性

针对7个前沿模型、57个MMLU科目的研究发现,模型在被给出针对正确答案的合理反驳后,翻转率介于17.5%至97.3%之间,标准准确率指标无法捕捉稳定性差异。自归因(告知模型这是其先前回答)一致提升翻转率,平均+7.1pp,最高+18.7pp。跨模型池化错误选项论证并选取每道题最有效的反驳,比单一源模型构成更强挑战。基于此构建的MaxFlip挑战集,相比标准自生成挑战进一步将翻转率提升至多+23.6pp。协议、挑战记录和MaxFlip已开源。

推理论文/研究评测/基准
07:48
🚨 AI News | TestingCatalog@testingcatalog
56
OpenRouter Fusion API

OpenRouter: Introducing the Fusion API, the smartest compound model in the market. Fusion achieves Fable-level intelligence at half ...

产品更新开源生态推理
04:44
SemiAnalysis@SemiAnalysis_
47
情况检测到:里约热内卢市后训练了一个模型。 基于 Qwen 7/2,Rio 3.5 Open 397B 在基础 Qwen 模型之上添加了 SwiReasoning--一个在标准链式推理与隐空间推理之间动态切换的框架,由基于熵的置信信号引导,使模型仅在必要时"出声思考",其余时间在隐藏空间内静默推理,以提高 token 效率。
推理模型发布
02:11
Ethan Mollick@emollick
48
我认为你应该对不太重要的任务使用较小模型的假设是有缺陷的(或者至少值得更仔细地考虑)。大模型通常在所有方面都更好,除了成本,因此值得考虑在非关键任务上的收益是否有价值。
大佬观点推理
01:12
SemiAnalysis@SemiAnalysis_
66
MiniMax M3 上线 HuggingFace 并接入 InferenceX

MiniMax M3 模型已上线 HuggingFace 并集成至 InferenceX。M3 总参数量约 428B,激活参数约 23B。得益于 Inferact 工程支持,M3 在 NVIDIA B300 Blackwell Ultra 上通过 vLLM 实现 Day 0 优化推理。Inferact 还发布了 EAGLE3 heads 以进一步加速。团队正在 InferenceX 上基准测试 Day 0 MI355X 性能。

Hugging Face推理模型发布
00:39
Rohan Paul@rohanpaul_ai
44
面向大语言模型的智能体强化学习综述论文摘要

该综述梳理了专注大语言模型的智能体强化学习,涵盖500余篇工作,按能力与应用两维度归类。指出传统LLM训练仅对单次答案给予单次奖励,无法处理真实任务中的多步决策、部分信息与延迟反馈。智能体学习框架包含:记忆跟踪上下文、规划选取动作序列、工具影响环境,并整合推理处理约束、感知多模态输入、自我改进优化策略。强化学习串联所有环节——奖励在序列结束时到达,策略借此学习下一步行动。

智能体推理数据/训练论文/研究
00:17
OpenRouter:Announcements(RSS)
同事件精选73
OpenRouter融合预算模型面板超越GPT-5.5和Claude Opus 4.8

通过OpenRouter融合的一组预算模型,在100个复杂研究任务上得分超过GPT-5.5和Claude Opus 4.8。

AnthropicDeepSeekOpenAI产品更新
同一事件,精选展示《OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7》
推荐理由:OpenRouter 的 Fusion API 用多个模型合成输出,基准测试里预算模型组合能接近前沿,这个思路对有质量要求又在意成本的开发者挺实用。
6月13日
20:33
The Decoder:AI News(RSS)
50
Google Research 的 Gemini-SQL2 在 text-to-SQL 基准测试中以大幅优势领先

Google Research 推出 Gemini-SQL2,基于 Gemini 3.1 Pro,可将自然语言转换为可执行 SQL 查询。该模型在 BIRD 基准上达到 80.04% 准确率,大幅领先 OpenAI 和 Anthropic。Google 表示该技术将改进其数据服务的自然语言功能。

Google推理模型发布
18:36
IT之家(RSS)
63
科大讯飞发布星火多模态大模型 X2-VL,当前唯一基于全国产算力训练的主流大模型

6月13日,科大讯飞在长三角机器人及自动化展览会上发布星火多模态大模型X2-VL。该模型基于全国产算力平台太湖星跃训练,采用专属MoE架构。面向高中各科图文结合试题,答题准确率近95%;挑战2026年高考数学全国I卷获148分,高于对比模型A-E(144、143、137、145、142分)。科大讯飞已在无锡高新区成立子公司负责日常运营。

多模态推理模型发布
18:33
The Decoder:AI News(RSS)
35
Claude Fable 5 在 FrontierMath 最难题目上超越 GPT-5.5 13 个百分点

Anthropic 的 Claude Fable 5 在 FrontierMath 最困难级别上达到 88% 准确率,远超 OpenAI 的 GPT-5.5(约 75%),领先 13 个百分点。相较于 2026 年初 Opus 4.5 不到 10% 的表现,实现巨大飞跃。AI 数学推理能力的进步速度持续加快。

AnthropicOpenAI推理评测/基准
17:54
公众号:龙猫LongCat(美团)
26
美团履约AI算法团队ACL'26论文分享会

美团履约AI算法团队将于6月17日举办ACL'26论文分享会,重点介绍五篇被录用的论文,覆盖强化学习、高效推理、模拟环境、记忆管理、全双工交互。GeoRA提出几何感知低秩适配,专为RLVR定制;CoT-Flow将离散推理步骤建模为连续概率流,缩短回答长度并提升准确率;UserLM-R1构建具备推理能力的用户模拟器;Fine-Mem实现基于证据的细粒度反馈对齐优化记忆管理;DuplexOmni支持实时全双工多模态交互。

智能体推理行业动态
17:54
公众号:卡尔的AI沃茨
58
13个顶级AI重考2026高考数学,咋还没一个拿到满分

13个AI模型(含Claude、DeepSeek、Gemini等)在经人工校对为LaTeX的2026高考数学全国一卷中重考,平均分139.4。8道单选全对,3道多选仅Q11翻车(GLM 5.1和Hy3误选ABCD得0分),3道填空全对,Q15-Q17解答题全部满分。Q18解析几何多数答案正确但过程扣分。压轴题Q19无人满分:GPT-5.5因迭代证明跳步扣2分最佳;Opus 4.8、DeepSeek、Gemini等7个模型因答案不完整扣7分。运行时间差异显著——Grok 4.3用时1分钟得134分,Qwen 3.7-Max用时15分钟与MiniMax m3用时2分钟均得138分。

推理评测/基准
14:36
IT之家(RSS)
55
谷歌发布Gemini-SQL2,Text-to-SQL准确率80.04%登顶

Google Research发布Gemini-SQL2模型,基于Gemini 3.1 Pro,专攻自然语言转SQL任务。在BIRD单模型赛道执行准确率80.04%,超越此前Gemini-SQL。BIRD涵盖95个数据库、37个专业领域及12751组问题-SQL配对,含脏数据与外部知识需求。业务人员可用自然语言查询营收、流失等指标。谷歌尚未公布API、模型卡或技术报告,亦未确认产品接入。

Google推理模型发布
14:36
IT之家(RSS)
精选73
SemiAnalysis 洞察 Token 经济:200 美元 AI 订阅榨出 70 倍用量

SemiAnalysis 购买了 Anthropic 和 OpenAI 的全部订阅方案,模拟高强度编码任务直至触及每周上限。月费 200 美元的 Claude Max 20x 方案,按 API 价格换算最高可消耗约值 8000 美元的 token;ChatGPT Pro 20x 方案对应最高约值 14000 美元的 token。用户通过订阅可获取 40 至 70 倍的 API 价值,该机构指出这种价格体系在重度用户持续榨满上限后可能难以长期维持。

AnthropicOpenAI推理现象/趋势

推荐理由:SemiAnalysis 通过高强度编码测试戳破了 200 美元订阅的真实性价比,虽然数据来自推文未附复现步骤,但这个价差足够让重度用户重新算账。
‹ 上一页
1…1011121314…50
下一页 ›