AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
6月24日周三
21:48meng shao66OpenAI 发布首款自研推理芯片 Jalapeño
21:43🚨 AI News | TestingCatalog58OpenAI联手Broadcom推出首款AI芯片Jalapeño
21:30Chubby♨️60OpenAI 发布首款自研 AI 芯片 Jalapeño,专为大语言模型推理设计
21:19OpenAI63OpenAI 首款 AI 芯片 Jalapeño 发布
21:12HuggingFace Daily Papers(社区热门论文)51AGORA:一个基于档案的智能体工作场所文档推理基准
21:11OpenBMB36面壁智能 OpenBMB 联合清华等提出 Know More, Know Clearer 元认知框架,应对 LLM 认知错位幻觉
21:01OpenAI:官网动态(RSS · 排除企业/客户案例)61精选OpenAI 与 Broadcom 联合发布 LLM 推理芯片 Jalapeño
15:37MarkTechPost(RSS)74精选DFlash:块扩散草稿模型实现最高15倍吞吐量提升
15:20公众号:蚂蚁百灵(Ling)49Ling-2.6-1T TPU 推理优化:用 Pallas Kernel 隐藏 MoE 数据搬运
11:47Rohan Paul46微软NextLat:预测隐藏状态让Transformer推理更强
11:40公众号:通义实验室(千问)74Qwen-AgentWorld 开源:让 Agent 学会"先预测,再行动"
10:50Alibaba Cloud64阿里云Qoder全产品非高峰费率上线
10:49HuggingFace Daily Papers(社区热门论文)51CF-World:一个用于测试T2I模型因果推理的反事实基准
10:47Rohan Paul52VibeThinker:3B参数推理模型,性能接近Opus 4.5
09:47Rohan Paul49热力学智能度量:将智能定义为使罕见有效未来更可能发生的能力
08:44meng shao51Apodex深度研究测试:AI Agent公司如何选择产品方向
03:16Rohan Paul66MaineCoon发布22B实时音视频生成模型
00:49François Chollet43符号学习将带来接近最优的AI
00:19IT之家(RSS)39小米 MiMo-V2.5-Pro-UltraSpeed 限时体验延期
6月23日周二
23:12AYi64日本Fugu:0.6B参数的AI项目经理
21:11AYi38AI拆解白毛股神叙事:五条声称仅一条站住脚
19:10公众号:小红书技术(dots.llm)54小红书QEcon分享:Agent驱动的服务端端到端测试
16:50公众号:卡尔的AI沃茨58实测豆包Seed 2.1 Pro,把我六个真实工作流都稳稳接住了
15:07IT之家(RSS)54Sakana AI 推出多智能体编排系统 Sakana Fugu
14:50公众号:火山引擎83火山引擎FORCE大会发布豆包大模型2.1 Pro及多款多模态模型
14:45Hacker News 热门(buzzing.cc 中文翻译)49VibeThinker-3B:探索小语言模型中可验证推理的前沿
14:41MarkTechPost(RSS)68GLM-5.2 OpenAI 兼容 API 实践指南:推理控制、函数调用与长上下文检索
13:13HuggingFace Daily Papers(社区热门论文)61Self-Compact:让语言模型智能体自行决定何时压缩轨迹
10:07IT之家(RSS)56消息称高通正洽谈收购 AI 芯片企业 Modular,对其估值约 40 亿美元
10:07IT之家(RSS)59Groq 与英伟达交易后转型 AI 推理 CSP,完成新一轮 6.5 亿美元融资
10:07IT之家(RSS)66字节豆包 Seed 2.1 Pro 和 Turbo 深度思考模型发布,面向 Coding 与 Agent 时代全面升级
09:01Simon Willison 博客57LLM提示注入与角色混淆
08:00HuggingFace Daily Papers(社区热门论文)44AsyncOPD:异步在线策略蒸馏中的陈旧性问题研究
08:00HuggingFace Daily Papers(社区热门论文)57ConvFill:对话式填充实现语音智能体响应与能力兼得
08:00HuggingFace Daily Papers(社区热门论文)75精选推理模型的思考Token真的有助于提升安全性吗?--来自GPT-OSS、Qwen、Olmo和Phi家族的证据
08:00HuggingFace Daily Papers(社区热门论文)69CAVEWOMAN:语言输入与输出压缩对大语言模型的影响
08:00HuggingFace Daily Papers(社区热门论文)50RoPE感知的KV缓存量化位分配方法Block-GTQ
08:00HuggingFace Daily Papers(社区热门论文)44IV-CoT:面向结构感知文本到图像生成的隐式视觉思维链
04:35TechCrunch:AI(RSS)56AI 芯片公司 Groq 完成 6.5 亿美元融资,英伟达 200 亿美元"挖角"后重组高管
04:10Artificial Analysis60AA-Briefcase基准测试:开放权重模型主导成本-性能帕累托前沿
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月24日
21:48
meng shao@shao__meng
66
OpenAI 发布首款自研推理芯片 Jalapeño

OpenAI 联合 Broadcom 与 Celestica 从零设计首款自研推理芯片 Jalapeño,9 个月完成流片,专为 LLM 推理优化,能效优于当前 SOTA。计划 2026 年底起以吉瓦级规模部署,用于 ChatGPT、Codex、API 及未来智能体产品。OpenAI 称这是“全栈优势”关键环节,通过自研芯片构建飞轮:更好基础设施→更高算力效率→更好训练与推理→更强模型→更好产品→更多使用与收入→再投入。推理芯片直接改善成本、速度与可靠性,是 AI 触达用户的环节。

OpenAI: We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...

OpenAI产品更新推理部署/工程
21:43
🚨 AI News | TestingCatalog@testingcatalog
58
OpenAI与Broadcom合作推出首款AI芯片Jalapeño,专为ChatGPT、Codex、API及未来Agent产品等大语言模型工作负载设计。该芯片在能效上实现新SOTA,开发过程使用OpenAI模型加速,计划以千兆瓦规模多代部署。此举标志着OpenAI从产品到模型再到基础设施的全栈化。

OpenAI: We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...

OpenAI产品更新推理
21:30
Chubby♨️@kimmonismus
60
OpenAI 发布首款自研 AI 芯片 Jalapeño,专为大语言模型推理设计

OpenAI 推出其首款自研 AI 芯片 Jalapeño,与 Broadcom 和 Celestica 合作构建,针对 ChatGPT、Codex、API 及未来智能体产品的工作负载优化。早期样品已在实验室以目标频率和功耗运行 ML 工作负载,包括 GPT-5.3-Codex-Spark。OpenAI 称每瓦性能显著优于当前最先进水平,详细基准稍后公布。部署计划于 2026 年底启动。此举旨在减少对外部 GPU 的依赖,增强对计算经济的控制,并强化模型、产品、收入与基础设施之间的飞轮效应。

OpenAI: https://openai.com/index/openai-broadcom-jalapeno-inference-chip/

OpenAI产品更新推理部署/工程
21:19
OpenAI@OpenAI
63
我们设计并制造了首款 AI 芯片:Jalapeño。 由 OpenAI 从零设计,并与 @Broadcom 合作投入生产,Jalapeño 专为支撑 ChatGPT、Codex、API 及未来智能体产品的 LLM 工作负载而打造。 芯片是 AI 经济的基础。自建芯片扩展了我们从产品到模型再到基础设施的全栈平台,并将助力我们扩展智能、服务更多人、扩大 AI 的普及。
OpenAI产品更新推理数据/训练
21:12
HuggingFace Daily Papers(社区热门论文)
51
AGORA:一个基于档案的智能体工作场所文档推理基准

大语言模型正越来越多地作为智能体在文档上进行推理,而非依赖参数化知识。Agora基准测试包含362个问题、8个领域共9664份真实文档和3.72亿个模型token,远超任何模型的上下文窗口,迫使智能体进行审慎探索而非穷举扫描。评估8个模型后,最强模型准确率仅为59.4%,且各领域表现差异显著。

智能体推理论文/研究
21:11
OpenBMB@OpenBMB
36
面壁智能 OpenBMB 联合清华等提出 Know More, Know Clearer 元认知框架,应对 LLM 认知错位幻觉

面壁智能 OpenBMB 联合清华NLP、哈工大、东北大学提出元认知框架 Know More, Know Clearer,应对 LLM 因认知错位导致的幻觉。框架包含三项:结构性衰减定律(准确率随不确定性指数衰减);Know More(CGKE)将知识空间分为掌握/混淆/缺失三区针对性增强;Know Clearer(CDKC)基于 GRPO 对齐置信度,使平均 ECE 从 60.41 降至 24.34。在 11 个 QA 基准上,CDKC 将 Llama-3.1-8B 从 30.91% 提升至 55.50%(+24.59 点),Qwen2.5-7B 从 25.76% 提升至 48.29%(+22.53 点)。自知识基准上 CBS 达 73.43%、CAE 达 68.18%,正确决策率 63.37%,边界识别 79.07%,达到最佳平衡。

推理论文/研究
21:01
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选61
OpenAI 与 Broadcom 联合发布 LLM 推理芯片 Jalapeño

OpenAI 与 Broadcom 发布首款自研推理加速器 Jalapeño,专为当前及未来 LLM 从头设计。早期测试显示,其性能功耗比大幅优于现有 SOTA。工程样片已在实验室以目标频率和功耗运行 GPT‑5.3‑Codex‑Spark 等负载。芯片从设计到流片仅用 9 个月,并利用 OpenAI 模型加速部分流程。OpenAI 计划从 2026 年起与 Microsoft 等合作伙伴部署千兆瓦级数据中心,推出多代计算平台。

OpenAI产品更新推理部署/工程

推荐理由:OpenAI 首次亲自设计芯片,和 Broadcom 联手推出专为 LLM 推理优化的 Jalapeño,从设计到流片仅 9 个月。虽然还只是早期测试,但性能功耗比大幅领先,一旦大规模部署,推理成本可能跳水,用 ChatGPT 的每个人都能感知到更快更便宜。
15:37
MarkTechPost(RSS)
精选74
DFlash:块扩散草稿模型实现最高15倍吞吐量提升

DFlash 由 UC San Diego 团队提出,是一种用于投机解码的轻量块扩散草稿模型。它一次前向推理生成整块 token,再由目标模型并行验证,保证输出无损。相比 EAGLE-3,DFlash 实现最高 2.5 倍加速,在 Qwen3-8B 等多种模型上平均无损加速超过 6 倍(MATH-500 达 6.08×)。在 NVIDIA Blackwell 上(TensorRT-LLM),gpt-oss-120b 模型吞吐量提升最高 15 倍,约为 EAGLE-3 的 1.5 倍。核心创新是将目标模型多层隐藏特征注入草稿模型每一层的 Key-Value 投影,使接受长度随草稿深度增长。

推理论文/研究部署/工程

推荐理由:DFlash把扩散模型引入推测解码草案阶段,一次并行生成整块token,单流加速最高6倍,NVIDIA实测吞吐量提升15倍,推理成本下降幅度很大,部署大模型的团队可以立刻关注。
15:20
公众号:蚂蚁百灵(Ling)
49
Ling-2.6-1T TPU 推理优化:用 Pallas Kernel 隐藏 MoE 数据搬运

蚂蚁 ASystem Core 与 SGLang-JAX 团队在 TPU v7x 上优化了 1T 参数稀疏 MoE 模型 Ling-2.6-1T 的推理性能。核心是 Fused MoE V2 Pallas kernel,将 scatter、expert FFN 和 gather 合并,通过计算与数据搬运重叠降低延迟。相比 V1,MoE prefill latency 从 5.16 ms 降至 2.42 ms(降 53%),decode kernel latency 从 0.249 ms 降至 0.211 ms。仅替换 MoE kernel 即可使 prefill throughput 提升 24.8%,decode throughput 提升 18.5%–35.3%。在 SGLang decode benchmark 下,16 颗 TPU v7x 的 output throughput 达到 16 张 H200 的 1.29x–1.77x。该工作还完整支持 hybrid backbone,包括 hybrid KV/recurrent memory pools、GLA linear attention 及 single-controller data parallelism。

推理教程/实践部署/工程
11:47
Rohan Paul@rohanpaul_ai
46
微软NextLat:预测隐藏状态让Transformer推理更强

微软新论文Next-Latent Prediction (NextLat) 提出一种自监督学习方法,在常规token预测基础上增加预测下一隐藏状态的任务,迫使Transformer学习紧凑的内部世界模型。该方法在地图式世界建模、数学推理、图规划、故事预测等任务上表现更优,生成速度通过自推测解码最高提升3.3x,且无需改变Transformer架构或减慢正常推理。

Jayden Teoh: Next-token prediction is myopic. What if transformers learn to predict their own next latent state? 🌠 We present Next-L...

Microsoft推理数据/训练论文/研究
11:40
公众号:通义实验室(千问)
74
Qwen-AgentWorld 开源:让 Agent 学会"先预测,再行动"

通义千问推出首个原生语言世界模型 Qwen-AgentWorld,覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域。模型基于超 1000 万条真实交互轨迹,经 CPT→SFT→RL 三阶段训练,在 AgentWorldBench 上超越 GPT-5.4(58.25)和 Claude Opus 4.8,Qwen-AgentWorld-397B-A17B 取得 58.71 分。两种范式已验证其能力:作为解耦环境模拟器实现可控 Sim RL,在 WideSearch 上超越真实环境 RL(F1 50.3% vs 45.6%);作为智能体基础模型,LWM 预热可迁移至七个基准(三个完全未出现在训练集中)。模型与评测基准已开源。

智能体推理模型发布
关联讨论 5 条X:通义千问 / Qwen (@Alibaba_Qwen)Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)HuggingFace Daily Papers(社区热门论文)Qwen:Blog Retrieval(API)
10:50
Alibaba Cloud@alibaba_cloud
64
非高峰时段费率已在所有Qoder产品中上线。 Qwen 3.7 Max:80%折扣。Qwen 3.7 Plus:60%折扣。每天10小时。自动生效。无需手动选择。 如果你在美洲,亮点是:非高峰时段覆盖了你大部分工作日。🧵
推理行业动态
10:49
HuggingFace Daily Papers(社区热门论文)
51
CF-World:一个用于测试T2I模型因果推理的反事实基准

CF-World是一个反事实基准,用于测试文本到图像(T2I)模型在系统性违背现实世界先验规则下生成图像的能力。每个场景分三个递进层级:事实生成、显式反事实生成和隐式反事实生成。评估采用VLM-based评估器CF-Eval,引入两个指标:Prior Resistance Rate(PRR)衡量克服固有先验的能力,Reasoning Retention Rate(RRR)评估无显式视觉线索时的推理依赖生成。实验表明,所有模型在反事实场景中性能急剧下降,原因是T2I模型将世界知识与视觉外观编码为紧密耦合模式,过度依赖训练数据中的频繁视觉共现,在反事实任务中退回至熟悉常识先验。

arXiv多模态推理论文/研究
10:47
Rohan Paul@rohanpaul_ai
52
VibeThinker:3B参数推理模型,性能接近Opus 4.5

VibeThinker是一个仅3B参数的推理模型,采用SFT+GRPO训练,在推理基准上与Opus 4.5几乎持平。在AIME26上达94.3,LiveCodeBench v6上80.2 Pass@1,近期未见过的LeetCode竞赛中接受率达96.1%,匹配或超越DeepSeek V3.2等大数个量级的旗舰系统。模型基于Qwen2.5-Coder 3B,经过硬样本筛选、多解监督训练、数学/代码/STEM可验证奖励强化学习、自蒸馏、指令聚焦RL及测试时答案检查方法CLR训练而成。

推理数据/训练模型发布
09:47
Rohan Paul@rohanpaul_ai
49
热力学智能度量:将智能定义为使罕见有效未来更可能发生的能力

该论文提出“热力学智能”概念,将智能定义为通过信息与控制显著提高罕见有效结果概率的能力。现有评测仅关注任务成功率,而论文指出大脑、大语言模型、控制器等智能体的共同点:系统将自身纳入世界模型,并基于模型选择行动以改变未来概率。有效未来需满足在被动行为下罕见且仍有效。作者提出“罕见有效提升”度量,衡量系统比被动基线更频繁产生此类未来的倍数。高提升取决于系统能否准确识别罕见有效未来。核心论点:智能是物理层面的概率转移过程,而非测试分数或类人行为标签。

arXiv推理论文/研究
08:44
meng shao@shao__meng
51
Apodex深度研究测试:AI Agent公司如何选择产品方向

博主用自进化重型求解器Apodex测试“AI Agent公司如何选择产品方向”。Deep Discovery模式下,Apodex拆解为开发者工具、企业工作流、研究助手三条线,补充VC视角、市场规模等来源,持续验证后给出排序:1. 垂直企业工作流Agent(有明确买方和成本替代逻辑);2. 垂直研究助手(需针对法律、金融等高价值场景);3. 开发者工具(竞争被Codex、Cursor、Claude Code等占据)。Apodex强调先验证后下结论,适合变量多、需取舍的复杂议题。体验入口apodex.ai,Hugging Face可下载模型。

智能体推理评测/基准
03:16
Rohan Paul@rohanpaul_ai
66
MaineCoon发布22B实时音视频生成模型

MaineCoon是一款22B参数的实时文本到音频-视频模型,专为实时AI角色设计。单H100 GPU可达47.5 FPS,成本低于0.001美元/秒;单RTX Pro 6000实现实时30 FPS。采用多阶段无强制流式训练(自采样、跨模态对齐、域偏好优化、强化在线策略蒸馏)及智能体流式推理框架,支持千秒级连续生成。双流扩散Transformer(视频+音频交叉注意力)保持表情、口型与声音同步,历史KV缓存和attention sink确保片段连贯。首帧小于1秒,生成与播放同步,不先制作完整视频再配音。

多模态推理模型发布视频
00:49
François Chollet@fchollet
43
2040年的AI将不再基于我们今天使用的技术栈。它将更接近最优。当前的技术栈有3-4个数量级的数据低效和4-5个数量级的计算低效。 接近最优的AI将由符号学习实现。
大佬观点推理
00:19
IT之家(RSS)
39
小米 MiMo-V2.5-Pro-UltraSpeed 限时体验延期

小米6月23日宣布延长MiMo-V2.5-Pro-UltraSpeed限时体验窗口。截至当日,该模式已收到超6.6万个申请,涵盖法律、金融、汽车制造等多个领域。UltraSpeed API于6月8日上线,定价为MiMo-V2.5-Pro的3倍,输出速度约提升10倍。通过审核用户可获得限时免费Chat体验,每日最多成功进入队列10次,单次会话上限30分钟,空闲超5分钟自动释放资源。下线时间将根据资源情况另行安排。

推理行业动态
6月23日
23:12
AYi@AYi_AInotes
64
日本Fugu仅0.6B参数,本质是AI项目经理,自动拆分任务,从顶级模型池挑选选手,分配思考、执行、验证三种角色,多轮协作合成答案。API调用与普通模型无异,编排策略由训练习得。跑分超越Claude和GPT,绕过scaling law军备竞赛。缺点包括黑箱、复杂任务延迟高、简单题成本更高。信号意义在于多智能体编排从实验室玩具正式变为可用生产力工具,orchestration layer新赛道开启。

AYi: 全网都在吹日本Fugu跑分超GPT,但我敢说99%的人没看懂它真正炸场的地方。 首先这玩意儿根本不是什么超大单体大模型, 它全身上下只有0.6B参数,本职工作就其实就是个AI项目经理, 简单任务自己处理,复杂任务自动拆分,从全球顶级模型池里...

智能体大佬观点推理
21:11
AYi@AYi_AInotes
38
AI拆解白毛股神叙事:五条声称仅一条站住脚

作者将流传的“白毛股神”投资叙事(英伟达CPO需求驱动硅光子、SIVE是最纯标的)交给具备自动溯源核证能力的AI,逐条交叉验证公开资料。五条核心声称中有四条缺乏依据,唯一站住脚的一条也被夸大。作者进一步人工复核硬事实后确认结论。推文警示:AI精确引用术语、逐条出处、语气笃定的“伪正确”叙事比明显胡诌更危险,可能诱导投资者盲目跟单。

AYi: http://x.com/i/article/2069024565901119488

大佬观点推理
19:10
公众号:小红书技术(dots.llm)
54
小红书QEcon分享:Agent驱动的服务端端到端测试

小红书质效研发团队提出用AI Agent破解端到端测试的跨域、长链路、组合爆炸三大痛点。传统方案自动化覆盖率仅20%,新方案以Coding Agent为核心,采用逆向链式推导与知识库渐进式加载实现动态规划,Debug-first策略生成脚本,并结合工具级与链路级双层经验沉淀形成自进化飞轮。数据构造从小时级降至分钟级,常见场景秒级完成,新业务域接入从数天缩至分钟级。Agent直接理解测试意图、自主调用接口,无需预设编排。

智能体推理教程/实践
16:50
公众号:卡尔的AI沃茨
58
实测豆包Seed 2.1 Pro,把我六个真实工作流都稳稳接住了

火山引擎Force大会上发布豆包Seed 2.1 Pro,重点提升Agent、GUI操作和编程能力:OSWorld 78.8接近GPT-5.5的78.7,Terminal Bench 2.1达71.0;多模态视觉理解进步显著(CharXiv-RQ 85.4等)。支持原生音视频、图片、文本混合理解,256K上下文,可切换快慢思考。实测六项真实工作流(旧项目UI修复与Debug、世界杯主题网站、点球大战小游戏、绘本插画描述、DeepResearch报告、PPT生成)均在不依赖Skill下稳定跑通。适合作为Agent执行层模型。

智能体多模态推理编码
15:07
IT之家(RSS)
54
Sakana AI 推出多智能体编排系统 Sakana Fugu

日本 Sakana AI 于当地时间 6 月 22 日推出多智能体编排系统 Sakana Fugu。该语言模型可根据任务智能调用包括自身在内的最适模型,对外封装为单一 API。初始提供平衡型 Fugu 和面向复杂问题的 Fugu Ultra 两种版本。Sakana AI 宣称 Fugu Ultra 在部分工程、科学和推理基准测试中可与 Anthropic Fable 5 / Mythos Preview 相当甚至更优。该系统可帮助用户避免对单一供应商的依赖,个别模型不可用时影响较小。

智能体Anthropic产品更新推理
14:50
公众号:火山引擎
83
火山引擎FORCE大会发布豆包大模型2.1 Pro及多款多模态模型

火山引擎在FORCE原动力大会上发布豆包大模型2.1 Pro、Seedance 2.5、Seedance 2.0 4K版、Seedream 5.0 Pro及豆包音频生成模型1.0。豆包大模型2.1 Pro在Coding、Agent、VLM方向升级,多Coding评测比肩全球顶尖,Agent国内第一,VLM全球领先。Seedance 2.5支持30秒单段原生直出、50个全模态素材联合输入;Seedream 5.0 Pro支持交互式编辑、多图层分离;豆包音频生成模型1.0可一次直出影视级音频。截至今年6月,豆包大模型日均Token调用量180万亿,同比增长超10倍;火山引擎在中国公有云MaaS市场份额占49.5%第一。同时发布方舟CLI、AgentKit、HiAgent 3.0及AI Trust安全体系。

多模态推理模型发布
关联讨论 5 条X:Vista (@vista8)公众号:数字生命卡兹克字节 Seed:Research Feed(网页内嵌数据)公众号:火山引擎X:卡兹克 (@Khazix0918)
14:45
Hacker News 热门(buzzing.cc 中文翻译)
49
VibeThinker-3B:探索小语言模型中可验证推理的前沿

VibeThinker-3B是一款仅3B参数的紧凑密集模型,采用Spectrum-to-Signal后训练范式,结合课程式监督微调、多领域强化学习与离线自蒸馏。在AIME26上达到94.3分,采用claim级测试时缩放可提升至97.1;LiveCodeBench v6 Pass@1为80.2;最新LeetCode竞赛接受率达96.1%,性能与DeepSeek V3.2、GLM-5、Gemini 3 Pro等大模型相当或超越。IFEval得分93.4,表明极端推理增强未损害指令可控性。该工作支撑了参数压缩-覆盖假说,认为可验证推理可压缩为紧凑推理核,而开放知识需广泛参数覆盖。

arXiv推理论文/研究
14:41
MarkTechPost(RSS)
68
GLM-5.2 OpenAI 兼容 API 实践指南:推理控制、函数调用与长上下文检索

GLM-5.2 通过 OpenAI 兼容 API 提供深度思考开/关、推理努力级别(high/max)、流式推理与回答、函数调用、工具代理、结构化 JSON 输出及长上下文检索。API 输入每百万 token 1.40 美元、输出 4.40 美元,支持 zai、OpenRouter 等多提供商访问。教程演示了从客户端设置、API key 安全加载到可复用聊天封装与成本追踪的完整开发流程。

MCP/工具推理教程/实践部署/工程
13:13
HuggingFace Daily Papers(社区热门论文)
61
Self-Compact:让语言模型智能体自行决定何时压缩轨迹

长期agent轨迹会积累陈旧内容,最终超出上下文窗口。现有固定token阈值压缩忽略轨迹结构,可能丢失中间结果。SelfCompact提供压缩工具供模型调用,并配套轻量级规则指明触发时机(子任务完成或轨迹收敛)与抑制时机(中途推导或卡住),实现自适应压缩,无需微调或外部监督。在六个基准及七种模型上,SelfCompact以远低于固定间隔压缩的token成本达到相近或更优效果:数学相比无压缩基线最高提升18.1分,智能体搜索提升5–9分,每题成本降低30–70%。

智能体arXiv推理论文/研究
10:07
IT之家(RSS)
56
消息称高通正洽谈收购 AI 芯片企业 Modular,对其估值约 40 亿美元

高通正就收购AI芯片企业Modular Inc.开展深度洽谈,对其估值约40亿美元。相比9个月前Modular在融资中16亿美元的估值,本次估值大幅跃升。Modular成立于2022年,累计融资3.8亿美元。另据报道,高通同时在洽谈收购AI芯片初创Tenstorrent,估值区间80亿至100亿美元。交易或于未来数周内官宣,但谈判仍存在破裂可能。

推理行业动态
10:07
IT之家(RSS)
59
Groq 与英伟达交易后转型 AI 推理 CSP,完成新一轮 6.5 亿美元融资

AI 初创企业 Groq 去年底与英伟达签署非独家授权协议,以 200 亿美元授权 LPU 推理技术,部分团队加入英伟达。2026 年 6 月 22 日,Groq 宣布完成新一轮 6.5 亿美元融资,转型为 AI 推理 CSP。该公司拥有世界唯一具备大规模 LPU 实操经验的工程团队,运营 13 座数据中心,服务超 500 万开发者,Token 周消耗量以万亿计。下一步将扩大 AI 推理基础设施,部署最新推理技术和 NVIDIA LPX 系统,目标到 2027 年底拥有 200MW 算力资源。

推理行业动态
10:07
IT之家(RSS)
66
字节豆包 Seed 2.1 Pro 和 Turbo 深度思考模型发布,面向 Coding 与 Agent 时代全面升级

字节跳动在火山引擎上线豆包 Seed 2.1 系列模型,包括 Pro 和 Turbo 两个深度思考版本,以及 Seed-Evolving 迭代模型和角色模型。Pro 版本为面向 Coding 与 Agent 的旗舰模型,在 Coding 工程交付、Agent 长链路任务执行和多模态理解三大方向全面升级;Turbo 版本面向规模化生产,效果比肩 Pro

推理模型发布编码
09:01
Simon Willison 博客
57
LLM提示注入与角色混淆

Charles Ye、Jasmine Cui 与 Dylan Hadfield-Menell 的研究发现,大语言模型无法可靠区分系统标签(如 <system>、<think>)与用户输入,模型更依赖文本风格而非实际内容。通过模仿模型内部思考块的写作风格,可绕过安全限制,例如让 gpt-oss-20b 误判。“destyling”——对文本轻微改写以降低与角色标签格式的相似度——使平均攻击成功率从 61% 骤降至 10%。作者将底层机制称为“角色混淆”,认为除非模型实现真正的角色感知,否则提示注入防御将是永久的打地鼠游戏。

安全/对齐推理
08:00
HuggingFace Daily Papers(社区热门论文)
44
AsyncOPD:异步在线策略蒸馏中的陈旧性问题研究

在线策略蒸馏异步训练中,轨迹生成与学习器更新解耦引入陈旧策略数据;KL方向决定影响:教师加权正向KL鲁棒,学生加权反向KL脆弱。异步RL稳定方法无效,反向计算当前学生信号更优。有限教师分数缓存导致稀疏采样反向KL估计器的偏差-方差权衡,多采样蒙特卡洛可降低方差。基于此,开源AsyncOPD全异步管道在严格同步训练基础上实现1.6至3.8倍吞吐量提升,精度相当。

推理数据/训练论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
57
ConvFill:对话式填充实现语音智能体响应与能力兼得

语音智能体面临响应速度与复杂能力的权衡。ConvFill 提出“对话式填充”(conversational infill)方法:用小参数 talker 模型实时生成上下文响应,隐藏外部 reasoner 模型的推理延迟,并在推理中动态整合 reasoner 的流式知识。基于 290,571 条合成数据、6 个领域、7 个 135M–1.7B 参数小语言模型验证任务可学习性。系统保持毫秒级首次响应时间,准确性差距缩小至前沿 reasoner 模型的 6.3% 以内。在 Apple M2 SoC 上的 18 人用户研究中,ConvFill 整体与前沿模型持平,检索密集型任务更受青睐,响应性显著更高。代码、模型和数据集已开源。

推理论文/研究语音
08:00
HuggingFace Daily Papers(社区热门论文)
精选75
推理模型的思考Token真的有助于提升安全性吗?--来自GPT-OSS、Qwen、Olmo和Phi家族的证据

对GPT-OSS、Qwen、Olmo和Phi系列前沿开源推理模型的研究发现,所谓的“思考token”并未带来真正的安全性深思熟虑。模型是否拒绝或服从指令,在第一个token的

arXiv安全/对齐推理论文/研究

推荐理由:这篇论文直接挑战了「思考令牌提升安全性」的业界直觉,证据表明拒绝行为在思考的极早期就已锁定,现有安全干预反导致过度谨慎。安全团队必读,需要重新审视推理模型的对齐方式。
08:00
HuggingFace Daily Papers(社区热门论文)
69
CAVEWOMAN:语言输入与输出压缩对大语言模型的影响

研究提出两通道评估协议Cavewoman,同时测量任务准确率、实际成本及与无约束基准的文本一致性。在5个数据集上对8个模型进行5级压缩测试,发现输出压缩降低API模型实际成本1.4–2.4倍(最佳达3倍),开源权重模型同样受益;输入压缩则严格双输:平均成本升高约1.15倍(最差1.8倍,强压缩2.7倍),准确率暴跌,半数正确生成不再蕴含模型自身无约束基准文本。该分歧在长度控制重评分、多重比较校正及补充语义度量下仍然稳健。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
RoPE感知的KV缓存量化位分配方法Block-GTQ

现有低比特KV量化器将每个key视为平面向量,而RoPE下key的注意力贡献分解为二维频率块的和。Block-GTQ基于TurboQuant-MSE,为每层和KV头计算每个RoPE块的无标签能量分数,通过边际增益贪心分配整数位宽。在10模型诊断集上,2/3 b/dim单K量化下每层MAE降低32–80%,367/367层全部优于均匀TQ-MSE。在Llama-3.1-8B-Instruct的K2V2设置下,六任务NIAH平均分从70.6提升至97.4,LongBench-EN平均分从36.87升至53.31。在DeepSeek-R1-Distill-Qwen-7B的AIME 2024/2025上,K3V2无fp16近期key缓冲区时得分51.7/37.5,接近fp16的54.2/37.9。基于打包缓存的推理路径在单H800、Qwen2.5-3B-Instruct上,K3V3实现3.24倍压缩,128K下比fp16 FlashAttention2快1.34倍,峰值内存从56.31GB降至19.85GB,并在256K和512K下仍可运行。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
44
IV-CoT:面向结构感知文本到图像生成的隐式视觉思维链

统一多模态大语言模型在文本到图像生成中难以准确遵循物体计数、空间关系等结构感知提示。IV-CoT提出隐式视觉思维链框架,将视觉条件查询分解为结构查询与语义查询的级联:结构查询先形成潜在视觉计划,语义查询再基于该计划渲染外观。训练时引入草图监督引导结构查询捕获结构信息,推理时无需草图或中间解码,单次前向传播完成隐式推理。在GenEval和T2I-CompBench上取得更优结果。

图像生成多模态推理论文/研究
04:35
TechCrunch:AI(RSS)
56
AI 芯片公司 Groq 完成 6.5 亿美元融资,英伟达 200 亿美元"挖角"后重组高管

6 月 23 日,AI 芯片公司 Groq 宣布完成 6.5 亿美元新融资。此前约 6 个月,英伟达签署非独占性技术许可协议并挖走其创始人兼 CEO Jonathan Ross、总裁 Sunny Madra 等核心员工,交易金额为 200 亿美元。Groq 未披露新估值,上一轮 7.5 亿美元融资后估值为 69 亿美元。Groq 已转向 neocloud 业务,目前运营 13 个数据中心,服务超过 500 万开发者及数千家 AI 公司,每周处理数万亿模型 token。公司同时引进新高管:Alan Rice 任 COO,Sinclair Schuller 任 CTO,Rakesh Malhotra 任 CPO。

推理行业动态
04:10
Artificial Analysis@ArtificialAnlys
60
AA-Briefcase基准测试:开放权重模型主导成本-性能帕累托前沿

Artificial Analysis发布AA-Briefcase智能体知识工作基准测试,评估模型在长期任务中的表现。任务成本差异超700倍,最高性能模型Claude Fable 5每任务超$20。成本-性能帕累托前沿上,除Anthropic两个最高分模型外,其余大部分由开放权重模型占据。关键性价比:GLM 5.2 (max)每任务$2.40,得分仅比Claude Opus 4.8低90 Elo,成本低65%;DeepSeek V4 Pro (max)每任务$0.08,得分比Gemini 3.5 Flash高约60 Elo,成本低98%以上。

智能体AnthropicDeepSeek推理
‹ 上一页
1…56789…50
下一页 ›