AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
5月30日周六
06:16Rohan Paul64今日简报已发布
05:40Hacker News 热门(buzzing.cc 中文翻译)70精选Liquid AI 公布了在 38T 数据集上训练的 8B-A1B MoE 模型
05:16Rohan Paul56陶哲轩:AI让"疯狂实验"不再昂贵
05:16TechCrunch:AI(RSS)59英伟达200亿美元"非收购雇佣"后,AI芯片初创公司Groq据报道正融资6.5亿美元
04:49AI Notkilleveryoneism Memes ⏸️39AI解决九大数学难题,媒体却集体失声
03:16TechCrunch:AI(RSS)41你听过这些AI术语但一知半解?让我们来弄清楚
03:15Yuchen Jin38Claude称非官方账号,用户调侃AGI实现
02:15François Chollet16爱因斯坦谈语言与思维机制
02:09宝玉68AI推理抉择:慢思考为何更高效?
02:00OpenRouter:Announcements(RSS)77精选OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7
01:45TechCrunch:AI(RSS)54继英伟达200亿美元交易后,AI芯片初创公司Groq据称将融资6.5亿美元
01:19AI Notkilleveryoneism Memes ⏸️40半数国民认为AI愚钝且无进步,却仍担忧其取代工作
01:15Rohan Paul76精选亲测为实:难以置信的推理速度
5月29日周五
23:10Hacker News 热门(buzzing.cc 中文翻译)60在标准GPU上进行实时大语言模型推理:单次请求生成速度达3k tokens/s
23:09X.PIN65华为提出τ定律应对芯片制程瓶颈
22:45Chubby♨️61字节跳动自研推理芯片曝光,设计旨在绕过美国限制
22:30HuggingFace Daily Papers(社区热门论文)60可恢复思维程序:基于检查点修复的RePoT方法
22:15Rohan Paul52在真实拳击场辩论:Transformer 架构与后继者的未来
21:45Chubby♨️38新瓶旧酒:"LLMs只是随机鹦鹉"论调的2026新版
21:15TechCrunch:AI(RSS)55芯片初创公司 XCENA 融资 1.35 亿美元,押注 AI 最大瓶颈不是算力而是内存
19:19Artificial Intelligence News(RSS)68Anthropic发布Claude Opus 4.8
18:15Rohan Paul57本文展示了大语言模型如何在保持答案质量的同时,通过使用更短的上下文来降低成本。
16:30HuggingFace Daily Papers(社区热门论文)63Thinking Before Constraining: A Unified Decoding Framework for Large Language Models
16:21IT之家(RSS)50戴尔确认将推出搭载 NVIDIA "N1X" 芯片的 XPS 机型
14:30HuggingFace Daily Papers(社区热门论文)68超越数学与代码的可验证奖励:面向事实性问答的轻量级基于语料库的过程监督
14:30HuggingFace Daily Papers(社区热门论文)55发现协作流水线:面向序列社会困境的自主研究
13:30HuggingFace Daily Papers(社区热门论文)60CausaLab:面向AI科学家的交互式因果发现可扩展环境
12:29HuggingFace Daily Papers(社区热门论文)65YOCAUSAL: 视频生成距世界模型有多远?一个因果关系的视角
12:18SemiAnalysis54Cerebras运行大模型成本高昂,标准方案更优
11:29HuggingFace Daily Papers(社区热门论文)60大语言模型的上下文信念管理
11:29HuggingFace Daily Papers(社区热门论文)63超越3D视觉问答:将3D空间先验注入视觉语言模型以增强几何推理
10:29HuggingFace Daily Papers(社区热门论文)57LaRA:基于逐层表征分析的强化学习后训练数据污染检测
09:14Rohan Paul66Claude Opus 4.8快速模式发布,速度倍增成本骤降
08:49🚨 AI News | TestingCatalog71Claude Opus 4.8上线,代码缺陷率大幅降低
08:39小互62Claude 4.8网页版新增思考深度选择功能
08:39StepFun79阶跃星辰 Step-3.7-Flash 模型发布,vLLM 当日支持
08:09StepFun75阶跃星辰 Step 3.7 Flash 发布,聚焦智能体效率
08:00HuggingFace Daily Papers(社区热门论文)49蒸馏LLM反馈用于Lean定理证明
08:00HuggingFace Daily Papers(社区热门论文)62加法的形状:大语言模型中算术的几何结构
08:00HuggingFace Daily Papers(社区热门论文)50MindZero:基于零标注的在线心智推理学习
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月30日
06:16
Rohan Paul@rohanpaul_ai
64
今日简报已发布

本期简报要点如下:Anthropic发布了Claude Opus 4.8模型,并宣布完成650亿美元融资,投后估值达到9650亿美元。KogAI展示了其在特定硬件上的性能:使用8块AMD MI300X GPU时处理速度达3000 tokens/s,使用8块NVIDIA H200 GPU时达2100 tokens/s(FP16精度,无推测解码),模型参数为20亿。此外,Datacurve推出了更具挑战性的编程基准测试DeepSWE,旨在更清晰地评估顶尖模型的性能差异。

Anthropic推理模型发布行业动态
05:40
Hacker News 热门(buzzing.cc 中文翻译)
精选70
Liquid AI 公布了在 38T 数据集上训练的 8B-A1B MoE 模型

Liquid AI 发布了其 LFM2-5 系列的 8B-A1B 模型,该模型采用混合专家(MoE)架构,在包含 38T token 的数据集上训练完成。

智能体推理模型发布端侧

推荐理由:Liquid AI 把推理和工具调用塞进了消费级硬件,笔记本上跑 250 token/s,边缘 Agent 有了一个能打的离线选项。性能不算顶尖,但‘全本地’这个特性,对隐私敏感的场景是真卖点。
05:16
Rohan Paul@rohanpaul_ai
56
陶哲轩:AI让"疯狂实验"不再昂贵

陶哲轩指出,研究过程中存在大量“认知摩擦”——例如验证想法、排除错误路径、将直觉转化为计算等试错环节,占据了主要时间。AI正在将这些摩擦成本降至零,使研究者能更自由地尝试“更疯狂的想法”。推文强调,许多非常规路径并非被证伪,而是被高昂的验证成本所阻碍。AI降低这一成本,让原本因“不便”而被放弃的弱信号得以被审视,这往往是发现的起点。

OpenAI: AI can give researchers the freedom to pursue "crazier" ideas. For Terence Tao, AI creates more room to experiment, test...

OpenAI大佬观点推理
05:16
TechCrunch:AI(RSS)
59
英伟达200亿美元"非收购雇佣"后,AI芯片初创公司Groq据报道正融资6.5亿美元

AI芯片初创公司Groq计划进行一轮6.5亿美元的内部融资。该公司正从硬件制造转型,将业务重心更多地转向AI推理服务。

推理行业动态
04:49
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
39
2026年。AI正在真正发明新的数学,而记者们还在发布这种明显错误的内容。 99%的人不知道即将发生什么,因为记者们辜负了他们。

AI Notkilleveryoneism Memes ⏸️: I'm old enough to remember when everyone thought AI solving ONE novel math problem would be a front page story around th...

推理现象/趋势
03:16
TechCrunch:AI(RSS)
41
你听过这些AI术语但一知半解?让我们来弄清楚

AI的兴起带来了大量新术语与行话。文章提供了一份术语表,对其中最重要的一些词汇和短语进行了解释。

推理教程/实践
03:15
Yuchen Jin@Yuchenj_UW
38
我问 Opus 4.8 Anthropic 是如何实现这个的。 它告诉我 @ClaudeDevs 不是 Anthropic 的官方账号。 真正的 AGI。😂

ClaudeDevs: With Opus 4.8, you can add system instructions mid-conversation without breaking the prompt cache. More cache hits means...

Anthropic大佬观点推理
02:15
François Chollet@fchollet
16
爱因斯坦谈(不)用自然语言进行发明:"书面或口头的语言文字,在我的思维机制中似乎不起任何作用"
大佬观点推理
02:09
宝玉@dotey
68
推文对比了AI模型的两种推理模式。主张选择Reasoning Max模式,认为多花时间进行深入推理,反而能减少后续验证时间,即"慢就是快"。而Speed Fast模式虽快,但性价比不高,除非预算充足。被引用的推文进一步支持"选择Max",并指出这样能最大化利用用户宝贵的时间。

Rainman: @MomoseReina 选择Max 挽弓当挽强、用人当用长,你的时间比什么都宝贵

推理教程/实践
02:00
OpenRouter:Announcements(RSS)
精选77
OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7

一组预算模型通过OpenRouter平台进行模型融合,在包含100个复杂研究任务的评估中,得分超过了GPT-5.5与Claude Opus 4.7。

智能体产品更新推理搜索
关联讨论 1 条OpenRouter:Announcements(RSS)
推荐理由:OpenRouter 的 Fusion 功能把模型融合做成了 API 调用,实测用便宜模型组合就能逼近 Fable 5 的性能,成本却只有一半,这对做复杂推理和深度研究的开发者来说是个很实用的新工具。
01:45
TechCrunch:AI(RSS)
54
继英伟达200亿美元交易后,AI芯片初创公司Groq据称将融资6.5亿美元

AI芯片初创公司Groq计划融资6.5亿美元,将业务重心从硬件制造转向AI推理,专注于优化AI模型响应提示请求的过程。

推理行业动态
01:19
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
40
半个国家的人认为AI很蠢且没有进步,然而……它们即将抢走所有人的工作? 搞什么?
推理现象/趋势
01:15
Rohan Paul@rohanpaul_ai
精选76
亲测为实:难以置信的推理速度

Kog团队在标准数据中心GPU上实现了极高的单用户推理速度,在8× AMD MI300X GPUs上达到3,000 tokens/s,在8× NVIDIA H200上达到2,100 tokens/s。相比常规推理速度(约100-300 tokens/s),实现了10-30倍提升。其核心思路是将LLM解码视为内存流问题,通过协同设计monokernel、重建同步机制、针对性内存访问映射及采用延迟张量并行的Laneformer模型架构,消除了传统流程的阻塞点。

大佬观点推理部署/工程

推荐理由:Rohan亲自测完Kog AI的3000 token/s,把单用户推理速度拉高了10-30倍,这套monokernel设计可能改写低延迟推理的玩法,做实时AI产品的团队必须盯紧。
5月29日
23:10
Hacker News 热门(buzzing.cc 中文翻译)
60
在标准GPU上进行实时大语言模型推理:单次请求生成速度达3k tokens/s

该技术成果展示了在标准GPU硬件上实现大语言模型实时推理的可能性。核心性能指标为单次请求的生成速度可达到3000个tokens每秒(3k tokens/s per request)。这一结果表明,对于特定场景或模型配置,即使在非专用集群的常规计算设备上,也能实现高速的模型输出,对于降低大语言模型的使用门槛和成本具有参考意义。

推理教程/实践部署/工程
23:09
X.PIN@thexpin
65
华为提出τ定律应对芯片制程瓶颈

由于美国出口管制,华为在芯片先进制程竞赛中面临困难。为此,华为于2026年5月提出“τ(Tau)定律”,旨在为后摩尔时代的芯片性能提升提供新框架。该定律的核心是优化有效RC时间常数(τ)以提升信号传播速度。其方法是不完全依赖制程微缩,而是从晶体管、电路、芯片互连及系统架构四个层次进行优化,以压缩τ值。华为将其描述为中国公司首次提出具有全球影响力的后摩尔扩展框架。

推理现象/趋势端侧部署/工程
22:45
Chubby♨️@kimmonismus
61
字节跳动自研推理芯片曝光,设计旨在绕过美国限制

据报道,字节跳动正在开发基于 Groq LPU 架构的自研推理芯片。该架构将模型保存在片上 SRAM 中,跳过了受美国对华出口管制最严格限制的组件——高带宽内存。字节跳动的内存合作伙伴 InnoStar 在台积电的成熟制程节点进行生产,这些节点也处于管制之外。这一系列设计选择均旨在规避美国的限制,而正是同一架构,Nvidia 刚刚花费约200亿美元获得了其授权。

推理行业动态部署/工程
22:30
HuggingFace Daily Papers(社区热门论文)
60
可恢复思维程序:基于检查点修复的RePoT方法

RePoT是一种确定性验证重放方法,用于修复思维程序推理中产生的无效动作。当生成的Python轨迹出现无效状态转换时,它会回溯到已验证的前缀状态,并通过一次额外的大语言模型调用来恢复推理。在PuzzleZoo-775基准测试中,RePoT比PoT高出+3至+11个百分点,并在gpt-5.4-mini-medium上达到96.9%的准确率。可控恢复基准Derail-550的实验表明,检查点信息是关键的恢复信号。初步提出的自适应RePoT通过规则调度器在修复与重试间进行选择。

智能体arXiv推理论文/研究
22:15
Rohan Paul@rohanpaul_ai
52
在真实拳击场辩论:Transformer 架构与后继者的未来

这是一场关于AI架构的辩论。Transformer阵营指出,其凭借简单、硬件友好、可扩展的优势主导当下,核心是基于键值存储的记忆与注意力机制,并强调任何替代架构必须能在扩展性上与之匹敌,且需达到约10倍优势才能颠覆现有技术栈。Post-Transformer阵营则认为,当前大语言模型的推理更像是后置的文本步骤,真正的突破在于实现模型内部的“潜在推理”与持续学习能力,并指出长上下文不等于真正记忆,未来可能是混合架构。辩论还提到,当前公开基准测试易被优化,而困惑度(Perplexity)仍是评估前沿模型的有效指标。最后指出,尽管Transformer仍占主导,但前沿正在拓宽,并列举了Pathway的BDH、Sakana AI的CTMs和Liquid AI的LFMs等新兴架构作为例证。

推理数据/训练现象/趋势
21:45
Chubby♨️@kimmonismus
38
推文主推文将教皇方济各(Pontifex)的言论比作"随机鹦鹉"论调的2026年新版,意指此类质疑在当下重新流行。引用的核心观点强调,AI不具备人类的亲身经历、身体感知、情感(如喜悦与痛苦)、道德意识,也无法真正理解爱、工作或责任,因其缺乏人类成长所需的感知、关系与精神视角。推文认为,尽管形式更新,这类对AI本质的否定性判断本质未变。

Pope Leo XIV: Artificial intelligences do not undergo experiences, do not possess a body, do not feel joy or pain, do not mature throu...

大佬观点推理
21:15
TechCrunch:AI(RSS)
55
芯片初创公司 XCENA 融资 1.35 亿美元,押注 AI 最大瓶颈不是算力而是内存

韩国芯片初创公司 XCENA 获得 1.35 亿美元融资。该公司认为,AI 当前面临的真正瓶颈并非算力,而是内存。

推理行业动态部署/工程
19:19
Artificial Intelligence News(RSS)
68
Anthropic发布Claude Opus 4.8

Anthropic发布了Claude Opus 4.8,这是对Claude Opus 4.7的升级,改进了编码、智能体工作、推理和知识工作方面的表现。该模型可通过claude.ai、Claude Code和Claude API使用,API名称为claude-opus-4-8。

智能体Anthropic推理模型发布
18:15
Rohan Paul@rohanpaul_ai
57
本文展示了大语言模型如何在保持答案质量的同时,通过使用更短的上下文来降低成本。

论文提出了“效率前沿”框架,用于统一评估LLM上下文管理策略的成本与性能权衡。核心发现是,在部署时选择合适的上下文方法可使token使用量减少约25%,在部分记忆复用场景下可降低超50%成本,且答案质量损失较小。研究指出,上下文长度存在收益递减,后增加的token成本高但收益小。在5000个HotpotQA问题的测试中,轻量检索适合低复用率,记忆压缩在高复用率下更优,而全上下文提示仍是获取最高性能所需。

arXiv推理论文/研究部署/工程
16:30
HuggingFace Daily Papers(社区热门论文)
63
Thinking Before Constraining: A Unified Decoding Framework for Large Language Models

本文提出一种名为 In-Writing 的混合解码框架,旨在解决大语言模型自由生成推理丰富但缺乏结构,与约束解码格式统一但可能过早限制推理能力的矛盾。该框架在单次调用中结合二者:模型首先进行无约束推理,待生成特定触发词后再应用结构化解码,从而将推理与格式化明确分离。此方法能有效消除“过早触发”这一失败模式。在涵盖分类与推理任务的多项数据集评估中,In-Writing 相比自然生成,准确率最高提升了27%,性能优于现有方法。相关代码已开源:https://github.com/Nokia-Bell-Labs/InWriting。

推理论文/研究
16:21
IT之家(RSS)
50
戴尔确认将推出搭载 NVIDIA "N1X" 芯片的 XPS 机型

根据戴尔的 COMPUTEX 2026 资料,其即将发布搭载 NVIDIA "N1X" 芯片的 XPS 机型,相关内容预计于北京时间 6 月 1 日 11:00 解禁。联想近期也有搭载 "N1X" 的 YOGA 360 16 笔记本通过 3C 认证,这共同指向 NVIDIA 将在 COMPUTEX 2026 上正式发布这款 SoC。泄露信息显示,"N1X" 与 DGX Spark 上的 GB10 超级芯片同源,预计采用 20 核 Arm CPU 和 6144 CUDA GPU,并支持 256-bit LPDDR5x 内存。

产品更新推理端侧
14:30
HuggingFace Daily Papers(社区热门论文)
68
超越数学与代码的可验证奖励:面向事实性问答的轻量级基于语料库的过程监督

针对强化学习提升事实性问答准确度时的奖励设计难题,本文提出CorVer方法。它用基于Wikipedia共现统计的轻量级语料库信号,替代了昂贵且不可靠的神经验证器(如NLI或LLM判断器)。CorVer为每个句子分配信用值,并通过简单对齐映射到token级优势,仅需一个0.5B的提取器和单次语料库查询。在覆盖六个指令微调模型和五个问答基准的30个测试组合中,CorVer使每个组合的性能均优于原始基线,其中TriviaQA平均提升+4.1个百分点。在可行配置下,它在20个组合中的18个超越了神经验证器基线,且训练速度快4.8至8.4倍。

arXiv检索增强推理论文/研究
14:30
HuggingFace Daily Papers(社区热门论文)
55
发现协作流水线:面向序列社会困境的自主研究

本研究构建了一个两层自主研究系统:外层AI智能体自主重新设计内层用于多智能体序列社会困境(SSDs)的大语言模型策略合成流水线。在Cleanup和Gathering两个游戏、两种福利目标(功利效率与最大化最小)下,该系统在性能上可靠地超越手工设计的基准,显著降低运行方差,并优于仅优化提示词的方法。研究发现,所发现的流水线具有目标依赖性:仅在最大化最小目标下,系统才会向合成器流水线注入显式的公平机制,这种机制在其自身的系统提示词和所有面向效率优化的流水线中均不存在,支持了信息设计理论的观点。

智能体推理论文/研究
13:30
HuggingFace Daily Papers(社区热门论文)
60
CausaLab:面向AI科学家的交互式因果发现可扩展环境

本文介绍了CausaLab,这是一个评估LLM智能体交互式因果发现能力的可扩展环境。该环境在一个合成实验室内评估两个维度:智能体能否利用因果证据解决问题,以及其答案是否基于忠实恢复的因果机制。每个实验中,智能体接收先验观测数据,对操纵晶体进行干预,并预测反应晶体的共振频率。隐藏的数据生成过程是随机采样的结构因果模型(SCM),成功要求恢复因果图和结构方程。实验表明预测与机制恢复之间存在差距:在6节点纯观测设置中,GPT-5.2-high的任务准确率达92%,但全边F1值仅为0.471。混合观测-干预策略能提升结构保真度,而纯干预对强智能体仍具挑战。研究发现过早停止是主要弱点,一致性验证能缓解该问题。CausaLab将预测成功与因果理解分离开来,揭示了当前LLM智能体作为实验因果推理者的局限。

智能体推理论文/研究
12:29
HuggingFace Daily Papers(社区热门论文)
65
YOCAUSAL: 视频生成距世界模型有多远?一个因果关系的视角

本文提出YOCAUSAL,一个受认知科学“违反期望”范式启发的两层级基准测试,用于评估视频扩散模型(VDMs)的因果理解能力。Level 1通过零成本的时间反转真实视频构建反事实样本,引入“反转惊奇指数”(RSI)量化模型对时间箭头的感知。Level 2引入“因果认知指数”(CCI),利用视觉语言模型将数据集分层,以区分真正的因果推理与时间偏差。对13个先进VDMs的评估表明,感知时间箭头并不等同于理解因果关系,当前模型在因果认知方面与人类水平仍存在显著差距。

arXiv推理视频论文/研究
12:18
SemiAnalysis@SemiAnalysis_
54
在Cerebras上以最大上下文窗口运行单个深度编码模型,仅支持256个并发用户就需要24套系统(2400万美元资本支出)。在这个规模下,1亿美元在标准GB300机架中能获得高得多的内存带宽。
推理现象/趋势部署/工程
11:29
HuggingFace Daily Papers(社区热门论文)
60
大语言模型的上下文信念管理

该研究指出大语言模型在长时程交互中需要管理累积信息,即上下文信念管理(CBM)。研究提出BeliefTrack基准进行精确评估,涵盖规则发现与电路诊断任务。发现普通大语言模型存在严重的CBM失败,包括无法保持状态、无法更新状态及无法隔离噪声。显式信念追踪提示收效有限,而采用信念状态奖励的强化学习将平均失败率降低了70.9%。进一步的表征层面引导将两项任务的失败率降低了46.1%。相关代码将在GitHub开源。

安全/对齐推理论文/研究
11:29
HuggingFace Daily Papers(社区热门论文)
63
超越3D视觉问答:将3D空间先验注入视觉语言模型以增强几何推理

视觉语言模型通常缺乏鲁棒的3D空间推理能力。现有方法或依赖3D视觉问答数据集进行微调,导致过拟合;或集成专用3D编码器,显得笨重且不灵活。本研究提出GASP框架,直接将基础几何先验注入大语言模型的Transformer层。该框架利用大规模视频场景的真值几何数据,通过一个小型对应头进行双目标训练:对比损失强化2D视角不变性,深度一致性监督解决3D几何歧义。分析表明,标准模型内部的对应匹配准确率极低(常低于5%);GASP训练后,该指标峰值超过70%,且时间鲁棒性超过85%。这在下游基准测试中带来显著提升,包括在All-Angles Bench上提升+18.2%,在VSI-Bench上提升+29.0%,且无需任何3D VQA数据训练。

多模态推理论文/研究
10:29
HuggingFace Daily Papers(社区热门论文)
57
LaRA:基于逐层表征分析的强化学习后训练数据污染检测

强化学习后训练能提升大语言模型的推理能力,但也可能引入数据污染,影响模型泛化和评估可靠性。现有基于输出层信号的检测方法对RL模型效果不佳。为此,研究提出了LaRA框架,通过逐层分析模型表征来检测污染。该框架引入三个互补指标,分别度量受控扰动下的扰动敏感度、方向坍缩和局部表征刚性。研究发现,污染会导致模型表征在各层出现渐进式几何偏差。基于此,研究开发了一种聚合各层与各指标表征偏差的检测协议,实验表明其性能优于现有的输出级基线方法。

arXiv推理数据/训练论文/研究
09:14
Rohan Paul@rohanpaul_ai
66
Claude Opus 4.8发布快速模式,速度提升至2.5倍,价格变为原来的三分之一。该模型在代码质量上相比4.7版本有显著改进,代码缺陷概率降低约4倍。标准API价格为输入$5/百万token,输出$25/百万token。AI/ML API平台已第一时间集成此模型,提供500+模型的统一API接口,并为部分用户推出限时免费体验活动。

AI/ML API: Claude Opus 4.8 is LIVE on AIMLAPI - Hour 0 availability! ~4x less likely to let code flaws slip through vs 4.7 Fast mod...

Anthropic产品更新推理编码
08:49
🚨 AI News | TestingCatalog@testingcatalog
71
Claude Opus 4.8现已在AI/ML API上线🔥 根据测试: > 与Opus 4.7相比,其未被发现的代码缺陷大约减少了4倍 > 拥有2.5倍速度的快速模式,现在价格便宜3倍 > 与之前相同的$5/$25每M token定价 【引用 @aimlapi】:Claude Opus 4.8已在AIMLAPI上线 - 首发可用! ~与4.7相比,代码缺陷漏检的可能性降低约4倍 快速模式2.5倍速度,现在价格便宜3倍 价格不变:$5/$25每M tokens 为庆祝上线,部分评论者可免费使用

AI/ML API: Claude Opus 4.8 is LIVE on AIMLAPI - Hour 0 availability! ~4x less likely to let code flaws slip through vs 4.7 Fast mod...

Anthropic推理模型发布编码
08:39
小互@xiaohu
62
Claude 4.8现在网页版也可以选择思考深度了 和Claude Code一样,有5个思考等级…
Anthropic产品更新推理
08:39
StepFun@StepFun_ai
79
阶跃星辰发布了 Step-3.7-Flash 模型,vLLM 在模型发布当天即提供支持。该模型是一个 198B 参数的稀疏 MoE 视觉语言模型,每个 token 约有 11B 激活参数,支持原生图像与文本输入。其上下文窗口达到 256K,适用于长文档、多文件代码库及密集视觉界面。模型提供 FP8 和 NVFP4 量化权重版本,并内置 MTP 推测解码、原生工具调用及推理解析功能。

vLLM: 🎉 Congrats to @StepFun_ai on releasing Step-3.7-Flash, with day-0 support in vLLM. - 198B sparse MoE vision-language mo...

多模态推理模型发布部署/工程
关联讨论 4 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)公众号:阶跃星辰(Step)
08:09
StepFun@StepFun_ai
75
阶跃星辰 Step 3.7 Flash 发布,聚焦智能体效率

阶跃星辰(Step)发布了开源大模型 Step 3.7 Flash,主打智能体(Agent)工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。

智能体多模态开源生态推理
关联讨论 4 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)公众号:阶跃星辰(Step)
08:00
HuggingFace Daily Papers(社区热门论文)
49
蒸馏LLM反馈用于Lean定理证明

针对推理模型后训练中GRPO存在的稀疏奖励、有限探索和模式坍缩问题,提出Feedback Distillation方法。该方法让模型在token级别匹配其自身分布(基于语言模型提供的特权反馈),提供token级监督并注入外部知识。在Lean4定理证明任务上,Feedback Distillation相比GRPO保持更高轨迹多样性,获得更高策略熵和更好的pass@k缩放。两种方法互补:从Feedback Distillation检查点初始化GRPO优于单独使用任一方法,为改进复杂推理后训练提供了有前景的方向。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
加法的形状:大语言模型中算术的几何结构

通过分析多操作数加法中的残差流几何结构,发现Iso-Raw-Sum Trajectory (IRST)几何结构,其中表征由语义数字锚定并被连续进位纤维调制。提出Noisy Quantization Model,将算术错误解释为内部神经噪声推动连续潜在进位势跨越量化阈值导致的Geometric Slippages。该几何框架阐明了Probe Versatility,即轻量探针如何从单次激活向量中分离共存潜在信号(如真实值与幻觉)。最后,通过几何一致性检验方法在推理中检测并纠正这些量化失败。代码已开源。

arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
MindZero:基于零标注的在线心智推理学习

MindZero是一个自监督强化学习框架,用于训练多模态大语言模型进行高效、鲁棒的在线心智推理。该方法通过让模型生成使观测到的行为似然最大化的心理状态假设来获取奖励,从而无需显式的心智状态标注。训练后,MindZero将基于模型的推理内化为快速的单次推理。在网格世界和家庭环境的评估中,它在精度和效率上均显著优于传统的基于模型的方法。

智能体arXiv推理论文/研究
‹ 上一页
1…2122232425…50
下一页 ›