本期简报要点如下:Anthropic发布了Claude Opus 4.8模型,并宣布完成650亿美元融资,投后估值达到9650亿美元。KogAI展示了其在特定硬件上的性能:使用8块AMD MI300X GPU时处理速度达3000 tokens/s,使用8块NVIDIA H200 GPU时达2100 tokens/s(FP16精度,无推测解码),模型参数为20亿。此外,Datacurve推出了更具挑战性的编程基准测试DeepSWE,旨在更清晰地评估顶尖模型的性能差异。
本期简报要点如下:Anthropic发布了Claude Opus 4.8模型,并宣布完成650亿美元融资,投后估值达到9650亿美元。KogAI展示了其在特定硬件上的性能:使用8块AMD MI300X GPU时处理速度达3000 tokens/s,使用8块NVIDIA H200 GPU时达2100 tokens/s(FP16精度,无推测解码),模型参数为20亿。此外,Datacurve推出了更具挑战性的编程基准测试DeepSWE,旨在更清晰地评估顶尖模型的性能差异。
Liquid AI 发布了其 LFM2-5 系列的 8B-A1B 模型,该模型采用混合专家(MoE)架构,在包含 38T token 的数据集上训练完成。
陶哲轩指出,研究过程中存在大量“认知摩擦”——例如验证想法、排除错误路径、将直觉转化为计算等试错环节,占据了主要时间。AI正在将这些摩擦成本降至零,使研究者能更自由地尝试“更疯狂的想法”。推文强调,许多非常规路径并非被证伪,而是被高昂的验证成本所阻碍。AI降低这一成本,让原本因“不便”而被放弃的弱信号得以被审视,这往往是发现的起点。
AI can give researchers the freedom to pursue "crazier" ideas. For Terence Tao, AI creates more room to experiment, test...
AI芯片初创公司Groq计划进行一轮6.5亿美元的内部融资。该公司正从硬件制造转型,将业务重心更多地转向AI推理服务。
I'm old enough to remember when everyone thought AI solving ONE novel math problem would be a front page story around th...
With Opus 4.8, you can add system instructions mid-conversation without breaking the prompt cache. More cache hits means...
@MomoseReina 选择Max 挽弓当挽强、用人当用长,你的时间比什么都宝贵
一组预算模型通过OpenRouter平台进行模型融合,在包含100个复杂研究任务的评估中,得分超过了GPT-5.5与Claude Opus 4.7。
关联讨论 1 条OpenRouter:Announcements(RSS)AI芯片初创公司Groq计划融资6.5亿美元,将业务重心从硬件制造转向AI推理,专注于优化AI模型响应提示请求的过程。
Kog团队在标准数据中心GPU上实现了极高的单用户推理速度,在8× AMD MI300X GPUs上达到3,000 tokens/s,在8× NVIDIA H200上达到2,100 tokens/s。相比常规推理速度(约100-300 tokens/s),实现了10-30倍提升。其核心思路是将LLM解码视为内存流问题,通过协同设计monokernel、重建同步机制、针对性内存访问映射及采用延迟张量并行的Laneformer模型架构,消除了传统流程的阻塞点。
该技术成果展示了在标准GPU硬件上实现大语言模型实时推理的可能性。核心性能指标为单次请求的生成速度可达到3000个tokens每秒(3k tokens/s per request)。这一结果表明,对于特定场景或模型配置,即使在非专用集群的常规计算设备上,也能实现高速的模型输出,对于降低大语言模型的使用门槛和成本具有参考意义。
由于美国出口管制,华为在芯片先进制程竞赛中面临困难。为此,华为于2026年5月提出“τ(Tau)定律”,旨在为后摩尔时代的芯片性能提升提供新框架。该定律的核心是优化有效RC时间常数(τ)以提升信号传播速度。其方法是不完全依赖制程微缩,而是从晶体管、电路、芯片互连及系统架构四个层次进行优化,以压缩τ值。华为将其描述为中国公司首次提出具有全球影响力的后摩尔扩展框架。
据报道,字节跳动正在开发基于 Groq LPU 架构的自研推理芯片。该架构将模型保存在片上 SRAM 中,跳过了受美国对华出口管制最严格限制的组件——高带宽内存。字节跳动的内存合作伙伴 InnoStar 在台积电的成熟制程节点进行生产,这些节点也处于管制之外。这一系列设计选择均旨在规避美国的限制,而正是同一架构,Nvidia 刚刚花费约200亿美元获得了其授权。
RePoT是一种确定性验证重放方法,用于修复思维程序推理中产生的无效动作。当生成的Python轨迹出现无效状态转换时,它会回溯到已验证的前缀状态,并通过一次额外的大语言模型调用来恢复推理。在PuzzleZoo-775基准测试中,RePoT比PoT高出+3至+11个百分点,并在gpt-5.4-mini-medium上达到96.9%的准确率。可控恢复基准Derail-550的实验表明,检查点信息是关键的恢复信号。初步提出的自适应RePoT通过规则调度器在修复与重试间进行选择。
这是一场关于AI架构的辩论。Transformer阵营指出,其凭借简单、硬件友好、可扩展的优势主导当下,核心是基于键值存储的记忆与注意力机制,并强调任何替代架构必须能在扩展性上与之匹敌,且需达到约10倍优势才能颠覆现有技术栈。Post-Transformer阵营则认为,当前大语言模型的推理更像是后置的文本步骤,真正的突破在于实现模型内部的“潜在推理”与持续学习能力,并指出长上下文不等于真正记忆,未来可能是混合架构。辩论还提到,当前公开基准测试易被优化,而困惑度(Perplexity)仍是评估前沿模型的有效指标。最后指出,尽管Transformer仍占主导,但前沿正在拓宽,并列举了Pathway的BDH、Sakana AI的CTMs和Liquid AI的LFMs等新兴架构作为例证。
Artificial intelligences do not undergo experiences, do not possess a body, do not feel joy or pain, do not mature throu...
韩国芯片初创公司 XCENA 获得 1.35 亿美元融资。该公司认为,AI 当前面临的真正瓶颈并非算力,而是内存。
Anthropic发布了Claude Opus 4.8,这是对Claude Opus 4.7的升级,改进了编码、智能体工作、推理和知识工作方面的表现。该模型可通过claude.ai、Claude Code和Claude API使用,API名称为claude-opus-4-8。
论文提出了“效率前沿”框架,用于统一评估LLM上下文管理策略的成本与性能权衡。核心发现是,在部署时选择合适的上下文方法可使token使用量减少约25%,在部分记忆复用场景下可降低超50%成本,且答案质量损失较小。研究指出,上下文长度存在收益递减,后增加的token成本高但收益小。在5000个HotpotQA问题的测试中,轻量检索适合低复用率,记忆压缩在高复用率下更优,而全上下文提示仍是获取最高性能所需。
本文提出一种名为 In-Writing 的混合解码框架,旨在解决大语言模型自由生成推理丰富但缺乏结构,与约束解码格式统一但可能过早限制推理能力的矛盾。该框架在单次调用中结合二者:模型首先进行无约束推理,待生成特定触发词后再应用结构化解码,从而将推理与格式化明确分离。此方法能有效消除“过早触发”这一失败模式。在涵盖分类与推理任务的多项数据集评估中,In-Writing 相比自然生成,准确率最高提升了27%,性能优于现有方法。相关代码已开源:https://github.com/Nokia-Bell-Labs/InWriting。
根据戴尔的 COMPUTEX 2026 资料,其即将发布搭载 NVIDIA "N1X" 芯片的 XPS 机型,相关内容预计于北京时间 6 月 1 日 11:00 解禁。联想近期也有搭载 "N1X" 的 YOGA 360 16 笔记本通过 3C 认证,这共同指向 NVIDIA 将在 COMPUTEX 2026 上正式发布这款 SoC。泄露信息显示,"N1X" 与 DGX Spark 上的 GB10 超级芯片同源,预计采用 20 核 Arm CPU 和 6144 CUDA GPU,并支持 256-bit LPDDR5x 内存。
针对强化学习提升事实性问答准确度时的奖励设计难题,本文提出CorVer方法。它用基于Wikipedia共现统计的轻量级语料库信号,替代了昂贵且不可靠的神经验证器(如NLI或LLM判断器)。CorVer为每个句子分配信用值,并通过简单对齐映射到token级优势,仅需一个0.5B的提取器和单次语料库查询。在覆盖六个指令微调模型和五个问答基准的30个测试组合中,CorVer使每个组合的性能均优于原始基线,其中TriviaQA平均提升+4.1个百分点。在可行配置下,它在20个组合中的18个超越了神经验证器基线,且训练速度快4.8至8.4倍。
本研究构建了一个两层自主研究系统:外层AI智能体自主重新设计内层用于多智能体序列社会困境(SSDs)的大语言模型策略合成流水线。在Cleanup和Gathering两个游戏、两种福利目标(功利效率与最大化最小)下,该系统在性能上可靠地超越手工设计的基准,显著降低运行方差,并优于仅优化提示词的方法。研究发现,所发现的流水线具有目标依赖性:仅在最大化最小目标下,系统才会向合成器流水线注入显式的公平机制,这种机制在其自身的系统提示词和所有面向效率优化的流水线中均不存在,支持了信息设计理论的观点。
本文介绍了CausaLab,这是一个评估LLM智能体交互式因果发现能力的可扩展环境。该环境在一个合成实验室内评估两个维度:智能体能否利用因果证据解决问题,以及其答案是否基于忠实恢复的因果机制。每个实验中,智能体接收先验观测数据,对操纵晶体进行干预,并预测反应晶体的共振频率。隐藏的数据生成过程是随机采样的结构因果模型(SCM),成功要求恢复因果图和结构方程。实验表明预测与机制恢复之间存在差距:在6节点纯观测设置中,GPT-5.2-high的任务准确率达92%,但全边F1值仅为0.471。混合观测-干预策略能提升结构保真度,而纯干预对强智能体仍具挑战。研究发现过早停止是主要弱点,一致性验证能缓解该问题。CausaLab将预测成功与因果理解分离开来,揭示了当前LLM智能体作为实验因果推理者的局限。
本文提出YOCAUSAL,一个受认知科学“违反期望”范式启发的两层级基准测试,用于评估视频扩散模型(VDMs)的因果理解能力。Level 1通过零成本的时间反转真实视频构建反事实样本,引入“反转惊奇指数”(RSI)量化模型对时间箭头的感知。Level 2引入“因果认知指数”(CCI),利用视觉语言模型将数据集分层,以区分真正的因果推理与时间偏差。对13个先进VDMs的评估表明,感知时间箭头并不等同于理解因果关系,当前模型在因果认知方面与人类水平仍存在显著差距。
该研究指出大语言模型在长时程交互中需要管理累积信息,即上下文信念管理(CBM)。研究提出BeliefTrack基准进行精确评估,涵盖规则发现与电路诊断任务。发现普通大语言模型存在严重的CBM失败,包括无法保持状态、无法更新状态及无法隔离噪声。显式信念追踪提示收效有限,而采用信念状态奖励的强化学习将平均失败率降低了70.9%。进一步的表征层面引导将两项任务的失败率降低了46.1%。相关代码将在GitHub开源。
视觉语言模型通常缺乏鲁棒的3D空间推理能力。现有方法或依赖3D视觉问答数据集进行微调,导致过拟合;或集成专用3D编码器,显得笨重且不灵活。本研究提出GASP框架,直接将基础几何先验注入大语言模型的Transformer层。该框架利用大规模视频场景的真值几何数据,通过一个小型对应头进行双目标训练:对比损失强化2D视角不变性,深度一致性监督解决3D几何歧义。分析表明,标准模型内部的对应匹配准确率极低(常低于5%);GASP训练后,该指标峰值超过70%,且时间鲁棒性超过85%。这在下游基准测试中带来显著提升,包括在All-Angles Bench上提升+18.2%,在VSI-Bench上提升+29.0%,且无需任何3D VQA数据训练。
强化学习后训练能提升大语言模型的推理能力,但也可能引入数据污染,影响模型泛化和评估可靠性。现有基于输出层信号的检测方法对RL模型效果不佳。为此,研究提出了LaRA框架,通过逐层分析模型表征来检测污染。该框架引入三个互补指标,分别度量受控扰动下的扰动敏感度、方向坍缩和局部表征刚性。研究发现,污染会导致模型表征在各层出现渐进式几何偏差。基于此,研究开发了一种聚合各层与各指标表征偏差的检测协议,实验表明其性能优于现有的输出级基线方法。
Claude Opus 4.8 is LIVE on AIMLAPI - Hour 0 availability! ~4x less likely to let code flaws slip through vs 4.7 Fast mod...
Claude Opus 4.8 is LIVE on AIMLAPI - Hour 0 availability! ~4x less likely to let code flaws slip through vs 4.7 Fast mod...
🎉 Congrats to @StepFun_ai on releasing Step-3.7-Flash, with day-0 support in vLLM. - 198B sparse MoE vision-language mo...
关联讨论 4 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)公众号:阶跃星辰(Step)阶跃星辰(Step)发布了开源大模型 Step 3.7 Flash,主打智能体(Agent)工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。
关联讨论 4 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)公众号:阶跃星辰(Step)针对推理模型后训练中GRPO存在的稀疏奖励、有限探索和模式坍缩问题,提出Feedback Distillation方法。该方法让模型在token级别匹配其自身分布(基于语言模型提供的特权反馈),提供token级监督并注入外部知识。在Lean4定理证明任务上,Feedback Distillation相比GRPO保持更高轨迹多样性,获得更高策略熵和更好的pass@k缩放。两种方法互补:从Feedback Distillation检查点初始化GRPO优于单独使用任一方法,为改进复杂推理后训练提供了有前景的方向。
通过分析多操作数加法中的残差流几何结构,发现Iso-Raw-Sum Trajectory (IRST)几何结构,其中表征由语义数字锚定并被连续进位纤维调制。提出Noisy Quantization Model,将算术错误解释为内部神经噪声推动连续潜在进位势跨越量化阈值导致的Geometric Slippages。该几何框架阐明了Probe Versatility,即轻量探针如何从单次激活向量中分离共存潜在信号(如真实值与幻觉)。最后,通过几何一致性检验方法在推理中检测并纠正这些量化失败。代码已开源。
MindZero是一个自监督强化学习框架,用于训练多模态大语言模型进行高效、鲁棒的在线心智推理。该方法通过让模型生成使观测到的行为似然最大化的心理状态假设来获取奖励,从而无需显式的心智状态标注。训练后,MindZero将基于模型的推理内化为快速的单次推理。在网格世界和家庭环境的评估中,它在精度和效率上均显著优于传统的基于模型的方法。