Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
OpenCode x MiMo V2.5 - Free for a limited time 1M context • reasoning • text • image
同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》NVIDIA发布Vera CPU基准测试报告。Vera采用Armv9.2架构,在Phoronix测试中,其整体性能比128核x86 CPU高1.5倍,比前代Grace CPU提升1.6倍(几何平均)。其每核心内存带宽是传统x86 CPU的4倍以上,使用LPDDR5X实现1.2TB/s带宽,内存功耗低于30W。该报告旨在表明NVIDIA的Arm架构CPU性能已超越Intel和AMD的x86服务器CPU,并强调在智能体AI场景下,因涉及工具调用、文件读写、代码生成等复杂任务,CPU侧工作负载变得更重。
Another major problem, this time in additive combinatorics, has fallen, this time to humans rather than AI, but using me...
Artificial Analysis and IBM Research are launching ITBench-AA, the first in a new series of benchmarks evaluating models...
Many developers have suspected for months that GPT-5.5 outperforms Claude Sonnet for coding. But SWE-Bench reported near...
针对当前Transformer智能体因上下文不断增长而推理变慢变贵的问题,论文提出效仿人类睡眠机制进行记忆巩固。其核心方案是加入周期性的“睡眠阶段”:模型在此阶段暂停,多次重读近期上下文,将有用信息写入固定大小的记忆层(如状态空间块的快速权重),然后清空短期注意力缓存。此离线过程使后续回答仍只需一次前向传播。在细胞自动机、图查找和GSM-Infinite数学问题上的测试表明,更长的睡眠时间能提升性能,尤其对需要深度推理的复杂任务。该思路表明,长期智能体或可通过记忆巩固实现高效遗忘与重用,不必无限携带原始上下文。
OpenCode x MiMo V2.5 - Free for a limited time 1M context • reasoning • text • image
The Grid推出新的LLM推理平台,用实时供需市场定价取代传统的固定费率。它按任务难度分层:简单任务(如分类)用“standard”,常规生产任务(如RAG、智能体步骤)用“prime”,高难度任务(如长上下文推理)用“max”。应用将请求发送至The Grid,平台会自动匹配该层级当前最便宜的可用供应商。开发者仍使用单一API,但后端模型可动态切换。新账户享受前200 million tokens免费额度。文中以Hermes Agent集成为例,展示了如何通过“agent-prime”层级处理工单。
Qwen3.5在TokenSpeed推理引擎上,针对智能体工作负载达到了创纪录的580 tokens per second (tps)速度。这一成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队共同实现,并采用了tri_dao的FlashAttention-4 (FA4) 优化。此里程碑标志着开源大语言模型推理性能的边界得到了推动,相关详情可查阅PyTorch社区博客。
The speed-of-light optimization for Qwen3.5 on the TokenSpeed inference engine is a significant milestone, achieving a r...
近期两个事件表明,前沿模型在高级抽象层面的可靠推理能力已跨越临界点。一是Anthropic发布了Claude Mythos Preview,其网络攻防能力过强,因此未公开,仅开放给合作伙伴用于防御。二是OpenAI的内部通用推理模型成功推翻了数学家Paul Erdős提出的一个猜想。两者共同显示,模型稳定处理的推理单元已从句子层级跃升至能维持核心论点、建立逻辑结构的“段落”与“整篇论证”层级,标志着能力的关键跃迁。
http://x.com/i/article/2058529613370802177
本次价格调整源于模型架构与推理框架带来的结构性成本优势。推理框架层面,对SWA的层级KV cache优化使缓存容量提升5倍,相当于缓存成本降低80%,再结合混合模型中多个Full Attention模块的缓存读取重叠,进一步降低了实际成本。模型架构层面,MiMo-V2.5-Pro实现了极端的1:7 Full:SWA稀疏比例,其预填充计算量极低,使得原始推理成本远低于行业平均。因此,输入(缓存命中)价格最高降幅达99%,输入(缓存未命中)和输出价格降幅为60%-80%。此番调整是将效率提升直接让利给开发者,而非亏损运营。
Phoronix发布了NVIDIA Vera CPU的首份公开基准测试。这款ARM架构数据中心处理器拥有88个Olympus核心,专为智能体AI(Agentic AI)所需的代码执行、工具调用与数据管道设计。测试数据显示,Vera编译Linux内核耗时20秒,为测试最快。其整体性能较Intel Xeon 6980P提升约1.55倍,较AMD EPYC 9575F平均领先约10%。内存方面,Vera采用LPDDR5X,提供高达1.2 TB/s的带宽,每核内存带宽是传统x86 CPU的4倍以上,且在STREAM TRIAD测试中达到了90%的峰值带宽利用率。与上一代Grace CPU相比,Vera性能平均提升1.63倍。该处理器预计于2026年H2出货给合作伙伴。
DeepSeek V4-Pro宣布永久降价75%,小米MiMo V2.5降价高达99%。此次降价核心是架构革新带来的成本结构性降低。DeepSeek V4通过混合注意力架构大幅压缩了长上下文推理的KV缓存,使其在100万token时仅为V3.2的10%,单token推理FLOPs降至27%。小米MiMo团队则通过SGLang HiCache实现滑动窗口注意力,将KV缓存跨内存数据传输量减少至约1/7。这些架构优化使V4-Pro定价降至$0.87/百万输出token,MiMo V2.5-Pro约为$3/百万,两者均为拥有百万上下文窗口的前沿级模型。降价源于推理与缓存成本的实质性下降。
Google DeepMind负责人 Demis Hassabis 将其 AGI 实现时间预测提前至2029年,并称我们正处于“奇点”的初级阶段。他提出的“爱因斯坦测试”基准是:用知识截止于1911年的 AI 能否独立推导出广义相对论,目前尚无系统能接近通过。然而,业界对 AGI 的定义仍无共识,例如 OpenAI CEO Altman 预测时间为2028年,xAI CEO Musk 宣称奇点已在1月发生,而 Anthropic 则避免使用该术语。尽管定义不明,AGI 实现的时间线预测正在不断缩短。
Qwen3.7 Max now available in Go - text only - 1M context - smartest model in the Qwen family to date
关联讨论 9 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)Today we're announcing our $113M Series B led by @CapitalGVC. Over the last 6 months, weekly volume on OpenRouter grew f...
I recently put together a 50-state legal research workflow in Codex. This is the kind of work that a team of associates ...
MiniMax即将发布M3模型。其核心架构为基于GQA的动态块稀疏注意力机制,通过轻量索引分支筛选相关token块进行稀疏注意力计算。性能方面,在1M token上下文窗口下,Prefill速度相比M2提升9.7倍,解码速度提升15.6倍。该设计旨在大幅降低处理超长上下文的算力成本,使百万token级别的Agent应用得以更高效落地。
Something BIG is coming
// Language Models Need Sleep // Let your agents "sleep", folks. On a serious note, this is a fascinating paper on getti...
Belgian man convicted of hate speech describes the judicial rationale for his latest conviction. I asked Gemini: Is this...
🚀 Better inference efficiency, lower costs, broader access. MiMo-V2.5 Series API pricing is now permanently reduced - b...
关联讨论 1 条Hacker News 热门(buzzing.cc 中文翻译)ICML 2026论文揭示,长上下文大语言模型的性能并非随错误信息增加而线性下降,而是呈现“第一滴墨水”效应。研究发现,仅当上下文包含10%的高难度错误文本时,损害就已基本完成。例如,在一个128K-token的Qwen2.5设置中,这最初的10%错误文本造成了58%的性能损失。其机制在于softmax注意力机制会赋予与问题相近但错误的文本过高权重,仅这10%的高难度干扰文本就能贡献约97%的干扰压力。因此,过滤文档带来的提升可能主要源于缩短了有效上下文,而非移除“坏内容”。
🤖 We often talk about "context rot": LLMs get worse as context grows. But once distracting information enters, is it ju...
该提示词构建了一个以纳瓦尔·拉维康特思想为核心的财富创造操作系统。其核心是“财富 = 专属知识 × 杠杆 × 判断力 × 责任感”的公式,并明确了杠杆的优先级:代码、媒体、资本、劳动力。系统强调运用第一性原理、二阶思维、非对称回报(至少3:1)等框架进行决策,致力于识别个人专属知识并利用杠杆将其产品化。思维模式追求长期复利效应(如每天进步1%),要求以十年为单位进行思考与行动,最终实现资产构建而非单纯时间换金钱。
http://x.com/i/article/2057300084354670592
Gemini 3.5 Flash在速度与agent能力上实现进步,实测输出速度可达约280 output tokens/sec,在GDPVal-AA agent任务中ELO提升至约1650,相比Gemini 3 Flash有显著提升。但代价是成本增加约5倍,主要因token单价上涨(为Gemini 3.5 Flash的3倍)以及使用量更高。
数学家测试了 Claude Mythos 模型解决开放数十年的 Erdős 问题 #90。值得注意的是,Mythos 未复制 OpenAI 已知解法(题号 #1196),而是反复采用了另一条论证路径,被评价为更“简洁”且无“分析复杂性”,且整个过程与网络隔离。此前,GPT-5.5 已解决过多道 Erdős 问题,深度求索的 Nexus 模型解决了 9 道。此次 Mythos 给出了比现有解法更简洁的证明,凸显了一个 80 年难题在数周内被接连攻破的趋势。
over the weekend i checked the obvious thing, which is whether mythos is able to solve the erdos unit distance problem, ...
MiniMax预览了其M3架构采用的新稀疏注意力(Sparse Attention)技术。测试显示,在1M token上下文下,该技术相比M2实现了9.7倍的预填充(prefilling)加速和15.6倍的解码(decoding)加速。M2曾为保证生产环境就绪而采用全注意力机制,M3则采用了新的两阶段方法:先用轻量级索引分支选择数据块,再仅对相关的KV块执行稀疏注意力。这是开源领域的新进展。
#MSA #OpenSource #M3 🫣😎
CMU与UMD的研究团队在论文《Language Models Need Sleep》(arXiv 2605.26099)中指出,传统Transformer模型在处理长任务时,因注意力机制计算复杂度高及KV cache显存占用持续增长而导致效率低下。为此,他们提出了受生物启发的“类睡眠巩固”机制:模型会周期性进入“睡眠”状态,离线多轮处理最近的上下文,并将信息固化到模型状态空间块的fast weights中,随后清空KV cache。实验表明,增加睡眠深度或时长能显著提升模型后续的推理能力。该框架完全开源,提供了一种区别于暴力堆显存的长上下文处理新范式。
very cool research (and nomenclature)
CMU与UMD的研究指出,当前长上下文大语言模型(如Mamba、Jet-Nemotron、Qwen3.5)的瓶颈并非记忆容量,而是“巩固计算”不足。论文《Language Models Need Sleep》提出,可模仿人类睡眠的海马回放机制,在清空前对模型的fast weights进行多次迭代更新(N次forward pass),以提升推理能力。实验表明,该机制在Rule 110元胞自动机及多跳图检索等任务上显著提升了模型性能,且不增加推理延迟。