ClickUp 正在为 Brain 开发上下文压缩功能。该功能可在后台压缩整个工作空间(含文档、任务和历史),使 Brain 能像深度研究智能体一样推理多年材料,响应仍保持在秒级。例如,指向多年审计时,Brain 可自动追踪相关政策变更、提取支持文档并生成时间线,无需手动搜索存档。
ClickUp 正在为 Brain 开发上下文压缩功能。该功能可在后台压缩整个工作空间(含文档、任务和历史),使 Brain 能像深度研究智能体一样推理多年材料,响应仍保持在秒级。例如,指向多年审计时,Brain 可自动追踪相关政策变更、提取支持文档并生成时间线,无需手动搜索存档。
UCSD 黄碧薇教授将近 30 年 AI 分为四代:相关性小模型、因果小模型、相关性大模型(LLM)、因果大模型,认为我们正站在第四代门口。她深耕因果 AI 12 年,是 causal-learn 作者、Apple Scholar 入选者。其创立的 Aether AI 今日官宣完成首轮融资,被解读为资本开始为下一代 AI 范式(因果大模型)下注,而非继续堆参数、拼体量的“相扑式”竞争。
人类到今天都写不出一颗煎蛋的物理方程, 一颗鸡蛋打进热油锅,它怎么凝固、怎么摊开、边缘怎么变焦, 没有任何一个公式能描述清楚,这种例子在物理世界里多到数不过来。 而这恰恰是当下通用 AI 范式的天花板,视频生成、VLA 学的都是像素层面的统...
SEVRA是一种服务层控制器,使用冻结的Qwen3-4B求解器,通过训练可恢复性感知门控决定是否保留初始答案或调用主动验证。在MathFive基准上,选择性验证达76.3%准确率,高于始终验证的75.5%,后生成token减少26.8%,有害翻转从2.2%降至1.0%。但8192 token初始求解以76.0%准确率和28%更少总token胜出。在GSM上,选择性策略仅验证3.0%样本,准确率从93.4%提升至94.5%,验证token减少91.2%。部署规则:先调整初始预算,再在需要显式检查、有限重试、可审计或风险控制时使用选择性恢复。
imo it is crazy that openai, years into the heated AGI race, released o1 and described in quite a bit of detail the prin...
大语言模型智能体在知识密集型问答中常因无法判断答案是否不确定、无支撑或已完整,导致过早给出自信但无支撑的回答,或在证据足够时过度检索。CalVerT通过向智能体状态注入校准的自信心分数和基础验证器分数,提供更完整的状态空间视图。在四个QA基准上,无需训练即可提升F1,既触发对过度依赖参数知识的检索,又减少冗余检索。经强化学习训练后,添加CalVerT遥测的智能体表现优于同等训练的无遥测系统。
Announcing AA-Briefcase, the benchmark for the next era of agentic knowledge work AA-Briefcase is our new benchmark for ...
REVES是一种两阶段迭代训练框架,通过将成功恢复轨迹中的中间步骤转化为独立的修订与验证提示,聚焦于答案变换与错误识别,相比标准多轮强化学习降低了长程采样的计算开销。在LiveCodeBench上,使用公开测试用例作为反馈,较RL基线提升+6.5点,较标准多轮训练提升+4.0点。在circle packing任务上,仅用4B参数基础模型即匹配此前报告的SOTA结果。该方法还泛化到n_queens、mini_sudoku等分布外约束满足问题。代码已开源。
Artificial Analysis 推出新基准 AA-Briefcase,用于评估模型在长期知识工作项目中的智能体能力。基准包含 4 个私有场景(每项目需处理 25000+ Slack 消息、3500+ 邮件等碎片化上下文)及一个公开演示场景。评测结果:Claude Fable 5 以 Elo 1587 领先,其次为 Claude Opus 4.8(1356)、Opus 4.7 及智谱 GLM 5.2(max,1266)。成本方面,Claude Fable 5 平均每任务 $31,Opus 4.8 为 $10.40,GPT-5.5 (xhigh) 为 $3.68,GLM 5.2 (max) 为 $2.40,DeepSeek V4 Flash (max) 仅约 $0.04。所有模型中仅 3% 的任务满足全部标准,31/91 个任务无模型得分超 50%,显示真实世界复杂性仍是挑战。最佳性价比为开源权重模型 GLM-5.2 (max) 和 DeepSeek V4 Pro (max)。
When we announced @OpenAI o1 some researchers from other labs told me we made a strategic mistake and should have kept i...
AI推理公司Baseten接近完成15亿美元融资,估值130亿美元,据《华尔街日报》报道。本轮为分价轮,部分投资者以130亿美元估值进入,部分以110亿美元。交易由Spark Capital、Sands Capital、Altimeter Capital和Wellington Management联合领投。五个月前该公司刚完成3亿美元E轮融资(估值50亿美元),再之前九个月完成1.5亿美元D轮。Baseten成立于2019年,致力于快速推理并通过路由请求至最优低成本开源模型来控制成本,受益于“推理淘金热”。
Perplexity 为其智能体产品 Computer 推出名为 Brain 的自我改进记忆系统。Brain 构建可追溯的上下文图(LLM wiki),记录代理完成的工作、成功、失败及用户修正,并在夜间自动增量合成会话、连接器结果、文档变更和修正结果。该系统通过递归自改进实现性能提升:答案正确性 +25%、召回 +16%、成本 -13%(基于 Perplexity 内部测试)。Brain 今日以 Research Preview 形式面向 Perplexity Max 和 Enterprise Max 订阅用户开放。
Yann LeCun 在 Bloomberg 采访中指出,LLM 只能处理离散符号序列,而语言是对世界的近似简化描述。互联网公开文本约 20 万亿词(30 万亿 token),而一个 4 岁孩子通过视觉在 4 年内就能看到同等数据量——文本则需要 40 万年阅读。感官输入提供远多于语言的密集反馈,文本剥离了大部分真实世界体验。这解释了 LLM 能流畅谈论物理却缺乏对易碎玻璃的直观感受,也呼应了 Moravec 悖论:机器难以掌握婴儿通过身体习得的常识。
@jietang @teortaxesTex On benchmarks, yes, but as measured by true usefulness even Q1 would be very impressive. Anthropi...
Wisedocs 发布 Medical Long Context Reasoning (MLCR) 基准,测试 LLM 对真实医疗档案的长文档推理能力。评测包含 250 个问题,横跨 6 个难度等级,另设私有保留集,涵盖复杂医学推理、幻觉检测及单次查询中的并行提问。Wisedocs 同步开源 10 个合成病例、低三级问题及评估工具。Artificial Analysis 将合作上线该基准。
Introducing MLCR, a novel Medical Long Context Reasoning benchmark. Our eval measures the ability of LLMs to answer real...
GPT-5.5 Instant is now on par with our frontier Thinking models for health-related questions. Every week, more than 230 ...
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)The Decoder:AI News(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)GPT-5.5 Instant在健康相关问题上的表现已与OpenAI的前沿思考模型持平。每周超过2.3亿用户向ChatGPT咨询健康问题,GPT-5.5 Instant能更准确地识别需紧急护理的情况、主动询问相关背景、解释不确定性并简化复杂信息。该模型已向ChatGPT所有免费用户开放。医生主导的评估对这些重大智能提升至关重要。
With Brain, Computer starts each task with full context of your projects, decisions, and sources instead of from scratch...
If you're wondering how people on your timeline seem to have access to GPT-5.6 Pro, it's now being stealth tested when 5...
Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...
Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...
🚨 GPT 5.6 Pro first output on the same prompt we are getting started > frontend/ webdev is not solved or improved yet >...
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
开发者使用Claude Code控制并调试MAME的Power Macintosh仿真。Claude通过生成Lua脚本和修改日志,发现了6522 VIA仿真故障、PowerPC DRC缓存值未覆盖实际状态的反模式、PowerPC 601的两处Bug,以及原子加载/存储指令模拟错误。修复后,Pippin播放启动音并显示Logo、鼠标可移动;PowerMac 7200显示启动磁盘搜索画面;PowerMac 6100成功启动System 7.5.3和7.5.5。此外,GPT 5.5 Pro(经Codex)在固件逆向中能快速给出内存映射和子程序猜测。
波士顿儿童医院、哈佛大学与OpenAI合作,在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例,产出基于证据的候选解释。经专家评审、额外检测和临床确认,医生在18例中建立诊断,额外诊断率达4.8%。研究显示,AI辅助工作流可帮助专家在未解病例中生成可检验假设,使定期再分析更具可扩展性。模型不直接诊断或做临床决策,仅提供证据链供专家审查。
德国团队开发的MIRA智能体在模拟电子病历中操作85,000种选项,500余例急诊诊断准确率88.9%,对比测试(311例)得分87.8%,高于资深专科医生(78.1%)和混合团队(71.1%)。MIRA在阑尾炎(98.6%)和胰腺炎(92.3%)最佳,未发现危险药物交互或剂量错误,性能不受语言影响,代码已公开。谷歌AMIE采用双智能体架构,在100个多访视病例中治疗计划适切率95%(初级保健医生72%),并在药物知识基准RxQA上超过医生。两项研究均警告模拟环境与现实存在差距,实际性能可能更低。
传统LLM智能体技能路由仅从工具库选取单一技能,难以应对多技能组合的真实任务。本文形式化定义“组合式技能路由”,将复杂查询分解为原子子任务,为每个子任务检索对应技能并组合成可执行计划。系统SkillWeaver由LLM分解器、双编码器FAISS检索器和依赖感知DAG规划器构成。同时发布CompSkillBench基准,含300个组合查询和2,209个真实技能,直接评估多技能路由能力。DAG规划器将检索技能转化为有序、尊重依赖关系的计划。
针对在线自蒸馏(OPSD)直接扩展到多模态大语言模型(MLLM)时产生的捷径(特权目标依赖文本参考而非图像),ViGOS提出视觉引导的OPSD框架:学生先写出视觉描述再推理。有效rollout中,纯图像感知教师监督描述,特权推理教师监督推理和答案;无效rollout由参考教师恢复输出格式。ViGOS在通用视觉语言、专家推理等基准上保持OPSD优势,并改善了图像依赖行为。
由 OpenBMB、SGLang 和 NVIDIA 联合主办的 SOAR 2026 挑战赛结束,旨在单消费级 GPU 上最大化 MiniCPM-SALA(稀疏+线性混合注意力模型)推理性能。最终 326 支队伍注册,4300+ 次提交,69 队入围排行榜。冠军团队实现整体 6.33 倍加速,单请求推理峰值达 9.72 倍,方案结合 NVFP4 量化、FlashInfer plan-cache 优化、自定义 Triton 内核、EAGLE-3 推测解码及运行时感知调度。低比特量化、推测解码、稀疏注意力和阶段感知调度被视为下一代高效推理核心支柱。
强化学习成为大语言模型主流后训练范式,但推理生成中自回归解码的长尾延迟成为瓶颈。传统推测解码依赖固定草稿模型,无法适应RL中不断演化的策略分布。EfficientRollout提出系统感知的自推测解码框架:从目标模型量化出草稿模型,无需额外预训练或在线适应;同步采用系统感知的SD开关策略与接受感知的草稿长度自适应。相比加速的自回归基线,该框架将推理生成延迟降低最高19.6%,端到端延迟降低12.7%,且不损失最终模型质量。
长上下文大语言模型的KV缓存随序列和批次线性增长,成为内存和延迟瓶颈。Google与NYU的TurboQuant采用数据无关随机旋转与最优标量量化,在3–4 bit位宽实现近乎无损,4×压缩下Needle-in-a-Haystack全精度召回。Together AI的OSCAR使用注意感知旋转校准,INT2(2.28有效比特)下精度不崩溃,集成SGLang,Qwen3-32B上仅差0.02分,GLM-4.7-FP8匹配BF16,解码速度提升约3倍,KV缓存内存减少约8倍。Apple的EpiCache则针对两者均未解决的多轮对话场景。两者在各自目标位宽上各有优劣,具有理论互补潜力。
"Attention Is All You Need"论文合著者 Noam Shazeer 离开 Google 加入 OpenAI。他此前担任 Google 工程副总裁,与 Jeff Dean、Oriol Vinyals 共同领导 Gemini 模型。Shazeer 于 2000 年加入 Google,2021 年离职创办 AI 聊天机器人初创公司 Character.AI,2024 年作为价值 27 亿美元交易的一部分返回 Google,负责改进公司至今未追上 OpenAI 和 Anthropic 的推理模型。此次跳槽是今年最重大的 AI 人才变动之一。
关联讨论 8 条IT之家(RSS)X:Kim (@kimmonismus)X:Jason Liu (@jxnlco)X:Yuchen Jin (@Yuchenj_UW)Hacker News 热门(buzzing.cc 中文翻译)X:歸藏 (@op7418)X:Sam Altman (@sama)TechCrunch:AI(RSS)一位小型软件公司创始人基于自身业务和开源项目分享,本地 Qwen 27B/35-A3B 模型在特定场景下有实际价值,使用 RTX 6000 Pro 显卡运行,显卡成本已在头两三个月内收回。但本地模型量化后容易出现无限循环和模型幻觉,无法无人监督使用,作者认为不应过度吹捧替代云端 Opus,而是把它看作另一种工具。
Vivek Nair的文章(520万阅读)指出,2026年AI让研究变成“看起来像在研究”而非真正研究。算法选论文、AI总结摘要、生成代码,使“SFT型”(监督微调)研究异常舒适,但判断力无法被替代。真正的原创研究是“RL型”:从目标出发推理。Vivek开出药方:自己选题、读原文、写下来、盯着失败看。大多数人阅读后继续刷下一条。
http://x.com/i/article/2067469942132490241
🚀 Our new blog: Optimizing Ling-2.6-1T on TPU with SGLang-JAX: Hiding MoE Data Movement Behind Compute with One Pallas ...
昇腾 A3 系列已全面支持 GLM-5.2 单双机及大 EP 推理部署,围绕 MOE 大融合算子、通信计算融合、注意力前处理与多 Token 预测、高并发调度与预填充延迟、智能缓存与索引优化、PD 分离与 Prefix Cache 等关键技术进行高效推理优化。GLM-5.2 在 Code Arena 全球盲测中获可用模型第一;专为长程任务设计,支持 1M 上下文,表现介于 Claude Opus 4.7 与 4.8 之间,为排名最高的开源模型。该模型已在 Day 0 完成与华为昇腾、平头哥、摩尔线程等国产算力平台的推理适配,单位 token FLOPs 降至 2.9 倍。
UCSD教授黄碧薇(@huang_biwei)创办的 Aether AI 宣布完成 2000 万美元首轮融资,目标是构建因果世界模型。她认为当前视频生成、VLA 等 AI 仅学习像素层面的统计相关性,无法理解背后因果,并提出第四代 AI 范式——因果大模型,让模型从普通视频中自动抽取出人类写不出的物理规律,甚至发现未知新物理。黄碧薇深耕因果 AI 12 年,是 causal-learn 作者,入选 Apple Scholar。本轮融资被视为跳出“堆参数、比算力”的 scaling 路线,转向下一代 AI 范式的关键信号。
I've spent over a decade working on causal discovery and causal AI. A lot of late nights, a lot of papers, and a lot of ...
论文《LoopCoder-v2》质疑“测试时计算越多越好”的观点。作者提出Parallel Loop Transformer架构,使循环可并行运行并共享内存。他们训练了7B参数的代码模型(1/2/3/4次循环),在18T tokens上预训练并微调,测试代码编写、推理、软件工程和工具使用任务。主要结果:2次循环效果最好,将SWE-bench Verified从43.0提升至64.4,而3次和4次循环性能下降。内部分析显示,第二次循环进行了有意义的精炼(改变隐藏状态、注意力模式和预测),后续循环则主要添加重复和噪声。结论:增加一次隐藏循环可大幅提升性能,但继续增加并非自动有益。
谷歌即将发布 Gemini 3.5 Pro,已在 Gemini 3.1 Pro 产品卡片上标注“3.5 Pro 即将推出”。相比 3.1 Pro,预计视觉能力更强、多模态推理更出色,SVG/前端生成功能升级。将搭载更严格的安全过滤器和内容审核机制,定价预计更高。最大期待是谷歌能在正式发布前修复早期版本在长复杂任务中的“偷懒”问题。