GPT-5.5 & Opus 4.7 on ARC-AGI-3 - GPT-5.5: 0.43% - Opus 4.7: 0.18% We found 3 failure modes: - True local effect, false ...
GPT-5.5 & Opus 4.7 on ARC-AGI-3 - GPT-5.5: 0.43% - Opus 4.7: 0.18% We found 3 failure modes: - True local effect, false ...
Grok 4.3 release > #1 in caselaw > #1 in corpfin > impressive given significantly lower cost per 1m tokens (5-10x less t...
GPT-5.5 Scores .43% on ARC AGI 3! - GPT-5.5: 0.43% - Opus 4.7: 0.18% - GPT-5.4: 0.20% - Claude 4.6: 0.45% - Gemini 3.1: ...
传统多智能体系统依赖文本消息传递,导致令牌膨胀、延迟和上下文稀释。RecursiveMAS提出新范式:将多智能体系统视为递归计算,智能体在共享潜在空间中通过递归传递潜在表征进行协作,而非传递完整文本。其核心是RecursiveLink模块,能在异构智能体间直接生成和传递潜在状态,并采用内外环学习与基于梯度的团队信用分配机制。这如同智能体用内部语言传递笔记,实现“少交谈,多思考”。在数学、科学、医学等9个基准测试中,该方法平均准确率提升8.3%,推理速度加快1.2-2.4倍,令牌使用减少34.6%-75.6%,为突破智能体间通信瓶颈提供了高效可扩展的路径。
该书核心观点认为,人类进步的唯一引擎是创造“难以随意改变”的“好的解释”。知识并非来自归纳积累,而是通过“猜想与反驳”的循环产生,错误是进步的燃料而非耻辱。由此推导出物理定律级别的乐观主义:所有问题本质是知识不足,只要持续创造知识,问题终可解决。书中还指出,AI具备真正创造力是时间问题,并批判“可持续发展”是陷阱,强调“持续创新”才是真正的可持续。最终结论是,人类远未到达极限,仍处于进步的起点。
http://x.com/i/article/2050167748169461761
戴维·多伊奇在《无穷的开始》中指出,人类文明进步的核心动力是创造力,即产生“难以随意改变”的好解释。知识通过“猜想与反驳”产生,错误是进步的燃料。他将文化分为压制变革的静态文化与鼓励批判的动态文化,并批判“可持续发展”观念,认为真正的可持续在于持续创新以解决新问题。只要保持创造与批判,在物理定律允许的范围内,进步将永无止境。
Huawei's AI chip sales surge as Nvidia stalls in China https://ft.trib.al/2jJaokL
This release shows increased cost efficiency to run the Artificial Analysis Intelligence Index, with Grok 4.3 sitting co...
xAI has launched Grok 4.3, achieving 53 on the Artificial Analysis Intelligence Index with improved agentic performance,...
上周,Kimi K2.6、MiMo V2.5 Pro和DeepSeek V4 Pro三大领先开源模型发布,在Artificial Analysis Intelligence Index上得分达52-54分,与顶尖闭源模型GPT-5.5的60分差距缩小至6分以内,相比一年前22分的开源模型进步显著。这些模型均为万亿参数规模的MoE架构。然而,在复杂推理、智能体编码及知识准确性方面,开源模型与闭源模型仍存在明显差距。例如在HLE、CritPt和TerminalBench Hard等专项评估中得分大幅落后;在Omniscience评估中,DeepSeek V4 Pro的幻觉问题尤为突出。
Qwen宣布与Fireworks AI建立战略合作伙伴关系,旨在通过Fireworks平台提供其闭源权重模型的优化、生产就绪型部署。此次合作使开发者和企业能够以更低的延迟、更少的微调和推理成本来部署Qwen模型,同时利用企业级的可靠性、安全性和可扩展性,并将其无缝集成到现代AI工作流程中。
鲸鱼兄弟们好,我是做 DeepSeek-TUI 的那个美国佬。 说真的,特别想跟国内的鲸鱼兄弟们一起混--但我的翻墙技能仅限于写代码,微信到现在都没搞定,属实有点丢人。 求各位大佬帮个忙: 1)帮忙转发扩散一下,让这个开源终端工具翻过高墙被...
The new Grok-4.3 from @xai is live on OpenRouter! Grok-4.3 releases at a lower price than Grok-4.2, while seeing a large...
Demis Hassabis认为当前AI范式(预训练+RLHF+思维链)可能是AGI架构的一部分,但仍有50%概率需要一两个关键突破,未解决持续学习、长程推理和记忆等问题。他指出,百万token上下文窗口处理实时视频仅够20分钟,现有方法如同“用胶带糊住”。AlphaGo时代的技术正被重新引入基础模型以推动进步。智能体尚处实验阶段,投入产出比不匹配。完整虚拟细胞等科学突破还需约10年,关键瓶颈是活细胞成像技术。
测试者使用 DeepSeek-V4-Pro 在 Pi 编码智能体上构建了一个 LLM 知识库,对其开箱即用的表现感到震撼。这是首个在推理能力上媲美 Claude 和 Codex 的开源权重模型,且成本效益高,支持 100 万上下文长度。该模型无需复杂配置即可在基础框架中直接运行,擅长智能体编码和知识密集型推理任务,能跨公司文档、论坛、论文和代码库进行多步骤研究、代码生成与上下文推理。其高效运行得益于 Fireworks 的市场最快推理速度及混合注意力设计,将 KV 缓存降至 10%,推理计算量减少近 4 倍,实现了快速且低成本的实践部署。
xAI推出Grok 4.3模型,其在Artificial Analysis智能指数得分达53,超越Muse Spark等模型,较前代提升4分。模型在显著降低成本的同时保持智能水平,输入与输出价格分别降低约40%和60%。在真实世界智能体任务上表现突出,GDPval-AA基准得分大幅提升至1500 ELO,超越Gemini 3.1 Pro Preview等多款模型,但仍落后于GPT-5.5 (xhigh)。其在指令遵循和客服任务上表现强劲,但AA-Omniscience非幻觉率略有下降。
传统RAG系统在推理前单次检索,无法满足如o1、R1等大型推理模型在生成长链思维时中途出现的知识需求。ReaLM-Retrieve提出推理感知的检索框架,能在多步推理中动态注入证据。其核心在于以推理步骤粒度检测不确定性,学习判断何时引入外部证据有效,并将单次检索开销降低3.2倍。在多个QA数据集上,该框架比标准RAG的F1绝对值提升10.1%,且检索调用次数比固定间隔的IRCoT减少47%。在2-4跳的MuSiQue任务中,仅用平均1.8次检索即可达到71.2%的F1值,表明面向推理模型的RAG需优化检索时机而不仅是检索内容。
在@atomic_chat_hq平台的本地LLM游戏开发竞赛中,Gemma 4 31B与Qwen 3.6 27B于MacBook Pro M5 Max上对决。尽管Qwen生成速度更快(32 tokens/秒)且回答更具创意,但Gemma仅用3分51秒和6209个token,输出了更简短、清晰、逻辑性强的答案。在具体的吃豆人游戏逻辑实现上,Gemma在点击反应、与墙壁/幽灵的交互及粒子效果处理方面表现更优。作者强调此为单次测试,Qwen或可通过调整设置提升表现,并邀请社区验证。
用户在使用DeepSeek-V4 API或集成该模型的终端编码代理(如Claude Code、Kimi CLI)和AI IDE(如Cursor)时,频繁遇到HTTP 400报错。错误信息指出,在思考模式下必须将reasoning_content字段回传给API。核心问题在于,当任务步骤的tool_call过于简单直接时,DeepSeek-V4返回的reasoning_content可能为空字符串。许多开发工具默认会过滤掉空值字段,导致该字段未被回传,从而触发API报错,致使编码任务或代理中断。经测试,在特定场景下该字段返回空字符串的概率高达59%。解决方案是必须将空字符串值的字段原样回传,不能省略或改为空对象。目前需等待IDE官方修复或自行修改开源工具,使用DeepSeek-V4的代理项目也需注意此问题。
在名为CritPt的尖端科学评估中,GPT-5.5 Pro (xhigh) 以比前代GPT-5.4 Pro (xhigh) 低60%的成本和令牌使用量,实现了0.5个百分点的性能提升,将得分推至30.5%。CritPt评估包含全球30多家机构的60多名研究人员贡献的研究生级别物理问题。自2025年11月发布以来,最高分从Gemini 3 Pro Preview的9%跃升至GPT-5.4 Pro的30%。OpenAI指出,GPT-5.5 Pro相比GPT-5.5“使用了更多计算资源进行深度思考,以提供更稳定的优质答案”。该模型每令牌定价相同,但通过使用更少的令牌完成了评估。
OpenAI与Anthropic同天发布官方提示指南,核心理念截然相反。OpenAI建议为GPT-5.5明确目标而非步骤,让其自主选择路径;Anthropic则要求对Claude Opus 4.7清晰说明意图、格式与成功标准。这导致旧提示方法失效:模糊指令使Claude输出变窄,而详细流程成为GPT的噪声。这反映出提示工程的核心已从“教模型做事”转变为“使用者自身思考的结构化”,真正的瓶颈可能在于人的思考清晰度,而非模型能力。
我终于明白为啥最近很多人都在说,GPT和Claude突然变笨了, 昨天OpenAI和Anthropic同时发布了官方提示工程指南, 看完我才发现,并不是模型变笨了, 是它们终于聪明到,不再容忍人类懒得想清楚了🤣🤣🤣 而且最有意思的是,...
DeepSeek团队提出全新多模态推理框架“Thinking with Visual Primitives”,核心是让模型在推理过程中像人类一样,使用“点”和“边界框”这类视觉原语来指代图像中的具体位置,以此作为思维的最小单位,旨在解决语言在精确描述空间位置时的“指代鸿沟”问题。模型采用DeepSeek-V4-Flash作为语言骨干,并设计了极致的视觉Token压缩流水线,将视觉Token用量压缩至其他前沿模型的十分之一。尽管视觉信息被大幅压缩,模型在空间推理、计数等任务上仍达到或超越了GPT-5.4、Claude-Sonnet-4.6等模型的性能。
OpenAI's GPT-5.5 is the second model to complete one of our multi-step cyber-attack simulations end-to-end 🧵
阿里巴巴开源了Qwen3.6系列两款模型:27B密集模型和35B A3B混合专家模型。其中,Qwen3.6 27B在Artificial Analysis智能指数上得分46,成为150B参数以下最智能的开源模型,领先于Gemma 4 31B等。但其运行完整测试消耗的输出token约为后者的3.7倍,成本高出约21倍。两款模型均采用Apache 2.0许可,支持262K上下文,具备多模态能力。值得注意的是,其幻觉率较前代大幅下降,但准确率基本持平。更大的Plus和Max Preview版本未开源。
腾讯发布开源混合专家模型Hy3-preview,总参数量2950亿,激活参数量210亿。其在Artificial Analysis综合智能指数上得分42,落后于近期开源的GLM-5.1、DeepSeek V4 Flash及Qwen3.6 27B等推理模型。具体评测表现不均衡:在真实世界任务基准GDPval-AA上落后于主要竞品,但在研究级物理评测CritPt上与高分模型GLM-5.1持平;其相对弱项在于AA-Omniscience指数,幻觉率较高。模型采用Tencent HY社区许可协议,商业使用受限,已在Hugging Face和SiliconFlowAI平台提供。
文心5.1 Preview在LMArena文本榜以1476分位列国内第一,是全球前十五名中唯一的国产模型,排名超越GPT-5.5与DeepSeek-V4-Pro。尽管AI领域热点转向Agent与多模态,但DeepSeek V4与文心5.1等旗舰模型仍以文本为核心。作者强调文本能力是大模型的地基,代码、推理等多维度能力均由此衍生,地基差异直接影响上层性能,因此文本仍是模型拉开差距的关键分水岭。引用推文显示,文心5.1在数学、法律与政府、商业管理及软件服务等类别表现突出。
Ernie-5.1 from @ErnieforDevs lands at #13 in Text Arena - now the #1 highest-ranked model from a Chinese lab. Strongest ...
在 DeepSeek-V4 Pro 1.6T 模型上,采用机架级解耦设计的 GB300 NVL72 系统性能达到 B200 的 6.5 倍。这一高吞吐配置得益于 DeepSeek-AI 的 MegaMoe 内核,该内核将专家分派、专家组合及 GEMM 运算完全融合并重叠至单一内核中。性能突破由 Radixark、LMSYS 和 NVIDIA AI 的工程师团队快速实现。CoreWeave 为此项开源性能优化贡献了临时的 GB300 NVL72 机架资源,使整个社区受益。
Introducing ERNIE 5.1 Preview - now live! 🚀 Ranked #13 globally and #1 among Chinese labs on @arena 's Text Arena. Top-...
Demis Hassabis预测AGI将在2030年左右到来,科技创业者必须提前将其纳入长远战略规划。当前底层架构需攻克持续学习与长期推理两大难题,智能体被视为通向AGI的必经之路,但受限于持续学习能力难以适应复杂环境。模型生态上,大小模型协同运作成为趋势,蒸馏技术使轻量级模型以低成本达到高性能,端侧模型降低成本并保障隐私,未来与云端超大模型协同构建理解物理世界的基础设施。
GPT-5.5因推理能力增强,提示词应转向精确定义结果、约束与停止条件,而非详细规定流程。相比前代,需采用更简短的结果导向提示,并重新评估推理强度需求。关键新增点包括显式人格设定与检索预算。指南强调不应直接迁移旧提示,避免限制模型搜索空间。此外,还涉及利用Preamble改善响应感知、设定停止条件、控制输出格式等实用技巧。
https://developers.openai.com/api/docs/guides/prompt-guidance?model=gpt-5.5 **NEW: GPT-5.5 Prompting Guide** "GPT-5.5 wo...
@vista8 Deepseek的速度绝对是一大未被完全发掘的优势. 试了v4flash之后我把所有不涉及复杂推理的llm api调用全切到flash了. 速度基本都是无感秒处, 价格比haiku省90% 质量比haiku强.
研究发现,当语言模型面对困难问题时,其内部“脑活动”会收缩到更少的路径中。模型在感到困惑时会压缩内部思考,表现为从广泛分散的神经元激活,坍缩为最终处理层中高度集中的信号。这是因为系统放弃了稳健的分布式记忆,将计算强制压缩到狭小的专门空间以应对陌生挑战。关键在于,这种收缩效应可被量化为一个原始数值,从而无需猜测问题对AI是否过难。通过读取此内部信号,便能自动为系统提供恰如其分的“垫脚石”以辅助其解决问题。
OpenAI在发布GPT-5.5后推出官方提示词指南,核心主张是摒弃冗长指令。指南指出,新模型具备更强推理能力,用户只需清晰描述期望结果、成功标准和限制条件,过细的步骤规划反而会限制模型搜索空间,导致输出僵化。关键建议包括采用简短的角色、目标等模块化提示;为搜索设定“检索预算”以控制成本;在创意写作中严格区分事实与虚构。这标志着提示词范式从“详细过程控制”转向“结果导向”。
https://developers.openai.com/api/docs/guides/prompt-guidance?model=gpt-5.5 **NEW: GPT-5.5 Prompting Guide** "GPT-5.5 wo...
哈佛、斯坦福、UC伯克利等顶尖实验室联合提出,深度学习正从经验优化转向可解释的科学理论。尽管神经网络架构、数据等完全公开,但其复杂互动使得预测训练过程仍依赖大量实验。作者倡导建立“学习力学”,类似物理学关注宏观规律,通过可解玩具模型、无限宽度极限、缩放定律等五种路径,揭示训练动态与性能演化的整体性法则。这一理论与专注于局部电路的机制可解释性研究形成互补,共同探索学习的全局定律。