传统RAG系统在推理前单次检索,无法满足如o1、R1等大型推理模型在生成长链思维时中途出现的知识需求。ReaLM-Retrieve提出推理感知的检索框架,能在多步推理中动态注入证据。其核心在于以推理步骤粒度检测不确定性,学习判断何时引入外部证据有效,并将单次检索开销降低3.2倍。在多个QA数据集上,该框架比标准RAG的F1绝对值提升10.1%,且检索调用次数比固定间隔的IRCoT减少47%。在2-4跳的MuSiQue任务中,仅用平均1.8次检索即可达到71.2%的F1值,表明面向推理模型的RAG需优化检索时机而不仅是检索内容。
OpenAI Codex应用更新至版本26.429.20946,包含隐藏及新功能。隐藏功能(尚未启用)包括设置中的远程控制选项、Connections部分、Avatars更名Pets、键盘类别管理,以及引导组件连接邮件、日历和文件集成。已上线的新功能有引导流程更新、计算机与浏览器使用速度提升20%、幻灯片与表格处理能力升级、对浏览器、工件和代码的批注支持,以及设计和性能优化。此外,在欧盟地区,浏览器使用和计算机使用功能可能已被禁用。开发者Sam Altman强调此为重大升级,建议用户尝试用于非编程的计算机工作。
Midjourney V8.1 版本现已登陆 Discord 平台及其官方网站。本次更新重点提升了图像的清晰度与整体画质,这一改进在风格参考(SREF)和情绪板(Moodboards)功能中效果最为显著,同时所有类型的图像生成质量均有所增强,为用户带来更精细的视觉体验。
随着全球科技巨头与初创企业持续将海量资金投入生成式人工智能和大语言模型的研发竞赛,业界开始出现对资本配置效率的深刻担忧。巨额投资集中于少数头部模型如GPT、Claude和LLaMA的迭代,而基础设施、能源消耗及实际商业应用场景的落地速度引发质疑。部分分析师指出,超过千亿美元的资金涌入可能催生技术泡沫,并挤压其他关键科技领域的创新资源。这种集中趋势正促使投资者重新评估风险与回报的平衡。
前沿AI已能以超人速度和近乎零边际成本自主完成端到端的复杂专家级网络攻击链。在AISI的网络安全评估中,GPT-5.5与Mythos Preview表现相当,均远超GPT-4o等早期模型。GPT-5.5在包含32个步骤的企业网络攻击模拟中成功完成端到端攻击,而人类专家需约20小时。在一项人类专家需12小时完成的反向工程任务中,GPT-5.5仅用11分钟、花费1.73美元即告解决。
关联讨论 2 条Simon Willison 博客The Decoder:AI News(RSS)Anthropic为Claude Enterprise客户推出Claude Security公开测试版,将Claude.ai转变为代码库扫描器,用于发现漏洞、验证上下文并生成补丁建议。与传统模式匹配扫描器不同,该工具能处理跨文件的复杂漏洞,减少误报和漏报。产品作为内置工作流集成,无需额外API或代理构建,支持扫描范围设置、并行项目和定期扫描。发现可导出、推送或用于修复会话,提升企业代码安全效率。
在@atomic_chat_hq平台的本地LLM游戏开发竞赛中,Gemma 4 31B与Qwen 3.6 27B于MacBook Pro M5 Max上对决。尽管Qwen生成速度更快(32 tokens/秒)且回答更具创意,但Gemma仅用3分51秒和6209个token,输出了更简短、清晰、逻辑性强的答案。在具体的吃豆人游戏逻辑实现上,Gemma在点击反应、与墙壁/幽灵的交互及粒子效果处理方面表现更优。作者强调此为单次测试,Qwen或可通过调整设置提升表现,并邀请社区验证。
文章指出,当前众多企业首席执行官正陷入一种“人工智能精神错乱”状态,表现为对AI技术产生不切实际的过度期待与盲目投资。这种狂热导致企业战略偏离实际需求,大量资源被投入尚未成熟的AI项目,而实际产出与预期存在显著差距。文中引用社区讨论指出,此现象在科技行业尤为普遍,已引发关于AI泡沫与理性应用的担忧。
安德烈·卡帕西在访谈中指出,计算的未来可能从传统软件转向以神经网络为中心。传统软件需先将现实世界转化为规整符号,再由预设代码处理。而神经系统的处理顺序相反,能直接处理视频、语音、屏幕状态等“混乱”输入,实时推断关键信息并动态生成界面或行动。这不仅是用聊天替代应用,更是用能持续实时解读和渲染现实的系统取代固定流程。在此架构下,用户界面不再是稳定产品,而是为特定时刻、任务和个人临时组装的表面;传统CPU则退居类似协处理器的角色,负责算术、存储等确定性任务,而神经模型主导感知、规划和适应。
给大家说下目前使用 DeepSeek-V4 (pro/flash) 的最需要注意的问题. 本身其实并不算 bug, 但是却很致命. 问题大概是这样的, 在请求…
用户在使用DeepSeek-V4 API或集成该模型的终端编码代理(如Claude Code、Kimi CLI)和AI IDE(如Cursor)时,频繁遇到HTTP 400报错。错误信息指出,在思考模式下必须将`reasoning_content`字段回传给API。核心问题在于,当任务步骤的`tool_call`过于简单直接时,DeepSeek-V4返回的`reasoning_content`可能为空字符串。许多开发工具默认会过滤掉空值字段,导致该字段未被回传,从而触发API报错,致使编码任务或代理中断。经测试,在特定场景下该字段返回空字符串的概率高达59%。解决方案是必须将空字符串值的字段原样回传,不能省略或改为空对象。目前需等待IDE官方修复或自行修改开源工具,使用DeepSeek-V4的代理项目也需注意此问题。
在名为CritPt的尖端科学评估中,GPT-5.5 Pro (xhigh) 以比前代GPT-5.4 Pro (xhigh) 低60%的成本和令牌使用量,实现了0.5个百分点的性能提升,将得分推至30.5%。CritPt评估包含全球30多家机构的60多名研究人员贡献的研究生级别物理问题。自2025年11月发布以来,最高分从Gemini 3 Pro Preview的9%跃升至GPT-5.4 Pro的30%。OpenAI指出,GPT-5.5 Pro相比GPT-5.5“使用了更多计算资源进行深度思考,以提供更稳定的优质答案”。该模型每令牌定价相同,但通过使用更少的令牌完成了评估。
一项针对年轻群体使用人工智能态度的调查显示,Z世代和千禧一代对AI的厌恶感随使用频率增加而上升。频繁使用者中,超过半数表达了对AI的负面看法,这一比例显著高于低频用户。主要不满集中在AI生成内容缺乏真实性与创造力,以及对其加剧社会不平等和取代人类工作的担忧。尽管AI工具普及率在年轻人中持续增长,但用户满意度并未同步提升,反映出技术应用与情感接受度之间的显著落差。
OpenAI推出可选的“高级账户安全”模式,旨在将ChatGPT和Codex账户转变为防钓鱼账户。该模式彻底禁用密码登录和电子邮件/SMS恢复功能,强制用户依赖Passkey、物理安全密钥等强认证方式,并辅以更短会话周期和登录警报。其背景在于,AI账户存储了对话记录、工作上下文乃至敏感材料,传统邮箱或手机号被盗易导致数据泄露。此外,启用该模式的账户将自动排除在模型训练数据之外。OpenAI要求其“网络可信访问”计划成员在6月26日前启用此模式,除非组织已部署其他防钓鱼单点登录方案。
蚂蚁集团InclusionAI实验室发布开源非推理模型Ling 2.6 1T。该模型拥有1万亿参数,在Artificial Analysis Intelligence Index上得分为34分,较前代Ling-1T提升15分,智能水平接近DeepSeek V3.2等同类模型。其在科学推理与知识任务上表现扎实,GPQA得分达75%。模型运行效率较高,执行该指数仅需约1600万输出tokens,成本效益突出,通过官方API运行全套指数成本约95美元。但其事实可靠性较弱,在AA-Omniscience基准上得分为-51分,主要因幻觉率高达92%。模型权重已在Hugging Face公开。
关联讨论 2 条X:蚂蚁百灵 (@AntLingAGI)X:阿易 AI Notes (@AYi_AInotes)Soundtrack-adored Mount Fuji: Morning Glory, Sunrise, Sunset. T2V with brilliant…
Matt Webb提出,随着氛围编码加速应用开发,应用变得更个人化、场景化和高频次,发布工具或微应用更像写博客而非建网站。他期望有一个RSS订阅源,能聚合各类工具和应用页面,每个条目都带“安装”按钮。受此启发,作者使用Claude为自己的工具页面添加了Atom订阅源和图标,该页面内容来自其个人工具站点。这一实践指向了在应用开发轻量化、个人化的趋势下,通过订阅机制高效分享和发现微应用的新可能,其核心在于如何定义“安装”的目的地与实现方式。
Google DeepMind 近日发布 AI co-clinician 协诊系统,这是一个多模态代理系统,旨在辅助医护人员,并在医生监督下运行。系统采用双代理架构:一个模块与患者对话,另一模块实时监控交互边界,能检索并验证临床级证据。在开放式药物问答中,其表现超越前沿模型,更贴合真实医疗场景的复杂性。评估聚焦临床实际关切,如避免错误陈述或遗漏关键信息。在98项初级保健模拟查询中,医生对其偏好超过主流证据合成工具;在97例NOHARM风格评估中未出现严重错误。
Lenny推荐了五款在其工作流中不可或缺、专注优雅的Mac生产力工具,旨在替代日益臃肿的主流软件。这些工具包括截图工具CleanShot、替代Loom的录屏工具Supercut、文本片段扩展器TextExpander、极简表情符号选择器Rocket,以及辅助专注进入心流状态的音乐服务Brain.fm。其核心观点是选择更专注、更优雅的小众工具来提升效率。
软银正成立名为Roze的机器人公司,专注于建设数据中心,并已瞄准未来1000亿美元的IPO。其核心判断是,当前AI浪潮的关键瓶颈已不仅是模型本身,更在于承载AI所需的物理基础设施,包括电力、冷却、土地和服务器。Roze旨在通过机器人与自动化技术,解决这一瓶颈,使数据中心在美国的建设速度更快、成本更低,并更易于大规模扩展。
关联讨论 1 条The Decoder:AI News(RSS)