Anthropic正式发布面向金融服务的Claude Agent模板,将AI在金融领域的角色从“辅助”升级为“直接执行”。该模板针对融资演示、估值审查、月末结账等高频率、耗时的核心流程,提供开箱即用的解决方案。它集成了完整的连接器、技能和子代理,可直接适配公司内部标准,并支持在Claude协作与开发环境中安装插件,或通过官方指南一键部署为生产级托管Agent。此举意味着AI开始直接接管以往需金融人员耗费数十小时完成的任务,标志着金融行业Agent时代的实质性开启。
据《金融时报》报道,Meta 正在为其超过30亿用户开发一款高度个性化的AI助手,由新Muse Spark AI模型驱动,旨在对标OpenClaw,帮助用户自动完成网页浏览、邮件管理等日常任务。该助手已进入内部测试,并计划在用户自愿前提下获取健康、财务等敏感信息以提升服务,但面临巨大的用户信任与数据隐私挑战。尽管Meta计划本月裁员10%,CEO扎克伯格仍坚持投入数十亿美元推动AI深度融入产品核心,但投资者对其成本与执行风险日益担忧。
微软Xbox部门在新任首席执行官阿萨·夏尔马上任数月后启动重大领导层重组。两位任职数十年的元老Kevin Gammill和Roanne Sones将卸任。同时,夏尔马从其此前领导的CoreAI团队引入了Jared Palmer、Tim Allen等5位高管空降Xbox,分别负责产品、设计、增长、工程及订阅云业务。夏尔马在内部备忘录中指出,此次调整旨在改变当前效率低下、内部消耗大的工作方式,以加快决策和影响力。
OpenAI对其Agents SDK进行重大升级,旨在为构建长时运行Agent提供更强的执行控制能力。核心在于将控制权交给开发者,打破黑盒状态。新功能包括:在受控沙箱环境中运行Agent,支持多家云服务商;允许完全检查和自定义开源harness;以及精准控制记忆的创建时机与存储位置。所有文件、凭证和执行状态均保留在开发者自有环境中,模型仅能访问经批准的上下文。此举解决了Agent易“失控”或“失忆”的问题,显著降低了工程化门槛,推动其从演示原型迈向生产级基础设施。
关联讨论 1 条X:OpenAI Developers (@OpenAIDevs)研究团队推出完全开源的OpenSearch-VL方案,用于训练前沿多模态深度搜索智能体。该方案包含三大核心:通过维基百科路径采样、模糊实体重写和视觉定位构建的高质量训练数据集(包括用于微调的SearchVL-SFT-36k和用于强化学习的SearchVL-RL-8k);统一文本搜索、图像搜索、OCR及图像处理工具的多样化环境;以及能处理级联工具失败的多轮致命错误感知GRPO训练算法。基于此训练的智能体在七个基准测试中平均提升超过10分,在多项任务上达到与专有商业模型相当的水平。所有数据、代码和模型均将开源。
针对上下文学习视频编辑中的计算瓶颈,研究团队提出首个近无损稀疏框架ISA。该框架基于上下文令牌显著性低、查询锐度与近似误差相关两项发现,采用预选择策略修剪冗余上下文,并通过动态查询分组机制,将高误差查询路由至完整注意力、低误差查询路由至高效的零阶泰勒稀疏注意力。结合新建的170万高质量视频数据集,团队构建了LIVEditor模型。实验表明,该模型在注意力模块延迟降低约60%的同时,在多个评测基准上超越现有先进方法,实现了近无损加速并保持了视觉保真度。
针对流式视频生成中候选探索成本高、缺乏时序引导的问题,研究团队提出了首个综合性测试时缩放框架Stream-T1。该框架包含三个核心单元:流式缩放噪声传播利用历史高质量块噪声优化当前生成,建立时序依赖;流式缩放奖励剪枝结合短期与基于滑动窗口的长期评估,平衡局部空间美学与全局时间连贯性;流式缩放记忆沉淀根据奖励动态管理KV缓存上下文。在5秒和30秒视频基准测试中,Stream-T1显著提升了时间一致性、运动平滑度与帧级视觉质量,同时大幅降低了计算开销。
针对交互式虚拟世界与具身智能中物理3D资产合成的瓶颈,现有方法多忽视功能性。本文提出PhysForge,一个由大规模四层物理标注数据集PhysDB支持的两阶段框架。第一阶段,视觉语言模型担任“物理架构师”,规划定义材料、功能与运动学约束的“分层物理蓝图”。第二阶段,基于物理的扩散模型通过新颖的运动体素注入机制,合成高保真几何与精确运动学参数。实验证明,PhysForge能生成功能合理、可直接仿真的资产,为交互式3D内容与具身智能体提供了强大的数据引擎。
针对现有评估方法在图像到图像转换任务中忽视内容保真度与前后一致性的问题,研究团队提出了StableI2I。这是一个无需参考图像的动态评估框架,能在图像编辑、修复等多种任务中量化语义对应与空间结构的保持程度。团队同时构建了配套基准StableI2I-Bench,用于系统评估多模态大模型在此类判断任务上的准确性。实验表明,该框架能提供精细、可解释的评估结果,且与人类主观判断高度相关,可作为诊断真实世界图像转换系统内容一致性与模型性能的实用工具。
针对高性能少步图像生成模型(如Z-Image-Turbo)在持续监督微调中会损害其固有少步推理能力的问题,本文提出D-OPSD训练范式。该方法利用以LLM/VLM为编码器的扩散模型可继承上下文能力的特点,将训练构建为在线策略自蒸馏过程:模型同时扮演教师(以文本和图像多模态特征为条件)和学生(仅以文本特征为条件)双重角色,并通过最小化其在自身生成轨迹上两个预测分布的差异进行优化。这使得模型能在自身监督下学习新概念或风格,同时保持原有的高效少步生成能力。
研究团队在归一化流(NFs)生成模型领域取得新进展,提出了迭代TARFlow(iTARFlow)。该方法在训练阶段保持完全端到端的基于似然的目标,采样时则采用自回归生成方式。iTARFlow延续了TARFlow在图像建模任务上的优势,使其成为扩散模型等方法的可行替代方案,进一步提升了归一化流生成模型的性能表现。
研究团队开发了SpecMD,这是一个用于在各种硬件配置上对临时缓存策略进行基准测试的标准化框架。该研究聚焦于混合专家模型,这类模型虽然实现了稀疏专家激活,但需要专家缓存机制才能将稀疏性转化为实际性能提升。此前的研究提出了以硬件为中心的缓存策略,但不同缓存策略之间以及它们与不同硬件规格之间的相互作用尚不明确。SpecMD框架旨在填补这一理解空白,系统性地评估缓存策略的交互影响与硬件适配性。
xAI正式向企业开发者和团队推出Grok Imagine API的“Quality Mode”图像生成与编辑功能。该模式在真实性、文本渲染和创意控制上实现显著提升,能生成细节精细、纹理准确、场景逼真的图像,并具备清晰的多语言文本生成能力。在独立排行榜中,该API已位列顶级模型之列。定价为输入提示每次0.01美元,输出图像根据分辨率(1K或2K)每张费用在0.05至0.07美元之间。此功能适用于产品可视化、营销素材快速生成、用户内容风格创作等多种商业场景。
关联讨论 1 条X:xAI (@xai)Singular Bank 开发了名为 Singularity 的内部助手,该工具整合了 ChatGPT 和 Codex 技术,旨在帮助银行家节省日常工作时间。它主要应用于会议准备、投资组合分析和后续跟进等任务,可使银行家每天在这些事务上节省 60 至 90 分钟。
Uber 宣布在其全球实时交通服务平台中集成 OpenAI 技术,用于驱动 AI 助手与语音功能。新功能旨在帮助司机更智能地规划接单以提升收入,同时让乘客能够更快完成叫车流程。该技术将应用于优化实时供需匹配与用户体验。
现有基准如VSI-Bench主要评估基础几何感知能力,但未能触及具身智能所需的高阶认知。为此,研究团队推出了空间功能智能基准SFI-Bench,该基准包含超过1700个问题,数据来源于多样化的第一人称室内扫描视频。SFI-Bench旨在系统评估多模态大模型从物体位置感知到功能意图理解的高级空间推理能力,标志着对智能体空间认知的评估从几何层面迈向功能层面。
xAI 正式在 Grok Web 上线 Connectors 功能,提供与多种日常应用工具的深度集成。该功能允许 Grok 端到端处理任务,如阅读总结邮件、更新幻灯片、管理日历和编辑电子表格,无需频繁切换和复制粘贴。首批支持的连接器包括 SharePoint、Outlook、OneDrive、Google Workspace、Notion、GitHub 和 Linear,涵盖文件搜索读写、代码审查与任务管理等操作。同时推出的“自带 MCP”功能支持连接自定义模型上下文协议服务器。完整的 Connectors 支持也即将登陆 Grok iOS 和 Android 应用。
OpenAI公布了“ChatGPT Futures: 2026届”的26名学生创新者名单。这些学生正利用以ChatGPT为代表的AI技术进行构建、研究,并推动产生现实世界的影响力。他们的项目正在重新定义学习、创造力和机遇,展示了新一代如何将AI工具应用于具体实践以解决实际问题。
SpaceXAI与Anthropic签署协议,提供对Colossus 1超级计算机的访问权限。Colossus 1是全球最大、部署最快的AI超算之一,拥有超过22万个NVIDIA GPU,包括H100、H200和下一代GB200加速器,专为AI训练、微调、推理及高性能计算工作负载设计。Anthropic计划利用此计算能力直接提升Claude Pro和Claude Max订阅者的服务容量。此外,Anthropic表示有兴趣合作开发多个千兆瓦的轨道AI计算容量,以应对地球资源限制。SpaceX凭借其高发射频率、轨道经济性和星座运营经验,可能使轨道计算在近期成为工程计划,而非仅停留于研究概念。
关联讨论 14 条Anthropic:Newsroom(网页)X:xAI (@xai)X:Claude Devs (@ClaudeDevs)X:Thariq (@trq212)X:歸藏 (@op7418)Hacker News 热门(buzzing.cc 中文翻译)X:宝玉 (@dotey)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)X:Kim (@kimmonismus)The Decoder:AI News(RSS)X:阿易 AI Notes (@AYi_AInotes)X:小互 (@xiaohu)X:Berry Xia (@berryxia)团队开发了Composer自动安装系统,利用早期模型(如Composer 1.5)为强化学习训练自动配置可运行环境。该系统分两阶段工作:先由智能体设定成功环境的目标命令与描述,再由另一智能体执行具体配置,包括安装依赖、模拟缺失组件并进行测试。在一项针对区块链项目Celo的真实实验中,该系统成功处理了稀疏文档和复杂依赖。采用此方法后,Composer 2在环境设置基准测试中的得分从47.9%提升至61.7%,为后续训练提供了更优基础。
OpenAI的B2B Signals研究揭示了前沿企业深化AI应用、规模化基于Codex的智能体工作流,并构建持久竞争优势的路径。这些企业正超越基础应用,将AI深度集成至核心业务流程,通过部署能自主执行复杂任务的智能体工作流来提升效率与创新能力。研究指出,成功的关键在于规模化应用AI代理,这能带来显著的运营优势并形成竞争壁垒。
关联讨论 1 条Claude:Blog(网页)Hugging Face 团队宣布为其开源自动语音识别(ASR)评测平台 Open ASR Leaderboard 引入名为“Benchmaxxer Repellant”的新防护机制。该机制旨在检测并抑制旨在人为操纵排行榜结果的基准测试投机行为,确保评测结果更公平、更具代表性。这一更新是平台持续维护的一部分,以应对社区中出现的非常规优化策略,维护开源 AI 研究与评估的诚信度。
GLM-5V-Turbo作为一款原生多模态基础模型发布,旨在直接驱动多模态智能体。该模型在多项核心评测中表现优异,在MMBench基准测试上达到90.1分,在MathVista测试中取得78.5%的准确率,并在RealWorldQA基准上以87.3%的准确率超越了GPT-4o。其设计强调对视觉与语言信息的统一理解与生成能力,为构建更高效的端到端多模态智能体提供了新的模型基础。
Datasette 新插件 datasette-referrer-policy 0.1 发布,旨在解决 global-power-plants 演示中 OpenStreetMap 地图瓦片无法显示的问题。问题由两个原因导致:一是站点此前添加的 CAPTCHA 错误拦截了地图插件发起的 .json 请求,该问题已修复;二是 OpenStreetMap 会屏蔽使用了 `Referrer-Policy: no-referrer` 头部的站点请求。此插件允许用户将 Datasette 默认的此头部策略更改为其他值,从而确保地图正常加载,同时不影响默认安全设置。插件的开发过程得到了 Codex 与 GPT-5.5 的辅助。
用户在使用微信读书的AI听书功能时,发现其语音合成音色已非常逼真,但核心问题在于多音字识别准确率低,导致频繁读错字音,严重影响听书体验。相比之下,喜马拉雅的真人朗读版本效果更佳。用户认为,以当前大语言模型的技术水平,理应能更好地解决多音字歧义问题,并期待相关功能得到改进。
Google发布Gemma 4模型,采用创新的MTP drafters技术,实现最高3倍解码速度提升且质量无损。该技术让模型一次预测多个token,突破传统自回归生成的串行瓶颈,极大提升GPU利用率。vLLM项目在官方宣布后立即提供Day-0支持,用户可通过一条Docker命令快速部署。这一进步显著增强本地部署的实时性,使Agent、代码生成等场景受益,进一步放大开源模型在性价比和本地化运行方面的优势。
Gemma 4 现在最高能跑到 3倍速度,而且质量完全不变。 他们没有增加参数、没有换新架构,只是推出了一套 MTP drafters(多 token 预测草…
关联讨论 3 条X:宝玉 (@dotey)X:Testing Catalog (@testingcatalog)X:karminski (@karminski3)OpenAI于5月5日将ChatGPT默认模型升级为GPT-5.5 Instant,重点提升准确性与简洁性。新模型在医疗、法律、金融等高风险领域,幻觉声明较前代减少52.5%;在用户标记的事实错误测试中,不准确声明降低37.3%。回复内容更简洁,减少了不必要的表情符号和冗长格式。所有用户即日起开始获得更新,付费用户可继续使用GPT-5.3 Instant三个月。
关联讨论 13 条X:Greg Brockman (@gdb)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:宝玉 (@dotey)X:Kim (@kimmonismus)X:Eric Mitchell (@ericmitchellai)X:Sam Altman (@sama)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)X:OpenAI (@OpenAI)Inworld AI 发布了新一代实时对话语音模型 Realtime TTS-2,突破了传统TTS仅追求拟人化的竞争框架。该模型能够实时倾听完整对话,捕捉情绪、语气与节奏,动态决定回应方式,成为一个“会倾听、会共情、会适配”的对话伙伴。其关键创新包括:支持用自然语言语音指令像指挥大语言模型一样调整声音;同一声音身份可跨100多种语言保持一致性;还能通过文字描述生成全新声音并保存复用。这标志着语音AI从机械的“语音输出”迈向更贴近真人互动的“实时对话”时代。
天弘余额宝七日年化收益率首次跌破1%,引发市场关注。科技新品方面,小米增程全尺寸SUV“昆仑N3”谍照曝光,华为Pura X Max横阔折手机首周销量表现强劲。企业动态中,抖音辟谣红果短剧将全面收费,鸿蒙智行就享界S9座椅安全传闻作出说明。此外,美国政府将与微软、谷歌等公司合作提前审查前沿AI模型,NASA测试大功率新型离子发动机。数据显示,2026年第一季度全球手机销量前三名均由iPhone 17系列包揽。
小说写到将近一半,各方势力都已露面,情节推进大方向已定,但是细节开始变得错综复杂。于是我让 AI 给每个主要角色都建立了一个认知智能体。在写每一章之前,让它安排…