5月6日
08:27
Berryxia.AI@berryxia
67
Anthropic推出金融服务Claude Agent模板,AI直接接管核心金融流程

Anthropic正式发布面向金融服务的Claude Agent模板,将AI在金融领域的角色从“辅助”升级为“直接执行”。该模板针对融资演示、估值审查、月末结账等高频率、耗时的核心流程,提供开箱即用的解决方案。它集成了完整的连接器、技能和子代理,可直接适配公司内部标准,并支持在Claude协作与开发环境中安装插件,或通过官方指南一键部署为生产级托管Agent。此举意味着AI开始直接接管以往需金融人员耗费数十小时完成的任务,标志着金融行业Agent时代的实质性开启。

智能体Anthropic产品更新
08:26
IT之家(RSS)
56
对标 OpenClaw,Meta 被曝正开发个性化 AI 智能体

据《金融时报》报道,Meta 正在为其超过30亿用户开发一款高度个性化的AI助手,由新Muse Spark AI模型驱动,旨在对标OpenClaw,帮助用户自动完成网页浏览、邮件管理等日常任务。该助手已进入内部测试,并计划在用户自愿前提下获取健康、财务等敏感信息以提升服务,但面临巨大的用户信任与数据隐私挑战。尽管Meta计划本月裁员10%,CEO扎克伯格仍坚持投入数十亿美元推动AI深度融入产品核心,但投资者对其成本与执行风险日益担忧。

智能体Meta行业动态
08:17
IT之家(RSS)
46
微软 Xbox 高层大换血: 2 位元老将卸任,5 位 AI 系高管空降

微软Xbox部门在新任首席执行官阿萨·夏尔马上任数月后启动重大领导层重组。两位任职数十年的元老Kevin Gammill和Roanne Sones将卸任。同时,夏尔马从其此前领导的CoreAI团队引入了Jared Palmer、Tim Allen等5位高管空降Xbox,分别负责产品、设计、增长、工程及订阅云业务。夏尔马在内部备忘录中指出,此次调整旨在改变当前效率低下、内部消耗大的工作方式,以加快决策和影响力。

Microsoft行业动态
08:00
Luma@LumaLabsAI
精选70
推出Uni-1.1 API。 它通过简报进行推理,而不仅仅是处理标记。首次生成的结果即可实际交付。 无需中间件,无需提示工程。时尚工具。建筑渲染器。漫画制作流程。每个垂直领域都具备电影级品质。 可指挥的智能。可交付的审美。→ http://lumalabs.ai/api
产品更新图像生成视频
关联讨论 2X:Rohan Paul (@rohanpaul_ai)X:Luma AI (@LumaLabsAI)
推荐理由:Luma 的 API 把视频生成的门槛压到「写需求就出片」,不用调 prompt 也不用搭中间件,做短视频和概念设计的可以直接拿去试。
08:00
Berryxia.AI@berryxia
精选72
OpenAI将Agent控制权交予开发者,SDK升级赋能长时运行

OpenAI对其Agents SDK进行重大升级,旨在为构建长时运行Agent提供更强的执行控制能力。核心在于将控制权交给开发者,打破黑盒状态。新功能包括:在受控沙箱环境中运行Agent,支持多家云服务商;允许完全检查和自定义开源harness;以及精准控制记忆的创建时机与存储位置。所有文件、凭证和执行状态均保留在开发者自有环境中,模型仅能访问经批准的上下文。此举解决了Agent易“失控”或“失忆”的问题,显著降低了工程化门槛,推动其从演示原型迈向生产级基础设施。

智能体OpenAI产品更新开源/仓库
关联讨论 1X:OpenAI Developers (@OpenAIDevs)
推荐理由:OpenAI这次把Agent的长时运行、记忆和沙箱控制真正开放给开发者,SDK从玩具跨到生产级基础设施,做Agent的同行该仔细看一遍。
08:00
HuggingFace Daily Papers(社区热门论文)
精选76
OpenSearch-VL:前沿多模态搜索智能体的开源方案

研究团队推出完全开源的OpenSearch-VL方案,用于训练前沿多模态深度搜索智能体。该方案包含三大核心:通过维基百科路径采样、模糊实体重写和视觉定位构建的高质量训练数据集(包括用于微调的SearchVL-SFT-36k和用于强化学习的SearchVL-RL-8k);统一文本搜索、图像搜索、OCR及图像处理工具的多样化环境;以及能处理级联工具失败的多轮致命错误感知GRPO训练算法。基于此训练的智能体在七个基准测试中平均提升超过10分,在多项任务上达到与专有商业模型相当的水平。所有数据、代码和模型均将开源。

智能体arXiv多模态论文/研究

推荐理由:把多模态搜索 agent 的完整训练配方开源了,数据、环境、算法全都有,七个基准平均涨 10 点,直接对标商业模型,做深度搜索的同学可以无脑跟。
08:00
HuggingFace Daily Papers(社区热门论文)
58
基于上下文稀疏注意力的闪电式统一视频编辑

针对上下文学习视频编辑中的计算瓶颈,研究团队提出首个近无损稀疏框架ISA。该框架基于上下文令牌显著性低、查询锐度与近似误差相关两项发现,采用预选择策略修剪冗余上下文,并通过动态查询分组机制,将高误差查询路由至完整注意力、低误差查询路由至高效的零阶泰勒稀疏注意力。结合新建的170万高质量视频数据集,团队构建了LIVEditor模型。实验表明,该模型在注意力模块延迟降低约60%的同时,在多个评测基准上超越现有先进方法,实现了近无损加速并保持了视觉保真度。

arXiv多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
Stream-T1:面向流式视频生成的测试时缩放框架

针对流式视频生成中候选探索成本高、缺乏时序引导的问题,研究团队提出了首个综合性测试时缩放框架Stream-T1。该框架包含三个核心单元:流式缩放噪声传播利用历史高质量块噪声优化当前生成,建立时序依赖;流式缩放奖励剪枝结合短期与基于滑动窗口的长期评估,平衡局部空间美学与全局时间连贯性;流式缩放记忆沉淀根据奖励动态管理KV缓存上下文。在5秒和30秒视频基准测试中,Stream-T1显著提升了时间一致性、运动平滑度与帧级视觉质量,同时大幅降低了计算开销。

arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
PhysForge:为交互式虚拟世界生成基于物理的3D资产

针对交互式虚拟世界与具身智能中物理3D资产合成的瓶颈,现有方法多忽视功能性。本文提出PhysForge,一个由大规模四层物理标注数据集PhysDB支持的两阶段框架。第一阶段,视觉语言模型担任“物理架构师”,规划定义材料、功能与运动学约束的“分层物理蓝图”。第二阶段,基于物理的扩散模型通过新颖的运动体素注入机制,合成高保真几何与精确运动学参数。实验证明,PhysForge能生成功能合理、可直接仿真的资产,为交互式3D内容与具身智能体提供了强大的数据引擎。

arXiv具身智能多模态数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
51
StableI2I:识别图像转换中的非预期变化

针对现有评估方法在图像到图像转换任务中忽视内容保真度与前后一致性的问题,研究团队提出了StableI2I。这是一个无需参考图像的动态评估框架,能在图像编辑、修复等多种任务中量化语义对应与空间结构的保持程度。团队同时构建了配套基准StableI2I-Bench,用于系统评估多模态大模型在此类判断任务上的准确性。实验表明,该框架能提供精细、可解释的评估结果,且与人类主观判断高度相关,可作为诊断真实世界图像转换系统内容一致性与模型性能的实用工具。

图像生成论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
64
D-OPSD:基于在线策略自蒸馏的步数蒸馏扩散模型持续微调方法

针对高性能少步图像生成模型(如Z-Image-Turbo)在持续监督微调中会损害其固有少步推理能力的问题,本文提出D-OPSD训练范式。该方法利用以LLM/VLM为编码器的扩散模型可继承上下文能力的特点,将训练构建为在线策略自蒸馏过程:模型同时扮演教师(以文本和图像多模态特征为条件)和学生(仅以文本特征为条件)双重角色,并通过最小化其在自身生成轨迹上两个预测分布的差异进行优化。这使得模型能在自身监督下学习新概念或风格,同时保持原有的高效少步生成能力。

图像生成数据/训练论文/研究
08:00
Apple Machine Learning Research(RSS)
精选63
Normalizing Flows with Iterative Denoising

研究团队在归一化流(NFs)生成模型领域取得新进展,提出了迭代TARFlow(iTARFlow)。该方法在训练阶段保持完全端到端的基于似然的目标,采样时则采用自回归生成方式。iTARFlow延续了TARFlow在图像建模任务上的优势,使其成为扩散模型等方法的可行替代方案,进一步提升了归一化流生成模型的性能表现。

图像生成论文/研究

推荐理由:Normalizing Flows 这个老方法被苹果玩出新花样,iTARFlow 在训练上保留端到端似然,采样却自回归,给做生成模型的人提供了扩散模型之外的第二个靠谱选择。
08:00
Apple Machine Learning Research(RSS)
精选64
SpecMD: 关于推测性专家预取的综合研究

研究团队开发了SpecMD,这是一个用于在各种硬件配置上对临时缓存策略进行基准测试的标准化框架。该研究聚焦于混合专家模型,这类模型虽然实现了稀疏专家激活,但需要专家缓存机制才能将稀疏性转化为实际性能提升。此前的研究提出了以硬件为中心的缓存策略,但不同缓存策略之间以及它们与不同硬件规格之间的相互作用尚不明确。SpecMD框架旨在填补这一理解空白,系统性地评估缓存策略的交互影响与硬件适配性。

推理论文/研究部署/工程

推荐理由:MoE推理的缓存策略一直靠经验摸,Apple给的标准化框架能系统比较不同策略,做分布式推理的可以省些心力。
08:00
xAI:News(网页)
精选79
Grok Imagine API 推出"Quality Mode"图像生成与编辑功能

xAI正式向企业开发者和团队推出Grok Imagine API的“Quality Mode”图像生成与编辑功能。该模式在真实性、文本渲染和创意控制上实现显著提升,能生成细节精细、纹理准确、场景逼真的图像,并具备清晰的多语言文本生成能力。在独立排行榜中,该API已位列顶级模型之列。定价为输入提示每次0.01美元,输出图像根据分辨率(1K或2K)每张费用在0.05至0.07美元之间。此功能适用于产品可视化、营销素材快速生成、用户内容风格创作等多种商业场景。

xAI产品更新多模态
关联讨论 1X:xAI (@xai)
推荐理由:Grok Imagine 的 Quality Mode 在写实度和文字渲染上提升很明显,对需要高频生成产品图和 UGC 内容的品牌团队是个实在的更新,API 直接能用,单张才几分钱。
08:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
50
Singular Bank 借助 ChatGPT 和 Codex 助力银行家高效工作

Singular Bank 开发了名为 Singularity 的内部助手,该工具整合了 ChatGPT 和 Codex 技术,旨在帮助银行家节省日常工作时间。它主要应用于会议准备、投资组合分析和后续跟进等任务,可使银行家每天在这些事务上节省 60 至 90 分钟。

智能体OpenAI行业动态
08:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选72
Uber 利用 OpenAI 帮助司机更智能地赚钱、乘客更快地叫车

Uber 宣布在其全球实时交通服务平台中集成 OpenAI 技术,用于驱动 AI 助手与语音功能。新功能旨在帮助司机更智能地规划接单以提升收入,同时让乘客能够更快完成叫车流程。该技术将应用于优化实时供需匹配与用户体验。

OpenAI行业动态语音

推荐理由:Uber 把 OpenAI 的语音和助手能力搬进了打车场景,这是 AI 真正融入日常服务的一个信号,对做产品的人来说,落地路径比技术参数更重要。
08:00
Apple Machine Learning Research(RSS)
精选72
从位置认知到功能理解:为多模态大语言模型设立空间功能智能基准

现有基准如VSI-Bench主要评估基础几何感知能力,但未能触及具身智能所需的高阶认知。为此,研究团队推出了空间功能智能基准SFI-Bench,该基准包含超过1700个问题,数据来源于多样化的第一人称室内扫描视频。SFI-Bench旨在系统评估多模态大模型从物体位置感知到功能意图理解的高级空间推理能力,标志着对智能体空间认知的评估从几何层面迈向功能层面。

多模态推理论文/研究

推荐理由:Apple 自己搞的 SFI-Bench 把评估从几何定位推进到功能理解,这个方向很对,做具身智能和空间推理的团队该跟一下。
08:00
xAI:News(网页)
精选83
Grok Web 正式推出 Connectors 功能,实现与日常应用深度集成

xAI 正式在 Grok Web 上线 Connectors 功能,提供与多种日常应用工具的深度集成。该功能允许 Grok 端到端处理任务,如阅读总结邮件、更新幻灯片、管理日历和编辑电子表格,无需频繁切换和复制粘贴。首批支持的连接器包括 SharePoint、Outlook、OneDrive、Google Workspace、Notion、GitHub 和 Linear,涵盖文件搜索读写、代码审查与任务管理等操作。同时推出的“自带 MCP”功能支持连接自定义模型上下文协议服务器。完整的 Connectors 支持也即将登陆 Grok iOS 和 Android 应用。

MCP/工具xAI产品更新

推荐理由:Grok这波连接器把 Office、GitHub 和 Notion 全打通了,不是演示级挂接,是能直接读写编辑的真集成,外加开放自建 MCP,产品经理和开发者都该立刻上手试试。
08:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
42
Introducing ChatGPT Futures: Class of 2026

OpenAI公布了“ChatGPT Futures: 2026届”的26名学生创新者名单。这些学生正利用以ChatGPT为代表的AI技术进行构建、研究,并推动产生现实世界的影响力。他们的项目正在重新定义学习、创造力和机遇,展示了新一代如何将AI工具应用于具体实践以解决实际问题。

OpenAI行业动态
08:00
xAI:News(网页)
精选68
SpaceXAI与Anthropic达成新计算合作伙伴关系

SpaceXAI与Anthropic签署协议,提供对Colossus 1超级计算机的访问权限。Colossus 1是全球最大、部署最快的AI超算之一,拥有超过22万个NVIDIA GPU,包括H100、H200和下一代GB200加速器,专为AI训练、微调、推理及高性能计算工作负载设计。Anthropic计划利用此计算能力直接提升Claude Pro和Claude Max订阅者的服务容量。此外,Anthropic表示有兴趣合作开发多个千兆瓦的轨道AI计算容量,以应对地球资源限制。SpaceX凭借其高发射频率、轨道经济性和星座运营经验,可能使轨道计算在近期成为工程计划,而非仅停留于研究概念。

AnthropicxAI行业动态部署/工程
关联讨论 14Anthropic:Newsroom(网页)X:xAI (@xai)X:Claude Devs (@ClaudeDevs)X:Thariq (@trq212)X:歸藏 (@op7418)Hacker News 热门(buzzing.cc 中文翻译)X:宝玉 (@dotey)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)X:Kim (@kimmonismus)The Decoder:AI News(RSS)X:阿易 AI Notes (@AYi_AInotes)X:小互 (@xiaohu)X:Berry Xia (@berryxia)
推荐理由:Colossus 首次对外提供算力,Anthropic 拿到这些 GPU 会直接提升 Claude 订阅体验。但标题里真正吓人的是后半句,轨道 AI 计算虽然还远,xAI 已经把这当成近期工程目标了。
08:00
Cursor Blog
53
通过自动安装系统引导Composer开发

团队开发了Composer自动安装系统,利用早期模型(如Composer 1.5)为强化学习训练自动配置可运行环境。该系统分两阶段工作:先由智能体设定成功环境的目标命令与描述,再由另一智能体执行具体配置,包括安装依赖、模拟缺失组件并进行测试。在一项针对区块链项目Celo的真实实验中,该系统成功处理了稀疏文档和复杂依赖。采用此方法后,Composer 2在环境设置基准测试中的得分从47.9%提升至61.7%,为后续训练提供了更优基础。

智能体教程/实践编码部署/工程
08:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选65
前沿企业如何构建人工智能优势

OpenAI的B2B Signals研究揭示了前沿企业深化AI应用、规模化基于Codex的智能体工作流,并构建持久竞争优势的路径。这些企业正超越基础应用,将AI深度集成至核心业务流程,通过部署能自主执行复杂任务的智能体工作流来提升效率与创新能力。研究指出,成功的关键在于规模化应用AI代理,这能带来显著的运营优势并形成竞争壁垒。

智能体OpenAI现象/趋势编码
关联讨论 1Claude:Blog(网页)
推荐理由:OpenAI的B2B研究把企业AI落地差距摊开了,Codex驱动的代理工作流正在成为壁垒,做企业服务的可以当镜子照。
08:00
Hugging Face:Blog(RSS)
39
为 Open ASR 排行榜添加 Benchmaxxer 防护机制

Hugging Face 团队宣布为其开源自动语音识别(ASR)评测平台 Open ASR Leaderboard 引入名为“Benchmaxxer Repellant”的新防护机制。该机制旨在检测并抑制旨在人为操纵排行榜结果的基准测试投机行为,确保评测结果更公平、更具代表性。这一更新是平台持续维护的一部分,以应对社区中出现的非常规优化策略,维护开源 AI 研究与评估的诚信度。

Hugging Face产品更新评测/基准语音
07:49
Hacker News 热门(buzzing.cc 中文翻译)
65
GLM-5V-Turbo:迈向多模态智能体的原生基础模型

GLM-5V-Turbo作为一款原生多模态基础模型发布,旨在直接驱动多模态智能体。该模型在多项核心评测中表现优异,在MMBench基准测试上达到90.1分,在MathVista测试中取得78.5%的准确率,并在RealWorldQA基准上以87.3%的准确率超越了GPT-4o。其设计强调对视觉与语言信息的统一理解与生成能力,为构建更高效的端到端多模态智能体提供了新的模型基础。

智能体多模态论文/研究
07:44
Simon Willison 博客
42
datasette-referrer-policy 0.1 发布

Datasette 新插件 datasette-referrer-policy 0.1 发布,旨在解决 global-power-plants 演示中 OpenStreetMap 地图瓦片无法显示的问题。问题由两个原因导致:一是站点此前添加的 CAPTCHA 错误拦截了地图插件发起的 .json 请求,该问题已修复;二是 OpenStreetMap 会屏蔽使用了 `Referrer-Policy: no-referrer` 头部的站点请求。此插件允许用户将 Datasette 默认的此头部策略更改为其他值,从而确保地图正常加载,同时不影响默认安全设置。插件的开发过程得到了 Codex 与 GPT-5.5 的辅助。

开源/仓库部署/工程
07:35
宝玉@dotey
16
AI语音音色逼真但多音字识别成短板

用户在使用微信读书的AI听书功能时,发现其语音合成音色已非常逼真,但核心问题在于多音字识别准确率低,导致频繁读错字音,严重影响听书体验。相比之下,喜马拉雅的真人朗读版本效果更佳。用户认为,以当前大语言模型的技术水平,理应能更好地解决多音字歧义问题,并期待相关功能得到改进。

大佬观点语音
07:34
Berryxia.AI@berryxia
精选75
Google Gemma 4凭MTP实现3倍加速,vLLM零延迟提供支持

Google发布Gemma 4模型,采用创新的MTP drafters技术,实现最高3倍解码速度提升且质量无损。该技术让模型一次预测多个token,突破传统自回归生成的串行瓶颈,极大提升GPU利用率。vLLM项目在官方宣布后立即提供Day-0支持,用户可通过一条Docker命令快速部署。这一进步显著增强本地部署的实时性,使Agent、代码生成等场景受益,进一步放大开源模型在性价比和本地化运行方面的优势。

Berryxia.AIGemma 4 现在最高能跑到 3倍速度,而且质量完全不变。 他们没有增加参数、没有换新架构,只是推出了一套 MTP drafters(多 token 预测草…

Google推理教程/实践
关联讨论 3X:宝玉 (@dotey)X:Testing Catalog (@testingcatalog)X:karminski (@karminski3)
推荐理由:Google的MTP技术让Gemma 4提速3倍,vLLM当天就支持了,做本地Agent和实时应用的开发者现在一条Docker命令就能跑,开源模型性价比优势又拉大一截。
07:30
Berryxia.AI@berryxia
精选75
O社的 GPT-5.5 Instant 开始在 ChatGPT 中推出。 这是一个重大升级,让你获得更智能、更清晰、更个性化的回答,语气更温暖、更自然。
OpenAI推理模型发布
关联讨论 13X:Greg Brockman (@gdb)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:宝玉 (@dotey)X:Kim (@kimmonismus)X:Eric Mitchell (@ericmitchellai)X:Sam Altman (@sama)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)X:OpenAI (@OpenAI)
推荐理由:GPT-5.5 Instant 终于进 ChatGPT 了,智能、语气和个性化都提了一档。真正的变化在成本与响应速度,这才是影响亿级用户产品体验的关键。
07:29
IT之家(RSS)
精选75
OpenAI ChatGPT 默认 AI 模型升至 GPT-5.5 Instant:幻觉最高减少 52.5%、回复更简洁

OpenAI于5月5日将ChatGPT默认模型升级为GPT-5.5 Instant,重点提升准确性与简洁性。新模型在医疗、法律、金融等高风险领域,幻觉声明较前代减少52.5%;在用户标记的事实错误测试中,不准确声明降低37.3%。回复内容更简洁,减少了不必要的表情符号和冗长格式。所有用户即日起开始获得更新,付费用户可继续使用GPT-5.3 Instant三个月。

OpenAI推理模型发布
关联讨论 13X:Greg Brockman (@gdb)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:宝玉 (@dotey)X:Kim (@kimmonismus)X:Eric Mitchell (@ericmitchellai)X:Sam Altman (@sama)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)X:OpenAI (@OpenAI)
推荐理由:GPT-5.5 Instant 不是新模型发布,而是实测提升:少说废话、少犯错。52.5% 的幻觉降幅对高风险领域用户是个实打实的增益,所有 ChatGPT 用户的对话体验今天起都会简洁一档。
07:28
Berryxia.AI@berryxia
67
今天这个tts有点东西啊!

Inworld AI 发布了新一代实时对话语音模型 Realtime TTS-2,突破了传统TTS仅追求拟人化的竞争框架。该模型能够实时倾听完整对话,捕捉情绪、语气与节奏,动态决定回应方式,成为一个“会倾听、会共情、会适配”的对话伙伴。其关键创新包括:支持用自然语言语音指令像指挥大语言模型一样调整声音;同一声音身份可跨100多种语言保持一致性;还能通过文字描述生成全新声音并保存复用。这标志着语音AI从机械的“语音输出”迈向更贴近真人互动的“实时对话”时代。

多模态模型发布语音
07:26
IT之家(RSS)
40
IT早报 0506:余额宝七日年化收益率首次跌破 1%;小米"昆仑"增程 SUV 谍照曝光;抖音辟谣红果短剧收费不实;鸿蒙智行回应享界 S9 零重力座椅夹头…

天弘余额宝七日年化收益率首次跌破1%,引发市场关注。科技新品方面,小米增程全尺寸SUV“昆仑N3”谍照曝光,华为Pura X Max横阔折手机首周销量表现强劲。企业动态中,抖音辟谣红果短剧将全面收费,鸿蒙智行就享界S9座椅安全传闻作出说明。此外,美国政府将与微软、谷歌等公司合作提前审查前沿AI模型,NASA测试大功率新型离子发动机。数据显示,2026年第一季度全球手机销量前三名均由iPhone 17系列包揽。

OpenAIxAI安全/对齐政策/监管