OpenRouter Agent SDK 提供 create-agent-tui 和 create-headless-agent 两种技能,可在几分钟内脚手架搭建个性化编码智能体。前者附带终端 UI,后者为无头模式,适用于脚本与管道自动化场景。
同一事件,精选展示《OpenRouter Agent SDK 发布 `create-agent-tui` 与 `create-headless-agent` 技能,可快速搭建个性化编码智能体》OpenRouter Agent SDK 提供 create-agent-tui 和 create-headless-agent 两种技能,可在几分钟内脚手架搭建个性化编码智能体。前者附带终端 UI,后者为无头模式,适用于脚本与管道自动化场景。
同一事件,精选展示《OpenRouter Agent SDK 发布 `create-agent-tui` 与 `create-headless-agent` 技能,可快速搭建个性化编码智能体》OpenRouter Agent SDK 提供 callModel 函数,能将聊天补全转换为支持工具调用、停止条件和成本追踪的多步智能体,覆盖 300 多个模型。
OpenRouter Agent SDK 提供 callModel 函数,将单次聊天补全转换为支持工具调用、停止条件与成本追踪的多步智能体工作流,覆盖 300 多个模型。
同一事件,精选展示《OpenRouter Agent SDK 发布 `create-agent-tui` 与 `create-headless-agent` 技能,可快速搭建个性化编码智能体》OpenRouter Agent SDK 推出 create-agent-tui 和 create-headless-agent 两类技能(skills),用于快速搭建(scaffold)个性化编码智能体。前者提供终端 UI(terminal UI),后者为无头模式(headless),适用于脚本和流水线(scripts and pipelines)。
OpenRouter 发布 Agent SDK,其核心是 callModel 函数。该函数可将一次聊天完成转化为具备工具调用、停止条件与成本追踪功能的多步骤智能体工作流。这一工具兼容平台上的 300 多个模型,使开发者能够便捷地构建复杂的多轮交互智能体应用。
Anthropic 发布了 Agent SDK,开发者可利用 create-agent-tui 和 create-headless-agent 技能,在几分钟内搭建个性化的编码智能体。该 SDK 支持两种模式:一是提供终端用户界面的交互式代理,二是无界面的“headless”代理,便于集成到自动化脚本和流水线中。这显著降低了为特定编码任务定制 AI 助手的门槛。
腾讯正式发布面向汽车行业的“出行全场景智能体开放平台”。该平台围绕通勤、出游、娱乐等高频率场景,提供开箱即用的智能体产品,例如随行点单智能体可完成从选品、下单到取餐的全链路服务;随行向导智能体能化身专属AI导游,并新增车队协同管理功能。底层技术方面,平台升级了端云协同座舱大模型架构,端侧采用0.8B轻量化VLM模型确保毫秒级响应,云端则率先接入混元最新大模型Hy3 preview。目前腾讯已服务超过100家车企及出行科技公司。
宝马在北京车展推出基于阿里巴巴千问大模型定制的座舱智能体,包括“用车专家”“出行伙伴”和“百科达人”三个AI智能体。这些智能体从传统语音助手的被动响应升级为主动决策,能精准处理复杂出行需求。首款搭载车型为新世代BMW iX3长轴距版,全新BMW 7系随后跟进。“出行伙伴”支持自然语言复合需求,即时生成个性化行程方案;“用车专家”深度集成20万条宝马专业知识库,提供真人顾问级解答。车展上,宝马集团展示16款新车型,其中4款全球首发、8款中国首发。
Gas City 是 Gas Town 的彻底重写版本,作为构建自定义智能体工厂的 SDK 于本周发布 v1.0.0。它将技术栈解构为可组合的、声明式的 “pack” 构建块,用于部署任意拓扑的协作智能体团队。系统默认包含一个完整的 “Gas Town” pack,可作为原版的直接替代品。Gas City 基于 MEOW 栈和 Dolt 构建,提供智能体身份、消息传递、上下文、状态等开箱即用的服务,并暴露 Factory Worker API,完全开源并采用 MIT 许可证。
在北京车展上,火山引擎发布了基于Agentic AI架构的新一代汽车AI解决方案,包含AI座舱套件和豆包座舱助手两大方案。新方案通过一个AI大脑深度联动整车功能域,实现了感知、推理、执行、记忆、学习的一体化闭环,颠覆了上一代架构。其中,AI座舱套件支持车企灵活配置,豆包座舱助手则为完整产品级交付,将于年内量产。目前,搭载豆包大模型的智能汽车已超700万辆,覆盖50多个品牌,日均完成超3000万次座舱交互。
Infisical团队开源了Agent Vault,这是一个专为AI代理设计的凭证代理与存储库。该项目旨在安全地管理AI代理在运行时所使用的API密钥、数据库密码等敏感凭证,防止其直接暴露在代码或环境中。Agent Vault作为代理与外部服务之间的中间层,集中处理身份验证,从而提升安全性并简化凭证管理流程。该项目已在GitHub发布,并在Hacker News上获得了101点关注度。
Anthropic与NEC达成战略合作,旨在打造日本规模最大的AI原生工程团队。NEC将成为Anthropic在日本的首个全球合作伙伴,为集团全球约3万名员工部署Claude AI工具。双方将针对金融、制造和地方政府等领域,联合开发安全的行业专用AI解决方案,并将Claude集成到NEC的安全运营中心及下一代网络安全服务中。NEC内部将设立卓越中心,通过技术培训构建AI工程团队,并广泛应用Claude Code等工具。目前,全球员工的工具部署与行业解决方案的联合开发已同步启动。
TingIS 是一个面向企业级事件发现的端到端系统,旨在从高噪声、高吞吐的客户事件中提取可操作风险情报。其核心是多阶段事件链接引擎,结合高效索引与大型语言模型,仅依据少量多样描述即可稳定合并与提取事件。系统集成级联路由机制实现精准业务归属,并采用融合领域知识、统计模式和行为过滤的多维降噪管道。在生产环境中,TingIS 每分钟处理超 2000 条消息,P90 警报延迟为 3.5 分钟,高优先级事件发现率达 95%。真实数据基准测试表明,其在路由准确性、聚类质量与信噪比上均显著优于基线方法。
本期邮件通讯内容包含:4只骑自行车的鹈鹕、1只骑电动滑板车的负鼠、最多5只携带火腿无线电并隐藏在人群中的浣熊。此外还收录了5篇博客文章、8个链接、3条引用,并发布了《智能体工程模式指南》的新章节。所有内容已同步推送至订阅者邮箱。
VLAA-GUI 是一个模块化 GUI 智能体框架,围绕停止、恢复与搜索三个核心组件构建。其强制性完整性验证器要求每一步完成时都必须提供可观察的 UI 成功证据,并通过决策规则交叉审查完成声明。强制性循环中断器提供多层过滤机制,在重复失败时切换交互模式,在屏幕状态持续重现时强制改变策略。按需调用的搜索代理可直接向具备搜索能力的大语言模型查询陌生工作流程。框架还集成了按需调用的编码代理与接地代理。在包含 Linux 和 Windows 任务的 OSWorld 与 WindowsAgentArena 基准测试中,VLAA-GUI 在五个顶级骨干模型上均取得最佳性能,分别达到 77.5% 和 61.0% 的成功率。其中三个骨干模型在 OSWorld 上单次通过即超越人类表现。消融实验表明所有三个组件均能持续提升强骨干模型性能,而循环中断器几乎将易循环模型浪费的步骤减半。
在2026北京车展上,长安、东风、北汽、比亚迪、吉利、长城、理想、上汽大众、上汽智己等多家车企宣布接入阿里千问大模型。接入后,部分车型将能通过一句话指令完成复杂路径规划、闲聊、查新闻、订酒店、买门票、点外卖、查快递等全场景服务。阿里云提供了“端+云”协同架构:端侧部署Qwen-Omni模型负责感知与快速响应,云端千问则链接数字世界并调用阿里巴巴生态服务。此前,一汽红旗已于3月26日率先接入千问。
豆包App上线“帮你选”功能,内嵌于导航栏。该功能以对话式交互为核心,用户通过语音或文字提出购物需求,豆包会快速梳理并列出选项的优缺点、价格对比,提供个性化建议。关键进展在于该功能已与抖音电商深度打通,构建交易闭环,用户可在豆包App内直接下单支付,无需跳转至抖音。此前,豆包已于3月开始内测“购物下单”功能。字节跳动CEO梁汝波曾表示,豆包用户规模增长较快,但与国际头部竞品仍有差距。
蚂蚁百灵发布万亿参数旗舰 Ling-2.6-1T,采用 MLA 与 Linear Attention Hybrid 架构,以“快思考”机制实现低 Token 开销高效推理。综合智能对标 GPT-5.4 (Non-Reasoning),在 AIME26 上显著领先其他非思考模型;在 SWE-bench Verified、TAU2-Bench、BFCL-V4 等 Agent 基准上达到开源 SOTA。支持 256K 超长上下文(MRCR 高分)并表现优异的 IFBench。现已通过 OpenRouter 和官方平台提供一周免费 API 调用,将于近期正式开源。
针对多智能体系统受限于固定团队结构等问题,研究团队提出 OneManCompany 框架,将其提升至组织层面。该框架将技能、工具与配置封装为可移植的“人才”单元,通过类型化接口协调异构后端,并借助社区人才市场实现动态按需招募。组织决策采用“探索-执行-审查”树搜索,在统一分层循环中完成任务分解、执行与结果聚合,同时提供终止与无死锁的形式化保证。实验表明,OMC 在 PRDBench 上取得 84.67% 的成功率,较现有最佳方法提升 15.48 个百分点,跨领域案例验证了其通用性与适应性。
随着AI系统从生成文本转向通过持续交互实现目标,环境动态建模成为核心瓶颈。研究提出“能力层级×法则体系”二维分类框架:能力层级包括L1预测器(学习单步转移)、L2模拟器(多步推演)和L3演化器(自主修正模型);法则体系涵盖物理、数字、社会与科学四大领域,约束模型并标识失效场景。基于此,综合分析了400多项工作和100多个系统,涉及基于模型的强化学习、视频生成、网络智能体等。研究还提出决策中心评价原则、最小可复现评估包,并概述架构指导、开放问题与治理挑战,规划了从被动预测到模拟并最终重塑环境的世界模型路线图。
研究团队推出了AgentSearchBench,这是一个用于评估真实场景下AI智能体搜索能力的大规模基准。该基准从多个提供方收集了近10,000个真实世界智能体,将智能体搜索形式化为可执行任务查询和高级任务描述下的检索与重排序问题,并利用基于执行结果的性能信号来评估相关性。实验表明,语义相似性与智能体实际性能之间存在持续差距,暴露了仅基于描述进行检索和重排序方法的局限性。研究进一步证明,轻量级的行为信号(包括执行感知探测)能显著提升排序质量,凸显了将执行信号纳入智能体发现过程的重要性。相关代码已开源。
DeepSeek发布新一代模型DeepSeek-V4,其核心突破在于实现了长达百万token的上下文窗口,并确保智能体能够有效利用这一扩展的上下文能力。该模型延续了通过开源与开放科学推动人工智能发展与普及的使命,标志着大模型在长上下文理解和实际应用方面迈出重要一步。
关联讨论 3 条Simon Willison 博客Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)LlamaIndex开源项目LiteParse现已推出网页版,用户可直接在浏览器中上传PDF并提取文本,所有处理均在本地完成,无需上传服务器。该工具基于PDF.js和Tesseract.js,采用空间文本解析技术,能智能识别多列布局等复杂格式,并支持OCR和非OCR两种模式。作者在原Node.js CLI工具基础上,借助Claude AI辅助开发,成功将其迁移至浏览器环境。示例显示,一个86页的PDF文件可被快速解析,输出文本及包含位置、字体等元数据的JSON结果。
针对大语言模型客服代理评估效率低、难以发现深层故障的难题,研究团队提出了DIVERT框架。该框架采用基于快照和覆盖引导的用户模拟方法,在关键决策点保存完整对话状态并从中断点恢复,避免了相同对话前缀的重复计算。通过从每个决策点生成多样化的用户响应以探索不同交互路径,DIVERT能够更高效、更全面地发现由罕见用户行为引发的深层故障模式。实证结果表明,与标准的线性蒙特卡洛展开方法相比,DIVERT在单位计算量内能发现更多故障,并扩展了可识别故障的任务范围。
SketchVLM 是一个无需训练、模型无关的框架,能让 Gemini-3-Pro、GPT-5 等视觉语言模型在输入图像上生成非破坏性、可编辑的 SVG 标注层,以视觉化方式解释其答案。该框架在涵盖视觉推理与绘图的七项基准测试中,将视觉推理任务准确率最高提升 28.5 个百分点,标注质量最高提升 1.48 倍,且生成的标注更忠实于模型给出的答案。单轮生成已能实现较高的准确率与标注质量,多轮生成为人机协作提供了更多可能。
本文提出Memanto,一种用于智能体AI的通用记忆层,挑战了实现高保真记忆必须依赖复杂知识图的传统假设。该系统集成了包含13个预定义类别的类型化语义记忆架构、自动冲突解决与时间版本管理,其核心由无需索引的Moorcheh信息论搜索引擎驱动,可在低于90毫秒延迟内实现确定性检索,且完全无数据摄入延迟。在LongMemEval和LoCoMo基准测试中,Memanto分别以89.8%和87.1%的准确率取得最优结果,超越所有基于混合图与向量检索的系统,仅需单次查询、无摄入成本并显著降低运行复杂度。
针对智能体任务中Token消耗快速增长的问题,Ling-2.6-flash模型正式发布。该模型采用混合线性架构等技术进行系统性优化,旨在实现更高推理效率和更低使用成本。其推理速度在4卡H20条件下最快可达340 tokens/s,在Artificial Analysis评测中仅消耗约对比模型1/10的Tokens。模型在多个Agent相关基准测试中达到同尺寸SOTA水平,保持了强大的任务执行与工具调用能力。
Omni公司CEO指出,商业智能正从静态仪表盘重新扩展为AI驱动的深度分析。AI能融合结构化和非结构化数据,例如分析75页支持对话以识别代表错误并提供具体改进建议。其平台具备自动处理问题报告的能力,客户案例显示BambooHR在四个月内向三万人推出分析服务,Cribl则在三个月内整合遗留系统并快速迁移上百个仪表盘。底层统一的语义模型存储定义、逻辑与权限,支持多种分析界面。Omni近期以150亿美元估值完成1.2亿美元融资,由ICONIQ领投。
Show HN 板块投稿量在过去时期内增长三倍,但新项目在视觉呈现上呈现出显著的同质化趋势。分析指出,当前绝大多数展示页面采用了相似的"vibe-coded"设计风格,反映出AI辅助设计工具普及背景下的审美趋同现象。该观察来自2026年4月22日发布的分析文章,目前在Hacker News上获得109个点赞。
Google发布第八代TPU,推出两款专为自主智能体(Agentic)时代设计的AI芯片。新一代TPU针对复杂AI工作负载和自主代理应用优化,旨在为下一代人工智能基础设施提供算力支撑。作为Google Cloud AI基础设施的核心组件,新芯片延续专用架构优势,进一步巩固其在云端AI训练与推理市场的竞争力,标志着AI计算进入自主代理新阶段。
谷歌在 Google Cloud Next 大会发布两款 AI 芯片 TPU 8t 与 TPU 8i,分别面向大规模训练与智能体推理。TPU 8t 的 Pod 规模扩至 9600 颗,FP4 算力提升近 2 倍,单芯片横向扩展带宽达 400Gbps;TPU 8i 配备 384MB 片上 SRAM 与 288GB 片外 HBM,Pod 规模增至 1152 颗,FP8 算力提升 8.67 倍。两款芯片能效均为上一代 TPU Ironwood 的两倍。
月之暗面新模型 Kimi K2.6 于 4 月 20 日发布并开源,上线期间因访问量激增导致部分用户遭遇会员排队、功能异常及 Agent 额度误扣。官方宣布于 4 月 22 日 20:30 将所有用户当月额度恢复至 100% 并重置已使用量为零作为补偿。该模型在代码编写、长程任务及 Agent 集群能力方面全面升级,在 Humanity's Last Exam、SWE-Bench Pro 等基准测试中表现持平或优于 GPT-5.4 等闭源模型。
Anthropic 增长负责人 Amol Avasare 表示,现有 Pro 和 Max 订阅计划已无法匹配当前 Claude 的实际工作负载。该公司此前曾短暂将 Claude Code 从新用户的 Pro 订阅中移除,在遭遇强烈反对后撤销了这一变更。此举暴露出 Anthropic 现有付费方案与用户使用强度之间的矛盾,暗示公司可能需要调整订阅策略或推出更高级别服务以满足重度使用需求。
Meta 正在为其美国员工的电脑安装新型监控软件,实时捕捉鼠标移动、点击和按键操作。这些详细的交互数据将直接用于训练 AI agents,使其学习并模仿人类计算机操作行为。此举标志着该公司在 AI 训练数据获取策略上的重大转变,通过收集内部员工的真实工作流数据来构建能够执行复杂任务的自动化系统。
Google 发布第八代 TPU,内含两款面向智能体时代的专用芯片。新处理器专为 AI 未来发展设计,针对智能体工作负载进行专门优化,提供更强算力支持。作为 Google AI 基础设施的最新升级,该系列芯片将助力下一代智能体应用的开发与部署。
一项针对15个LLM在8个任务上的大规模轨迹分析表明,零样本问题解决能力仅能部分解释优化效果差异。研究发现,优秀的LLM优化器表现为局部优化器,能在语义空间中持续产生渐进式改进并保持搜索局部化;而较弱模型则呈现大幅语义漂移,虽有偶发突破但易陷入停滞。解决方案的新颖性并非性能预测指标,仅当搜索围绕高性能区域充分局部化时才具价值。该研究为LLM优化系统的设计与训练提供了基于轨迹分析的实践指导。
千里科技发布"AI+车"战略,联席董事长赵明宣布将与阶跃星辰合作打造原生智驾基座模型,并引入世界模型体系突破L4自动驾驶技术上限。公司计划2027年推出Robotaxi综合解决方案,目标2030年覆盖全球超30万辆。极氪8X已首发搭载千里超级智能体及ASD 4.0智驾系统。