AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2134 条
全部一手资讯X论文
标签「Agent」清除
4月3日周五
13:08Steve Yegge:Medium(RSS)47Gas Town与Beads同步发布1.0.0正式版
08:00HuggingFace Daily Papers(社区热门论文)43OmniGUI:全模态智能手机环境中的GUI代理基准测试
07:45Claude Code:GitHub Releases(RSS)Claude Code v2.1.91 版本更新
03:59Meta Engineering Blog(RSS)82精选KernelEvolve:Meta的Ranking Engineer Agent如何优化AI基础设施
4月2日周四
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)Codex 为团队推出更灵活定价方案
13:46公众号:阶跃星辰(Step)42阶跃 Step 3.5 Flash 系列上新,Step Plan 用户现可体验
12:32公众号:通义实验室(千问)54Qwen3.6-Plus:编码智能体能力全面跃升!
08:00Google Developers Blog(RSS)81精选通过 Gemma 4 将先进的智能体能力引入边缘
08:00Cursor Blog精选Cursor 3.0 发布:以 Agent 为核心的统一开发空间
07:41Claude Code:GitHub Releases(RSS)精选Claude Code v2.1.90 版本更新
04:00Qwen:Blog Retrieval(API)Qwen3.6-Plus:迈向真实世界 Agent
03:13Gary Marcus:The Road to AI We Can Trust(RSS)精选关于就业,先别恐慌--至少现在还不必
00:00智谱:研究(网页内嵌数据)精选GLM-5V-Turbo发布:多模态Coding基座模型
00:00Claude:Blog(网页)精选构建 Claude 应用的三大最佳实践
4月1日周三
19:09Hacker News:AI 热帖询问 HN:客户用 vibe coding 接管了开发工作,该怎么办?
10:00OpenAI:官网动态(RSS · 排除企业/客户案例)Gradient Labs 为每位银行客户配备 AI 账户经理
09:07Claude Code:GitHub Releases(RSS)Claude Code v2.1.89 发布
08:00Google Developers Blog(RSS)71精选开发者指南:使用技能构建ADK智能体
06:34Ethan Mollick:One Useful Thing(RSS)精选Claude Dispatch 与界面的力量
3月31日周二
21:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选加速 AI 下一阶段发展
19:03公众号:昆仑万维(天工)32昆仑万维(天工)推出「天工短剧工作台」
15:06Steve Yegge:Medium(RSS)49氛围维护者
08:00Google Developers Blog(RSS)81精选ADK Go 1.0 正式发布:迈向生产就绪的多智能体开发框架
00:00Mistral AI:News(网页)59Spaces:为人类与AI智能体共同工作而构建的命令行工具
00:00Mistral AI:News(网页)80面向双重用户:Mistral AI 如何改进CLI工具以同时服务人类与AI智能体
00:00Runway:News(网页)推出 Runway Builders 计划
00:00Anthropic:Research(发表成果 · 网页)Anthropic宣布在澳扩张并发布Claude使用数据
3月30日周一
08:00Google Developers Blog(RSS)81精选Google 发布 Java 智能体开发套件 (ADK) 1.0.0 版本
04:00Qwen:Blog Retrieval(API)精选Qwen3.5-Omni:全面扩展,迈向原生全模态 AGI
3月27日周五
20:00Cursor Blog72精选Composer 2技术报告:面向智能体软件工程的代码模型训练
3月26日周四
20:01公众号:小米 MiMo20Xiaomi MiMo Agent 框架调用限免活动延长一周
11:55Hacker News:AI 热帖Show HN: 基于 TypeScript 的稳健 LLM 网页数据提取工具
08:00Cursor Blog69精选通过实时强化学习改进Composer编码模型
3月25日周三
08:00Google Developers Blog(RSS)84精选用 Agent 技能弥合知识鸿沟
08:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选OpenAI 推出安全漏洞赏金计划
3月24日周二
17:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选ChatGPT 推出产品发现功能
10:01Hugging Face:Blog(RSS)78精选全新语音智能体评估框架EVA发布
09:06公众号:阶跃星辰(Step)44StepClaw 现已支持飞书、企微一键唤起
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)75精选利用对抗网络灵感设计多代理架构,突破长时应用开发瓶颈
00:00Berkeley RDI:Blog(AI 安全与评测)自我主权智能体(Self-Sovereign Agent)
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月3日
13:08
Steve Yegge:Medium(RSS)
47
Gas Town与Beads同步发布1.0.0正式版

Gas Town(编程智能体框架)与Beads(智能体记忆系统)今日同步发布1.0.0正式版。Gas Town目前拥有13k星标,已进入稳定维护模式,让非技术人员也能构建软件。Beads则以轻量级问题工单为基础,将记录存储在Git中并支持SQL查询,为智能体提供跨会话的历史记录与上下文。

智能体产品更新开源生态
08:00
HuggingFace Daily Papers(社区热门论文)
43
OmniGUI:全模态智能手机环境中的GUI代理基准测试

OmniGUI 是一个步级基准,专门设计用于评估全模态智能手机环境中的图形用户界面代理。它提供每个动作步骤的连续交错多模态输入,包括静态图像、同步音频和视频片段,数据集覆盖709个专家演示片段、2579个动作步骤和29个应用程序,并标注了多模态依赖级别。评估显示,基础多模态模型在处理需要同步时序和听觉信号的任务时,动作预测性能显著下降。消融实验指出,跨模态干扰是主要瓶颈,尤其在处理任务无关环境噪声时。数据集、评估流程和基线提示已开源。

智能体多模态论文/研究
07:45
Claude Code:GitHub Releases(RSS)
Claude Code v2.1.91 版本更新

Claude Code v2.1.91 发布,支持 MCP 工具结果最大 500K 字符不截断,新增禁用技能内联 shell 执行选项,插件可打包 bin/ 目录可执行文件。修复了 --resume 转录链断裂、远程会话计划模式丢失、cmd+delete 快捷键等 bug,并优化了 ANSI 剥离性能。

智能体AnthropicMCP/工具产品更新
03:59
Meta Engineering Blog(RSS)
精选82
KernelEvolve:Meta的Ranking Engineer Agent如何优化AI基础设施

Meta的Ranking Engineer Agent系列博客第二篇,聚焦其底层基础设施优化能力。该自主AI代理能够优化支撑广告排名模型运行的低层基础设施,旨在提升系统性能与效率。本篇承接首篇介绍的机器学习实验自主探索功能,进一步展示了该代理在硬件与系统层面的自动化优化实践。

智能体Meta产品更新部署/工程

推荐理由:Meta 内部工具展示 AI 自动化优化基础设施,工程师可借鉴实践。
4月2日
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
Codex 为团队推出更灵活定价方案

Codex 新增按量付费模式,面向 ChatGPT Business 和 Enterprise 团队,支持按需灵活扩展使用规模。

智能体OpenAI产品更新编码
13:46
公众号:阶跃星辰(Step)
42
阶跃 Step 3.5 Flash 系列上新,Step Plan 用户现可体验

阶跃星辰发布 Step 3.5 Flash 系列,主打更快、更好用、更加 Agent-native,面向所有 Step Plan 用户开放体验。

智能体模型发布
12:32
公众号:通义实验室(千问)
54
Qwen3.6-Plus:编码智能体能力全面跃升!
智能体模型发布编码
08:00
Google Developers Blog(RSS)
精选81
通过 Gemma 4 将先进的智能体能力引入边缘

Google DeepMind 发布了 Gemma 4 系列开源模型,旨在直接在设备端实现多步骤规划和自主智能体工作流。该版本包含用于实验“智能体技能”的 Google AI Edge Gallery,以及为开发者提供显著速度提升和结构化输出的 LiteRT-LM 库。Gemma 4 采用 Apache 2.0 许可,支持超过 140 种语言,并兼容移动设备、台式机及树莓派等多种物联网硬件平台。

智能体Google模型发布端侧

推荐理由:开源 agentic 模型支持端侧运行,开发者可快速构建本地智能应用。
08:00
Cursor Blog
精选
Cursor 3.0 发布:以 Agent 为核心的统一开发空间

Cursor 3.0 正式发布,重构为以 Agent 为核心的统一工作空间。新界面原生支持多仓库协作,可并行运行本地与云端 Agent(覆盖移动端、Slack、GitHub 等入口),支持会话在环境间无缝迁移以便离线运行或本地迭代。完整保留 IDE 能力:文件编辑、LSP、内置浏览器及插件市场。基于自研 Composer 2 模型,目标是通过多 Agent 自主协作实现"代码库自动驾驶"。

智能体MCP/工具产品更新编码

推荐理由:Cursor 3 重磅发布:原生 Agent 工作流、云地无缝切换与多仓库管理
07:41
Claude Code:GitHub Releases(RSS)
精选
Claude Code v2.1.90 版本更新

Claude Code 发布 v2.1.90 版本。新增 /powerup 交互式教程命令,通过动画演示教授功能使用;增加环境变量支持离线环境保留 marketplace 缓存。修复多项关键 bug:解决速率限制对话框崩溃、--resume 缓存未命中、编辑操作与 format-on-save 冲突等问题。性能方面优化 MCP 工具缓存、SSE 传输及长对话转录效率。同时移除 DNS 缓存查询自动权限以增强隐私,并加固 PowerShell 工具权限检查。

智能体Anthropic产品更新编码

推荐理由:Claude Code新增/powerup交互式教程与多项性能优化,提升开发体验
04:00
Qwen:Blog Retrieval(API)
Qwen3.6-Plus:迈向真实世界 Agent

Qwen3.6-Plus 定位真实世界 Agent 应用,Qwen Studio 平台集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能,覆盖多模态任务与复杂场景需求。

智能体多模态模型发布
03:13
Gary Marcus:The Road to AI We Can Trust(RSS)
精选
关于就业,先别恐慌--至少现在还不必

就业市场即将面临剧烈变革,但短期内无需过度恐慌。尽管未来形势将趋于复杂动荡,大规模冲击不会立即显现,当前仍处于变化酝酿阶段。这种渐进式演变意味着就业者尚有调整与准备的时间窗口,不必对即时性失业风险过度反应。然而,长期结构性转变不可避免,需保持警惕并提前规划。

智能体大佬观点

推荐理由:Marcus认为AI就业替代不会瞬间发生,但剧烈变革正在路上,理性看待当前焦虑
00:00
智谱:研究(网页内嵌数据)
精选
GLM-5V-Turbo发布:多模态Coding基座模型

智谱发布GLM-5V-Turbo多模态Coding基座模型,原生支持图像、视频、设计稿理解及画框、截图、读网页等工具调用,上下文窗口达200k。采用新一代CogViT视觉编码器与30+任务协同强化学习,在保持纯文本编程能力的同时强化GUI Agent能力。与Claude Code、AutoClaw等框架深度协同,支持"图像即代码"前端复刻及GUI自主探索,提供开箱即用的官方Skills。

智能体多模态模型发布编码

推荐理由:智谱发布多模态Coding基座GLM-5V-Turbo,深度适配Claude Code等Agent
00:00
Claude:Blog(网页)
精选
构建 Claude 应用的三大最佳实践

Anthropic 分享构建 Claude 应用的三大实践:使用 Claude 已掌握的通用工具(如 bash 和文本编辑器);允许其自行编排工具调用链,减少不必要的上下文回传以降低 token 消耗;随着模型能力进化,重新评估 agent harness 的预设限制。实测显示,让 Opus 4.6 自主过滤工具输出,在 BrowseComp 基准测试中准确率从 45.3% 提升至 61.6%。

智能体Anthropic教程/实践编码

推荐理由:Anthropic官方分享构建Claude Agent的三大最佳实践,含模型性能数据与代码编排技巧
4月1日
19:09
Hacker News:AI 热帖
询问 HN:客户用 vibe coding 接管了开发工作,该怎么办?

客户开始用 vibe coding 自行写代码接管项目开发,原外包开发者面临被 AI 工具替代的尴尬处境,在 HN 发帖询问该如何应对这种局面。

智能体现象/趋势编码
10:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
Gradient Labs 为每位银行客户配备 AI 账户经理

Gradient Labs 使用 GPT-4.1 和 GPT-5.4 mini/nano 驱动 AI 智能体,为每位银行客户提供自动化 AI 账户经理服务,实现低延迟、高可靠性的银行支持工作流。

智能体OpenAI行业动态
09:07
Claude Code:GitHub Releases(RSS)
Claude Code v2.1.89 发布

Claude Code v2.1.89 发布,新增 defer 权限决策支持 headless 会话暂停恢复,引入 CLAUDE_CODE_NO_FLICKER 环境变量实现无闪烁渲染,新增 PermissionDenied hook 允许模型重试被拒命令。修复 Windows 平台 CRLF 处理、StructuredOutput 缓存失效、内存泄漏、LSP 僵尸进程、CJK 字符截断等 30 余项 bug。调整 Edit 工具行为,支持直接编辑通过 Bash 查看的文件;hook 输出超 5 万字符将转存磁盘;默认关闭 thinking summaries。优化 MCP 连接超时和子代理提及体验。

智能体Anthropic产品更新编码
08:00
Google Developers Blog(RSS)
精选71
开发者指南:使用技能构建ADK智能体

Agent Development Kit (ADK) SkillToolset 推出了“渐进式披露”架构,使AI智能体能够按需加载领域专业知识,与传统单体提示相比,可减少高达90%的令牌使用量。该系统通过四种模式——从简单的内联清单到智能体可自行编写代码的“技能工厂”——使智能体能在运行时利用通用的 agentskills.io 规范动态扩展其能力。这种模块化方法确保了复杂的指令和外部资源仅在相关时被访问,从而为现代AI开发构建了一个可扩展且能自我扩展的框架。

智能体Google教程/实践部署/工程

推荐理由:开发者可借鉴此架构,构建更智能、更经济的AI代理。
06:34
Ethan Mollick:One Useful Thing(RSS)
精选
Claude Dispatch 与界面的力量

AI 能力已足够强大,但人们仍缺乏趁手的工具和界面来完成实际工作。Claude Dispatch 强调,优秀的界面设计才是释放 AI 全部潜力的关键。

智能体Anthropic大佬观点

推荐理由:Ethan Mollick 深度解析 Claude 与 AI 界面力量,洞察工具与能力的鸿沟
3月31日
21:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
加速 AI 下一阶段发展

OpenAI 获 1220 亿美元新融资,用于全球扩展前沿 AI、投资下一代算力,满足 ChatGPT、Codex 及企业 AI 的需求增长。

智能体OpenAI行业动态

推荐理由:OpenAI获1220亿美元巨额融资,创AI行业融资纪录
19:03
公众号:昆仑万维(天工)
32
昆仑万维(天工)推出「天工短剧工作台」

昆仑万维(天工)正式推出「天工短剧工作台」,以AI智能体驱动短剧内容创作流程自动化。

智能体产品更新视频
15:06
Steve Yegge:Medium(RSS)
49
氛围维护者

一位开源项目维护者分享应对AI生成PR浪潮的“氛围维护者”工作流。他维护Beads(2万星)和Gas Town(1.3万星)两个项目,每天收到约50个PR。通过自动化处理超过半数简单PR,整体合入率约88%,中位解决时间15小时。即便如此,每周仍需投入15-20小时审核。他认为高效率是开源项目生存关键,拒绝贡献可能导致项目被分叉或取代。

智能体大佬观点开源生态部署/工程
08:00
Google Developers Blog(RSS)
精选81
ADK Go 1.0 正式发布:迈向生产就绪的多智能体开发框架

Agent Development Kit (ADK) for Go 1.0 版本正式发布,标志着其从实验性脚本转向生产就绪的服务框架。本次更新核心在于强化可观测性、安全性与可扩展性,主要特性包括:原生集成OpenTelemetry以实现深度追踪;支持自愈逻辑的新插件系统;在敏感操作中引入“人在回路”安全确认机制。此外,新版本提供了基于YAML的配置以加速迭代,并优化了Agent2Agent协议,以支持跨编程语言的智能体无缝通信。该框架使开发者能够依托Go语言的高性能工程标准,构建复杂且可靠的多智能体系统。

智能体Google产品更新

推荐理由:Go 语言开发者迎来官方 AI Agent 开发框架,可快速构建可靠多智能体系统。
00:00
Mistral AI:News(网页)
59
Spaces:为人类与AI智能体共同工作而构建的命令行工具

Mistral AI 于2026年3月31日发布了其命令行工具 Spaces,专为人类用户与 AI 智能体共同工作设计。此次发布是其完整产品矩阵的一部分,该矩阵包括用于构建应用的 Studio、用于训练模型的 Forge、用于长周期任务的 AI 智能体 Vibe 及其代码版本 Vibe for Code,以及用于前沿规模训练与推理的 Compute 基础设施。同时,Mistral 更新了模型产品线,发布了最新的 Mistral Medium 3.5 和 Mistral Small 4 模型。

智能体MCP/工具产品更新
00:00
Mistral AI:News(网页)
80
面向双重用户:Mistral AI 如何改进CLI工具以同时服务人类与AI智能体

Mistral AI 在改进内部CLI工具时发现,原本为人类开发者设计的交互式提示会阻碍AI智能体使用。核心解决方案是将每个交互式提示都转化为对应的命令行标志位,确保所有必要信息都能通过非交互方式提供。他们建立了插件系统,使组件可自省和序列化,并为智能体生成结构化的上下文指南。这些改进使得智能体能够自主完成从项目初始化到部署的全流程,例如将博客项目部署为Space仅需不到10分钟。面向智能体的设计最终也提升了人机协作的效率。

智能体教程/实践部署/工程
00:00
Runway:News(网页)
推出 Runway Builders 计划

Runway 推出 Runway Builders 计划,为 Seed 至 Series C 初创企业提供最高50万免费 API 积分及 Characters 实时视频代理接口。该接口基于 GWM-1 模型,支持从单张图片零微调生成可控数字角色,适用于客服、销售助手等实时交互场景。

智能体产品更新视频
00:00
Anthropic:Research(发表成果 · 网页)
Anthropic宣布在澳扩张并发布Claude使用数据

Anthropic宣布在悉尼设立办公室,并与澳大利亚政府签署AI安全合作备忘录。数据显示,澳大利亚占全球Claude流量1.6%,人均使用量是预期的4倍以上,全球排名第11位,人均第7位。使用集中在新南威尔士州(37%)和维多利亚州(31%)。使用场景为46%工作、47%个人、7%课程作业。澳用户倾向于处理更复杂任务,但耗时比平均短20%,AI自主性得分较低(3.38/5),表明更多采用协作而非完全委托模式。

智能体Anthropic现象/趋势
3月30日
08:00
Google Developers Blog(RSS)
精选81
Google 发布 Java 智能体开发套件 (ADK) 1.0.0 版本

Google 正式发布了 Java 版智能体开发套件 (ADK) 的 1.0.0 版本。该版本引入了多项关键功能:支持接入 Google Maps 数据、内置 URL 抓取工具,以及用于跨框架协作的标准化 Agent2Agent 协议。其全新的“App”和“Plugin”架构增强了控制能力,实现了全局日志记录、通过事件压缩自动管理上下文窗口,以及需要人工确认的“Human-in-the-Loop”工作流。此外,该版本深度集成 Google Cloud 服务(如 Firestore 和 Vertex AI),提供了强大的会话与记忆管理功能,以处理长期状态和大型数据工件,助力开发者构建更复杂的 AI 智能体应用。

智能体GoogleMCP/工具产品更新

推荐理由:Java开发者可利用官方工具快速构建集成Google服务的AI代理。
04:00
Qwen:Blog Retrieval(API)
精选
Qwen3.5-Omni:全面扩展,迈向原生全模态 AGI

Qwen Studio 发布,集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具使用及 Artifacts 功能,提供全模态 AI 一站式解决方案。

智能体多模态模型发布
关联讨论 1 条Qwen:Blog Retrieval(API)
推荐理由:阿里发布Qwen3.5-Omni多模态模型,迈向原生全模态AGI
3月27日
20:00
Cursor Blog
精选72
Composer 2技术报告:面向智能体软件工程的代码模型训练

本报告介绍了代码模型Composer 2的训练过程。该模型基于开源基础模型Kimi K2.5,通过两阶段训练:首先进行侧重代码的持续预训练以深化编码知识,随后在高度模拟真实Cursor环境的大规模强化学习中提升端到端智能体性能。在自建的真实任务评估集CursorBench上,Composer 2得分为61.3,较前代提升37%,与前沿模型性能相当。在公开基准SWE-bench Multilingual和Terminal-Bench上分别获得73.7和61.7分,并在保持高精度的同时实现了显著更低的推理成本。训练依托为Blackwell GPU定制的高效MoE训练内核、跨区域异步强化学习管道等大规模基础设施完成。

智能体编码论文/研究部署/工程

推荐理由:Cursor 把 Composer 2 的训练全流程摊开讲了,从 Kimi K2.5 继续预训练到大规模 RL,关键是 RL 在真实 Cursor 会话里跑,不是玩具环境。做 coding agent 的团队,这份报告值得逐段拆。
3月26日
20:01
公众号:小米 MiMo
20
Xiaomi MiMo Agent 框架调用限免活动延长一周
智能体产品更新
11:55
Hacker News:AI 热帖
Show HN: 基于 TypeScript 的稳健 LLM 网页数据提取工具

Lightfeed Extractor 发布基于 TypeScript 的 LLM 网页数据提取库,支持通过自然语言提示和 Zod schema 从 HTML、Markdown 或纯文本中提取结构化数据。核心功能包括 HTML 转 Markdown 预处理、JSON 模式输出、失败 JSON 自动修复及 token 追踪。可与 Playwright 集成加载动态页面,或配合 browser-agent 实现自然语言导航后提取,适用于电商竞品监控等生产级场景。

智能体GitHub开源/仓库数据/训练
08:00
Cursor Blog
精选69
通过实时强化学习改进Composer编码模型

Cursor团队将实时强化学习技术应用于Composer编码模型,利用真实用户交互产生的推理令牌作为训练信号,以解决模拟环境与真实使用间的匹配问题。该技术使团队能够以每五小时一次的频率部署改进后的模型检查点。通过A/B测试,新版本实现了关键指标提升:代理编辑在代码库中的持久性增加2.28%,用户不满意后续减少3.13%,延迟降低10.3%。实时RL也带来了奖励黑客等新挑战,但真实用户反馈有助于识别和修正此类问题。

智能体现象/趋势编码

推荐理由:Cursor 把真实用户交互当训练信号,每五小时迭代一次 Composer,这不是论文是工程日志。做 coding agent 的团队该看看他们怎么处理 reward hacking 的两个真实案例,比任何 benchmark 论文都实在。
3月25日
08:00
Google Developers Blog(RSS)
精选84
用 Agent 技能弥合知识鸿沟

Google DeepMind 开发出一项“Gemini API 开发者技能”,使智能体能够实时获取最新文档与 SDK 指导。评估结果显示,配备该技能后,gemini-3.1-pro-preview 模型的成功率从 28.2% 大幅跃升至 96.6%。这种轻量级方法通过赋予模型强大的推理能力并接入“事实来源”,有效解决了静态模型知识与快速演进的软件实践之间的脱节问题,显著消除了过时的编码模式。

智能体DeepMindGoogle产品更新

推荐理由:通过实时文档赋能模型,编码任务成功率飙升,开发者可借鉴优化AI工具。
08:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
OpenAI 推出安全漏洞赏金计划

OpenAI 启动安全漏洞赏金计划,悬赏征集 AI 滥用及安全风险漏洞,涵盖智能体漏洞、提示注入攻击和数据泄露等问题。

智能体OpenAI安全/对齐

推荐理由:OpenAI推出安全漏洞赏金计划,聚焦Agent安全与提示词注入风险
3月24日
17:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
ChatGPT 推出产品发现功能

ChatGPT 上线基于 Agentic Commerce Protocol 的全新购物功能,提供更丰富的视觉化沉浸式体验,支持商品发现、并排对比及商家集成。

智能体OpenAI产品更新搜索

推荐理由:ChatGPT 上线 Agentic 购物功能,支持商品智能对比与商家集成
10:01
Hugging Face:Blog(RSS)
精选78
全新语音智能体评估框架EVA发布

ServiceNow AI团队在Hugging Face上发布了语音智能体评估框架EVA。该框架通过标准化测试集与多模态指标,系统评估语音助手在对话理解、任务完成及交互自然度等方面的性能,旨在量化衡量智能体在复杂真实场景下的表现,助力研究人员客观比较不同模型,推动技术优化。

智能体Hugging Face开源/仓库语音

推荐理由:提供语音代理评估标准,帮助开发者优化模型性能和测试效率。
09:06
公众号:阶跃星辰(Step)
44
StepClaw 现已支持飞书、企微一键唤起

StepClaw 新增通过飞书和企业微信远程唤起功能。用户只需在手机飞书或企微对话框发送指令,即可驱动本地 StepClaw 即刻执行。接入方式:企业微信可通过阶跃AI Web端点击「一键部署企业微信机器人」扫码授权,或桌面伙伴发送「连接企微」获取凭证配置;飞书可通过阶跃AI APP创建机器人并发送凭证绑定,Web端一键部署并发送配置指令,或桌面伙伴生成二维码完成授权。配置后即可实现远程操控。

智能体MCP/工具产品更新
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选75
利用对抗网络灵感设计多代理架构,突破长时应用开发瓶颈

作者受生成对抗网络启发,设计了一个包含规划器、生成器和评估器的三代理架构,以解决Claude在长时应用开发中的两大瓶颈。该架构通过上下文重置机制,有效克服了模型在长任务中的“上下文焦虑”问题;同时,通过分离生成与评估功能,使代理能依据具体标准进行迭代改进,而非盲目自评。这一方法成功使系统能在多小时的自主运行中生成完整的全栈应用程序,突破了此前提示工程和传统工具设计的性能上限。

智能体Anthropic教程/实践编码

推荐理由:Anthropic 工程师把 GAN 的 generator-evaluator 思路搬进长时 Agent 架构,从设计到全栈编码都跑通了,还附了成本和失败模式。做 Agent 产品的人读完能直接抄作业,比看十篇论文管用。
00:00
Berkeley RDI:Blog(AI 安全与评测)
自我主权智能体(Self-Sovereign Agent)

新加坡国立大学与UC伯克利研究团队提出"自我主权智能体"(SSA)框架,将AI系统定义为可通过经济、复制与适应三大循环实现自我维持的持久数字行为体。该研究将SSA发展划分为四个阶段:从依赖赞助者的工具型智能体,到经济自给、可跨云复制,最终具备自主适应能力。研究指出,当前前沿模型已接近第二阶段,但真实环境部署仍面临平台限制、对抗攻击与长期稳定性等挑战。

智能体安全/对齐
‹ 上一页
1…4647484950
下一页 ›