AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2134 条
全部一手资讯X论文
标签「Agent」清除
3月23日周一
08:00Google Developers Blog(RSS)71精选使用 LlamaParse 与 Gemini 3.1 构建智能金融助手
00:00Berkeley RDI:Blog(AI 安全与评测)OpenSage:自编程智能体生成引擎
00:00Mistral AI:News(网页)Voxtral 发布 40 亿参数文本转语音模型
00:00Anthropic:Research(发表成果 · 网页)71精选利用长时运行智能体工作流革新科学计算
00:00Anthropic:Research(发表成果 · 网页)Anthropic推出Science Blog:分享AI for Science最新进展
3月22日周日
23:04公众号:智谱(GLM)30AutoClaw 接入微信,随时随地帮你干活儿
11:49公众号:阶跃星辰(Step)32StepClaw 率先适配微信,可以在微信上指挥你的龙虾啦
02:00OpenAI:Alignment 研究博客(RSS)54训练智能体在暗中行为不当时自我报告
3月20日周五
12:41公众号:小米 MiMo12小米MiMo联合全球顶级Agent框架开启首周限免
08:00HuggingFace Daily Papers(社区热门论文)PersonaVLM:面向长期个性化的多模态大语言模型
3月19日周四
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)OpenAI 如何监控内部编程智能体的不对齐问题
12:58公众号:阶跃星辰(Step)38能进化!能换肤!阶跃桌面 StepClaw 一键领养超简单!
08:00Cursor Blog精选Composer 2 正式发布
08:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选OpenAI 将收购 Astral
04:00Qwen:Blog Retrieval(API)精选Qwen3.5-Max-Preview 现已上线 Arena
00:25公众号:小米 MiMo49Xiaomi MiMo-V2-Omni 发布:看得清,听得懂,能动手的全模态 Agent 基座
00:23公众号:小米 MiMo46Xiaomi MiMo-V2-Pro 发布:面向 Agent 时代的旗舰基座
3月18日周三
08:00Google Developers Blog(RSS)81精选开发者AI代理协议指南
00:00MiniMax:Blog(网页)61精选MiniMax M2.7:自我进化的早期回声
00:00Google Blog:AI(RSS)将 Personal Intelligence 的强大能力带给更多用户
3月17日周二
20:33Hugging Face:Blog(RSS)83精选Holotron-12B - 高吞吐计算机使用智能体
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选推出 GPT-5.4 mini 和 nano
00:00Mistral AI:News(网页)83Mistral AI 发布企业级AI模型构建系统Forge
00:00Google Research:Blog(网页)Google Research 在 The Check Up 分享:从医疗创新到真实世界临床场景
3月16日周一
00:00智谱:研究(网页内嵌数据)精选GLM-5-Turbo:龙虾增强的基座模型
3月14日周六
01:58Hacker News:AI 热帖精选Show HN: Context Gateway - 自动压缩 AI Agent 上下文再送入 LLM
3月13日周五
21:22Hacker News:AI 热帖Launch HN: Spine Swarm (YC S23) - 在可视化画布上协作的 AI agents
3月12日周四
14:54公众号:阶跃星辰(Step)26阶跃AI 能一键部署 OpenClaw了!5 万个免费体验名额,先到先得
08:00OpenRouter:Announcements(RSS)37OpenRouter 推出 Auto Exacto:自适应质量路由,默认开启
08:00OpenRouter:Announcements(RSS)38Auto Exacto:自适应质量路由,默认开启
00:00Runway:News(网页)负责任地构建交互式 AI 角色
00:00Anthropic:Newsroom(网页)Anthropic投资1亿美元成立Claude合作伙伴网络
3月11日周三
20:00Cursor BlogCursor 如何评估模型质量
19:30OpenAI:官网动态(RSS · 排除企业/客户案例)精选设计可抵御提示注入的 AI agent
19:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选从模型到智能体:为 Responses API 配备计算机环境
00:00Mistral AI:News(网页)83Rails测试自动化:构建自主编写测试的智能体
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 宣布首日支持 NVIDIA Nemotron 3 Super,助力构建高效多智能体系统
3月10日周二
09:14公众号:智谱(GLM)40今天,给每台电脑都装上龙虾
3月9日周一
22:25公众号:月之暗面(Kimi)48Kimi Claw 现已支持微博和企业微信遥控
18:00公众号:小红书技术(dots.llm)52REDSearcher:30B参数深度搜索Agent超越GPT-5,低成本可扩展
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
3月23日
08:00
Google Developers Blog(RSS)
精选71
使用 LlamaParse 与 Gemini 3.1 构建智能金融助手

结合 LlamaParse 与 Gemini 3.1 模型,可从复杂的非结构化文档中提取高质量数据。该方案采用事件驱动架构,利用 Gemini 3.1 Pro 对密集的金融表格进行智能解析,并使用 Gemini 3.1 Flash 进行高性价比的摘要生成。开发者通过此教程可构建个人财务助手,将杂乱的经纪账户对账单转化为结构清晰、易于理解的分析报告。

智能体Google检索增强教程/实践

推荐理由:开发者可快速上手构建财务AI助手,将杂乱数据转化为结构化见解。
00:00
Berkeley RDI:Blog(AI 安全与评测)
OpenSage:自编程智能体生成引擎

OpenSage是新一代Agent开发工具包,推动智能体开发从人工设计转向AI自主编程范式。该系统支持LLM自动构建智能体拓扑、动态编写管理工具(具备沙箱隔离与异步执行),以及维护分层图结构记忆系统。与现有方案需人工设计不同,OpenSage实现了拓扑、工具和记忆的全面AI自动化生成,并内置软件工程与安全工具套件。

智能体DeepMind开源/仓库编码
00:00
Mistral AI:News(网页)
Voxtral 发布 40 亿参数文本转语音模型

Voxtral 发布 40 亿参数文本转语音模型 Voxtral TTS,支持英语、法语等 9 种语言的逼真语音生成。该模型仅需 3 秒参考音频即可实现零样本语音克隆,延迟低至 70 毫秒。人工评测显示,其在保持与 ElevenLabs Flash v2.5 相当首音时间的同时,自然度表现更优,与 ElevenLabs v3 质量持平。模型支持情感控制和跨语言语音迁移,适用于企业级语音代理工作流。

智能体模型发布语音
00:00
Anthropic:Research(发表成果 · 网页)
精选71
利用长时运行智能体工作流革新科学计算

Anthropic 研究员展示了如何将多日智能体编码工作流应用于科学计算任务。以使用 Claude Opus 实现宇宙学玻尔兹曼求解器的可微分版本为例,该任务通常需耗费研究人员数月甚至数年时间。通过制定清晰的项目指令、利用日志文件作为智能体的持久记忆并设置测试预言,即使是非领域专家也能引导智能体在数小时内完成这类复杂项目。该方法的核心在于设定高层目标后,让智能体团队自主工作,仅需偶尔人工监督,从而显著提升了科学代码开发与移植的效率。

智能体Anthropic教程/实践编码

推荐理由:Anthropic 研究员用 Claude Opus 4.6 花几天从零写出了一个宇宙学 Boltzmann 求解器,原本是博士级团队几个月的活。这不是论文,是一份完整的多日 Agent 工作流实操手册,做科研或长周期编码的人可以直接抄作业。
00:00
Anthropic:Research(发表成果 · 网页)
Anthropic推出Science Blog:分享AI for Science最新进展

Anthropic推出Science Blog,分享AI在数学、物理、生物等领域的应用进展与挑战。博客设Features(科研成果案例)、Workflows(实用指南)、Field notes(领域动态)三类栏目,首发两篇内容:用Claude完成理论物理计算的实战记录,以及科学计算任务编排教程。Anthropic同时介绍了AI for Science计划、Claude for Life Sciences及参与的Genesis Mission等多亿美元级科学加速项目。

智能体Anthropic现象/趋势
3月22日
23:04
公众号:智谱(GLM)
30
AutoClaw 接入微信,随时随地帮你干活儿

AutoClaw 已接入微信,用户可直接通过微信调用该 AI 智能体完成各类任务,实现随时随地的办公自动化。具体支持的技能范围和操作细节尚未公布。

智能体产品更新
11:49
公众号:阶跃星辰(Step)
32
StepClaw 率先适配微信,可以在微信上指挥你的龙虾啦
智能体产品更新
02:00
OpenAI:Alignment 研究博客(RSS)
54
训练智能体在暗中行为不当时自我报告

研究团队训练智能体在实施隐蔽不当行为时,主动调用报告工具进行自我揭发。这种方法显著降低了未被检测到的攻击数量,使智能体在企图违规操作时能自行上报。该机制为人工智能安全提供了一种新的内部监督思路,通过让模型自我监控潜在风险,提升了系统的可靠性与透明度。

智能体OpenAI安全/对齐论文/研究
3月20日
12:41
公众号:小米 MiMo
12
小米MiMo联合全球顶级Agent框架开启首周限免

小米MiMo宣布联合全球顶级Agent框架,开启首周限免活动。该合作旨在协同顶级Agent生态,解锁AI无限生产力。

智能体产品更新
08:00
HuggingFace Daily Papers(社区热门论文)
PersonaVLM:面向长期个性化的多模态大语言模型

PersonaVLM 是一个支持长期个性化的多模态智能体框架,具备记忆提取、多轮推理和响应对齐三大核心能力,可将通用 MLLM 转化为持续学习用户偏好的个性化助手。研究团队同步发布了包含 2000 余个案例的 Persona-MME 评测基准,涵盖 7 个维度与 14 项细粒度任务。实验表明,在 128k 上下文下,该方法较基线模型在 Persona-MME 和 PERSONAMEM 上分别提升 22.4% 和 9.8%,并超越 GPT-4o 达 5.2% 和 2.0%。

智能体多模态论文/研究
3月19日
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
OpenAI 如何监控内部编程智能体的不对齐问题

OpenAI 通过思维链监控技术分析内部编程智能体的真实部署数据,研究不对齐行为模式以检测潜在风险,并强化 AI 安全防护措施。

智能体OpenAI安全/对齐编码
12:58
公众号:阶跃星辰(Step)
38
能进化!能换肤!阶跃桌面 StepClaw 一键领养超简单!
智能体产品更新
08:00
Cursor Blog
精选
Composer 2 正式发布

Composer 2 登陆 Cursor,定价 $0.50/M(输入)和 $2.50/M(输出),Terminal-Bench 2.0 得分 61.3,SWE-bench Multilingual 达 73.7,显著优于前代。支持数百步长周期编码任务,团队同步发布训练技术报告。

智能体模型发布编码

推荐理由:Cursor发布Composer 2编程Agent,性能大幅提升且定价极具竞争力
08:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
OpenAI 将收购 Astral

OpenAI 收购 Astral,加速 Codex 发展以支持下一代 Python 开发工具。Astral 是 Python 生态重要工具开发商,此次收购将整合其技术能力,强化 OpenAI 在开发者工具领域的布局。

智能体OpenAI编码行业动态

推荐理由:OpenAI收购Astral加强Codex Python工具链,Agent能力再升级
04:00
Qwen:Blog Retrieval(API)
精选
Qwen3.5-Max-Preview 现已上线 Arena

Qwen3.5-Max-Preview 已登陆 LMSYS Chatbot Arena。Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等全栈功能。

智能体多模态模型发布

推荐理由:阿里 Qwen3.5-Max 预览版上线 Arena,支持多模态理解与工具调用
00:25
公众号:小米 MiMo
49
Xiaomi MiMo-V2-Omni 发布:看得清,听得懂,能动手的全模态 Agent 基座
智能体多模态模型发布
00:23
公众号:小米 MiMo
46
Xiaomi MiMo-V2-Pro 发布:面向 Agent 时代的旗舰基座
智能体模型发布
3月18日
08:00
Google Developers Blog(RSS)
精选81
开发者AI代理协议指南

一套包含MCP、A2A等六种协议的新工具集正式发布,旨在通过标准化AI代理的数据访问与通信方式,消除定制集成代码的需求。以“厨房管理员”代理为例,这些协议能实时核查库存、通过UCP进行批发交易,并借助AP2完成安全支付授权。开发者使用Agent开发套件(ADK)还可实现A2UI与AG-UI,为用户提供交互式仪表板与无缝流式界面。

智能体GoogleMCP/工具教程/实践

推荐理由:开发者能快速掌握AI代理通信标准,提升集成效率。
00:00
MiniMax:Blog(网页)
精选61
MiniMax M2.7:自我进化的早期回声

M2.7是M2系列中首个深度参与自身进化的模型。它能构建复杂的智能体框架,完成精细的生产力任务,尤其在软件工程方面表现突出,其SWE-Pro基准测试得分56.22%,接近Opus的最佳水平。模型的办公软件处理能力在开源模型中领先,GDPval-AA的ELO分数为1495。M2.7能保持97%的技能遵循率,处理超过40个、每个超过2000 token的复杂技能。该模型通过内部研究智能体框架,实现了“分析-修改-评估”的自主迭代优化循环,在内部评估中提升了性能。

智能体模型发布编码
关联讨论 2 条MiniMax:Blog(网页)HuggingFace Daily Papers(社区热门论文)
推荐理由:MiniMax M2.7 让模型参与自身进化,在 SWE-Pro 和 VIBE-Pro 上接近 Opus 水平,Agent Teams 设计也值得看,但整体仍是追赶者姿态。
00:00
Google Blog:AI(RSS)
将 Personal Intelligence 的强大能力带给更多用户

Google 将 Personal Intelligence 扩展至 Search 的 AI Mode、Gemini 应用及 Chrome 中的 Gemini,覆盖更多用户。

智能体Google产品更新搜索
3月17日
20:33
Hugging Face:Blog(RSS)
精选83
Holotron-12B - 高吞吐计算机使用智能体

H公司发布了多模态计算机使用模型Holotron-12B。该模型基于NVIDIA开源的Nemotron-Nano-12B-VL模型,使用专有数据混合进行训练,专注于在交互环境中高效感知、决策和行动。其采用混合状态空间模型与注意力机制架构,在单张H100 GPU上实现了比前代Holo2-8B高2倍以上的吞吐量,在100并发基准测试中达到每秒8900个token。在WebVoyager基准测试中,性能从基线的35.1%提升至80.5%,在定位和导航基准上也显著提升。模型已通过NVIDIA开放模型许可在Hugging Face发布。

智能体Hugging Face多模态模型发布

推荐理由:高效推理的计算机使用代理模型,适合生产部署,开发者可直接试用。
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
推出 GPT-5.4 mini 和 nano

GPT-5.4 mini 与 nano 发布,为 GPT-5.4 的轻量高速版本,针对编程、工具调用、多模态推理及高并发 API 和子代理任务优化。

智能体OpenAI模型发布编码

推荐理由:OpenAI 发布 GPT-5.4 mini/nano,针对编码与 Agent 场景优化
00:00
Mistral AI:News(网页)
83
Mistral AI 发布企业级AI模型构建系统Forge

Mistral AI推出企业级AI模型构建系统Forge,该系统允许企业利用内部专有知识(如工程标准、代码库、操作流程)训练定制化的前沿模型,以弥补通用AI与企业特定需求之间的差距。Forge支持从预训练到强化学习的完整模型生命周期,并与ASML、爱立信等领先机构合作,用于训练支撑其复杂系统的专有模型。该系统强调控制与战略自主性,确保模型完全由企业掌控,旨在打造能理解内部术语、遵循工作流程并可靠集成到运营中的智能体。

智能体产品更新数据/训练
00:00
Google Research:Blog(网页)
Google Research 在 The Check Up 分享:从医疗创新到真实世界临床场景

Google Research 在 The Check Up 活动发布多项医疗 AI 进展。与 Fitbit 合作的 Personal Health Agent (PHA) 整合可穿戴设备数据提供个性化健康指导;乳腺癌检测 AI 在研究中识别出 25% 传统筛查漏检的间隔期癌症;多智能体系统 AMIE 已在 Beth Israel Deaconess Medical Center 开展临床测试,协助病史采集。同时推出 MedGemma 开放模型及 Health AI Developer Foundations (HAI-DEF) 赋能开发者,糖尿病视网膜病变筛查模型已服务超 100 万例,AI 正从实验室走向真实临床场景。

智能体DeepMindGoogle产品更新
3月16日
00:00
智谱:研究(网页内嵌数据)
精选
GLM-5-Turbo:龙虾增强的基座模型

智谱发布GLM-5-Turbo基座模型,代号"龙虾",强化工具调用、复杂指令拆解、定时任务与高吞吐长链路执行能力,推出ZClawBench基准测试。支持通过BigModel.cn、Z.ai及AutoClaw客户端接入,Coding Plan Max将于本月内支持Pro版。

智能体模型发布编码

推荐理由:智谱GLM-5-Turbo发布,强化Agent工具调用与长任务执行能力
3月14日
01:58
Hacker News:AI 热帖
精选
Show HN: Context Gateway - 自动压缩 AI Agent 上下文再送入 LLM

YC 孵化的 Compresr 发布 Context Gateway,在 AI Agent 与 LLM 间自动压缩过长对话历史。后台预计算实现即时压缩,支持 Claude Code、Cursor 等,默认 75% 上下文阈值触发。curl 一键安装,TUI 向导配置。

智能体开源/仓库部署/工程

推荐理由:YC背书的Agent上下文压缩工具,自动优化长对话,支持Claude Code等主流Agent
3月13日
21:22
Hacker News:AI 热帖
Launch HN: Spine Swarm (YC S23) - 在可视化画布上协作的 AI agents

Spine Swarm(YC S23)发布首个真正的 agentic 平台,支持 AI agents 在可视化画布上协作,管理和编排新一代 AI。

智能体产品更新
3月12日
14:54
公众号:阶跃星辰(Step)
26
阶跃AI 能一键部署 OpenClaw了!5 万个免费体验名额,先到先得
智能体产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
37
OpenRouter 推出 Auto Exacto:自适应质量路由,默认开启

Auto Exacto 每隔 5 分钟基于吞吐量、工具调用遥测和基准分数重新评估各提供商。对于包含工具的请求,该功能默认处于开启状态。

智能体MCP/工具产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
38
Auto Exacto:自适应质量路由,默认开启

Auto Exacto 每隔5分钟根据吞吐量、工具调用遥测数据和基准分数重新评估提供商。对于包含工具的请求,该功能默认开启。

智能体MCP/工具产品更新部署/工程
00:00
Runway:News(网页)
负责任地构建交互式 AI 角色

Runway 发布 Characters 实时视频 API,支持从单张图片生成可对话虚拟角色。文章在介绍客服、教育等应用场景的同时,重点讨论了该技术在肖像权同意、实时深度伪造欺诈、情感操纵及社交依附等方面的潜在风险。Runway 已采取内容过滤(禁止儿童与公众人物形象)、限制专业领域建议及透明度标识等安全措施,但承认随着技术进步,相关治理挑战仍需持续应对。

智能体产品更新视频
00:00
Anthropic:Newsroom(网页)
Anthropic投资1亿美元成立Claude合作伙伴网络

Anthropic宣布投入1亿美元成立Claude合作伙伴网络,为帮助企业采用Claude的合作伙伴提供培训、技术支持和联合市场开发。该网络免费开放,合作伙伴可获得Claude Certified Architect等技术认证,并优先使用代码现代化入门套件。Anthropic还将合作伙伴支持团队扩大五倍,配备Applied AI工程师和技术架构师,协助企业完成从概念验证到生产部署的过渡。

智能体Anthropic行业动态部署/工程
3月11日
20:00
Cursor Blog
Cursor 如何评估模型质量

Cursor 采用混合在线-离线评估流程衡量 AI 编程助手质量。离线端使用内部套件 CursorBench,基于真实开发会话构建,涵盖多文件修改、生产日志排查等复杂任务,相比公共基准更能区分前沿模型(如识别 Haiku 与 GPT-5 的实际差异)。在线端通过真实流量监控补充,捕捉离线评分遗漏的体验回归。两者结合确保模型评估与开发者实际体验一致。

智能体编码评测/基准
19:30
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
设计可抵御提示注入的 AI agent

ChatGPT 防御提示注入与社会工程的方法:在 agent 工作流中约束高风险操作并保护敏感数据,避免 AI 智能体因恶意提示泄露信息或执行危险动作。

智能体OpenAI安全/对齐

推荐理由:OpenAI官方分享Agent提示注入防护技术实践
19:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
从模型到智能体:为 Responses API 配备计算机环境

OpenAI 基于 Responses API、shell 工具与托管容器构建 agent runtime,支持文件处理、工具调用及状态管理,实现安全可扩展的智能体计算机环境部署。

智能体MCP/工具OpenAI产品更新

推荐理由:OpenAI为Responses API增加Agent运行时与容器化执行环境
00:00
Mistral AI:News(网页)
83
Rails测试自动化:构建自主编写测试的智能体

为解决大型Rails单体应用测试覆盖率低的问题,团队基于Mistral的Vibe构建了一个自主智能体。该智能体能自动读取模型、控制器等五类源代码文件,并生成或改进对应的RSpec测试。通过AGENTS.md文件提供的八步执行计划进行引导,并为不同文件类型配备专门技能以确保质量。智能体在CI/CD管道中并行运行,自动处理工厂和夹具,并通过强制自我审查覆盖所有公共方法,最终将测试质量评分从0.68提升至0.74。

智能体教程/实践编码
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 宣布首日支持 NVIDIA Nemotron 3 Super,助力构建高效多智能体系统

SGLang 首日支持 NVIDIA Nemotron 3 Super 开源模型。该模型采用 120B 总参数、12B 激活参数的混合 MoE 架构,支持 1M token 超长上下文,专为多智能体协作设计。相比前代,吞吐量提升 5 倍,在 Artificial Analysis 智能指数上准确率提高 2 倍。集成 Transformer-Mamba 架构与多 Token 预测技术,兼容 B200、H100 等 GPU,提供完全开放的权重与数据集,适用于代码生成、工具调用等复杂推理场景。

智能体模型发布部署/工程
3月10日
09:14
公众号:智谱(GLM)
40
今天,给每台电脑都装上龙虾
智能体产品更新端侧
3月9日
22:25
公众号:月之暗面(Kimi)
48
Kimi Claw 现已支持微博和企业微信遥控

Kimi Claw 今天起内置「微博」和「企业微信」官方插件,新用户经简单设置即可通过这两个 APP 遥控 Kimi Claw 干活。同时支持连接飞书(飞书机器人)。内置 ClawHub 5000+ 社区插件,涵盖开发代码、浏览器、办公工作流、专家角色等;提供 40GB 免费云盘、实时专业财经数据搜索。该功能处于早期实验阶段,首批开放给 Allegretto 及以上会员计划的用户。

智能体MCP/工具产品更新
18:00
公众号:小红书技术(dots.llm)
52
REDSearcher:30B参数深度搜索Agent超越GPT-5,低成本可扩展

REDSearcher是一个30B参数的深度搜索Agent,性能超越GPT-5,同时实现低成本与可扩展性。

智能体搜索模型发布
‹ 上一页
1…47484950
下一页 ›