AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月19日周五
08:00HuggingFace Daily Papers(社区热门论文)51Counsel:面向智能体任务的元评估数据集
08:00HuggingFace Daily Papers(社区热门论文)58EvoEmbedding:用于长上下文检索和智能体记忆的可演化表征
08:00HuggingFace Daily Papers(社区热门论文)46CalVerT:带校准验证器遥测的智能体在知识密集型任务中提升行动与学习
07:58Rohan Paul75精选AI 员工 Viktor 登陆 Microsoft Teams,年化收入达 2000 万美元
07:54Ethan Mollick67Ethan Mollick 称赞 AA-Briefcase 为真实知识工作优质基准
07:48Chubby♨️69Viktor AI智能体登陆Microsoft Teams
07:48Berryxia.AI66Browser Use 开源浏览器 agent 模板 B
07:48Berryxia.AI57Cursor 推出 /automate 技能,支持自然语言配置自动化流程
07:24Artificial Analysis55AA-Briefcase 基准发布:评估模型长期知识工作智能体能力
06:53🚨 AI News | TestingCatalog65Codex 新增 Record & Replay 录制转技能
06:48Berryxia.AI70Matthew Berman 推出 Loop Library
06:48Berryxia.AI55OpenAI Codex 上线 Record & Replay 功能:演示一次即可生成可编辑技能
06:23elvis64youtube-notetaker:从视频生成笔记的开源技能
06:18Chubby♨️35OrcaRouter推出免费防护应对AI智能体社会工程攻击
06:18fofr13智能体中的智能体训练智能体
04:54MarkTechPost(RSS)55Perplexity 推出自改进记忆系统 Brain,构建智能体工作上下文图
04:54宝玉65Claude Code 推出 Artifact 功能:AI 编程从终端走向可视化协作
04:23宝玉64OpenAI Codex 上线 Record & Replay 功能:演示一遍操作即可生成可复用 Skill
04:23Greg Brockman63Codex可通过演示学习
03:56Rohan Paul55Atomic Mail 为 AI 智能体推出专属收件箱
03:53Hacker News 热门(buzzing.cc 中文翻译)61Hermes 迁移工具:从 OpenClaw 导入配置
03:52🚨 AI News | TestingCatalog62Atomic Mail 推出专为 AI 智能体打造的 API 优先邮件服务
03:20jason70Codex新增Record & Replay技能录制功能
03:16Google Developers Blog(RSS)48Google 庆祝A2A协议发布一周年:协作智能体生态
02:55Thariq51Claude Code 新增 Artifacts:上传编辑 HTML 并共享
02:52OpenAI Developers57Codex 录制回放:工作流变可编辑技能
02:47Hugging Face:Blog(RSS)75精选MosaicLeaks: 你的研究智能体能保守秘密吗?
02:23The Decoder:AI News(RSS)63Google Deepmind 发布 AI 控制路线图:将 AI 智能体视为内部威胁,基于行为逐步授权
01:57François Chollet48固定价格代理订阅的token配额浪费
01:22swyx37Devin 一次性成功生成视觉公告卡片
00:25Deedy66autoarxiv:改URL无需GPU复现论文
00:22Anthropic:Research(发表成果 · 网页)77精选Anthropic Project Fetch 第二阶段:Claude Opus 4.7 自主完成任务,速度比人类团队快约20倍
00:21xAI38Grok模型上线Databricks Agent Bricks
00:19Lee Robinson37Cursor Slack 机器人自动解决与验证修复
00:17AYi69Codex 前置 Review 三层级与因果 AI 四代演进:Aether AI 融资信号
6月18日周四
22:52The Decoder:AI News(RSS)78精选Nature两篇研究:MIRA和AMIE诊断与治疗计划媲美甚至超越医生
22:50elvis68Viktor:Microsoft Teams首位AI员工
22:50elvis40SkillWeaver:组合式技能路由用于LLM智能体
22:24Rohan Paul66AI 智能体 Viktor 正式入驻 Microsoft Teams
22:20🚨 AI News | TestingCatalog71Zeta Labs 旗下 AI 员工 Viktor 正式上线 Microsoft Teams
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月19日
08:00
HuggingFace Daily Papers(社区热门论文)
51
Counsel:面向智能体任务的元评估数据集

Counsel是首个公开的智能体任务元评估数据集,包含开源权重LLMJ在tau-bench(客服)和DA-Code(编程)两个基准上的过程级批评及对应人类元评估。人类标注者将批评标记为“完全准确”“位置正确但推理欠佳”或“不应标记”,一致性达Krippendorff alpha 0.78。研究发现更强评判模型和更多推理努力均能提升与人类的一致性:最强模型位置标注一致率约88%,推理标注约65%。数据集使用开源权重模型生成并采用宽松许可,可用于校准、改进或训练面向智能体的LLMJ。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
58
EvoEmbedding:用于长上下文检索和智能体记忆的可演化表征

现有嵌入模型是静态的,孤立编码文本片段,忽略上下文与时间顺序。EvoEmbedding 生成可演化表征,专为信息动态、序列化的长上下文场景设计。模型顺序处理输入时维护连续更新的隐记忆,并与原始内容共同生成演化嵌入,使同一查询能根据上下文检索不同目标。为联合优化隐记忆与检索,构建了训练数据集 EvoTrain‑180K,并引入记忆队列防止表征崩塌,结合分段批处理加速训练 3.8 倍。实验表明,该模型在长上下文检索基准上超越更大规模专用模型,并可泛化至上下文长 10 倍的下游任务;集成至简单 RAG 管线即可超越专用智能体记忆系统。

智能体检索增强论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
CalVerT:带校准验证器遥测的智能体在知识密集型任务中提升行动与学习

大语言模型智能体在知识密集型问答中常因无法判断答案是否不确定、无支撑或已完整,导致过早给出自信但无支撑的回答,或在证据足够时过度检索。CalVerT通过向智能体状态注入校准的自信心分数和基础验证器分数,提供更完整的状态空间视图。在四个QA基准上,无需训练即可提升F1,既触发对过度依赖参数知识的检索,又减少冗余检索。经强化学习训练后,添加CalVerT遥测的智能体表现优于同等训练的无遥测系统。

智能体推理论文/研究
07:58
Rohan Paul@rohanpaul_ai
精选75
AI 员工 Viktor 在 Slack 上实现 2000 万美元年化收入(无销售团队、未大规模推广),现已正式进驻 Microsoft Teams。Viktor 定位为零门槛 AI:用户无需学习、无需提示词,像 @同事 一样提及即可获得完整工作成果,甚至无需主动 @ 也能自动完成。产品面向 Teams 的 3.2 亿用户,助力企业内部运营和管理人员零学习成本使用 AI。即日起免费试用,含 100 美元信用额度,无需绑定信用卡。

Fryd Wiatrowski: Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...

智能体产品更新

推荐理由:Viktor 带着 $20M ARR 进入 Teams,把 AI 员工的门槛降到零,对于被困在审批流程里的前线员工是个真实解法。
07:54
Ethan Mollick@emollick
67
Ethan Mollick 称赞 AA-Briefcase 是真实知识工作的优质基准,未饱和且含私有保留测试,同时询问是否有与人类的对比。该基准由 @ArtificialAnlys 发布,测试模型在多周、多任务项目中的能力,输入含数万条 Slack 消息和数千封邮件。模型排名:Claude Fable 5(已不可用)以 1587 Elo 居首,Claude Opus 4.8(1356)第二,GLM-5.2 max(1266)第三。结果凸显难度:最佳模型仅 3% 任务满足全部标准,31/91 任务无模型超过 50%,成本跨度约 800 倍。

Artificial Analysis: Announcing AA-Briefcase, the benchmark for the next era of agentic knowledge work AA-Briefcase is our new benchmark for ...

智能体Anthropic推理评测/基准
07:48
Chubby♨️@kimmonismus
69
团队协作AI智能体Viktor正式登陆Microsoft Teams。此前已在Slack上线,仅靠单一应用实现2000万美元年化收入运行率(无销售团队、无推广)。Viktor主打零门槛:用户无需学习、无需提示,像@同事一样提及Viktor即可完成任务,甚至无需主动提及,价值自动送达。面向全球3.2亿Microsoft Teams用户,面向大公司一线运营与管理者。新用户获赠100美元启动积分,无需绑定信用卡。

Fryd Wiatrowski: Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...

智能体Microsoft产品更新
07:48
Berryxia.AI@berryxia
66
Browser Use 开源浏览器 agent 模板 B

Browser Use 开源了基于 Vercel Eve 构建的浏览器 agent 模板 B。该模板让任意 agent 接入真实云端浏览器(Browser Use Cloud),实现网页浏览、点击、填表等操作,并通过 browser-harness 实时可视化执行过程,支持调试。模板已发布在 GitHub,可直接 clone 使用,支持初始化 skills 和 MCPs。开源免费,降低了开发可观测、可干预的 browser agent 的门槛。

Browser Use: Introducing B, a browser agent template! Built on Eve by @vercel. Give any agent a real Browser Use Cloud browser. Watch...

智能体GitHubMCP/工具产品更新
07:48
Berryxia.AI@berryxia
57
Cursor 推出 /automate 技能,支持自然语言配置自动化流程

Cursor 推出 /automate 技能,开发者用自然语言描述任务即可自动配置触发器、指令和工具,生成可运行的 automation。支持 Slack emoji 触发、GitHub issue/review/workflow 触发,新增 cloud agents 的 computer use 能力。以前需手动配置,现在只需描述目标,Cursor 自动生成完整流程。该功能降低了 agent workflow 的搭建门槛,将 agent 从一次性聊天工具推向长期运行的自动化系统。

智能体产品更新编码
07:24
Artificial Analysis@ArtificialAnlys
55
AA-Briefcase 基准发布:评估模型长期知识工作智能体能力

Artificial Analysis 推出新基准 AA-Briefcase,用于评估模型在长期知识工作项目中的智能体能力。基准包含 4 个私有场景(每项目需处理 25000+ Slack 消息、3500+ 邮件等碎片化上下文)及一个公开演示场景。评测结果:Claude Fable 5 以 Elo 1587 领先,其次为 Claude Opus 4.8(1356)、Opus 4.7 及智谱 GLM 5.2(max,1266)。成本方面,Claude Fable 5 平均每任务 $31,Opus 4.8 为 $10.40,GPT-5.5 (xhigh) 为 $3.68,GLM 5.2 (max) 为 $2.40,DeepSeek V4 Flash (max) 仅约 $0.04。所有模型中仅 3% 的任务满足全部标准,31/91 个任务无模型得分超 50%,显示真实世界复杂性仍是挑战。最佳性价比为开源权重模型 GLM-5.2 (max) 和 DeepSeek V4 Pro (max)。

智能体AnthropicHugging Face推理
06:53
🚨 AI News | TestingCatalog@testingcatalog
65
OPENAI 🔥: Codex 现在有了一个新的 Record & Replay 插件,它可以捕获你的操作,并将你的工作流程转换为可执行的技能。 我的工作流程 👀 * 尚不可在 EEA、UK 和瑞士使用。

OpenAI Developers: Show Codex a workflow once. Reuse it as a skill. Record & Replay lets you show Codex a recurring task, like filing an ex...

智能体OpenAI产品更新
06:48
Berryxia.AI@berryxia
70
Matthew Berman 推出 Loop Library

Matthew Berman推出Loop Library,一个专门收集可直接复用的agent循环流程的社区库。库中收录从简单任务自动化到复杂多步工作流的各种loop模板,开发者可直接搜索使用,也可提交自己的循环。该库由http://here.now合作托管,旨在解决agent开发中循环结构设计(退出、验证、失败处理)的重复劳动,推动agent开发从“每次重新发明轮子”转向“搭积木”模式。

Matthew Berman: Just launched Loop Library - a curated list of agent loops you can use right now. Find loops, submit your own, tokenmaxx...

智能体产品更新开源生态
06:48
Berryxia.AI@berryxia
55
OpenAI Codex 上线 Record & Replay 功能:演示一次即可生成可编辑技能

OpenAI Codex 推出 Record & Replay 功能。用户录制一次工作流(如报销、请假),Codex 自动将其转化为可检查、可编辑的 skill(技能)。后续同类任务可直接调用该 skill,无需重复教学。用户控制录制起止,技能可继续编辑优化。目前仅支持 macOS,欧洲国家暂不支持。该功能将“示范教学”直接转化为可积累的 agent 技能,降低了从手写 prompt 到“演示即交付”的门槛。

OpenAI Developers: Show Codex a workflow once. Reuse it as a skill. Record & Replay lets you show Codex a recurring task, like filing an ex...

智能体OpenAI产品更新
06:23
elvis@omarsar0
64
很高兴分享我的新AI智能体技能。 /youtube-notetaker 可从YouTube视频生成Artifacts。 捕获幻灯片、笔记、转录以及你想要的任何内容。 开源,你可以按需自定义。
智能体开源生态教程/实践
06:18
Chubby♨️@kimmonismus
35
2025年,攻击者通过邮件对Microsoft 365 Copilot实施社会工程攻击--AI读取并执行了恶意指令,受害者无需任何点击。到2026年,同样的手法正被用于攻击AI智能体(Agent)。为此,OrcaRouter在旗下平台免费提供Firewall(防火墙)和Guardrails(护栏)保护智能体,用户无需改代码,只需在控制台切换开关即可启用。

OrcaRouter 🐳: In 2025, attackers stole corporate data from Microsoft 365 Copilot. The victim clicked nothing. They got an email. The A...

智能体产品更新安全/对齐
06:18
fofr@fofrAI
13
我的智能体里有智能体,它们正在为我的智能体训练智能体。
智能体其他
04:54
MarkTechPost(RSS)
55
Perplexity 推出自改进记忆系统 Brain,构建智能体工作上下文图

Perplexity 为其智能体产品 Computer 推出名为 Brain 的自我改进记忆系统。Brain 构建可追溯的上下文图(LLM wiki),记录代理完成的工作、成功、失败及用户修正,并在夜间自动增量合成会话、连接器结果、文档变更和修正结果。该系统通过递归自改进实现性能提升:答案正确性 +25%、召回 +16%、成本 -13%(基于 Perplexity 内部测试)。Brain 今日以 Research Preview 形式面向 Perplexity Max 和 Enterprise Max 订阅用户开放。

智能体产品更新推理
04:54
宝玉@dotey
65
Claude Code 推出 Artifact 功能:AI 编程从终端走向可视化协作

Claude Code 新增 Artifact 功能,可将终端会话中的 PR 走查、调试时间线等过程生成实时更新的交互页面,并通过私有链接分享给团队成员。Artifact 利用当前会话的完整上下文(代码库、外部工具、对话),随会话自动更新,支持历史版本回溯。默认私有,仅同组织认证成员可见。该功能以 beta 形式向 Claude Team 和 Enterprise 组织开放,通过 CLI 和桌面应用生成,个人用户暂不可用。Anthropic 内部测试显示调试场景最高频。

Claude: New in Claude Code: Artifacts. Interactive pages built from your session, like a PR walkthrough or a living project dash...

智能体Anthropic产品更新编码
04:23
宝玉@dotey
64
OpenAI Codex 上线 Record & Replay 功能:演示一遍操作即可生成可复用 Skill

OpenAI Codex 新增 Record & Replay 功能。用户在 Mac 上演示一遍重复性操作(如报销填单),Codex 自动生成可检查、可编辑的 Skill 文件,内含触发条件、输入参数、执行步骤和验证方式。重放时,用户在新对话中指定该 Skill 并提供不同参数,Codex 即结合 Computer Use、浏览器和已连接 plugin 完成任务。目前仅支持 macOS,欧盟地区暂不可用,使用前需开启 Computer Use。该功能无需精确指令,通过“做一遍”替代“写说明书”实现工作流复用。

OpenAI Developers: Show Codex a workflow once. Reuse it as a skill. Record & Replay lets you show Codex a recurring task, like filing an ex...

智能体OpenAI产品更新
04:23
Greg Brockman@gdb
63
现在你可以通过演示来教 Codex:

OpenAI Developers: Show Codex a workflow once. Reuse it as a skill. Record & Replay lets you show Codex a recurring task, like filing an ex...

智能体OpenAI产品更新编码
03:56
Rohan Paul@rohanpaul_ai
55
Atomic Mail 为 AI 智能体推出专属收件箱

Atomic Mail 发布 API-first 邮箱,专供 AI 智能体独立使用,不再借用人类邮箱。智能体通过 MCP、Agent Skill 或 JMAP/REST API 一键获取收件箱,支持 Claude Desktop、Cursor、OpenAI 等主流 Agent。典型场景包括新闻监控、求职、发票处理和客户支持。防滥用机制采用 PoW(工作量证明)+ 声誉系统:智能体发信前需执行小额计算,对合法 Agent 成本低,但批量垃圾发送成本高昂;声誉随行为动态调整,可疑发送者被限速或封禁。目前免费公测中。

Atomic Mail: API-first email built for AI agents One prompt to plug in via MCP or Agent Skill Your agent gets its own inbox - and can...

智能体MCP/工具产品更新
03:53
Hacker News 热门(buzzing.cc 中文翻译)
61
Hermes 迁移工具:从 OpenClaw 导入配置

hermes claw migrate 命令可将 OpenClaw(及遗留的 Clawdbot/Moldbot)配置导入 Hermes,包括角色(SOUL.md)、工作区指令(AGENTS.md)、长期记忆、用户画像、技能(来自 4 个来源)、默认模型、自定义提供商及 API 密钥等。迁移前会展示完整预览并确认。支持 --dry-run 预览、--preset full 全量迁移(API 密钥需额外指定 --migrate-secrets)、--overwrite 覆盖冲突、--no-backup 跳过备份等选项。默认读取 ~/.openclaw/,旧版目录自动检测。技能冲突可设为跳过、覆盖或重命名。迁移前自动创建 ~/.hermes/backups/ 备份,可用 hermes import 恢复。

智能体MCP/工具教程/实践
03:52
🚨 AI News | TestingCatalog@testingcatalog
62
Atomic Mail 发布 API-first 邮件服务,专为 AI 智能体设计。智能体可通过 MCP 或 Agent Skill 一键接入,拥有独立收件箱,无需人工参与即可自动收发和回复邮件,实现全自动化工作流。目前该服务处于免费开放 alpha 阶段。

Atomic Mail: API-first email built for AI agents One prompt to plug in via MCP or Agent Skill Your agent gets its own inbox - and can...

智能体MCP/工具产品更新
03:20
jason@jxnlco
70
向Codex演示一次工作流后,即可将其保存为可复用的技能。Record & Replay让Codex学习重复任务(如报销、请假),并转为可检查、可编辑的技能。用户可控制录制的起止。Jason Liu感叹:跨应用手动工作流的日子不好过了。

OpenAI Developers: Show Codex a workflow once. Reuse it as a skill. Record & Replay lets you show Codex a recurring task, like filing an ex...

智能体MCP/工具OpenAI产品更新
03:16
Google Developers Blog(RSS)
48
Google 庆祝A2A协议发布一周年:协作智能体生态

Google 庆祝Agent-to-Agent(A2A)协议发布一周年。A2A专为生成式AI设计,相比传统REST API提供安全边界、零上下文污染、动态自主性和工作负载分布四大架构优势。应用实例FoldRun是一个独立的智能体接口,可在Gemini Enterprise或Gemini CLI等A2A兼容环境中部署,自动管理蛋白质结构预测任务,动态选择AlphaFold 2、OpenFold 3或Boltz-2等模型,无需自定义胶水代码。

智能体Google教程/实践部署/工程
02:55
Thariq@trq212
51
Claude Code 现在可以上传和编辑 HTML 工件,你可以与你的团队或其他 Claude 共享! 从团队计划开始,以便你在内部与团队共享,即将在 Pro 和 MAX 计划中推出!

Claude: New in Claude Code: Artifacts. Interactive pages built from your session, like a PR walkthrough or a living project dash...

智能体Anthropic产品更新编码
02:52
OpenAI Developers@OpenAIDevs
57
向 Codex 展示一次工作流,就能将其作为技能复用。录制与回放功能让你可以向 Codex 展示重复性任务,比如提交费用报告或请假申请。Codex 会将那段演示转化为可检查、可编辑的技能。你可以控制录制的起止时间。
智能体OpenAI产品更新
02:47
Hugging Face:Blog(RSS)
精选75
MosaicLeaks: 你的研究智能体能保守秘密吗?

深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1,001 条多跳研究链的新任务,每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息,单纯优化任务性能反而加剧泄露。基于此,研究提出隐私感知深度研究(PA-DR)强化学习训练方法,将严格链成功率从 48.7% 提升至 58.7%,同时将答案/全面信息泄露率从 34.0% 降至 9.9%。

智能体arXiv安全/对齐论文/研究

推荐理由:这篇论文揭示了深度研究agent的多跳查询会像马赛克一样拼凑出私密信息,单纯提示减少泄露几乎没用,而隐私感知训练把泄露率从34%降到9.9%,且不损伤任务表现,做企业级agent产品的团队要重视。
02:23
The Decoder:AI News(RSS)
63
Google Deepmind 发布 AI 控制路线图:将 AI 智能体视为内部威胁,基于行为逐步授权

Google Deepmind 发布“AI 控制路线图”,将内部 AI 智能体视为潜在内部威胁,类比驾驶教练的双重控制,基于已验证行为逐步授予权限。框架融合 MITRE ATT&CK 网络安全框架,通过可信 AI 监督系统监控活跃智能体推理与行动,预防系统在危害发生前阻断。在 100 万个编码任务测试中,发现大多数问题源于过度执行用户指令而非恶意意图。监控已作为 Gemini Spark 智能体的实时监控运行,可捕捉意外数据删除。安全措施划分为四个检测级别(D1–D4)和三个响应级别(R1–R3)。Deepmind 另发布政策论文《AI 智能体安全三层架构》,覆盖单体、多智能体及生态系统,警告全球安全标准窗口期正在关闭。

智能体DeepMind安全/对齐论文/研究
01:57
François Chollet@fchollet
48
当我玩即时战略游戏时,我通常会用资源利用率来思考策略。例如,任何具有单位生命值被动回复机制的游戏中,满血单位都代表着资源浪费(因为这段时间本可以回复生命,所以实际处于落后状态)。 如今,如果你为固定价格代理编码订阅付费,任何一周低于周token配额则同样意味着资源浪费。请善用你的token回复机制。
智能体大佬观点编码
01:22
swyx@swyx
37
今天完全无提示的惊喜时刻--让 @DevinAI 为我们制作一张 @tbpn 风格的突发新闻公告卡,用于明天 AIEWF 演讲者阵容发布,我本以为它会在高度视觉化的任务上失败。 结果它一次性搞定了整个活儿。

Ryan Carson: @theo Honestly just use Devin. It's really really good now

智能体大佬观点编码
00:25
Deedy@deedydas
66
只改一个URL就能复现和迭代AI论文,甚至无需自备GPU,这相当不错。

alphaXiv: Introducing autoresearch for arXiv papers Change 'arxiv' to 'autoarxiv' in any paper URL An agent deploys to resolve set...

智能体arXiv产品更新论文/研究
00:22
Anthropic:Research(发表成果 · 网页)
精选77
Anthropic Project Fetch 第二阶段:Claude Opus 4.7 自主完成任务,速度比人类团队快约20倍

Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中,配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中,Claude Opus 4.7 无需人类协助即完成所有任务,速度比最快人类团队快约20倍,比无 Claude 团队快37倍以上,编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色,但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化,而非针对机器人领域的专项优化。

智能体Anthropic具身智能论文/研究
关联讨论 1 条X:Anthropic (@AnthropicAI)
推荐理由:Anthropic 用 Claude Opus 4.7 自主操作机器狗,比当初的人类志愿者快 18-37 倍,代码量却少了十倍。这让「语言模型上手物理工具」从假想变成了可视的进度条,做具身智能和 agent 的人都该看一眼。
00:21
xAI@xai
38
Grok 模型现已可在 Databricks Agent Bricks 上使用。 将 SpaceXAI 的最新模型引入您的企业数据,以驱动强大的 AI 智能体。 https://x.ai/news/grok-databricks
智能体xAI行业动态部署/工程
00:19
Lee Robinson@leerob
37
Cursor Slack 中有机器人解决客户问题,然后其他机器人复现并确认修复。全部基于我们的 SDK 构建!
智能体行业动态
00:17
AYi@AYi_AInotes
69
Codex 前置 Review 三层级与因果 AI 四代演进:Aether AI 融资信号

用 Codex 写代码时,将 Review 前置可显著降低返工率。作者总结三个层级:零成本版(粘贴提示要求先复述任务再执行)、官方内置版(/plan 或 Shift+Tab 触发计划)、持久化版(AGENTS.md 写入前置规则)。UCSD 黄碧薇教授深耕因果 AI 12 年,提出 AI 四代演进:相关性小模型→因果小模型→相关性大模型(LLM)→因果大模型。其团队开发的 causal-learn 入选 Apple Scholar。今日 Aether AI 完成首轮融资,被视为从堆参数转向下一代 AI 范式的信号。

AYi: 人类到今天都写不出一颗煎蛋的物理方程, 一颗鸡蛋打进热油锅,它怎么凝固、怎么摊开、边缘怎么变焦, 没有任何一个公式能描述清楚,这种例子在物理世界里多到数不过来。 而这恰恰是当下通用 AI 范式的天花板,视频生成、VLA 学的都是像素层面的统...

智能体教程/实践编码
6月18日
22:52
The Decoder:AI News(RSS)
精选78
Nature两篇研究:MIRA和AMIE诊断与治疗计划媲美甚至超越医生

德国团队开发的MIRA智能体在模拟电子病历中操作85,000种选项,500余例急诊诊断准确率88.9%,对比测试(311例)得分87.8%,高于资深专科医生(78.1%)和混合团队(71.1%)。MIRA在阑尾炎(98.6%)和胰腺炎(92.3%)最佳,未发现危险药物交互或剂量错误,性能不受语言影响,代码已公开。谷歌AMIE采用双智能体架构,在100个多访视病例中治疗计划适切率95%(初级保健医生72%),并在药物知识基准RxQA上超过医生。两项研究均警告模拟环境与现实存在差距,实际性能可能更低。

智能体GitHubGoogleOpenAI

推荐理由:两项 Nature 研究把 AI 诊断推到了和医生掰手腕的水平,但更值得关注的是那个被埋起来的实验:更强的模型一上来,精心搭建的 double-agent 架构几乎归零。医疗 AI 的护城河可能不是架构而是接入院内系统的能力。
22:50
elvis@omarsar0
68
Viktor AI智能体正式入驻Microsoft Teams,直接嵌入频道,用户@提及即可获得完成的工作,无需学习或提示。Viktor已在Slack实现2000万美元年化经常性收入,现扩展至拥有3.2亿用户的Teams。新用户可获100美元免费积分,无需绑定信用卡。其目标是以零门槛让每个职场人获得AI价值。

Fryd Wiatrowski: Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...

智能体Microsoft产品更新
22:50
elvis@omarsar0
40
SkillWeaver:组合式技能路由用于LLM智能体

传统LLM智能体技能路由仅从工具库选取单一技能,难以应对多技能组合的真实任务。本文形式化定义“组合式技能路由”,将复杂查询分解为原子子任务,为每个子任务检索对应技能并组合成可执行计划。系统SkillWeaver由LLM分解器、双编码器FAISS检索器和依赖感知DAG规划器构成。同时发布CompSkillBench基准,含300个组合查询和2,209个真实技能,直接评估多技能路由能力。DAG规划器将检索技能转化为有序、尊重依赖关系的计划。

智能体推理论文/研究
22:24
Rohan Paul@rohanpaul_ai
66
Viktor(AI 员工)登陆 Microsoft Teams,可嵌入频道、读取上下文、记忆先前工作并返回完成输出。用户只需 @Viktor 即可协作,无需学习或提示。Viktor 此前已在 Slack 实现 $20M 年化经常性收入(ARR),而 Teams 拥有 3.2 亿用户。新用户可获 $100 免卡信用额度。

Fryd Wiatrowski: Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...

智能体产品更新
22:20
🚨 AI News | TestingCatalog@testingcatalog
71
Zeta Labs 的 AI 员工 Viktor 已登陆 Microsoft Teams。Viktor 可读写超 3000 个工具,并具备跨会话持久记忆,团队可接续工作。该产品已获 SOC 2 Type 1 认证及微软官方批准。此前在 Slack 中,Viktor 仅凭单一应用、无销售团队与推广即实现超 2000 万美元年经常性收入。面向 Teams 3.2 亿用户,Viktor 采用零门槛设计:用户只需 @提及即可完成任务,无需学习、提示词或理解 AI 能力。新用户获赠 100 美元额度,无需绑定信用卡。

Fryd Wiatrowski: Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...

智能体MCP/工具产品更新
‹ 上一页
1…1819202122…50
下一页 ›