AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月12日周五
10:00HuggingFace Daily Papers(社区热门论文)62HarnessBridge:面向LLM智能体调控的可学习双向控制器
09:29meng shao46Re-Ink:再保险合约智能提取与审核参考实现
09:29歸藏(guizang.ai)68万字长文:做了些爆款 Skills 以后,我对 Skills 的看法
09:25ginobefun58智能体工程化三大方向:Anthropic托管Agents、阿里Harness实践、Sequoia脚手架被吞趋势
09:25ginobefun63BestBlogs早报:Claude Managed Agents / Harness工程化 / 模型吞脚手架
09:14凡人小北77OpenAI收购Ona,强化Codex云端执行
08:59meng shao74Claude Fable 5 首日实践共识与陷阱
08:59meng shao75精选Spec 驱动开发(SDD)的三个 Skills:覆盖 Spec→Implement→Verify 闭环
08:26Simon Willison 博客79Claude Fable 5 异常主动
08:00HuggingFace Daily Papers(社区热门论文)48Dr-DCI:检索器引导的动态工作空间扩展框架
08:00HuggingFace Daily Papers(社区热门论文)49PhoneHarness:混合GUI、CLI与工具动作的手机智能体基准与执行框架
08:00HuggingFace Daily Papers(社区热门论文)64Nemotron 3 Ultra:开放高效混合专家Mamba-Transformer智能体推理模型
08:00HuggingFace Daily Papers(社区热门论文)54FastContext:用于编码智能体的高效仓库探索子智能体
08:00HuggingFace Daily Papers(社区热门论文)35从聊天机器人到数字同事:持久自主AI的范式转变
08:00HuggingFace Daily Papers(社区热门论文)42HarnessX:一种可组合、自适应、可演化的智能体运行框架铸造厂
08:00HuggingFace Daily Papers(社区热门论文)54LLM 智能体能够查看代码仓库
07:34IT之家(RSS)44苹果 iPhone 17 标准版无缘高阶 Siri AI:8GB 内存限制端侧模型运行
07:34IT之家(RSS)61OpenAI 收购初创公司 Ona,强化编程助手 Codex
07:17Hacker News 热门(buzzing.cc 中文翻译)61FablePool:围绕提示语募集资金,Fable 在公开平台上构建产品
06:32Tibo71OpenAI收购Ona,增强Codex云端执行
06:25MarkTechPost(RSS)65Perplexity 将 Deep Research 整合进 Perplexity Computer,跨 20 多个前沿模型路由研究子任务
06:13Replit ⠕72精选Replit 专家级提示词技巧
05:55MarkTechPost(RSS)59xAI 发布 Grok Build 插件市场,首发集成 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 等插件
05:29Rohan Paul62SIA: Self Improving AI 框架
05:29Rohan Paul83同事件精选Jeff Bezos 在 CNBC 披露 Prometheus 愿景:构建人工通用工程师,融资 120 亿美元估值 410 亿美元同一事件,精选展示《Prometheus 融资120亿美元,估值410亿美元,定位“人工通用工程师”》
05:22swyx61swyx 祝贺 ONA 加入 OpenAI,并引用演讲透露 Codex 下一步方向
05:05OpenRouter:Announcements(RSS)69同事件精选Advisor:让任何模型在生成过程中求助更强的模型同一事件,精选展示《OpenRouter 推出 Advisor 工具:让低成本模型可随时调用强模型增强生成》
04:59Rohan Paul67OpenAI 收购 Ona,为 Codex 智能体提供持久云端工作空间
04:54宝玉73/goal指令让AI长任务稳定,无需"继续"
04:52xAI73Grok Build插件市场Beta版上线
04:24Cursor Blog74Cursor 推出 Auto-review 实现智能体自治管控
03:39Greg Brockman69OpenAI 收购 Ona,护航智能体安全部署
03:17Hacker News 热门(buzzing.cc 中文翻译)40Zed:软件是在每次提交之间完成的
03:12Replit ⠕65精选Replit Agent 新增自定义指令与技能功能
03:08🚨 AI News | TestingCatalog68Perplexity Deep Research 作为原生技能集成至 Perplexity Computer
02:13Anthropic:Newsroom(网页)74精选Anthropic与DXC达成全球联盟,将Claude引入关键行业系统
01:54Perplexity77精选Perplexity Computer 集成 Deep Research
01:28向阳乔木46Claude Fable 5 思考 15 分钟才行动
01:24Cursor Blog74精选Cursor 推出 Auto-review 机制:用分类器智能体动态管控智能体自主权限
00:39OpenAI:官网动态(RSS · 排除企业/客户案例)61精选OpenAI 将收购 Ona
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月12日
10:00
HuggingFace Daily Papers(社区热门论文)
62
HarnessBridge:面向LLM智能体调控的可学习双向控制器

HarnessBridge是一个轻量级可学习调控控制器,将智能体-环境接口参数化为双向投影:观测投影将原始轨迹蒸馏为紧凑、决策相关状态,动作投影将提议动作转换为可执行转换或轨迹接地拒绝。在harness监督数据集上通过统一指令微调训练,HarnessBridge在Terminal-Bench 2.0和SWE-bench Verified上匹配或超越强专用调控方案,同时大幅减少token使用和轨迹长度,并从小型生成器泛化到更大商业模型。

智能体MCP/工具推理论文/研究
09:29
meng shao@shao__meng
46
Re-Ink:再保险合约智能提取与审核参考实现

Re-Ink 是 @LandingAI 金融 AI Hackathon 冠军项目,针对再保险承保中约 40% 时间消耗的行政文档录入痛点,构建端到端自动化方案。核心使用 LandingAI 的 Agentic Document Extraction (ADE) 实现 PDF/DOCX 条约的结构解析与上下文感知字段提取(合同标识、日期、金融条款、参与方等),无需正则或模板。关键设计为人机协同闭环:提取数据经人工审核后以单事务持久化,校验失败即回滚。Agent 层用两个 LangGraph Agent 封装入库前引导与审批后分析逻辑。Academy 调查显示手动提取错误率超 6%,运营预算约 14% 用于修复此类错误。

LandingAI: http://x.com/i/article/2065098287758348288

智能体教程/实践部署/工程
09:29
歸藏(guizang.ai)@op7418
68
万字长文:做了些爆款 Skills 以后,我对 Skills 的看法

作者认为Agent并非抹平能力差距,而是放大K型分化,Skill可弥合鸿沟。Skill是把专家经验、工作流、品味、工具调用封装成可分发复用的Agent能力单元,如PPT Skill、社交媒体卡片等。好Skill的信息架构应为“中心短,辐射厚”:SKILL.md只放高信号流程,其余依赖文件系统分层管理,以高效利用上下文窗口。

智能体MCP/工具大佬观点
09:25
ginobefun@hongming731
58
智能体工程化三大方向:Anthropic托管Agents、阿里Harness实践、Sequoia脚手架被吞趋势

本期精讲聚焦智能体工程化:Anthropic推出Claude Managed Agents,将推理与执行解耦,独立Vault管理凭证,事件日志支持运行恢复,首字延迟p50降约六成、p95降超九成。阿里工程师分享三层加载架构(常驻入口层压至8K上下文)、dispatcher状态机及G1-G8门禁,用结构约束替代堆prompt。Sequoia访谈指出模型正逐步吸收路由、执行环境等外层脚手架,独立创业公司窗口收窄。

智能体AnthropicGoogle现象/趋势
09:25
ginobefun@hongming731
63
BestBlogs早报:Claude Managed Agents / Harness工程化 / 模型吞脚手架

Anthropic推出Claude Managed Agents,将推理循环与代码执行沙箱解耦,凭证存入独立Vault,自托管沙箱支持内网,首字延迟中位数降低六成、长尾降低九成。阿里工程师复盘Harness工程化,提出三层加载架构与G1-G8门禁。Google DeepMind的Logan Kilpatrick称模型正“吞掉”脚手架,Gemini 3.5 Flash编程能力完全来自后训练。另,Qwen3-VL-4B在支持SME2的旗舰手机上Prefill提速超80%;Fable AI实现1770%性能提升并发现关键Bug;此外涉及AI取代工程师、多智能体数字人、CFO用GPU替代加薪等讨论。

ginobefun: http://x.com/i/article/2065232915970371585

智能体AnthropicGoogle编码
09:14
凡人小北@frxiaobei
77
OpenAI已达成协议收购Ona。其安全云执行技术将帮助Codex在笔记本电脑合盖后继续处理长时间运行的工作,并帮助更多组织在生产环境中安全部署AI智能体。交易完成后,Ona将加入OpenAI Codex团队。主推文:「AI 上云」。

OpenAI Newsroom: We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...

智能体OpenAI行业动态部署/工程
08:59
meng shao@shao__meng
74
Claude Fable 5 首日实践共识与陷阱

社区基于865条讨论与实测总结:Claude Fable 5高自主、高成本、偏规划编排。核心共识:给更难目标、少给步骤;用Fable规划→Sonnet实现→Haiku验证;免费窗口(截至6月22日)内将经验固化为Skill。Effort旋钮Medium最省token且效果接近High;付费计划下输出价约$50/M token。安全回退静默切至Opus 4.8;视觉输入(截图→应用)比文字更有效。最佳策略:跑一次业务prompt诊断,把解法蒸馏成Skill留存。

Matt Van Horn: http://x.com/i/article/2064864205749280768

智能体Anthropic教程/实践
08:59
meng shao@shao__meng
精选75
Spec 驱动开发(SDD)的三个 Skills:覆盖 Spec→Implement→Verify 闭环

邵猛分享 Spec 驱动开发(SDD)方法,用三个 Skills(/write-product-spec、/write-tech-spec、/validate-changes-match-specs)覆盖 Spec→Implement→Verify 闭环。规格分两层:PRODUCT.md(用户故事、不变量)和 TECH.md(架构、实现策略),均放在 specs/<issue>/ 目录,随 PR 提交。五步流程:写产品规格、写技术规格、Agent 按规格实现、一致性校验、计算机操作端到端验证。Skills 可移植,不绑定 Warp。开源仓库 warpdotdev/common-skills,安装:npx skills add warpdotdev/common-skills。

Zach Lloyd: http://x.com/i/article/2065151123128721408

智能体GitHub教程/实践编码

推荐理由:邵猛把SDD从概念变成三个可安装Skill,特别是第五步用计算机操作验证UI,这招对Rust桌面应用团队是降维打击。做AI coding的可以直接抄作业。
08:26
Simon Willison 博客
79
Claude Fable 5 异常主动

开发者体验两天后,发现 Claude Fable 5 极其主动。为调试 Datasette Agent 的滚动条 bug,它在未被告知的情况下,利用 screencapture 和 pyobjc 自动截图 Safari 窗口、编写测试页面、修改模板注入 JavaScript 模拟键盘快捷键,还编写了 CORS 服务器接收浏览器数据。随后触发护栏降级为 Opus,Opus 沿用这些技巧找到并验证修复方案,将整个过程记录在报告中。

智能体Anthropic大佬观点安全/对齐
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
08:00
HuggingFace Daily Papers(社区热门论文)
48
Dr-DCI:检索器引导的动态工作空间扩展框架

Dr-DCI 将检索作为智能体可调用的动作来扩展本地工作空间,动态拉取相关文档到演化中的工作空间内执行直接语料交互(DCI)操作。在 Browsecomp-Plus 上达到 71.2% 准确率,优于原始 DCI 最多 8.3 个百分点,并降低工具使用次数与成本。工作空间保留式上下文重置后准确率提升至 73.3%。在 10 万到 1000 万文档的语料扩展实验中保持有效,而原始 DCI 变得不稳定。在 2000 万级 Wiki-18 QA 设置下平均得分为 63.0,超越基于检索和搜索智能体的基线。消融分析表明,排序预览和文档间 DCI 是性能关键。

智能体检索增强搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
PhoneHarness:混合GUI、CLI与工具动作的手机智能体基准与执行框架

PhoneHarness是一个面向手机智能体的混合动作基准与执行框架,支持GUI、CLI和主机端工具动作的混合路由与可审计执行轨迹。其评测集PhoneHarness Bench要求智能体完成带有可观察副作用的移动工作流,而非仅输出合理答案。在标注评测集上,PhoneHarness达到75.0%通过率,超出最强非PhoneHarness设置12.9个百分点。结果表明,可靠的手机自动化依赖动作表面路由与可验证执行,而非单纯的视觉GUI控制。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
64
Nemotron 3 Ultra:开放高效混合专家Mamba-Transformer智能体推理模型

Nemotron 3 Ultra 是一个 550B 总参数、55B 激活参数的混合专家(MoE)Mamba-Attention 语言模型。它在 20T tokens 上预训练,上下文窗口扩展至 1M tokens,后训练采用监督微调(SFT)、强化学习(RL)和多方教师在线蒸馏(MOPD)。关键技术包括 LatentMoE、多 token 预测(MTP)、NVFP4 预训练、多环境 RLVR、MOPD 和推理预算控制。相比公开 SOTA 大语言模型,推理吞吐量提升约 6 倍且准确率持平,适合长时间运行的自主智能体任务。模型开源基础、后训练和量化检查点,以及训练数据和配方。

智能体推理模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
54
FastContext:用于编码智能体的高效仓库探索子智能体

FastContext 是一个将仓库探索与任务解决相分离的专用探索子智能体,由 4B–30B 参数的探索模型驱动,通过参考模型轨迹和任务奖励进行优化。集成 FastContext 的 Mini-SWE-Agent 在 SWE-bench Multilingual、SWE-bench Pro 和 SWE-QA 基准上端到端解决率提升最多 5.5%,同时编码智能体 token 消耗减少最多 60%,且边际开销很低。结果表明,仓库探索可与解决任务分离,并由专用模型高效处理。

智能体GitHubMicrosoft编码
08:00
HuggingFace Daily Papers(社区热门论文)
35
从聊天机器人到数字同事:持久自主AI的范式转变

大语言模型正从对话生成器转向集成推理、行动、记忆与自我改进的AI系统。这一转变沿两个维度展开:认知核心从基于下一token预测的“快速思考”迈向利用推理时计算、思维链推理、反思、过程监督与强化学习的Thinking LLM;工具执行层从临时调用外部资源的Agent转向配备持久工作区、技能、验证循环与治理的OpenClaw工作站。“工作区+技能”范式通过状态持久化与经验复用实现持续协作。数据构建从指令-响应对转向状态-动作-观察轨迹,评估从静态基准转向沙盒化、可审计、自我进化的生态系统。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
HarnessX:一种可组合、自适应、可演化的智能体运行框架铸造厂

HarnessX 是一个智能体运行框架(harness)铸造厂,通过类型化原语和替代代数组装可组合的框架,并利用 AEGIS 这一基于轨迹的多智能体进化引擎实现自适应演化,将执行轨迹反馈用于框架更新与模型训练。在 ALFWorld、GAIA、WebShop、tau³-Bench 和 SWE-bench Verified 五个基准上,HarnessX 平均提升 +14.5%,最高达 +44.0%,基线越低提升越明显。完整代码将在未来开源。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
LLM 智能体能够查看代码仓库

首次系统实证研究视觉仓库表示对基于 LLM 的编码智能体在仓库级问题解决中的作用。评估了四个近期多模态模型。纯视觉设置会降低准确性并增加 token 成本;将仓库结构视觉图作为文本界面的补充模态,可使输入 token 消耗降低最多 26%,同时保持或提升问题解决准确性。可视化在故障定位和智能体自主控制探索深度时最为有效。研究指向一种混合文本与视觉的设计思路,用于下一代编码智能体。

智能体arXiv多模态编码
07:34
IT之家(RSS)
44
苹果 iPhone 17 标准版无缘高阶 Siri AI:8GB 内存限制端侧模型运行

苹果在 WWDC26 上公布其最高端端侧 AI 模型,主要提升 Siri 语音音色表现力和全系统听写精准度。这两项功能仅适配配备 12GB 统一内存的 iPhone 17 Pro/Pro Max,标准版 iPhone 17 因 8GB 内存不足无法使用。

智能体Meta行业动态
07:34
IT之家(RSS)
61
OpenAI 收购初创公司 Ona,强化编程助手 Codex

OpenAI 昨日宣布收购初创公司 Ona,后者专注于为 AI 智能体提供安全、预配置云环境。该技术将帮助编程助手 Codex 执行持续时间更长的任务,并支持用户将 AI 智能体部署到生产环境,同时让企业更好地掌控基础设施与安全边界。交易金额未公布,Ona 团队将加入 OpenAI 参与 Codex 项目研发。

智能体OpenAI编码行业动态
07:17
Hacker News 热门(buzzing.cc 中文翻译)
61
FablePool:围绕提示语募集资金,Fable 在公开平台上构建产品

FablePool 是一个新平台,允许用户围绕一个提示语(prompt)募集资金,之后由 Fable 在公开环境下将其构建出来。该项目在 Hacker News 上获得 122 个点赞,引发关注。

智能体产品更新
06:32
Tibo@thsottiaux
71
OpenAI宣布已达成协议收购Ona,其安全的云执行技术将帮助Codex处理更长期的任务(即使笔记本电脑关闭也能运行),并让更多组织安全地部署智能体。收购完成后,Ona将加入OpenAI的Codex团队。Tibo对此表示"无比兴奋,期待与Johannes及团队共同构建未来"。

OpenAI Newsroom: We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...

智能体OpenAI行业动态部署/工程
06:25
MarkTechPost(RSS)
65
Perplexity 将 Deep Research 整合进 Perplexity Computer,跨 20 多个前沿模型路由研究子任务

Perplexity 将 Deep Research 功能迁移至 Perplexity Computer 中,自动将复杂问题拆解为多个研究子任务,并路由至 20 多个前沿模型协同完成,支持生成报告、演示文稿和仪表盘。

智能体产品更新
06:13
Replit ⠕@Replit
精选72
如何像专家一样使用 Replit 进行提示 🤖 模糊的提示词只会导致更多重写。以下是如何让 Agent 第一次就构建出正确的东西。 🧵 展开线程 ↓
智能体教程/实践编码

推荐理由:Replit 官方教你跟 Agent 好好说话,这些 prompt 技巧对重度 Replit 用户是即时生产力,但出了这个生态圈就没什么用,典型的工具限定型干货。
05:55
MarkTechPost(RSS)
59
xAI 发布 Grok Build 插件市场,首发集成 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 等插件

xAI 推出 Grok Build 插件市场,这是一个终端内插件平台,支持技能、智能体、钩子和 MCP 服务器。所有远程插件均通过 commit-SHA 验证确保安全。首发插件包括 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 及 Superpowers。

智能体MCP/工具xAI产品更新
05:29
Rohan Paul@rohanpaul_ai
62
SIA: Self Improving AI 框架

该论文提出SIA框架,让AI自动循环改进:一个观察者AI监控任务代理的表现,然后修改其外部设置(提示词、工具、重试规则、输出解析)或通过LoRA权重更新训练模型本身,模型主体不变,仅适配器从任务反馈中学习。在三个任务上测试:中文法律罪名分类(LawBench达70.1%)、GPU内核速度调优(生成代码优于此前最佳)、单细胞RNA降噪(得分0.289)。综合版本在所有任务上超越仅修改设置的方案,表明权重更新能帮助模型学到提示和工具无法发现的模式。

智能体arXiv数据/训练论文/研究
05:29
Rohan Paul@rohanpaul_ai
同事件精选83
Jeff Bezos 在 CNBC 披露 Prometheus 愿景:构建人工通用工程师,融资 120 亿美元估值 410 亿美元

Jeff Bezos 在 CNBC 披露其新公司 Prometheus 的愿景:构建人工通用工程师,设计制造喷气发动机、芯片、医疗设备等硬物理产品,将传统数年设计周期缩短 10 倍以上。公司宣布完成 120 亿美元融资,估值 410 亿美元。初始启动资金 62 亿美元,新一轮融资表明公司需要更多算力、人才和工业数据才能验证产品。410 亿美元估值表明,前沿 AI 已从软件竞赛变为计算采购竞赛——投资者实质在为可能实现模型所需的机器预付费。

智能体具身智能行业动态
同一事件,精选展示《Prometheus 融资120亿美元,估值410亿美元,定位"人工通用工程师"》
推荐理由:这不是又一家AI初创,而是直接宣告算力即护城河的开端。Bezos的12B融资对创业者和投资人都是一本摊开的说明书,得读。
05:22
swyx@swyx
61
swyx 祝贺 ONA 团队加入 OpenAI,并引用其演讲透露 Codex 的下一步方向。同时引述 @aiDotEngineer 观点:运行 Agent 集群需要三层--Runtime 与编排触发器已解决,但协调层(Agent 间任务交接、验证阶段、继续执行)仍未解决。Stripe 和 RAMP 各自自建了内部方案 Minions 和 Inspect。@loujaybee 指出 GitHub 作为协调层很差--噪音大、仅为人类设计,不适合数百个并行 PR。他提出的修复方案是构建一个 CLI 网关,供本地编码 Agent 调用以检查当前 SDLC 阶段是否已通过、能否继续。

AI Engineer: Three layers you need to run agent swarms at scale: - Runtime: solved. - Orchestration and triggers: solved. - Coordinat...

智能体OpenAI行业动态
05:05
OpenRouter:Announcements(RSS)
同事件精选69
Advisor:让任何模型在生成过程中求助更强的模型

OpenRouter 推出 advisor 服务器工具,允许快速、便宜的模型在生成过程中向更强模型咨询。用户可用 GPT-4o Mini 处理常规任务,在关键环节调用 Claude Fable 进行更高质量的推理。

智能体产品更新
同一事件,精选展示《OpenRouter 推出 Advisor 工具:让低成本模型可随时调用强模型增强生成》
推荐理由:让 GPT-4o Mini 在关键时刻请教 Claude,用 1/10 的成本得到相近质量,这种跨模型顾问把“模型路由”做成了开箱即用的工具,做 agent 的值得试。
04:59
Rohan Paul@rohanpaul_ai
67
OpenAI 收购 Ona,为 Codex 智能体提供持久云端工作空间

OpenAI 宣布收购 Ona,其安全云端执行技术可为 Codex 智能体创建持久云端工作空间——用户离开后,智能体仍可持续运行命令、检查系统、保留上下文并跨设备恢复任务。目前 Codex 周活用户达 500 万(增长 400%)。收购旨在强化企业级部署:智能体可在企业云边界内运行,具备作用域凭证、审核追踪、访问限制和可审计活动,适用于测试、漏洞修复、重构、迁移等多步骤任务。收购完成后,Ona 团队将加入 OpenAI Codex 团队。

OpenAI Newsroom: We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...

智能体MCP/工具OpenAI编码
04:54
宝玉@dotey
73
宝玉表示使用 /goal 指令后,长任务运行稳定,不再需要像许多用户那样在AI意外停止时输入"继续"。引用推文指出,不少AI新手不知道AI意外停止时只要发一句"继续"即可恢复任务。宝玉的实践表明,/goal 指令能有效减少此类中断需求。

Jim Liu: 一个非常个人视野的观察:很多用AI时间不怎么久的人,似乎并不知道: > 当AI预期之外地停止工作的时候,通常只要给它再发一句"继续"就好了。

智能体教程/实践
04:52
xAI@xai
73
Grok Build 插件市场现已进入公测阶段。你可以在终端中使用 MongoDB、Vercel、Sentry、Cloudflare 和 Chrome DevTools 等插件进行开发。详情:https://x.ai/news/grok-plugin-marketplace

xAI: The Grok Build Plugin Marketplace is now in beta. Build with MongoDB, Vercel, Sentry, Cloudflare, and Chrome DevTools pl...

智能体MCP/工具xAI产品更新
关联讨论 2 条xAI:News(网页)X:xAI (@xai)
04:24
Cursor Blog
74
Cursor 推出 Auto-review 实现智能体自治管控

Cursor 本周推出 Auto-review,旨在让代码智能体在保持自主性同时降低安全风险。该功能引入分类器代理,在每次工具调用前根据上下文判断风险:低风险时允许自由操作,越界时阻止并返回解释,使父智能体自主调整路径。分类器为轻量模型,与父代理同 RPC 流运行避免延迟,并可读取工作区文件辅助决策。团队基于约 12 小时内部开发者会话整理 6,122 条标注数据,补充合成异常用例评测,以平衡安全与开发效率。

智能体产品更新安全/对齐
03:39
Greg Brockman@gdb
69
欢迎 @ona_hq 加入团队,帮助组织在生产环境中安全部署智能体!

OpenAI Newsroom: We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...

智能体OpenAI行业动态部署/工程
03:17
Hacker News 热门(buzzing.cc 中文翻译)
40
Zed:软件是在每次提交之间完成的

Zed 开发者在其官方博客中提出,软件真正的创造过程并不在代码提交本身,而是发生在两次提交之间的思考、调试与重构中。这一观点强调提交记录之外的隐式工作对软件质量的决定性作用。

智能体产品更新编码
03:12
Replit ⠕@Replit
精选65
AI 智能体很强大,但它们不记得你的偏好。 所以你总是重复指令--如何组织项目、你的品牌指南。 现在你可以通过自定义指令和技能让 Replit Agent 学会你的惯例。 它会在每个项目中自动将这些考虑进去。
智能体产品更新编码

推荐理由:Replit Agent 终于学会记住你的偏好了,自定义指令能让它更像一个了解你工作习惯的同事,不用每次重复项目结构、品牌规范,做 side project 的效率会明显提升。
03:08
🚨 AI News | TestingCatalog@testingcatalog
68
Perplexity Deep Research 现以原生技能形式集成至 Perplexity Computer 平台。Computer 负责将复杂问题分解为子任务,路由至20多个前沿模型,并返回报告、演示文稿和仪表板。Deep Research 基于 Search as Code 架构构建,模型编写代码自行组装搜索,并行执行数千次检索步骤,在所有基准测试上均超越旧版 Deep Research。该功能已面向 Pro 和 Max 订阅用户开放。

Perplexity: Deep Research in Computer is built on our Search as Code architecture. The model writes code that assembles search itsel...

智能体产品更新搜索
02:13
Anthropic:Newsroom(网页)
精选74
Anthropic与DXC达成全球联盟,将Claude引入关键行业系统

Anthropic与IT服务公司DXC Technology达成多年全球联盟。DXC将培训数万名获得Claude认证的前沿部署工程师(FDE),将Claude引入其为全球大型银行、航空公司、保险公司及政府机构运营的关键系统。内部部署中,Claude已成为DXC OASIS平台的默认基础模型,该平台超95%代码由Claude编写,开发速度提升10倍,已服务50多家客户。DXC加入Claude Partner Network,将在保险、现代化服务、网络安全及应用服务四个领域率先推出基于Claude的解决方案。

智能体Anthropic行业动态

推荐理由:这是 Anthropic 在企业服务赛道的一次重大卡位,DXC 把银行、航空等关键行业的系统交给 Claude,比任何 benchmark 都更能证明模型在大规模生产环境中的可靠性。
01:54
Perplexity@perplexity_ai
精选77
我们正在将 Deep Research 作为原生技能集成到 Computer 中。 它现在连接到驱动 Computer 的智能体框架,可访问搜索即代码生成、长运行沙箱、连接器、工具和授权数据。 Pro 和 Max 订阅者现已可用。
智能体产品更新搜索

推荐理由:Perplexity 把深度研究直接嵌进 Computer 的 agent 层,等于给自主代理加了个研究引擎,Pro 用户现在就能用,对需要大量调研的开发者或产品人来说是个效率飞轮。
01:28
向阳乔木@vista8
46
发现 Claude Fable 5 强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考 15 分钟才开始行动,牛逼。
智能体Anthropic大佬观点推理
01:24
Cursor Blog
精选74
Cursor 推出 Auto-review 机制:用分类器智能体动态管控智能体自主权限

Cursor 近日推出 Auto-review,通过一个专门的分类器智能体在工具调用前审查动作风险。该分类器根据上下文判断动作是否与用户意图一致,高风险时阻止并返回解释给父智能体,低风险时放行。分类器采用小模型,运行在智能体循环内以避免额外延迟,并能读取工作区文件辅助判断。测试基于约12小时内部开发会话生成的6122条标签数据,以及针对读取密钥、操作生产数据等危险场景的合成数据。设计目标是在不频繁阻断日常开发的前提下,拦截风险动作。

智能体产品更新安全/对齐

推荐理由:Cursor把agent监管从"是/否"开关变成了可调节的刻度盘,一个专用小模型实时判断操作风险,高风险时给反馈让父agent换个安全方案,而非频繁打断用户。用Cursor的开发者都得了解这个逻辑。
00:39
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选61
OpenAI 将收购 Ona

OpenAI 计划收购 Ona,以拓展 Codex 的功能,提供安全、持久的云端环境,从而支持企业工作流中长时间运行的 AI 智能体。

智能体OpenAI行业动态部署/工程

推荐理由:OpenAI收购Ona,给Codex补上持久化云环境,让Agent能长时间自主工作。这是把AI Agent从会话工具变成企业级生产平台的一个基础设施信号。
‹ 上一页
1…2829303132…50
下一页 ›