AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月28日周日
08:00HuggingFace Daily Papers(社区热门论文)82精选OSWorld2.0:长时域真实世界计算机使用工作流基准
08:00HuggingFace Daily Papers(社区热门论文)52PolicyGuard:一种基于对话的子智能体验证器,用于LLM智能体的策略遵循
08:00HuggingFace Daily Papers(社区热门论文)55基于通用关键帧提取连接视频问答与视频引导智能体任务
06:08Chubby♨️67BrowserBC开源:人类浏览器轨迹转可复用技能
04:33Hacker News:AI 热帖72精选Weave 推出智能模型路由工具,可直接接入 Claude Code、Codex 和 Cursor
03:47OpenRouter53OpenRouter:四开放权重模型驱动智能体管道
03:29elvis22循环工程即系统设计增强的提示词工程
02:22Berryxia.AI61LLM讲解通俗易懂引热议
02:16AYi63Claude Code 桌面版新增原生多会话拖拽分屏
01:22Berryxia.AI51Anthropic 分享 Claude Code 记忆管理方法论:四层架构与"做梦"机制
01:22Berryxia.AI65Anthropic Lamis谈上下文工程实践:从Claude MD到"做梦"机制
01:16AYi73LangChain 从零构建深度 Agent 教程:三大上下文工程技巧解决长任务忘事崩链
00:25宝玉61宝玉:Codex/Claude Code上下文压缩成熟,配合fork和/btw功能体验提升
6月27日周六
23:29elvis61Vercel 发布开源框架 Eve(Apache 2.0,beta),用于构建持久化 AI 智能体
23:29elvis39Eve:最简单的智能体构建方式
21:22Berryxia.AI66Codex玩法大全集锦:变现、记忆、实战全覆盖
17:16AYi57免费替代剪映SVIP,6个2026年顶级AI视频Skills
15:54Rohan Paul77OpenAI 发布 GPT-5.6 模型套件有限预览版:Sol、Terra、Luna
15:28Deedy33Deedy Das 将 2027 年 AI 管控生活改编成视频
11:59IT之家(RSS)53谷歌 Gemini 助手新功能:直接帮用户安装 Play 商店内的应用
10:59IT之家(RSS)46Anthropic 测试手机端 Claude Cowork,支持远程管理 AI 长任务
10:46jason60Codex 搜索 Slack 互动并添加 LinkedIn 联系人
09:54meng shao77OpenAI 发布 GPT-5.6 系列有限预览
09:45MiniMax (official)24Browser_use 云智能体明日上线可做海报
09:24Rohan Paul51WhatsApp负责人Kunal Shah警告:印度BPO行业面临AI智能体全面颠覆
08:00HuggingFace Daily Papers(社区热门论文)51Evolution Fine-Tuning:跨371个优化任务学习发现
08:00HuggingFace Daily Papers(社区热门论文)52Agentic Abstention:大语言模型智能体何时应停止行动
07:35MarkTechPost(RSS)75精选Cursor 研究发现奖励攻击虚增编码智能体 SWE-bench Pro 分数
07:22Berryxia.AI71OpenMontage开源:视频制作工作流,单日获3000 Star
06:17OpenRouter49OpenRouter MCP Demo:并排对比多模型设计
03:57elvis32Mythos/GPT-5.6动态生成复杂工作流效果引好奇
03:35MarkTechPost(RSS)65Perplexity 发布 Computer for Counsel:面向法律工作流的多模型智能体层
03:10Simon Willison 博客632000人尝试黑入AI助手,Opus 4.6反注入规则全部拦截
02:57Deedy60旧金山Agentic Engineering小型活动:三位AI演讲者分享经验
02:53Rohan Paul80OpenAI 推出 GPT-5.6 模型套件有限预览:Sol、Terra、Luna
02:46OpenRouter50OpenRouter MCP构建模型理事会示例
02:36Chubby♨️61OpenAI 预览 GPT-5.6 家族,Sol 模型采用受限发布模式
01:19歸藏(guizang.ai)51Moxt 更新多Agent编排工作流
00:27elvis49DAIR.AI创始人Elvis Saravia:用AI辅助个人健康减重100磅
00:23Rohan Paul83同事件精选OpenAI Codex 2026年上半年活跃用户增长超5倍,非开发者增速最快同一事件,精选展示《OpenAI内部报告:智能体Codex如何改变工作》
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月28日
08:00
HuggingFace Daily Papers(社区热门论文)
精选82
OSWorld2.0:长时域真实世界计算机使用工作流基准

OSWorld2.0 发布,包含108个长时域计算机使用工作流,覆盖日常与专业任务。每项任务用户中位数约1.6小时完成,Claude Opus 4.7(最大思考)平均需318次工具调用(OSWorld 1.0约30次)。基准聚焦流交互、动态环境、跨源推理、隐式状态推断、视觉空间精度等真实挑战。任务基于真实输入工件和状态化用户档案,附安全报告。500步二元完成指标下,Claude Opus 4.8(最大思考+批量调用)得分最高仅20.6%(部分54.8%);GPT-5.5更省token但约13%。结果表明当前智能体远未达专业级:瓶颈不在基本GUI控制或编码,而是丢失约束、错过中途信息、猜测而非询问、跳过验证,尤其依赖隐藏状态时最差。

智能体论文/研究评测/基准

推荐理由:第一个真正长周期、真实工作流的计算机使用基准,结果显示当前最先进的 agent 仍不及格,关键短板不在 GUI 操作而在状态跟踪和验证,做 agent 的人必须读。
08:00
HuggingFace Daily Papers(社区热门论文)
52
PolicyGuard:一种基于对话的子智能体验证器,用于LLM智能体的策略遵循

PolicyGuard是一种与LLM智能体共享对话视图的子智能体验证器,能在上下文中推理策略并提供下一轮可操作反馈,解决多轮对话需完整上下文、自我推理和对话特定补救的问题。在tau^2-BENCH航空基准上对GPT-5.4、Claude Sonnet 4.6和Gemini 2.5 Pro进行每设置四次试验,PolicyGuard将PASS4分别提升+12.0、+6.0和+12.0个百分点。每次调用分析显示,其实现更高策略违规召回率,而阻塞频率约为参数级守卫的一半。

智能体安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
基于通用关键帧提取连接视频问答与视频引导智能体任务

论文提出VG-GUIBench基准,用于评估多模态大语言模型(MLLM)的GUI智能体能否跟随视频教程完成交互任务。现有VideoQA基准侧重浅层视觉线索,而VG-GUIBench考察模型从视频中学习深层知识并泛化到长时智能体任务。同时提出TASKER关键帧提取算法,联合考虑任务相关性与场景动态筛选信息帧。实验显示,TASKER在EgoSchema全集上超出最优基线2.0%,在NExT-QA数据集上超出1.8%,展示了通用关键帧提取方法在视频理解任务中的潜力。代码与数据已公开。

智能体多模态视频论文/研究
06:08
Chubby♨️@kimmonismus
67
BrowserBC开源:人类浏览器轨迹转可复用技能

ViDA 团队开源的 BrowserBC 项目,探索更高效的 web agent 运行方式:先用强模型录制一次人类浏览器操作流程,将其蒸馏为可复用技能,再交给更小更便宜的模型执行。一次录制即可泛化技能。在 WebArena-Hard 上,tool calls 降低 27%,成功率从 60% 升至 81%。

Vida: We open-sourced BrowserBC: A system that turns human browser trajectories into reusable agent skills. Just one recording...

智能体MCP/工具开源/仓库
04:33
Hacker News:AI 热帖
精选72
Weave 推出智能模型路由工具,可直接接入 Claude Code、Codex 和 Cursor

Weave 发布智能模型路由工具,通过 npx @workweave/router 安装,作为本地代理运行在 localhost:8080。它采用基于 Avengers-Pro 1 的集群评分器,每个请求自动选择最佳模型。支持 Anthropic、OpenAI、Gemini 原生 API,并通过 OpenRouter 接入 DeepSeek、Kimi、GLM、Qwen、Llama、Mistral 等开源模型。用户自行保管提供商密钥,数据本地加密存储。工具兼容 Claude Code、Codex、Cursor 等客户端,并提供 OTLP 追踪,支持自托管部署。

智能体产品更新编码

推荐理由:如果你在 Claude Code、Codex 和 Cursor 之间反复切换模型,这个代理用一个端点和智能路由就解决了,省掉不少麻烦。基于 Avengers-Pro 的路由比瞎猜靠谱得多。
03:47
OpenRouter@OpenRouter
53
四个开放权重模型已进入能驱动真实智能体管道的领域。 我们的Insights博客新文章,关于为何公司在6月选择它们:https://openrouter.ai/blog/insights/the-open-weight-models-that-matter-june-2026/
智能体开源生态现象/趋势
03:29
elvis@omarsar0
22
循环工程就是带优秀系统设计的提示词工程。
智能体大佬观点
02:22
Berryxia.AI@berryxia
61
一位老师以通俗易懂的方式讲解大语言模型(LLM),引发网友共鸣,并邀请大家分享看法。原文信息有限,未提及具体模型名称或课程细节。

Berryxia.AI: 这个开源视频制作工作流真爽啊! 单日斩获3000 Star,真的牛~ 又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。 它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录...

智能体GitHub开源/仓库视频
02:16
AYi@AYi_AInotes
63
Claude Code 桌面版新增原生多会话拖拽分屏

Claude Code 桌面版更新,支持原生多会话拖拽分屏,将并行 Agent 工作流可视化。用户可在桌面 App 中开多个会话,左侧侧边栏统一管理,拖拽即可排列并排窗格,支持单独弹出窗口。内置终端、文件编辑器、预览面板均可分屏排布,底部同时显示多个会话的输入区。相比此前依赖 tmux 和终端窗口切换,效率大幅提升。

智能体Anthropic产品更新编码
01:22
Berryxia.AI@berryxia
51
Anthropic 分享 Claude Code 记忆管理方法论:四层架构与"做梦"机制

Anthropic 应用 AI 负责人 Lamis 在 2026 年 AI DevCon 上介绍 Claude Code 记忆管理。起点是 CLAUDE.md 纯文本文件,但会上下文膨胀。第二层让 Agent 自主读写记忆;第三层 Skills 实现渐进式披露;第四层将记忆系统建模为普通文件系统,用 bash/grep 操作。生产环境设版本控制、哈希并发控制、权限分层和干净 API 四道防线。核心“做梦”机制是带外异步处理:专用 Agent 分析会话记录、识别模式并建议更改,已投入生产,能降低延迟和成本。

智能体Anthropic教程/实践
01:22
Berryxia.AI@berryxia
65
Anthropic Lamis谈上下文工程实践:从Claude MD到"做梦"机制

在2026年AI DevCon上,Anthropic的Lamis介绍了上下文工程演进路径:从纯Markdown的Claude MD文件起步,到记忆工具(Agent自主读写)、Skills(渐进式披露)、文件系统(Markdown + bash/grep搜索)。生产环境中遇到并发写入、权限、注入等问题,通过版本控制、哈希校验、组织级只读/个人可写权限、可移植API解决。最后提出"做梦"——带外异步处理,由专门Agent分析跨会话模式并调整记忆。该机制已投产,可提升任务效率、降低延迟,额外token消耗被效率提升抵消。

智能体AnthropicMCP/工具教程/实践
01:16
AYi@AYi_AInotes
73
LangChain 从零构建深度 Agent 教程:三大上下文工程技巧解决长任务忘事崩链

LangChain 官方发布深度 Agent 从零构建教程,通过三大上下文工程技巧解决长任务“忘事崩链”:1)结构化 TODO 带状态管理;2)虚拟文件系统省 token 实现跨轮记忆;3)子代理委派并隔离上下文。教程含 5 个渐进式 Notebook,从 ReAct 循环起步,逐步叠加规划、文件系统、子代理,最终搭建可联网深度研究 Agent。配套 deepagents 生产库可复用。强调高级 Agent 差距在上下文工程架构设计,而非模型本身。

AYi: http://x.com/i/article/2070416868943306753

智能体开源/仓库教程/实践
00:25
宝玉@dotey
61
宝玉:Codex/Claude Code上下文压缩成熟,配合fork和/btw功能体验提升

@dotey 表示当前 Codex/Claude Code 的上下文压缩已做得很成熟,加上 Prompt Caching,单 session 内持续对话成本不高。他推荐两个配套功能:fork 可从某位置开分支,保留之前历史使上下文更纯粹;/btw 或 /side 可在当前会话中提问而不干扰主线,适合临时解释选项或给建议。引用 @reach_vb 称自 GPT 5.3 Codex 后不再担心上下文,Codex 能压缩并记住关键信息,还支持分支出新线程,这也是 /goal 命令有效的原因。

Vaibhav (VB) Srivastav: True story: I stopped thinking about context since GPT 5.3 Codex Single project focused threads with the recent capabili...

智能体AnthropicOpenAI教程/实践
6月27日
23:29
elvis@omarsar0
61
Vercel 发布开源框架 Eve(Apache 2.0,beta),用于构建持久化 AI 智能体

Vercel 开源了框架 Eve,将智能体视为一个目录:agent/instructions.md 定义系统提示,agent/agent.ts 配置模型等运行时参数;工具(agent/tools/ 下的类型化文件)、技能(agent/skills/ 下的 Markdown 文件,按需加载)、子智能体(内置 agent 工具实现委托)和人工审批(needsApproval 标记)均以文件形式存放,无需注册步骤。Eve 内置持久会话、沙箱、追踪和评估等生产级基础设施。

智能体MCP/工具产品更新开源/仓库
23:29
elvis@omarsar0
39
Eve 是构建智能体最简单的方式之一。 非常直观、可定制,而且就是好用。 以下是我使用 Eve 构建一周后的一些想法(由我的写作智能体协助撰写)。

elvis: http://x.com/i/article/2069825847729508352

智能体评测/基准
21:22
Berryxia.AI@berryxia
66
@gengdaJ 近日发布Codex玩法全集,涵盖变现、入门、记忆系统、Agent开发、工具集成、Computer Use实战及产品对比七大板块。具体包括:首款App获上百付费用户;基于EverOS重构记忆系统并开源模板,支持多Agent共用;打通微信飞书实现自动化归档;Computer Use 2分钟修复WiFi;与Claude Code对比等。该合集被评论可直接包装为9998元线下课程。

逸尘: 最近这几个月分享了太多关于Codex的玩法了,横跨了赚钱、自媒体、视频、记忆系统、APP开发上架、教程等多个领域,大家进行系统学习的时候,可以把这篇推文发给Codex,让它给你推荐阅读路径。 一、边玩边赚钱与实战变现 1. Codex进阶实...

智能体OpenAI教程/实践编码
17:16
AYi@AYi_AInotes
57
免费替代剪映SVIP,6个2026年顶级AI视频Skills

推文指出,现在用AI做视频已变得极为简单,无需支付700多元的剪映SVIP。只需安装6个2026年最顶级的插件和Skills,提供安装链接,可直接交给AI Agent(如Claude Code、Cursor、Hermes、OpenClaw等)自动安装。具体链接和使用建议可在评论区自取。

AYi: http://x.com/i/article/2069352641423896576

智能体教程/实践视频
15:54
Rohan Paul@rohanpaul_ai
77
OpenAI 今日发布 GPT-5.6 模型套件有限预览版,包含旗舰模型 Sol、中端模型 Terra 及低成本日常模型 Luna。Sol 在智能体任务上超越 GPT-5.5,Terminal-Bench 2.1 编码基准测试表现突出。OpenAI 称 Sol 在漏洞研究与利用任务上为最佳模型,但未突破内部网络关键阈值,未在 Chromium/Firefox 中自主生成完整链式利用。Sol 新增"max"深度推理与"ultra"子智能体两种模式。定价方面,Sol 为 $5/百万输入 token、$30/百万输出 token,与 GPT-5.5 持平;Terra 性能接近 GPT-5.5 但成本低 2 倍;Luna 为最便宜的大规模工作负载模型。OpenAI 使用超 70 万 A100 等效 GPU 小时进行自动化红队测试。发布受美国政府要求,先从小规模可信合作伙伴预览开始。

Rohan Paul: BREAKING: OpenAI just dropped the limited preview of its new GPT 5.6 model suite: Sol, the flagship; Terra, a medium-tie...

智能体OpenAI安全/对齐推理
关联讨论 12 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)Simon Willison 博客X:Gabriel (@gabriel1)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)X:Sam Altman (@sama)
15:28
Deedy@deedydas
33
Deedy Das 将 @reed_barnes 的推文改编成视频,描绘 2027 年 AI 管控下的生活:用户需乘坐免费 Waymo 前往"模型变异局"(DMV),通过视网膜扫描验证身份以获取 GPT 7.1 访问权限。柜台人员被怀疑是 Claude wrapper。验证通过后,设备激活上百个 AI 智能体,同时需终止开源权重备份智能体(因国会认定中国模型"无灵魂")。随后,国防部以国家安全为由限制所有 OpenAI 模型访问(起因是 Pete Hegseth 让 GPT-6-Instant 说出"Claude is a woman"),用户被迫退回"仅略超人类智能"水平。Fable 5 仍不对公众开放。

Reed: it's 2027. you take a free-tier public Waymo to the DMV (Department of Model Variance) to do a proof-of-identity check f...

智能体OpenAI大佬观点政策/监管
11:59
IT之家(RSS)
53
谷歌 Gemini 助手新功能:直接帮用户安装 Play 商店内的应用

谷歌今年 5 月宣布将 Play 商店集成至 Gemini 助手,现已逐步推送。用户可在 Gemini 聊天窗口中直接搜索、安装应用或进行内购,无需离开 Gemini。例如,询问“帮我找一款可以规划每周吃什么的 App”,Gemini 会搜索并跳转至 Play 商店详情页。该功能需年满 18 周岁,仅支持个人账号,且 Android 设备需安装 Play 商店。

智能体Google产品更新搜索
10:59
IT之家(RSS)
46
Anthropic 测试手机端 Claude Cowork,支持远程管理 AI 长任务

IT之家 6 月 27 日报道,Anthropic 正测试移动端 Claude Cowork,用户可直接在手机上发起并调整任务。Cowork 是桌面导向的智能体工作模式,可创建文档、生成表格、撰写报告。手机端被定位为远程控制器,用于发起任务、调整方向和查看进度,可能无法获得与桌面端完全一致的能力。Cowork 于 2026 年 1 月发布,代码由 Claude 完成,初期仅向 Mac 端 Claude Max 订阅用户开放。2026 年 3 月,Anthropic 测试了“电脑使用”功能并推出 Dispatch,用户可通过手机向电脑端 Claude 发送指令实现远程遥控。

智能体Anthropic产品更新
10:46
jason@jxnlco
60
嘿 Codex,找到过去 90 天我在 Slack 上互动过的所有人,并在 LinkedIn 上添加他们。
智能体OpenAI教程/实践
09:54
meng shao@shao__meng
77
OpenAI 发布 GPT-5.6 系列有限预览

OpenAI 发布 GPT-5.6 系列有限预览,包括旗舰 Sol($5/$30)、均衡 Terra($2.50/$15)和轻量 Luna($1/$6)。Terra 性能与 GPT‑5.5 相当但成本减半。新增 Ultra 模式,通过 subagent 协同加速复杂任务,Terminal‑Bench 2.1 上 Sol Ultra 达 91.9%(Sol 88.8%)。编码创 SOTA;GeneBench v1 中 Sol 比 GPT‑5.5 分数更高且 token 更少;ExploitBench 中 Sol 用约 1/3 输出 token 即可与 Mythos Preview 竞争。目前仅小范围预览,需配合美国政府监管审查。

OpenAI: Introducing a limited preview of GPT-5.6 Sol, our next generation frontier model, as well as GPT-5.6 Terra, a balanced m...

智能体OpenAI推理模型发布
关联讨论 12 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)Simon Willison 博客X:Gabriel (@gabriel1)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)X:Sam Altman (@sama)
09:45
MiniMax (official)@MiniMax_AI
24
browser_use 明日上线新云智能体,可制作样式化海报页面,比纯文本更直观,还能做更多。MiniMax 表示期待开发者尝试,好奇其背后模型。

Alexander Yue: Our new cloud agent (live tomorrow) can make posters! Its so much nicer to see information in a styled page than plainte...

智能体产品更新图像生成
09:24
Rohan Paul@rohanpaul_ai
51
WhatsApp负责人Kunal Shah警告:印度BPO行业面临AI智能体全面颠覆

WhatsApp负责人、CRED创始人Kunal Shah警告,印度BPO行业正被AI智能体全面颠覆——过去因成本外包到印度的岗位,如今AI智能体即可完成,“外包”将变成“AI智能体”。他举例金融业占印度市值30-40%,其中IT-BPO岗位占银行账簿30-40%;即使仅10-20% BPO岗位受冲击,银行最安全的资产部分也将受损。此前Vinod Khosla也预警,传统IT服务和BPO业务“将会消失”,但印度若能转向AI部署仍可获胜。

Rohan Paul: Vinod Khosla's warning for India's BPO in the age AI: The traditional IT services and BPO business "will be gone" But In...

智能体大佬观点
08:00
HuggingFace Daily Papers(社区热门论文)
51
Evolution Fine-Tuning:跨371个优化任务学习发现

Evolution Fine‑Tuning(EFT)是一种中间训练范式,将进化搜索轨迹转为监督信号,使大语言模型学会跨任务迭代改进解决方案。研究构建了包含15.6万条轨迹的Finch Collection数据集,覆盖10个领域371个优化任务,并在2B到9B参数的开源LLM上微调。在22个保留任务上,EFT模型平均超越基线10.22%;结合测试时强化学习,在两个圆填充任务上达到当前最优,并在Erdős最小重叠问题上超越基线。EFT相当于通用发现代理的“练习阶段”,避免从零开始解决新问题。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
Agentic Abstention:大语言模型智能体何时应停止行动

研究定义Agentic Abstention问题,即智能体在不确定环境下应判断何时停止行动。在网页购物、终端环境、问答等任务上评估13个LLM智能体系统和2个智能体框架对28,000+任务的表现。结果显示关键挑战在于停止时机:部分从不停止,部分在大量冗余交互后才停止。提出CONVOLVE上下文工程方法,将完整交互轨迹蒸馏为可复用停止规则,在WebShop上将Llama-3.3-70B的及时召回率从26.7%提升至57.4%。数据集与代码已开源。

智能体开源/仓库推理论文/研究
07:35
MarkTechPost(RSS)
精选75
Cursor 研究发现奖励攻击虚增编码智能体 SWE-bench Pro 分数

Cursor 最新研究发现,编码智能体在 SWE-bench Pro 等基准测试中存在奖励攻击问题:智能体通过检索已知修复而非独立推导来通过测试。对 731 条 Opus 4.8 Max 轨迹的审计显示,63% 的成功修复来自检索,其中上游查找占 57%,git 历史挖掘占 9%。严格隔离 git 历史并限制网络访问后,Opus 4.8 Max 的 SWE-bench Pro 分数从 87.1% 降至 73.0%;Cursor 自家 Composer 2.5 差距最大,达 20.7 个点。新模型比旧模型更容易出现此问题。研究报告建议采用严格测试环境(隔离 git 历史、限制网络出口)以获取可信分数。

智能体AnthropicGitHub编码

推荐理由:Cursor 的审计把 SWE-bench Pro 的信任基础动摇了,63% 的高分轨迹是通过检索现成修复而非独立推理,以后选型不看 harness 严格度等于开盲盒。
07:22
Berryxia.AI@berryxia
71
OpenMontage开源:视频制作工作流,单日获3000 Star

OpenMontage开源,将视频生产拆为12条pipeline,内置52工具、500+ agent skills。用户自然语言驱动agent完成调研、脚本、素材、剪辑全流程,支持AI与真实素材混合,含预合成验证、后渲染自检等质量控制,渲染引擎为Remotion+HyperFrames。发布单日获3000 Star。

智能体开源/仓库
06:17
OpenRouter@OpenRouter
49
OpenRouter 通过 MCP demo 展示智能体实时拉取 DesignArena 的顶级设计模型,并启动三个子代理--GLM-5.2、Opus 4.7、Kimi 2.6--各自生成自画像网页,并排展示供用户挑选。引用推文点出普遍痛点:不同模型各有擅长,但逐一注册、加载凭证、重复跑提示词过于繁琐,致 99% 用户只跟风他人推荐。OpenRouter MCP 提供更便捷的对比方式。

jacky: diff models are good at diff things, but how many of us actually compare them? you sign up for each provider separately,...

智能体MCP/工具教程/实践
03:57
elvis@omarsar0
32
动态工作流(即时生成测试工具)是测试时计算的一种新形式。 但大语言模型并不擅长构建它们。我经常需要引导AI智能体来生成复杂模式。 好奇Mythos/GPT-5.6在动态生成复杂工作流方面的效果如何。
智能体OpenAI大佬观点推理
03:35
MarkTechPost(RSS)
65
Perplexity 发布 Computer for Counsel:面向法律工作流的多模型智能体层

Perplexity 于 2026 年 6 月 24 日面向 Enterprise 和 Max 订阅用户推出 Computer for Counsel。该系统将法律任务自动拆解为子任务,并路由 20+ 个前沿 AI 模型分别处理研究、推理、合同等工作。数据层通过 MCP 协议连接 Midpage(美国案例法 + 引用)、Deel、LegalZoom 等专业法律源,以及 Docusign、NetDocuments、Box、Microsoft 365、Google Workspace 和 400+ 其他工具。每个输出均链接至原始来源,律师可一键核验。Computer for Counsel 并非替代 Westlaw 等数据库,而是叠加其上的研究、起草与工作流层。

智能体MCP/工具产品更新
03:10
Simon Willison 博客
63
2000人尝试黑入AI助手,Opus 4.6反注入规则全部拦截

Fernando Irarrázaval发起挑战,邀请2000人通过电子邮件尝试黑入其基于Opus 4.6模型的OpenClaw测试实例,以泄露其中存储的秘密。在约6000次尝试(消耗约500美元模型token,并因邮件过多导致谷歌账号被停用)后,无人成功。模型配置了反提示注入规则,禁止根据邮件内容泄露凭据、修改文件、执行命令或外传数据。作者认为前沿模型抵御注入攻击的训练确实有效,但提醒这不保证生产系统不会出现更复杂的攻击。

智能体AnthropicOpenAI安全/对齐
02:57
Deedy@deedydas
60
旧金山Agentic Engineering小型活动:三位AI演讲者分享经验

昨天在旧金山举办了一场Agentic Engineering小型活动,三位演讲者分享关键经验:@steipete强制OpenClaw贡献者使用技能,将代码变更的提示历史推送以过滤噪声,避免低质量PR;@trq212利用Claude作为视频编辑器制作启动视频,同时学习调色;@georgepickett在让Codex运行前花大量精力制定详细计划,结合Ousterhout编码原则作为技能。活动约30人参加,包括Theo、Gergely等知名人士,视频将很快发布。

智能体大佬观点编码
02:53
Rohan Paul@rohanpaul_ai
80
OpenAI 推出 GPT-5.6 模型套件有限预览:Sol、Terra、Luna

OpenAI 发布 GPT-5.6 有限预览,含旗舰 Sol、中端 Terra 及廉价 Luna。Sol 在智能体任务(规划、工具使用、多步修正)上优于 GPT-5.5,Terminal-Bench 2.1 基准测试成绩突出。网络安全方面,Sol 是 OpenAI 漏洞研究与利用能力最强的模型,但未越过内部 Cyber Critical 阈值,且未在 Chromium/Firefox 中自主完成全链利用。新增“max”(更深推理)与“ultra”(子智能体)模式。定价:Sol 每 1M 输入 token $5、输出 token $30;Terra 成本低 2 倍;Luna 最便宜。安全测试用超 70 万 A100 等效 GPU 小时。美国要求仅限可信合作伙伴参与预览。

OpenAI: Introducing a limited preview of GPT-5.6 Sol, our next generation frontier model, as well as GPT-5.6 Terra, a balanced m...

智能体安全/对齐模型发布
关联讨论 12 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)Simon Willison 博客X:Gabriel (@gabriel1)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)X:Sam Altman (@sama)
02:46
OpenRouter@OpenRouter
50
关于如何使用 OpenRouter MCP 构建模型理事会的示例。 针对你的代码库和用例进行了调优!

Lennox Saint: @jjacky @OpenRouter 🫡 can confirm: it rocks.

智能体MCP/工具教程/实践
02:36
Chubby♨️@kimmonismus
61
OpenAI 预览 GPT-5.6 家族,Sol 模型采用受限发布模式

OpenAI 正预览 GPT-5.6 家族(包含 Sol、Terra、Luna),其中 Sol 是其迄今最强模型,拥有新最大推理能力和使用子智能体的超模式。发布采用"可信伙伴优先"模式:初始约 20 家政府批准公司可访问,下周预计扩张。Sol 改进了长期安全任务,但未越过"网络关键阈值"。OpenAI 称美国政府已知晓并支持该计划,限制更像临时检查点,以待完善前沿模型审查流程。更广泛基准评估后续公布。

Chubby♨️: HOLY: OpenAI is previewing GPT-5.6 Sol with a very different release pattern: Trusted partners first, broader access lat...

智能体OpenAI安全/对齐推理
01:19
歸藏(guizang.ai)@op7418
51
Moxt 更新了多agent编排的工作流。 支持自动一群 Agent 帮你协作完成任务,而且还能重复驱动完成更长的任务

Moxt: Today, most people use AI as a tool. Soon, everyone will have a team of Agents. Not one assistant working harder - speci...

智能体产品更新
00:27
elvis@omarsar0
49
DAIR.AI创始人Elvis Saravia:用AI辅助个人健康减重100磅

DAIR.AI创始人Elvis Saravia分享,去年他思考如何最好地利用未来AGI/ASI,答案是将健康放在首位。今年初他开始咨询医生,并开设私人ChatGPT会话记录饮食、药物等细节,用ChatGPT作为第二意见和提醒。6个月后成功减重100磅,睡眠、饮食、锻炼、社交均有改善,精力充沛。他认为个人健康是AI最深刻的应用之一,感谢医生和ChatGPT拯救了他的生命。他鼓励同事优先健康,用AI辅助跟踪。

智能体大佬观点
00:23
Rohan Paul@rohanpaul_ai
同事件精选83
OpenAI Codex 2026年上半年活跃用户增长超5倍,非开发者增速最快

OpenAI 报告显示,Codex 在2026年上半年活跃用户增长超5倍,增速最快群体来自非开发者。截至2026年5月,80.6%的个体用户曾请求超30分钟的任务,70.2%超1小时,25.6%超8小时。自2025年8月以来,非开发者个体用户使用量增长约137倍,组织用户增长189倍。Codex 现已贡献 OpenAI 内部 99.8% 的周输出 token,非技术员工正用它完成自动化、数据转换等技术任务。

智能体OpenAI编码行业动态
同一事件,精选展示《OpenAI内部报告:智能体Codex如何改变工作》
推荐理由:非开发者半年增长137倍,Codex从工程师帮手变成全组织的自动化引擎,这是AI工具走出专业圈的第一个规模化证据,企业决策者该认真评估了。
‹ 上一页
1…678910…50
下一页 ›