AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月22日周一
22:30公众号:数字生命卡兹克72精选微信Agent小微灰度内测:主入口发消息红包,子入口可读聊天记录
22:09Nathan Lambert67TMax发布:开源终端智能体RL配方与数据
21:08AYi49DeepSeek V4 Flash 限时全免费
21:07elvis71集体AI智能:前沿模型推动智能叠加
21:05IT之家(RSS)49谷歌云与诺基亚扩大合作,将 Gemini 模型融入电信网络智能运维平台
20:05IT之家(RSS)54亿咖通科技拟 18 亿元收购 Flyme 软件业务,年内魅族现有手机将迎大规模系统升级
19:26Chubby♨️59Notion联合创始人谈从笔记应用向AI智能体优先工作空间的演变
16:43The Decoder:AI News(RSS)66Sakana AI 推出 Fugu:动态协调多 LLM 的系统,匹配 Anthropic 顶级模型性能
16:05🚨 AI News | TestingCatalog64Sakana AI 发布 Fugu 和 Fugu Ultra 多智能体编排系统
15:38Hacker News 热门(buzzing.cc 中文翻译)52福古(Fugu)订阅与按量付费计划
15:26Chubby♨️49Sakana Fugu Ultra:多智能体编排系统对标Fable和Mythos
14:10郭明錤|Ming-Chi Kuo39Google与联发科深化TPU v9合作,升级版Triggerfish芯片针对AI智能体与强化学习
14:08向阳乔木60海立开源第三本Agent书籍《Deep Agents in Action》
14:06AYi59Tom Osman用Codex自动完成App全功能测试与修复
13:32数字生命卡兹克66AI用得好不好,跟你会不会管人,我觉得越来越是同一件事。
13:07Rohan Paul50《LLM智能体能推断世界模型吗?来自智能体自动机学习的证据》
12:37Rohan Paul70Sakana AI 发布 Fugu Ultra 多模型编排系统
10:20公众号:数字生命卡兹克49AI用得好不好,跟你会不会管人是同一件事
09:10ginobefun57今日早报精讲:Anthropic 代码量增 8 倍、苹果 AI 权力重构、GitHub Qubot
09:06AYi57Hermes Bible 整合官方文档与社区工作流
08:36meng shao67前Meta/Microsoft主任工程师kunchenguid的Agentic工程工作流
08:00HuggingFace Daily Papers(社区热门论文)54程序性记忆管理:LLM智能体的控制、适应与评估
08:00HuggingFace Daily Papers(社区热门论文)50GUI vs. CLI:屏幕仅限与技能中介的计算机使用智能体的执行瓶颈
08:00HuggingFace Daily Papers(社区热门论文)65计划不持久:为何上下文管理对LLM智能体至关重要
08:00HuggingFace Daily Papers(社区热门论文)69智能体AI搭便车指南:从基础到系统
08:00HuggingFace Daily Papers(社区热门论文)36AI智能体模型批判--从笛卡尔思想到GIC通用架构
08:00HuggingFace Daily Papers(社区热门论文)48AOHP:面向个性化、高效与安全交互的开源操作系统级智能体框架
07:36MarkTechPost(RSS)58AI智能体记忆的七种类型:技术指南
07:06Rohan Paul52安巴尼将Jio网络打造成AI智能体试验场
07:04elvis58Elvis Saravia:从精细提示转向循环+口述+验证器的新范式
07:01Simon Willison 博客72同事件精选Cloudflare 临时账户 for AI agents同一事件,精选展示《Cloudflare 为 AI 智能体推出临时账户》
03:06Rohan Paul45Perplexity CEO:模型不再是产品
02:35Greg Brockman69Codex 自动化循环测试应用所有功能
01:34elvis47《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法
00:56Chubby♨️55Cognite联合创始人Geir Engdahl:工业AI失败主因在工厂运营而非模型层
00:34Ethan Mollick64Ethan Mollick:Agentic工具的"软件脑"限制与知识工作扩展难题
00:09Berryxia.AI53Devin免费无限用GLM 5.2
6月21日周日
23:09Berryxia.AI61Agentic Engineering Workflow:让AI像工程师一样自主干活
23:05宝玉68翻译质量对比:Gemini 3.1 Pro 优于 Opus-4.8,工作流无法弥补
23:03TechCrunch:AI(RSS)59iOS 27 开发者测试版上线多项实用 AI 功能
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月22日
22:30
公众号:数字生命卡兹克
精选72
微信Agent小微灰度内测:主入口发消息红包,子入口可读聊天记录

微信Agent小微灰度内测已开始,主入口位于微信首页左上角,支持给好友发消息和红包(需确认),但无法读取聊天记录或向群聊发消息。群聊和私聊的“问小微”子入口则可读取聊天记录并支持群发。小微可创建日程提醒、待办、总结朋友圈,打通公众号和视频号进行问答。收藏仅可读取小微自建笔记。内置“小工具”功能,支持语音创建简易小程序(暂不可发布),还可调用第三方小程序。

智能体MCP/工具产品更新
关联讨论 1 条公众号:数字生命卡兹克
推荐理由:微信把Agent做成了超级入口,灰度测试的完成度远超预期。能聊天、读朋友圈、打通公众号,还藏着AI生成小工具的能力,这已经不只是功能更新,是生态级的布局。
22:09
Nathan Lambert@natolambert
67
TMax发布:开源终端智能体RL配方与数据

TMax 是面向终端任务的开源 RL 配方,基于 Qwen 3.5 较小密集模型,在默认设置和 65k token 预算下超越此前开源工作。训练需 8 节点 H100(2 训练+6 推理)运行 2-3 天,配方经约 100 次训练才稳定。发布模型权重、数据及训练 rollouts。配方工作强调从零获得初始基线成本高昂(1 万至百万美元),需要明确决策阶梯和稳定性改进。

Hamish Ivison: Trained some terminal agents with friends! Introducing Tmax, open RL terminal agent models. Under default settings and s...

智能体开源生态论文/研究
21:08
AYi@AYi_AInotes
49
DeepSeek V4 Flash 限时全免费

DeepSeek V4 Flash 登陆 OpenModel 平台,开启限时免费活动。该模型为 284B MoE 架构,支持 1M 超长上下文,编码与智能体能力突出。活动期间输入输出均为 $0.00/M,无任何调用门槛。平台其他模型同步享受 20%–80% 折扣。免费窗口期至 6 月 28 日截止。

OpenModel: DeepSeek-V4-Flash is FREE until June 28! OpenModel Limited-Time Event: → Input: $0.00 / M → Output: $0.00 / M Powerful 2...

智能体DeepSeek编码行业动态
21:07
elvis@omarsar0
71
这只是集体AI智能将带来什么的一瞥。 我们尚未真正破解多智能体编排,但每推出一款新前沿模型,智能应该会叠加。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体产品更新
21:05
IT之家(RSS)
49
谷歌云与诺基亚扩大合作,将 Gemini 模型融入电信网络智能运维平台

谷歌云与诺基亚宣布扩展合作,将谷歌 Gemini 模型整合至 Nokia Assurance Center 网络软件套件。双方基于 Gemini 开发了六个专项 AI 智能体:路由智能体(核心编排)、事件分类智能体(告警分析与历史比对)、KPI 选择器智能体(解读性能指标)、异常推理智能体(判断数据偏差是否为故障)、动作推理智能体(匹配自动化操作目录)及仪表板智能体(自然语言生成可视化)。目标是为电信运营商降低运营成本、快速定位网络故障,推动网络运维向全自动化“自驾”模式演进。官方将于 6 月 23 日至 25 日在哥本哈根 DTW Ignite 大会现场演示上述智能体。

智能体Google行业动态
20:05
IT之家(RSS)
54
亿咖通科技拟 18 亿元收购 Flyme 软件业务,年内魅族现有手机将迎大规模系统升级

亿咖通科技控股在纳斯达克宣布签署最终收购协议,以18亿元人民币(约2.66亿美元)收购Flyme软件业务,包括Flyme Auto智能座舱操作系统和跨终端Flyme OS。交易通过收购星纪魅族专项拆分的湖北骐光科技完成,亿咖通将获得对应知识产权、研发团队和量产项目体系。Flyme已于2026年实现盈利。亿咖通将持续支持Flyme迭代,重点推进AI Agent版本研发。年内魅族现有手机将迎大规模系统升级,全新Flyme Auto 3.0车载系统也将正式发布。

智能体行业动态
19:26
Chubby♨️@kimmonismus
59
Notion联合创始人谈从笔记应用向AI智能体优先工作空间的演变

在与Notion联合创始人Akshay Kothari的对话中,探讨了Notion如何从笔记应用演变为以AI智能体优先的工作空间。关键要点包括:模板成为增长突破口;人类、代码与AI Agent将协同工作;内部人事Agent“Smilers”;自愈式企业知识库;Notion Workers自动化;保持模型可选择性避免锁定;未来工作应增强而非替代人类智能。最引人深思的观点是:AI Agent不仅能自动化繁琐工作,还能让专业知识在整个组织内传播,使一人构建的工作流被所有人复用。

智能体大佬观点
16:43
The Decoder:AI News(RSS)
66
Sakana AI 推出 Fugu:动态协调多 LLM 的系统,匹配 Anthropic 顶级模型性能

日本 AI 初创公司 Sakana AI 发布 Fugu,一个能动态协调多个大语言模型的系统。Fugu 本身也是一个语言模型,可从可替换的智能体池中调用其他 LLM(含自身副本),通过单一 OpenAI 兼容 API 提供服务。Fugu 有基础版和 Fugu Ultra 变体。Sakana 公布的基准测试显示,Fugu Ultra 在编码、推理、科学和智能体评测中与 Anthropic Fable 5 和 Mythos Preview 表现相当。Fugu 旨在降低对单一 AI 供应商的依赖,模型池可完全替换。约 500 名 Beta 用户在长流程任务中测试,Fugu Ultra 的 bug 捕获量远超 GPT 5.5。两个变体现在已通过 API 上线。

智能体产品更新部署/工程
16:05
🚨 AI News | TestingCatalog@testingcatalog
64
Sakana AI 发布 Fugu 和 Fugu Ultra 多智能体编排系统

Sakana AI 宣布推出 Fugu 和 Fugu Ultra 系统。Fugu 是一个多智能体编排模型,训练用于操控其他 LLM,通过单一模型 API 访问。其中 Fugu Ultra 在多项基准测试中性能匹敌 Claude Fable 5 和 Mythos 5,并宣称提供前沿能力且规避出口管制风险。该系统目前通过 API 提供服务,但暂不支持 EEA 地区。推文指出,编排式多模型系统将超越单一模型,使小型实验室和企业更易构建,并已促使 Meta、Apple、微软等巨头考虑采用竞争对手的模型搭建编排系统。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体MCP/工具模型发布
15:38
Hacker News 热门(buzzing.cc 中文翻译)
52
福古(Fugu)订阅与按量付费计划

Fugu 和 Fugu Ultra 提供订阅和按量付费两种计划。订阅三档:Standard 月费 $20,Pro 月费 $100(10 倍用量),Max 月费 $200(20 倍)。按量付费按 token 计费,不叠加多 agent 费用。Fugu Ultra(fugu-ultra-20260615)每 1M token 定价:输入 $5、输出 $30、缓存输入 $0.50;上下文超过 272K token 时升至 $10 / $45 / $1.00。所有计划均包含两者访问权限。

智能体产品更新
15:26
Chubby♨️@kimmonismus
49
Sakana AI 推出 Fugu 多智能体编排系统,通过单一模型 API 调用即可协调多个前沿模型组成智能体团队。其 Fugu Ultra 模型性能与 Fable、Mythos 相当,且不受出口管制限制。主推文指出,Fugu Ultra 并非传统意义上的新基座模型,而是一个学习到的编排层,更智能的测试时编排可能是 AI 能力的下一个跃升点。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体大佬观点
14:10
郭明錤|Ming-Chi Kuo@mingchikuo
39
Google与联发科深化TPU v9合作,升级版Triggerfish芯片针对AI智能体与强化学习

郭明錤爆料,Google基于TPU v9 / Humufish开发升级版芯片Triggerfish,由MediaTek独家代工。相比Humufish,Triggerfish的SRAM容量提升2-3倍,新增模拟die(用于强化学习和AI智能体协同),内存升级至HBM4E(Humufish为HBM4),强化推理能力以缓解CPU墙和内存墙。Humufish生命周期出货量约400-500万颗,Triggerfish追加订单100-200万颗,预计2027年底试产、2028年放量,单价高约30%,有望推动联发科2028年业绩增长。

智能体Google推理行业动态
14:08
向阳乔木@vista8
60
海立老师写书速度真快,开源了第三本书《Deep Agents in Action》。 如果你对Agent开发感兴趣,可收藏学习,很好的资料。

Harry Zhang: A gift to the Chinese developer community for anyone building agents on @LangChain: After 2 books on the ecosystem, I op...

智能体教程/实践
14:06
AYi@AYi_AInotes
59
Tom Osman用Codex自动完成App全功能测试与修复

Tom Osman用Codex的/goal功能,一条指令让AI自动将App所有功能拆解为用户故事,覆盖105个页面路由和67个API,生成183个用户故事。AI循环执行扫描、写测试、运行、自动修复、回归测试、补漏,持续4.5小时完成质量闭环。@gdb称这是“用Codex测试App中的每一个功能”。该流程从AI辅助写代码升级为AI自主负责质量,但局限是仅基于现有代码测试,可能固化错误或产生幻觉,大项目成本高,最终需人类把关。

Greg Brockman: codex for testing every single feature in your app:

智能体教程/实践编码
13:32
数字生命卡兹克@Khazix0918
66
AI用得好不好,跟你会不会管人,我觉得越来越是同一件事。

作者在端午节假期用Claude Opus 4.8重构AI新闻聚合站AIHOT的聚簇机制,消耗2000多万token,耗时一天屡次改阈值(0.72→0.71)、补多语言等边界情况仍问题百出。对比怀念已被下架的Claude Fable 5——后者只需给模糊目标就能自动跑完并填坑。由此总结:管理AI与管理人本质相同——越强的模型(如Fable 5)给方向即可(愿景/策略层),越弱的模型(如Opus 4.8、GPT-5.5、GLM-5.2)则需更细执行层指引,错配层级正是痛苦根源。

智能体Anthropic大佬观点编码
13:07
Rohan Paul@rohanpaul_ai
50
《LLM智能体能推断世界模型吗?来自智能体自动机学习的证据》

Rohan Paul引用新论文指出,尽管LLM智能体有时能通过交互发现隐藏结构,但其推断世界模型的能力存在根本局限:随着隐藏世界复杂度增加,AI智能体的表现迅速落后,难以将积累的反馈转化为稳定的内部模型,尤其在提问规划、记忆利用和反馈整合方面表现薄弱。结论是,在复杂环境中,LLM智能体建立可靠心智模型的速度跟不上难度增长。

智能体arXiv推理论文/研究
12:37
Rohan Paul@rohanpaul_ai
70
Sakana AI 发布 Fugu Ultra 多模型编排系统

Sakana AI 推出 Fugu Ultra,一个多智能体编排层,通过单一 OpenAI 兼容端点动态调用多个模型处理子任务。Fugu 本身是一个 LLM,被训练来自主决定是直接回答还是将子任务分发给模型池中的其他模型(包括递归调用自身),最后整合输出。在大多数基准测试中,Fugu Ultra 性能匹配 Fable 和 Mythos,提供前沿能力且规避出口管制风险。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体产品更新
10:20
公众号:数字生命卡兹克
49
AI用得好不好,跟你会不会管人是同一件事

作者用Claude Opus 4.8重构AIHOT聚簇算法,消耗约2000万token,但Opus 4.8在只有模糊目标时漏洞百出,需不断审查修补。对比曾被下架的Claude Fable 5,后者能直接理解模糊目标并优雅完成方案。作者将AI管理类比员工管理:不同能力层级需不同管理颗粒度——Prompt Engineering对应执行层指令,Harness Engineering对应策略层目标加约束,Fable 5已能承接愿景层目标。引用任正非“让听得见炮声的人做决策”,并指出未来模型(GPT-5.6、Fable 6等)将迫使管理者聚焦“思考应该思考什么”。

智能体AnthropicOpenAI大佬观点
09:10
ginobefun@hongming731
57
今日早报精讲:Anthropic 代码量增 8 倍、苹果 AI 权力重构、GitHub Qubot

Anthropic Claude Code 负责人 Fiona Fung 称工程师每季度交付代码量是 AI 普及前的 8 倍,采用常驻远程会话和定时 agent 自动生成 PR,以 bad/sad 质量框架守住质量。苹果 WWDC26 上库克卸任,John Ternus 接任;AI 权力重构:John Giannandrea 离开,Mike Rockwell 接手 Siri 并向 Craig Federighi 汇报,从谷歌挖来 Amar Subramanya 主导自研模型。新一代 Apple Foundation Models 包括端侧 30B 参数 AFM 3 Core 和 200B MoE AFM 3 Core Advanced,云端 AFM Cloud Pro,端侧需 iPhone 17 Pro 等设备。GitHub 公开内部数据分析智能体 Qubot,采用三层架构,返回正确答案速度提升 3 倍。

智能体AnthropicGitHub编码
09:06
AYi@AYi_AInotes
57
Hermes Bible 整合官方文档与社区工作流

Hermes Bible 将 Hermes Agent 169 页官方文档整合一体,提炼出 24 个可直接抄的真实工作流(如 Jira 到 PR 自动过渡),支持 ⌘K 即时搜索定位章节,社区可分享工作流并展示个人资料页。解决官方文档分散、优质工作流沉没在 X 和 Discord 的问题。

AYi: http://x.com/i/article/2042547855865585664

智能体开源生态教程/实践
08:36
meng shao@shao__meng
67
前Meta/Microsoft主任工程师kunchenguid的Agentic工程工作流

kunchenguid发布45分钟视频,讲解每天交付40-50个生产级PR的工作流。四层:1)终端中心(WezTerm+tmux+Neovim);2)船员入职:全局memory精简27行,项目级memory由agent自写;3)协作:语音输入OpenSuperWhisper,AXI标准(MCP比CLI多耗3倍token+2倍延迟),Lavish交互式HTML工件;4)验证:no-mistakes流水线在隔离worktree中对抗式review+E2E测试。并行用treehouse管理worktree,First Mate元agent调度。

Kun Chen: many people asked me to make a video about my complete agentic engineering workflow excited to share it's finally here!!...

智能体MCP/工具教程/实践编码
08:00
HuggingFace Daily Papers(社区热门论文)
54
程序性记忆管理:LLM智能体的控制、适应与评估

程序性记忆可帮助LLM智能体在重复工作中产生可复用技能,但其迁移能力尚不明确。AFTER基准包含382个真实企业任务,覆盖6种职业角色和22个程序性技能,评估跨任务、跨角色、跨模型的技能迁移。实验表明,单轮优化使整体性能提升3.7–6.7个百分点;基于多模型执行轨迹演化的技能在跨模型测试中达到73.1%准确率,优于所有单模型轨迹。部分技能可广泛泛化,另一些则专化于特定角色流程,迁移后效果下降。这些结果为生产级智能体平台构建和部署程序性记忆系统提供了实践指导。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
GUI vs. CLI:屏幕仅限与技能中介的计算机使用智能体的执行瓶颈

该研究引入一项匹配执行层基准测试(440个桌面任务、18个应用、12个工作流类别),对屏幕仅限的GUI智能体与技能中介的CLI智能体进行控制对比,两者接受相同目标、状态和最终状态验证器,但仅限使用模态原生操作。最强GUI智能体全通过率59.1%,高于最强原始技能CLI智能体的48.2%;经验证器引导的技能增强后,CLI成功率升至69.3%,表明CLI缺陷主要来自技能覆盖不完整。结果揭示两类智能体不同的执行瓶颈:GUI受限于长时程工作流中的可靠接地交互,CLI受限于技能接口的覆盖率和可扩展性。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
65
计划不持久:为何上下文管理对LLM智能体至关重要

研究揭示标准LLM智能体依赖上下文窗口保持计划信息,而非将其内化为持久状态。在Llama-3.1-70B上,计划信号写入一步后从0.453骤降4.1倍,HotpotQA下降12.4倍。推理模型(DeepSeek-R1-Distill-Llama-70B)的思维链痕迹会重新推导计划,严格剥离后恢复样本内+163%、样本外+153%信号,非推理模型仅+4.8%。基于Llama训练的分类器迁移到R1上AUROC为0.748,R1专用分类器达1.000。压力测试中,丢弃计划导致ALFWorld成功率下降34.7个百分点。该框架证明关键信息仅驻留于上下文而非持久存在。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
69
智能体AI搭便车指南:从基础到系统

本书是构建自主AI系统的全栈实践参考。前半部分涵盖LLM基础(Transformer、GPU系统、SFT/LoRA/MoE训练、模型压缩、推理优化)及对齐与推理层(RLHF、PPO/DPO/GRPO、奖励建模、链式推理与测试时扩展)。后半部分专注智能体AI:智能体训练与轨迹RL、RAG与Agentic RAG、记忆系统、设计模式、MCP与A2A协议、多智能体架构,以及开发框架、UI设计、评估与生产部署。每章配理论基础、实现指南、代码示例和原始文献。

智能体教程/实践
08:00
HuggingFace Daily Papers(社区热门论文)
36
AI智能体模型批判--从笛卡尔思想到GIC通用架构

论文基于笛卡尔独立思想奠基与科幻自主存在体描绘,从目标、身份、决策、自我调节与学习五维度剖析当前AI智能体架构。区分能力来自外部工程组装的agentic系统与能力(含社交互动)内生的agentive系统。提出Goal-Identity-Configurator(GIC)通用架构,融合分层目标分解、身份演化、基于世界模型的模拟推理、习得性自我调节与自我导向学习,并讨论agentive系统在人类监督下的可审计性、可控性与安全性。

智能体安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
AOHP:面向个性化、高效与安全交互的开源操作系统级智能体框架

AOHP(Android Open Harness Project)基于Android开源项目(AOSP)构建,将AI智能体视为操作系统的一等角色,提供自适应UI和智能体友好运行时环境,同时保留安卓软硬件生态。系统引入三种智能体导向机制:个性化服务组合、高效智能体接口和安全信息流。在涵盖OS智能体关键能力的挑战任务中,AOHP的任务完成率提升21.12%,token成本降低51.55%,并满足安全策略合规要求。

智能体开源/仓库论文/研究部署/工程
07:36
MarkTechPost(RSS)
58
AI智能体记忆的七种类型:技术指南

大语言模型默认无状态,构建智能体需借助记忆机制。七种记忆类型包括:工作记忆(上下文窗口内临时存储提示词、消息、工具输出)、语义记忆(长期存储用户偏好、事实)、情节记忆(记录过去事件与任务结果用于经验学习)、程序记忆(存储技能、工作流与行为规则)、外部/检索记忆(通过向量数据库在推理时拉取信息,即RAG)、参数记忆(嵌入模型权重中的世界知识与推理模式)、前瞻记忆(记忆未来意图与计划目标)。每种记忆对应不同时间尺度与实现方式,组合使用可构建更强的自主智能体系统。

智能体教程/实践部署/工程
07:06
Rohan Paul@rohanpaul_ai
52
Techcrunch: 安巴尼正将Jio拥有5亿用户的电信网络转变为印度最大的日常AI智能体试验场。 Jio Call Agent将嵌入电话通话中,征得同意后监听、转录语音、总结对话,并触发行动,如打车或订餐。 这个计划看起来像是AI正从独立应用向网络层移动。
智能体产品更新语音
07:04
elvis@omarsar0
58
Elvis Saravia(DAIR.AI)称他如今很少直接向智能体提示,而是依靠循环(loops)让智能体自主完成大部分工作。他转而花更多时间编写验证器(verifiers),通过文本、音频、图像提供丰富指令弥补智能体知识缺口。引用推文补充,2026年6月起应放弃手动编辑提示词,改用语音听写10分钟,将碎片、警示、示例和氛围直接灌给模型--大语言模型最擅长从语言中重构潜在意图。这标志着AI智能体交互正从精细提示转向循环+口述+验证器的新范式。

Guinness Chen: Bro it's June 2026. Stop hand editing your prompts. Hold down the dictation button and ramble for 10 minutes. Give the m...

智能体多模态大佬观点
07:01
Simon Willison 博客
同事件精选72
Cloudflare 临时账户 for AI agents

Cloudflare 推出临时账户功能,无需注册即可通过 npx wrangler deploy --temporary 部署 Workers 项目,临时项目存活 60 分钟。该功能虽标称为 AI 智能体设计,但普通用户同样适用。作者使用 GPT-5.5 xhigh 在 Codex Desktop 中构建了测试应用,验证了部署与运行流程,并展示了项目认领页面。

智能体产品更新部署/工程
同一事件,精选展示《Cloudflare 为 AI 智能体推出临时账户》
推荐理由:虽然这次打的旗号是服务 AI 智能体,但临时 Cloudflare 账号对任何想快速部署原型的开发者都是福音,降低了不少环境搭建的摩擦,值得马上试试。
03:06
Rohan Paul@rohanpaul_ai
45
"模型不再是产品。 Codex、Perplexity Computer 或 Claude Code -- 全都是编排系统。它用一个模型,再配上 agent harness。 什么是 agent harness?Agent 循环运行的规则。" - Aravind Srinivas
智能体大佬观点
02:35
Greg Brockman@gdb
69
Greg Brockman 展示 Codex 的"循环"自动化能力:通过一句 /goal 指令,Codex 自动扫描应用的每个功能,基于代码创建用户故事与预期行为,并维护统一电子表格跟踪状态;完成后自动切换为测试每个用户故事并记录所有错误;接着修复所有逻辑与 UX 错误,最后再次验证用户行为。该循环可处理数百个用户故事,全程无需人工干预。

Tom Osman 🐦⬛: This "loop" automation is nuts inside of Codex. "/goal go over every single feature in this app create a user story with...

智能体OpenAI教程/实践编码
01:34
elvis@omarsar0
47
《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法

论文《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法:将人类判断前置到可复用评估资产中,专家在上游策划评估智慧,而非在测试循环中逐一审查输出。现有方法各有局限:Benchmark测量固定能力,人工审核不具可扩展性,LLM-as-Judge存在评估器设计问题,红队测试偶发,trace审计需明确证据规则。AI智能体需作为行为系统评估,因其多轮推理、调用工具、维护上下文、遵循策略并在不确定性下行动。

智能体arXiv论文/研究评测/基准
00:56
Chubby♨️@kimmonismus
55
Cognite联合创始人Geir Engdahl:工业AI失败主因在工厂运营而非模型层

Cognite CTO Geir Engdahl接受专访指出,工业AI失败的根源并非模型层,而是工厂现场运营。许多惊艳的AI试点无法在实际运营中存活,因为缺乏真正上下文——当错误可能带来危险时尤为关键。他探讨了工业智能体应在何时推荐、自动化或保持不介入,强调工作演示与可信系统之间存在巨大鸿沟。他预测,到2028年未采用AI驱动流程优化的工业企业将面临严峻挑战。这是一场务实、少谈噱头的对话。

智能体大佬观点部署/工程
00:34
Ethan Mollick@emollick
64
Ethan Mollick:Agentic工具的"软件脑"限制与知识工作扩展难题

Ethan Mollick指出,Codex/Cowork/Code等Agentic工具本质上是“软件脑”设计,只重最终代码,而多数知识工作的过程(研究、探索、原型分支等)与结果同样重要。长时运行模型Fable也因专注交付最终产品而难以用于深度知识工作,用户需费力用提示词绕过限制。这种工具与管理者/分析师思考方式的脱节,是突破编程领域、扩展到其他知识工作的关键障碍。

智能体大佬观点编码
00:09
Berryxia.AI@berryxia
53
如果用Devin的话,就能免费无限用GLM 5.2🤯 不过上下文限制最多20万,用海外版Z·ai版本直接到100万。 但这已经很爽了啊,Kimi 2.7也免费的!

indra: Nah kalau lo pakai Devin, bisa akses GLM 5.2 gratis dan unlimited🤯 cuma konteksnya maksimal 200 ribu, kalau pakai yg ve...

智能体教程/实践编码
6月21日
23:09
Berryxia.AI@berryxia
61
Agentic Engineering Workflow:让AI像工程师一样自主干活

开发者整理出一套Agentic Engineering Workflow,覆盖任务拆解、工具调用、记忆管理到错误恢复全流程,让AI像工程师一样自主规划、写代码、调试和交付,而非仅聊天写文案。该工作流包含tmux、agent记忆、skills、语音输入、长任务执行、并行worktree管理、多agent调度,以及可视化HTML编辑器Lavish和代码变更校验流水线no-mistakes。所有步骤均已在真实项目中跑通,强调工程方法比模型能力更重要。

Yanhua: 目前看到关于 "Agentic Engineering Workflow"的最完整的介绍👇 花了一个小时完整看完了,完全可以做成一个付费教程。 内容涵盖了tmux,agent记忆,skills,语音输入,长任务执行,并行worktree管...

智能体教程/实践编码
23:05
宝玉@dotey
68
宝玉认为翻译质量 Gemini 3.1 Pro 最好,Opus-4.8 自身写作能力不行导致翻译生硬,工作流无法弥补。@LinearUncle 分享 Claude Code 方案:设置 `/effort` 为 `ultracode` 后自动触发动态工作流,包括三位译者各出一稿、双语编辑评审、综合定稿、逐句校对,并用 Claude Code History Viewer 查看历史记录。

LinearUncle: Claude Code 设置/effort 为ultracode,然后翻译英文文章,你就会收获一个自动的多智能体流水线翻译流程: 先让 3 位风格各异的译者各出一稿 → 双语编辑对照原文评审挑出最佳译法 → 综合成定稿 → 最后逐句校对纠错...

智能体AnthropicGoogle教程/实践
23:03
TechCrunch:AI(RSS)
59
iOS 27 开发者测试版上线多项实用 AI 功能

iOS 27 开发者测试版上线多项基于 Apple Intelligence 的实用 AI 功能。账单分摊:拍照识别收据,通过 Apple Cash 分账。密码更新:AI 自动识别弱密码并代理登录网站升级。Messages 一键建议:根据对话内容提示添加提醒、分享照片、添加日历事件。通话时提取邮件中的确认码。支持自然语言添加或修改日历事件。Shortcuts 应用可通过描述自动化任务。这些功能将在今年秋季正式发布。

智能体产品更新端侧
‹ 上一页
1…1516171819…50
下一页 ›