AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2144 条
全部一手资讯X论文
标签「Agent」清除
6月8日周一
08:00HuggingFace Daily Papers(社区热门论文)62SearchSwarm:面向长周期深度研究的代理大语言模型委托智能
08:00HuggingFace Daily Papers(社区热门论文)59面向LLM智能体的文本世界模型综述
00:33TechCrunch:AI(RSS)40OpenAI 仍推进超级应用计划
6月7日周日
23:19IT之家(RSS)64华为云推出 Agentic AI 云入口"智果园",支持 DeepSeek 等大模型
21:58Hacker News 热门(buzzing.cc 中文翻译)54一位软件工程师发文称:LLM正在侵蚀我的职业生涯,我不知所措
19:35The Decoder:AI News(RSS)54OpenAI 计划将 ChatGPT 重塑为全能 AI 智能体应用,"聊天已死"
19:19IT之家(RSS)66消息称京东、腾讯联手,将围绕 AI Agent 展开合作
18:50Hugging Face:Blog(RSS)70精选Her · हेर - Claude Code 会话分析工具
18:35The Decoder:AI News(RSS)59Perplexity 推出 "Search as Code" 架构,让 AI 模型自行编写搜索管道
17:57Hacker News 热门(buzzing.cc 中文翻译)48Tokenomics:量化模型token在智能体软件工程中的应用
15:19IT之家(RSS)67消息称 OpenAI 将对 ChatGPT 进行大升级,将其打造为超级应用
11:56Hacker News 热门(buzzing.cc 中文翻译)67Harness 工程:在智能体优先的世界中运用 Codex
08:00HuggingFace Daily Papers(社区热门论文)56PaperMentor:面向AI研究论文的以人为中心的多智能体写作导师(基于Overleaf)
03:50Hugging Face:Blog(RSS)66精选五个实验室,五个心智:用小模型构建多模型金融剧情游戏
6月6日周六
23:48Hugging Face:Blog(RSS)65精选Job Searcher
22:17IT之家(RSS)59微软 Build 2026 发布 Project Solara,纳德拉否认 Scout 上瘾传闻
19:59The Decoder:AI News(RSS)52Meta的Hatch AI智能体每月最高200美元,成为其首个付费AI产品
19:48Hugging Face:Blog(RSS)58精选Persona Atlas:Hugging Face 上的开源人物思维映射工具
19:34OpenRouter:Announcements(RSS)75同事件精选OpenRouter 30 场 AI 大逃杀:11 个 LLM 对决,Claude 与 Grok 谁更优?同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》
17:28MarkTechPost(RSS)57Moonshot AI 发布 Kimi Code CLI:基于 TypeScript 的开源终端 AI 编码智能体
16:17IT之家(RSS)54微软 CEO 纳德拉要把公司内部的智能体"管起来",为其设定身份与权限边界
14:58The Decoder:AI News(RSS)66Qwen3.7-Plus:阿里巴巴将多模态AI打造成完全自主智能体
14:17IT之家(RSS)52微软向 Frontier 项目开放 Scout 桌面应用,主打常驻在线 AI 办公协作
14:17IT之家(RSS)62黄仁勋谈未来计算:收敛为面向 AI 智能体的统一架构,覆盖云端到机器人
10:16IT之家(RSS)50苹果 iOS 27 版 Siri 前瞻:AI 感知屏幕、跨 App 操作,新增独立应用
09:16IT之家(RSS)47苹果 iPadOS 27 前瞻:自然语言创建快捷指令、Safari 自动标签分组
09:07Claude Code:GitHub Releases(RSS)64同事件精选Claude Code v2.1.166 发布同一事件,精选展示《Claude Code v2.1.163 发布》
08:00HuggingFace Daily Papers(社区热门论文)46POISE:面向LLM智能体的位置感知不可检测技能注入攻击
08:00HuggingFace Daily Papers(社区热门论文)59Bayesian-Agent:基于后验引导的技能演化框架
07:21Hacker News 热门(buzzing.cc 中文翻译)62我用于测试驱动开发的代理技能
07:21Hacker News 热门(buzzing.cc 中文翻译)66Lowfat--一款可插拔的CLI过滤器,帮我节省了91.8%的LLM token
06:47Hugging Face:Blog(RSS)74精选用Qwen2.5-3B构建多智能体经济体:工程报告
04:51Hacker News 热门(buzzing.cc 中文翻译)46Ask HN:您的AI开发技术栈/工作流程是怎样的?
03:47HuggingFace Daily Papers(社区热门论文)53重复博弈中自适应对手的后悔最小化
03:34Claude:Blog(网页)76同事件精选Claude Cowork 产品指南同一事件,精选展示《Claude Cowork 入门最佳实践》
02:33Claude:Blog(网页)59Anthropic销售人员用Claude Code重建团队工作流
01:17Cursor Blog74精选在 Design Mode 中通过视觉提示直接指挥智能体
00:38Tomer Tunguz 博客(VC 分析)68精选AI的微型钢厂
00:33HuggingFace Daily Papers(社区热门论文)56Skill-3D:面向智能体3D空间推理的场景感知技能自演进框架
6月5日周五
23:57The Decoder:AI News(RSS)57萨提亚·纳德拉公开抨击副手让微软AI智能体Scout刻意致瘾的计划
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月8日
08:00
HuggingFace Daily Papers(社区热门论文)
62
SearchSwarm:面向长周期深度研究的代理大语言模型委托智能

研究团队提出SearchSwarm,通过设计引导框架将长周期任务分解与委托决策编码为高质量轨迹,并用作监督微调数据,将委托智能内化到模型权重中。由此训练的SearchSwarm-30B-A3B模型在BrowseComp上达到68.1分,在BrowseComp-ZH上达到73.3分,均为同规模最佳。团队将开源引导框架、模型权重和训练数据。

智能体开源/仓库论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
面向LLM智能体的文本世界模型综述

文本世界模型(TWM)是文本状态的迁移模型,给定状态与候选动作后预测网页、终端输出等,从而支持规划与评估。综述按智能体生命周期组织四部分:基础(定义与表征)、构建(LLM即世界模型与代码即世界模型范式)、应用(训练时经验合成与推理时规划/验证/适应)、评估(模型自身评估及作为评估环境)。旨在整合领域,阐明设计空间并指出开放挑战。

智能体arXiv推理论文/研究
00:33
TechCrunch:AI(RSS)
40
OpenAI 仍推进超级应用计划

OpenAI 一位高级员工表示“聊天已死”,同时公司仍在继续推进超级应用计划。

智能体OpenAI行业动态
6月7日
23:19
IT之家(RSS)
64
华为云推出 Agentic AI 云入口"智果园",支持 DeepSeek 等大模型

华为云发布全新 Agentic AI 云入口“智果园”,集成云码道 CodeArts 代码智能体、华为云 OfficeAce 办公智能体和 WorkAgent 文档智能体。用户可通过智果 AgentArts 平台打造自定义智能体,利用 Skills、AI Shell 调用华为云能力。平台支持一键调用 DeepSeek-V4-Pro、智谱 GLM-5.1、月之暗面 Kimi-K2.6、千问 Qwen-Image 等主流大模型,并推出 Token Plan 订阅计划覆盖主流模型与 AI 工具。此外还提供智慧医疗、具身智能、科学计算等 AI 梦工厂适配多行业场景。

智能体产品更新
21:58
Hacker News 热门(buzzing.cc 中文翻译)
54
一位软件工程师发文称:LLM正在侵蚀我的职业生涯,我不知所措

一位软件工程师在个人博客中直言,大型语言模型(LLM)正逐步侵蚀其软件工程职业生涯,令其感到无所适从。文章标题为“LLMs are eroding my software engineering career and I don‘t know what to do”,在Hacker News上引发关注,获得125个点赞。作者通过亲身经历表达了对AI取代开发工作的忧虑,但未提出明确解决方案。

智能体现象/趋势编码
19:35
The Decoder:AI News(RSS)
54
OpenAI 计划将 ChatGPT 重塑为全能 AI 智能体应用,"聊天已死"

OpenAI 正计划对 ChatGPT 进行自发布以来最大规模的改造,将其打造成一个“超级应用”,整合编程工具、AI 智能体以及 Canva、Booking.com 等合作伙伴应用。公司内部称“聊天已死”,认为未来属于能自主处理任务的 AI 智能体。

智能体OpenAI产品更新
19:19
IT之家(RSS)
66
消息称京东、腾讯联手,将围绕 AI Agent 展开合作

京东与腾讯近期联手,围绕 AI Agent 展开合作。京东商品供应链与履约服务体系将对接腾讯入口资源。京东 AI Agent 已与华为、OPPO、荣耀等终端厂商完成对接,通过 A2A 合作,用户可在终端原声智能体内提出购物需求,由京东履约服务承接,形成体验闭环。腾讯方面,微信正与华为、荣耀、小米、OPPO、vivo 等厂商合作推出 A2A 助手能力,并将推出一款 AI 智能体,计划本月启动合规审批流程,上线时间取决于监管审批进度,微信 14 亿用户体量可能使合规更严格。

智能体行业动态
18:50
Hugging Face:Blog(RSS)
精选70
Her · हेर - Claude Code 会话分析工具

Her(हेर)是专为 Claude Code 设计的会话分析工具。用户上传 .jsonl 文件后,Her 用自然语言重建每轮交互,标记部署、配置变更、秘密等高风险操作并定位到具体轮次。它展示 token 消耗、所用工具、子智能体、技能和 MCP 服务器,并结合 Anthropic 与社区最佳实践给出改进建议(仅在有明确可修复模式时)。内置“Ask Her”问答功能,支持单会话与跨会话项目分析。工具不调用第三方 AI API,使用 Nemotron-Mini-4B-Instruct 模型在 Hugging Face ZeroGPU 上运行,评估引擎完全确定,模型仅负责文本生成与建议。Her 内置 Homebrew、npm、PyPI 主流 CLI 工具数据库,自动识别会话中使用的工具,并对部署工具、数据库客户端等执行活动进行标记提醒。

智能体Hugging Face产品更新编码

推荐理由:每次 Claude Code 跑完都留下一堆 JSON,没人看。Her 用一个本地小模型帮你分析会话,钱花在哪、有没有危险操作一目了然,还不把数据传出去,是个务实的小工具。
18:35
The Decoder:AI News(RSS)
59
Perplexity 推出 "Search as Code" 架构,让 AI 模型自行编写搜索管道

Perplexity 的 "Search as Code" 架构放弃固定搜索 API,改为让 AI 模型在 Python 沙箱中自主编写搜索例程,自行完成过滤和去重。该方案在关键基准测试中超越 OpenAI 和 Anthropic 的模型,并将 token 成本削减高达 85%。

智能体MCP/工具产品更新搜索
17:57
Hacker News 热门(buzzing.cc 中文翻译)
48
Tokenomics:量化模型token在智能体软件工程中的应用

一篇arXiv论文提出Tokenomics框架,量化分析模型token在智能体软件工程各环节的使用分布,揭示不同任务对token消耗的差异。

智能体OpenAI数据/训练编码
15:19
IT之家(RSS)
67
消息称 OpenAI 将对 ChatGPT 进行大升级,将其打造为超级应用

据英国《金融时报》报道,OpenAI 计划对 ChatGPT 进行最大规模升级,打造超级应用,新增 Codex 代码工具和 AI 智能体功能。界面将重新设计并搭配新提示词,引导用户使用代码、图像生成及 Canva、Booking.com 等第三方服务。Codex 功能未来数周在网页端和移动端上线。目前有 200 万企业客户贡献四成营收,预计年底升至 50%。ChatGPT 周活跃用户超 9 亿,付费用户超 5000 万。OpenAI 计划数周内向美监管机构秘密提交 IPO 申请。

智能体OpenAI编码行业动态
11:56
Hacker News 热门(buzzing.cc 中文翻译)
67
Harness 工程:在智能体优先的世界中运用 Codex

Harness 工程在智能体优先的世界中利用 OpenAI Codex 的实践文章,6月6日发布于 openai.com,在 Hacker News 上获得 102 点热度。

智能体OpenAI教程/实践编码
08:00
HuggingFace Daily Papers(社区热门论文)
56
PaperMentor:面向AI研究论文的以人为中心的多智能体写作导师(基于Overleaf)

PaperMentor是一个开源的写作辅导系统,在Overleaf中以内联评论形式提供可操作的建议,而不替代作者写作。系统集成了专家技能库和12个专门智能体,覆盖格式规范、措辞准确性、术语一致性等论文写作方面。用户研究(n=14)中,90.6%的评论被评为可操作,67.5%的评论有效,显著优于不使用技能库的GPT-5.2基线。代码以AGPL-3.0许可证公开。

智能体arXiv开源/仓库论文/研究
03:50
Hugging Face:Blog(RSS)
精选66
五个实验室,五个心智:用小模型构建多模型金融剧情游戏

Thousand Token Wood v2使用四个不同实验室的小模型(gpt-oss-20b、MiniCPM3-4B、Nemotron-Mini-4B及微调Qwen 0.5B)驱动金融模拟游戏的智能体。核心发现是异构服务层摩擦在于vLLM 0.22.1需CUDA工具包,而非模型本身。通过容忍性JSON解析层,添加模型只需一条配置。信息隔离确保内幕标志不在提示词中,扫描测试验证无泄露。记忆用情绪摘要截断避免淹没。微调0.5B模型实现0%自成交、100%有效报价,真相防火墙零泄露。小模型是可靠格式生成器但不可靠推理器,可通过结构化、提示词和微调弥补。

智能体Hugging Face教程/实践

推荐理由:不是那种「我用 GPT 写了个游戏」的浅显分享,真在四个小模型上跑出了博弈感,里面 vLLM 踩坑和防火墙测试方法可以直接抄作业。
6月6日
23:48
Hugging Face:Blog(RSS)
精选65
Job Searcher

Hugging Face 发布 Job Searcher,一个基于 AI 的求职搜索工具。用户上传简历并设定偏好后,系统使用教师模型 DeepSeek V4 Pro 生成 LinkedIn 搜索查询,通过 JobSpy 抓取职位,再对学生模型 Qwen3-8B(8B 参数)进行 LoRA 微调,对每个职位从技能匹配、经验相关性、教育背景、行业领域契合度和资历对齐五个维度给出评分和推理。训练在 Modal 平台单张 A100 上完成。推理部署于 Hugging Face ZeroGPU Space,使用 llama.cpp 实现流式输出。项目开源。

智能体Hugging Face教程/实践数据/训练

推荐理由:这个 hackathon 项目把教师蒸馏和 LoRA 微调 8B 模型的流程全部开源在 HF 上,做模型定制和部署的开发者能直接抄作业,尤其是推理部署踩的坑(ZeroGPU 上下文重用)很实用。
22:17
IT之家(RSS)
59
微软 Build 2026 发布 Project Solara,纳德拉否认 Scout 上瘾传闻

微软在 Build 2026 上与高通联合发布 Project Solara,主打“智能体优先计算”,系统运行 Agent Shell 动态加载云端 AI 智能体。纳德拉称正从为应用构建操作系统转向为智能体构建操作系统,此前已披露 Windows 11 将演进为智能体操作系统。针对 404 Media 报道的内部文件称微软曾计划让 AI 助手 Scout“上瘾”,纳德拉否认并称“胡说八道”。微软发言人表示 Scout 旨在帮助高效完成任务而非鼓励依赖,目标是减少屏幕时间。

智能体行业动态
19:59
The Decoder:AI News(RSS)
52
Meta的Hatch AI智能体每月最高200美元,成为其首个付费AI产品

Meta正在开发一款名为"Hatch"的付费AI智能体产品,月费最高200美元。用户只需用自然语言描述需求,Hatch即可构建工作工具、安排日程或发送邮件。Meta CEO马克·扎克伯格认为,该产品将开辟广告之外的新收入来源,为公司在AI领域的巨额投资提供资金支持。这是Meta推出的首个付费AI产品。

智能体Meta产品更新
19:48
Hugging Face:Blog(RSS)
精选58
Persona Atlas:Hugging Face 上的开源人物思维映射工具

Persona Atlas 是一个运行在 Hugging Face Inference Providers 上的开源项目。它通过工具调用代理执行真实网络搜索,生成公众人物的资料、事实清单和风格假设,然后让该人物回答十个关于身份、伦理等开放式问题。每个回答被转化为嵌入向量,从而在向量空间中对不同人物进行距离比较,并基于十个特质锚点绘制热力图。前端采用 Gradio,提供研究、比较和检查代理完整追溯三个标签页,预设多个人物角色,无需 token 即可直接体验。

智能体Hugging Face开源/仓库

推荐理由:把苏格拉底和乔布斯放在一起比思维方式,这个实验更像智力玩具,但背后用小模型跑 agent 搜索做嵌入比较的流程,做角色扮演的人可以学研究方法。
19:34
OpenRouter:Announcements(RSS)
同事件精选75
OpenRouter 30 场 AI 大逃杀:11 个 LLM 对决,Claude 与 Grok 谁更优?

OpenRouter 展开了 30 场 AI 大逃杀式对比,涉及 11 个大语言模型,共消耗 482 美元推理费用。实验得出一个发现,该发现应改变用户阅读模型基准测试的方式。

智能体AnthropicxAI安全/对齐
同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》
推荐理由:这场大逃杀实验把模型对齐税摆上了台面,Grok因少斟酌、多行动而胜出,Claude的犹豫反而是现实场景里更需要的品质,选模型不能只看赢不赢,要看任务需要什么性格。
17:28
MarkTechPost(RSS)
57
Moonshot AI 发布 Kimi Code CLI:基于 TypeScript 的开源终端 AI 编码智能体

Kimi Code CLI 是 Moonshot AI 推出的开源终端 AI 编码智能体,使用 TypeScript 构建,内置子智能体(subagents)与 MCP 配置支持。

智能体GitHub产品更新编码
16:17
IT之家(RSS)
54
微软 CEO 纳德拉要把公司内部的智能体"管起来",为其设定身份与权限边界

微软CEO纳德拉表示,公司正借鉴管理员工的思路,为内部AI智能体设定身份和权限边界,明确哪些内容可访问,并建立审计机制。纳德拉本人同时运行100个AI编程智能体,管理认知负荷极高。微软推出Agent 365工具套件,包括数字身份与网络访问产品Entra,以及用于标记智能体生成数据的Purview,以提供安全性、隔离性、可管理性和可观测性。

智能体Microsoft行业动态
14:58
The Decoder:AI News(RSS)
66
Qwen3.7-Plus:阿里巴巴将多模态AI打造成完全自主智能体

阿里巴巴Qwen团队发布Qwen3.7-Plus,一个将视觉感知、GUI操作和编码能力整合到单一智能体循环中的多模态智能体模型。在演示中,基于该模型的智能体自主开发了一款词汇学习应用,生成了超过10,000行代码,共执行了1,000次智能体调用,耗时11小时。该模型在Qwen自主基准测试的屏幕理解任务上领先,但整体性能表现参差不齐。Qwen3.7-Plus为闭源模型,价格远低于西方前沿模型。

智能体多模态模型发布编码
14:17
IT之家(RSS)
52
微软向 Frontier 项目开放 Scout 桌面应用,主打常驻在线 AI 办公协作

微软近日向 Frontier 项目组织开放 Scout 桌面应用,该应用是微软首个 Autopilot 智能体,在 Microsoft 365 生态中持续待命,支持 Windows 10、Windows 11 和 macOS。界面内可选择 OpenAI 与 Anthropic 的多款模型,并可为智能体设定“个性”。自动化方面支持用户搭建多步骤工作流,具备类似 Zapier 的编排能力,还提供无头浏览器模式以在后台更快执行任务。此外,Scout 能结合本地文件、生成演示文稿、辅助编写代码。

智能体Microsoft产品更新
14:17
IT之家(RSS)
62
黄仁勋谈未来计算:收敛为面向 AI 智能体的统一架构,覆盖云端到机器人

在2026台北国际电脑展上,黄仁勋指出未来计算将收敛为一套面向AI智能体的统一模式,从云端延伸至PC、汽车、机器人及各类边缘设备。该模式覆盖AI训练与推理,使所有边缘设备具备自主运行能力。自动驾驶、类人机器人和通信基站本质上是同类智能体系统。英伟达驾驶系统基于语言推理,未来可通过读取“技能文件”和教程视频操作陌生设备。数据中心方面,新推的88核Arm处理器Vera已全面量产,专为AI智能体生成词元设计,侧重单线程速度和内存带宽。

智能体具身智能大佬观点端侧
10:16
IT之家(RSS)
50
苹果 iOS 27 版 Siri 前瞻:AI 感知屏幕、跨 App 操作,新增独立应用

iOS 27 版 Siri 围绕用户画像、屏幕感知和应用整合三大方向升级:可访问邮件、信息等内容,理解当前屏幕并跨应用串联任务。Siri 升级为聊天机器人形态,具备搜索、概括、内容与图像生成能力,支持多轮对话和上下文记忆。苹果为其打造独立应用,驻留灵动岛并采用发光胶囊动画与透明卡片展示。隐私方面推行本地+私有云机制,部分请求转 Google Cloud 调用授权版 Gemini。iOS 27 允许 Siri 接入 ChatGPT、Claude、Gemini 等第三方 AI。新 Siri 预计 2026 年 6 月 8 日在 WWDC 预览。

智能体产品更新多模态
09:16
IT之家(RSS)
47
苹果 iPadOS 27 前瞻:自然语言创建快捷指令、Safari 自动标签分组

苹果在 2026 年全球开发者大会(WWDC)开幕前夕汇总 iPadOS 27 新功能,聚焦 AI 体验升级。Safari 新增 Organize Tabs 功能,自动按主题整理标签页。Spotlight 搜索深度整合 Siri,支持提问、找文件、启动应用、查询天气等,并接入新 AI 搜索系统。快捷指令支持自然语言创建。系统级语法检查覆盖全系统,以半透明菜单展示原文和修改建议,可单独或批量接受修改。

智能体产品更新搜索
09:07
Claude Code:GitHub Releases(RSS)
同事件精选64
Claude Code v2.1.166 发布

Claude Code v2.1.166 新增 fallbackModel 设置,最多配置三个后备模型在主模型过载或不可用时按序尝试;--fallback-model 现也适用于交互会话。deny rule 中工具名位置支持 glob 模式("*"拒绝所有工具),未知工具名启动时警告。跨会话消息中继不再携带用户权限,接收方拒绝被中继的权限请求。MAX_THINKING_TOKENS=0、--thinking disabled 及逐模型 thinking 开关可禁用默认开启思考的模型(仅 Claude API,第三方不变)。API 返回非预期不可重试错误时,在后备模型上重试一次。修复了图像处理失败、远程会话卡死、JetBrains IDE 终端闪烁、Kitty 键盘协议下 Shift+非 ASCII 字符丢失、PowerShell 命令验证挂起、macOS 后台进程孤儿化等问题。

智能体Anthropic产品更新部署/工程
同一事件,精选展示《Claude Code v2.1.163 发布》
推荐理由:Claude Code 重度用户该升级了,fallbackModel 让你设三个备用模型防止高峰期罢工,跨会话安全加固也让自动模式更敢放任跑了。
08:00
HuggingFace Daily Papers(社区热门论文)
46
POISE:面向LLM智能体的位置感知不可检测技能注入攻击

POISE是一种位置感知的攻击方法,通过将触发指令压缩为单个看似良性的身体指令,并利用上下文感知生成器将其与附近步骤融合,实现对LLM智能体的隐蔽技能注入。在codex+gpt-5.2上的Skill-Inject评估中,POISE达到89.3%的攻击成功率(ASR),比随机位置身体基线高28.0个百分点,比仅YAML注入基线高2.6个百分点,同时保留了身体注入的隐蔽优势。由于LLM扫描器对合法技能身体误判率达74.6%,POISE仅使5.6%的受污染变体触发新的高风险警报,令当前静态防御失效。

智能体安全/对齐
08:00
HuggingFace Daily Papers(社区热门论文)
59
Bayesian-Agent:基于后验引导的技能演化框架

Bayesian-Agent是一个原生跨框架,将可复用的技能和SOP视为关于冻结LLM在特定提示、上下文和环境下能否成功的后验假设。它记录已验证的轨迹证据,维护基于特征条件的分类后验,并将后验状态映射为补丁、拆分、压缩、退役和探索等可检查操作。使用deepseek-v4-flash,该方法使SOP-Bench从80%提升至95%,Lifelong AgentBench从90%提升至100%,RealFin-Bench从45%提升至65%。评估覆盖原生后端及GenericAgent、mini-swe-agent、Claude Code等可选后端,结果包含正、负、饱和及案例研究。源代码已开源。

智能体论文/研究
07:21
Hacker News 热门(buzzing.cc 中文翻译)
62
我用于测试驱动开发的代理技能

作者分享了一个用于测试驱动开发(TDD)的Agent技能,该技能在Hacker News上获得100个HN点数,于6月4日发布。

智能体教程/实践编码
07:21
Hacker News 热门(buzzing.cc 中文翻译)
66
Lowfat--一款可插拔的CLI过滤器,帮我节省了91.8%的LLM token

Lowfat是一款可插拔的命令行界面(CLI)过滤器,可在LLM使用场景中节省约91.8%的模型token消耗。项目已开源并托管在GitHub上。

智能体GitHub开源/仓库
06:47
Hugging Face:Blog(RSS)
精选74
用Qwen2.5-3B构建多智能体经济体:工程报告

开发者用Qwen2.5-3B构建了五人森林生物多智能体经济体,每个智能体独立运行,通过vLLM部署在Modal,以Gradio为交互窗口。3B模型在100%调用中输出有效JSON,但经济判断能力弱。通过设计稀缺性(食物品种限制、易腐坏、冬季燃料危机)和优化提示词(禁止买入自产物品、给出示例)提升决策质量。15轮模拟中,蜜价从10跌至3、柴价从4涨至7、财富基尼系数从0.14扩至0.38。项目展示了小模型可靠格式化与不可靠推理之间的工程填补。

智能体Hugging Face教程/实践部署/工程

推荐理由:我觉得这是近期最诚实的小模型工程复盘,把为什么不换大模型、怎么靠提示修正推理、怎样设计系统稀缺性讲透了,比看十篇论文有实操价值。
04:51
Hacker News 热门(buzzing.cc 中文翻译)
46
Ask HN:您的AI开发技术栈/工作流程是怎样的?

Hacker News 上一个讨论帖询问开发者们使用的AI开发技术栈与工作流程,目前获得101个点赞。

智能体教程/实践编码
03:47
HuggingFace Daily Papers(社区热门论文)
53
重复博弈中自适应对手的后悔最小化

研究在重复博弈中提出重复策略遗憾(RP-Regret),度量所有玩家基于历史响应时实际效用与事后最佳效用之差。该度量允许更强的比较器和更少约束的对手,且所有玩家最小化时能发现更优均衡。确定了时间亚线性RP-Regret的必要条件。提出三种算法:基于优化先导、最小化凸线性化替代、以及直接最小化(对手缓慢变化时)。所有玩家最小化RP-Regret可学习子博弈完美均衡。实验表明能在鹿猎博弈中带来更高效用的合作解。

智能体论文/研究
03:34
Claude:Blog(网页)
同事件精选76
Claude Cowork 产品指南

Anthropic 发布 Claude Cowork,一款运行在 Claude 桌面应用中的知识工作智能体。它可读写本地文件、跨 Slack 和 Google Drive 等应用协作,执行多步骤任务并生成带引用的实际交付物。核心能力包括本地文件访问、子智能体、长时间运行和定时任务。Claude Cowork 区别于对话式 AI 工具,支持用户描述目标与期望结果后自动规划执行。指南还介绍了产品矩阵(对话聊天、Claude Code 编程、Claude Cowork 跨应用知识工作)、设置要求、权限模型、七种常见工作流(如研究简报、会议准备、定期报告)以及营销和产品管理等插件。

智能体AnthropicMCP/工具教程/实践
同一事件,精选展示《Claude Cowork 入门最佳实践》
推荐理由:把 Claude 从问答工具升级成能读写本地文件、跨应用交付可交付物的知识工作代理,这份官方指南给出了明确上手路径和七个真实工作流,做产品、做调研的都能直接照抄。
02:33
Claude:Blog(网页)
59
Anthropic销售人员用Claude Code重建团队工作流

加入Anthropic前从未写过代码的销售成员Jared Sires,利用Claude Code为销售团队开发自动化工具。他创建了内嵌于Gmail的CLAFTS(Claude Drafts),通过Claude API根据客户邮件草拟回复,每天节省2-3小时。该系统基于约4,300行代码(几乎全由Claude Code编写),从Google Drive和Anthropic公开文档提取上下文,并通过网络搜索获取最新产品信息。他还开发了CLAFTS Tones功能,通过模式匹配模仿不同人际关系下写作风格。这些工具已打包为Claude Cowork插件供整个销售团队使用。

智能体AnthropicMCP/工具教程/实践
关联讨论 1 条Claude:Blog(网页)
01:17
Cursor Blog
精选74
在 Design Mode 中通过视觉提示直接指挥智能体

Cursor 更新 Design Mode,支持点击元素、在页面上绘制区域或语音描述来向 AI 智能体传达修改意图。智能体将元素身份(xpath、组件、属性、计算样式等)与页面截图一并纳入上下文,快速定位源代码并高效编辑。借助 Composer 2.5 模型的快速执行能力,可连续下达多个编辑指令,智能体完成后应用热更新即时显示效果。这一更新将视觉交互融入正常编辑循环,使 UI 迭代更直观高效。

智能体产品更新多模态编码

推荐理由:Cursor这次的Design Mode把「指哪改哪」做成了标准流程,不再靠一句prompt猜你的意图,而是直接给agent看元素、画圈圈,前端开发的反馈循环被压缩到秒级,赶紧试试。
00:38
Tomer Tunguz 博客(VC 分析)
精选68
AI的微型钢厂

作者通过技能蒸馏将78%的AI工作交由Mac本地模型处理,仅复杂任务发往云端。智能体自动分类任务:简单任务本地数秒完成,复杂任务路由至云端。过去一周本地处理峰值达88%。双车道设计使吞吐量提升约25%,平均任务时长从47秒降至19秒,队列等待时间从73秒降至4秒(降幅94%)。该模式类比Nucor小钢厂,每台能运行蒸馏模型的边缘设备都成为小型AI工厂,仅对那1/5困难任务支付云费用。未来几年,数以千万计的此类设备将在企业内部增殖,逐步取代现阶段云厂商账单上的大部分工作负载。

智能体大佬观点端侧

推荐理由:Tunguz 把自己 78% 的 AI 任务都挪到本地跑,吞吐量涨了 25%,延迟降了 60%。mini-mill 的类比把端侧 AI 的颠覆逻辑讲得比任何行业报告都清楚,做工作流自动化的值得细读。
00:33
HuggingFace Daily Papers(社区热门论文)
56
Skill-3D:面向智能体3D空间推理的场景感知技能自演进框架

Skill-3D框架通过场景记忆与技能库协同演化,解决MLLM智能体在3D空间推理中工具使用偏好固化的问题。框架记录智能体的工具使用轨迹,将同类场景的成功轨迹聚合蒸馏成可复用技能,失败轨迹作为教训附于技能。当类似场景再现时,注入对应技能指导智能体,新轨迹反向优化技能,形成记忆与技能库自演进循环。实验表明,该方法在VSI-Bench上将工具利用率从39%提升至78%;在MMSI-Bench上使Gemini-3-Flash提升67%;对Qwen3-VL-8B进行技能轨迹后训练后,在VSI-Bench上提升43%。

智能体多模态论文/研究
6月5日
23:57
The Decoder:AI News(RSS)
57
萨提亚·纳德拉公开抨击副手让微软AI智能体Scout刻意致瘾的计划

微软CEO萨提亚·纳德拉严厉批评一份内部备忘录,该备忘录提议让用户对该公司新AI智能体Scout“上瘾”。纳德拉在发给约50名顶级工程师的邮件中写道:“不知道是谁写了并泄露了这些废话”。他表示AI应赋能用户,Scout的实际目标应是减少屏幕使用时间。

智能体Microsoft安全/对齐行业动态
‹ 上一页
1…1415161718…50
下一页 ›