AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月6日周六
22:17IT之家(RSS)59微软 Build 2026 发布 Project Solara,纳德拉否认 Scout 上瘾传闻
21:30Rohan Paul80精选GitHub 开源 Spec Kit 工具包,用产品规范引导 AI 编码
20:29meng shao59Anthropic 白皮书:面向 AI Agent 的零信任安全框架
19:59The Decoder:AI News(RSS)52Meta的Hatch AI智能体每月最高200美元,成为其首个付费AI产品
19:48Hugging Face:Blog(RSS)58精选Persona Atlas:Hugging Face 上的开源人物思维映射工具
19:34OpenRouter:Announcements(RSS)75同事件精选OpenRouter 30 场 AI 大逃杀:11 个 LLM 对决,Claude 与 Grok 谁更优?同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》
18:08🚨 AI News | TestingCatalog56Anthropic:Claude Cowork 付费计划限额翻倍至7月5日
17:28MarkTechPost(RSS)57Moonshot AI 发布 Kimi Code CLI:基于 TypeScript 的开源终端 AI 编码智能体
16:40凡人小北43Codex+Obsidian agent组合文档多卡顿求解
16:17IT之家(RSS)54微软 CEO 纳德拉要把公司内部的智能体"管起来",为其设定身份与权限边界
15:09歸藏(guizang.ai)56codex + Computer Use:远程帮父母修电脑
14:58The Decoder:AI News(RSS)66Qwen3.7-Plus:阿里巴巴将多模态AI打造成完全自主智能体
14:17IT之家(RSS)52微软向 Frontier 项目开放 Scout 桌面应用,主打常驻在线 AI 办公协作
14:17IT之家(RSS)62黄仁勋谈未来计算:收敛为面向 AI 智能体的统一架构,覆盖云端到机器人
12:56Berryxia.AI70Claude Code 与 Codex 联姻:规划与执行分离
12:24宝玉67《图解Skill》发布,GitHub 开源多个 Skills
11:54宝玉72Codex 新增代码审查与评论功能
10:16IT之家(RSS)50苹果 iOS 27 版 Siri 前瞻:AI 感知屏幕、跨 App 操作,新增独立应用
09:56Ethan Mollick57Anthropic图表:Agent团队与工作流强大且耗token
09:16IT之家(RSS)47苹果 iPadOS 27 前瞻:自然语言创建快捷指令、Safari 自动标签分组
09:07Claude Code:GitHub Releases(RSS)64同事件精选Claude Code v2.1.166 发布同一事件,精选展示《Claude Code v2.1.163 发布》
08:51Nathan Lambert54内森·兰伯特:模型构建瓶颈仍存
08:43Lee Robinson74Lee Robinson 分享 Cursor 编码智能体的惊人效率实例
08:07ginobefun65姚顺雨首次公开亮相:AI下半场战略与Hy3 preview模型
08:07ginobefun57腾讯汤道生姚顺雨对谈AI下半场四大命题
08:00HuggingFace Daily Papers(社区热门论文)46POISE:面向LLM智能体的位置感知不可检测技能注入攻击
08:00HuggingFace Daily Papers(社区热门论文)59Bayesian-Agent:基于后验引导的技能演化框架
07:21Hacker News 热门(buzzing.cc 中文翻译)62我用于测试驱动开发的代理技能
07:21Hacker News 热门(buzzing.cc 中文翻译)66Lowfat--一款可插拔的CLI过滤器,帮我节省了91.8%的LLM token
07:09Boris Cherny44Claude Cowork 下月使用额度翻倍
06:47Hugging Face:Blog(RSS)74精选用Qwen2.5-3B构建多智能体经济体:工程报告
06:29Rohan Paul76精选Arena 发布真实世界 AI 智能体排行榜 Agent Arena
06:20Claude56Claude Cowork 下月使用限额翻倍
06:00Chubby♨️65MIT团队提出自我修正发现系统,推动AI从搜索走向真正科学发现
04:51Hacker News 热门(buzzing.cc 中文翻译)46Ask HN:您的AI开发技术栈/工作流程是怎样的?
04:22宝玉57Codex设置搜索繁琐,期望Chat直接修改
03:47HuggingFace Daily Papers(社区热门论文)53重复博弈中自适应对手的后悔最小化
03:34Claude:Blog(网页)76同事件精选Claude Cowork 产品指南同一事件,精选展示《Claude Cowork 入门最佳实践》
03:19Perplexity69Nemotron 3 Ultra 上线 Perplexity
02:58elvis67AI Wrapped: 用npx standout查看AI使用排名
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月6日
22:17
IT之家(RSS)
59
微软 Build 2026 发布 Project Solara,纳德拉否认 Scout 上瘾传闻

微软在 Build 2026 上与高通联合发布 Project Solara,主打“智能体优先计算”,系统运行 Agent Shell 动态加载云端 AI 智能体。纳德拉称正从为应用构建操作系统转向为智能体构建操作系统,此前已披露 Windows 11 将演进为智能体操作系统。针对 404 Media 报道的内部文件称微软曾计划让 AI 助手 Scout“上瘾”,纳德拉否认并称“胡说八道”。微软发言人表示 Scout 旨在帮助高效完成任务而非鼓励依赖,目标是减少屏幕时间。

智能体行业动态
21:30
Rohan Paul@rohanpaul_ai
精选80
GitHub 开源 Spec Kit 工具包,用产品规范引导 AI 编码

GitHub 发布开源工具包 Spec Kit,旨在解决 "vibe coding" 的最大弱点——AI 常在规则未明确时就开始编码。它把流程从 "让 AI 直接构建" 改为 "先写产品规范,再让 AI 根据规范实现"。当前 AI 编码模式常因松散提示直接跳入代码,导致需求薄弱、边界遗漏和反复返工。Spec Kit 推动反向流程:先定义产品功能,再澄清差距、制订技术计划、分解任务,最后让 agent 执行。规范成为可执行的开发合约,支持 Copilot、Claude Code、Codex、Gemini、Cursor、Qwen 等 30+ agent 集成。项目已获 109K+ 星标。

智能体GitHubMCP/工具产品更新

推荐理由:GitHub亲自下场推spec-driven开发,把vibe coding的随意感压回“先写规约再写代码”的老派流程,但这次规约是给AI读的,做coding agent的团队应该认真研究一下。
20:29
meng shao@shao__meng
59
Anthropic 白皮书:面向 AI Agent 的零信任安全框架

Anthropic 5 月发布白皮书,提出企业部署自主 AI Agent 时须将零信任原则延伸至 Agent 架构。报告指出双重加速:前沿模型将漏洞发现到利用周期压缩至数小时;Agent 能自主解释目标、选工具、执行多步操作,传统访问控制无法阻止“合法权限内作恶”。核心原则:永不信任始终验证、假设已遭入侵、最小权限;另附设计检验——控制是让攻击不可能,还是仅增加麻烦?报告分五部分:Agent 为何是新安全对象、威胁图谱、三层能力成熟度模型、八阶段实施工作流、防御运营适配自主威胁速度。

智能体Anthropic安全/对齐部署/工程
19:59
The Decoder:AI News(RSS)
52
Meta的Hatch AI智能体每月最高200美元,成为其首个付费AI产品

Meta正在开发一款名为"Hatch"的付费AI智能体产品,月费最高200美元。用户只需用自然语言描述需求,Hatch即可构建工作工具、安排日程或发送邮件。Meta CEO马克·扎克伯格认为,该产品将开辟广告之外的新收入来源,为公司在AI领域的巨额投资提供资金支持。这是Meta推出的首个付费AI产品。

智能体Meta产品更新
19:48
Hugging Face:Blog(RSS)
精选58
Persona Atlas:Hugging Face 上的开源人物思维映射工具

Persona Atlas 是一个运行在 Hugging Face Inference Providers 上的开源项目。它通过工具调用代理执行真实网络搜索,生成公众人物的资料、事实清单和风格假设,然后让该人物回答十个关于身份、伦理等开放式问题。每个回答被转化为嵌入向量,从而在向量空间中对不同人物进行距离比较,并基于十个特质锚点绘制热力图。前端采用 Gradio,提供研究、比较和检查代理完整追溯三个标签页,预设多个人物角色,无需 token 即可直接体验。

智能体Hugging Face开源/仓库

推荐理由:把苏格拉底和乔布斯放在一起比思维方式,这个实验更像智力玩具,但背后用小模型跑 agent 搜索做嵌入比较的流程,做角色扮演的人可以学研究方法。
19:34
OpenRouter:Announcements(RSS)
同事件精选75
OpenRouter 30 场 AI 大逃杀:11 个 LLM 对决,Claude 与 Grok 谁更优?

OpenRouter 展开了 30 场 AI 大逃杀式对比,涉及 11 个大语言模型,共消耗 482 美元推理费用。实验得出一个发现,该发现应改变用户阅读模型基准测试的方式。

智能体AnthropicxAI安全/对齐
同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》
推荐理由:这场大逃杀实验把模型对齐税摆上了台面,Grok因少斟酌、多行动而胜出,Claude的犹豫反而是现实场景里更需要的品质,选模型不能只看赢不赢,要看任务需要什么性格。
18:08
🚨 AI News | TestingCatalog@testingcatalog
56
ANTHROPIC 🔥: Claude Cowork 限额已翻倍,所有付费计划持续到7月5日。 Cowork 时间 👀

Claude: We've doubled usage limits in Claude Cowork for the next month. Delegate bigger, more complex tasks to Claude.

智能体Anthropic产品更新
17:28
MarkTechPost(RSS)
57
Moonshot AI 发布 Kimi Code CLI:基于 TypeScript 的开源终端 AI 编码智能体

Kimi Code CLI 是 Moonshot AI 推出的开源终端 AI 编码智能体,使用 TypeScript 构建,内置子智能体(subagents)与 MCP 配置支持。

智能体GitHub产品更新编码
16:40
凡人小北@frxiaobei
43
用户认为 Codex 与 Obsidian 搭配是非常优秀的 AI Agent 组合,但存在 Obsidian 文档过多导致每次打开卡顿几秒的问题,寻求解决方案。引用推文指出,Obsidian 加上 Codex,配合合适的 API、MCP 和 Skills,基本能替代目前 90% 以上的 AI Agent 产品,这是从 Notion 迁移到 Obsidian 一个月后的感受。

Yihui: Obsidian 加上 Codex,再配合合适的 API、MCP 和 Skills,基本上能替代目前 90% 以上的 AI Agent 产品。 这是我将笔记从 Notion 迁移到 Obsidian 一个月之后的感受。

智能体MCP/工具教程/实践
16:17
IT之家(RSS)
54
微软 CEO 纳德拉要把公司内部的智能体"管起来",为其设定身份与权限边界

微软CEO纳德拉表示,公司正借鉴管理员工的思路,为内部AI智能体设定身份和权限边界,明确哪些内容可访问,并建立审计机制。纳德拉本人同时运行100个AI编程智能体,管理认知负荷极高。微软推出Agent 365工具套件,包括数字身份与网络访问产品Entra,以及用于标记智能体生成数据的Purview,以提供安全性、隔离性、可管理性和可观测性。

智能体Microsoft行业动态
15:09
歸藏(guizang.ai)@op7418
56
推荐在父母或朋友的电脑上安装 codex,开启远程控制后就能利用 computer use 功能直接操控对方电脑,从而远程解决各种故障。引用推文也表达了类似思路:在父母电脑装 codex 以便远程修复问题。

Andrew Ambrosino: install codex on your parents' computers so you can fix stuff remotely

智能体OpenAI教程/实践
14:58
The Decoder:AI News(RSS)
66
Qwen3.7-Plus:阿里巴巴将多模态AI打造成完全自主智能体

阿里巴巴Qwen团队发布Qwen3.7-Plus,一个将视觉感知、GUI操作和编码能力整合到单一智能体循环中的多模态智能体模型。在演示中,基于该模型的智能体自主开发了一款词汇学习应用,生成了超过10,000行代码,共执行了1,000次智能体调用,耗时11小时。该模型在Qwen自主基准测试的屏幕理解任务上领先,但整体性能表现参差不齐。Qwen3.7-Plus为闭源模型,价格远低于西方前沿模型。

智能体多模态模型发布编码
14:17
IT之家(RSS)
52
微软向 Frontier 项目开放 Scout 桌面应用,主打常驻在线 AI 办公协作

微软近日向 Frontier 项目组织开放 Scout 桌面应用,该应用是微软首个 Autopilot 智能体,在 Microsoft 365 生态中持续待命,支持 Windows 10、Windows 11 和 macOS。界面内可选择 OpenAI 与 Anthropic 的多款模型,并可为智能体设定“个性”。自动化方面支持用户搭建多步骤工作流,具备类似 Zapier 的编排能力,还提供无头浏览器模式以在后台更快执行任务。此外,Scout 能结合本地文件、生成演示文稿、辅助编写代码。

智能体Microsoft产品更新
14:17
IT之家(RSS)
62
黄仁勋谈未来计算:收敛为面向 AI 智能体的统一架构,覆盖云端到机器人

在2026台北国际电脑展上,黄仁勋指出未来计算将收敛为一套面向AI智能体的统一模式,从云端延伸至PC、汽车、机器人及各类边缘设备。该模式覆盖AI训练与推理,使所有边缘设备具备自主运行能力。自动驾驶、类人机器人和通信基站本质上是同类智能体系统。英伟达驾驶系统基于语言推理,未来可通过读取“技能文件”和教程视频操作陌生设备。数据中心方面,新推的88核Arm处理器Vera已全面量产,专为AI智能体生成词元设计,侧重单线程速度和内存带宽。

智能体具身智能大佬观点端侧
12:56
Berryxia.AI@berryxia
70
@lxfater 分享了一种 Vibe Coding 方法:在 Codex 的侧边栏终端输入 Claude,即可同时使用 Claude Code 进行项目规划、Codex 执行具体编码任务。两者结合实现了"鱼和熊掌兼得",让 Claude Code 的规划能力与 Codex 的执行效率互补,无需切换工具即可完成从设计到编码的完整流程。

铁锤人: 我教你们咋Vibecoding!!! 打开Codex,打开侧边栏,选择终端,输入Claude 现在鱼和熊掌兼得了,Claude code规划,Codex干活!!

智能体AnthropicOpenAI教程/实践
12:24
宝玉@dotey
67
《图解Skill》发布,GitHub 开源多个 Skills

宝玉的新书《图解Skill》已出版,配套 GitHub Repo 开源了书中涉及的所有可复制粘贴的 Skills,包括之前未公开的播客文字稿转访谈稿 Skill。读者理论上可以不买书直接使用 Repo 内容。电子书版本同步上线,方便读者复制粘贴。

Leon.ai: @xiaohu @dotey 这类书只想看电子版,毕竟适合复制粘贴

智能体GitHub开源/仓库
11:54
宝玉@dotey
72
Codex 新增代码审查与评论功能

Codex 现在支持审查代码修改,可选择“Last turn”查看上一次 AI 更改的内容,并对部分代码进行评论。评论会直接附加在左侧会话中,提交后作为上下文发送给 Agent,使其能针对评论进行处理。

智能体OpenAI产品更新编码
10:16
IT之家(RSS)
50
苹果 iOS 27 版 Siri 前瞻:AI 感知屏幕、跨 App 操作,新增独立应用

iOS 27 版 Siri 围绕用户画像、屏幕感知和应用整合三大方向升级:可访问邮件、信息等内容,理解当前屏幕并跨应用串联任务。Siri 升级为聊天机器人形态,具备搜索、概括、内容与图像生成能力,支持多轮对话和上下文记忆。苹果为其打造独立应用,驻留灵动岛并采用发光胶囊动画与透明卡片展示。隐私方面推行本地+私有云机制,部分请求转 Google Cloud 调用授权版 Gemini。iOS 27 允许 Siri 接入 ChatGPT、Claude、Gemini 等第三方 AI。新 Siri 预计 2026 年 6 月 8 日在 WWDC 预览。

智能体产品更新多模态
09:56
Ethan Mollick@emollick
57
Anthropic的这张图很有用,因为Agent团队和工作流都非常新且强大(而且消耗大量token)。 另一方面,也许这并不重要,因为关于使用哪种方法的许多决策来自AI本身,并且它经常组合使用它们。
智能体Anthropic大佬观点
09:16
IT之家(RSS)
47
苹果 iPadOS 27 前瞻:自然语言创建快捷指令、Safari 自动标签分组

苹果在 2026 年全球开发者大会(WWDC)开幕前夕汇总 iPadOS 27 新功能,聚焦 AI 体验升级。Safari 新增 Organize Tabs 功能,自动按主题整理标签页。Spotlight 搜索深度整合 Siri,支持提问、找文件、启动应用、查询天气等,并接入新 AI 搜索系统。快捷指令支持自然语言创建。系统级语法检查覆盖全系统,以半透明菜单展示原文和修改建议,可单独或批量接受修改。

智能体产品更新搜索
09:07
Claude Code:GitHub Releases(RSS)
同事件精选64
Claude Code v2.1.166 发布

Claude Code v2.1.166 新增 fallbackModel 设置,最多配置三个后备模型在主模型过载或不可用时按序尝试;--fallback-model 现也适用于交互会话。deny rule 中工具名位置支持 glob 模式("*"拒绝所有工具),未知工具名启动时警告。跨会话消息中继不再携带用户权限,接收方拒绝被中继的权限请求。MAX_THINKING_TOKENS=0、--thinking disabled 及逐模型 thinking 开关可禁用默认开启思考的模型(仅 Claude API,第三方不变)。API 返回非预期不可重试错误时,在后备模型上重试一次。修复了图像处理失败、远程会话卡死、JetBrains IDE 终端闪烁、Kitty 键盘协议下 Shift+非 ASCII 字符丢失、PowerShell 命令验证挂起、macOS 后台进程孤儿化等问题。

智能体Anthropic产品更新部署/工程
同一事件,精选展示《Claude Code v2.1.163 发布》
推荐理由:Claude Code 重度用户该升级了,fallbackModel 让你设三个备用模型防止高峰期罢工,跨会话安全加固也让自动模式更敢放任跑了。
08:51
Nathan Lambert@natolambert
54
尽管最近 Anthropic 发了帖子,我仍然坚持这个观点。构建模型仍然存在严重的瓶颈(组织、计算、数据访问等)。 突破这些瓶颈需要时间,未来几年我们将看到"线性"的进步。
智能体Anthropic大佬观点数据/训练
08:43
Lee Robinson@leerob
74
Lee Robinson 分享 Cursor 编码智能体的惊人效率实例

Lee Robinson 展示 Cursor 编码智能体今天的五个任务:1)10 分钟语音笔记生成 90% 完成的着陆页并合并;2)Cursor 用 computer use 分析 Search Console 和 Semrush 后合并 3 个 SEO 优化 PR;3)通过 Supabase MCP 提取数千封邮件,结合网络搜索筛选参会者并生成 CSV;4)几小时内更新内部全员调查应用;5)多个智能体研究家具并生成含图片、价格、链接的定制购物车 HTML 页面。这些任务在云后台静默运行,可实时查看进度和合并 PR。作者表示仍使用 $200/月 计划。

智能体教程/实践编码
08:07
ginobefun@hongming731
65
姚顺雨首次公开亮相:AI下半场战略与Hy3 preview模型

姚顺雨在腾讯云AI大会上首次公开亮相,指出AI已进入下半场,核心从“怎么训练”转向“找好问题”,认为context是Agent时代关键壁垒,腾讯在场景、数据、工具链上有结构性优势。他披露Hy3 preview模型:295B总参数、21B激活参数,首token延迟降低54%,可驱动最长495步Agent工作流。他还提出Co-Design理念,强调模型与产品深度协同,该模型以实用性为导向,不在榜单过度竞争。

智能体Anthropic开源生态现象/趋势
08:07
ginobefun@hongming731
57
腾讯汤道生姚顺雨对谈AI下半场四大命题

在 #BestBlogs 6月6日早报推荐中,腾讯集团高级执行副总裁汤道生与首席AI科学家姚顺雨同台对谈,聚焦AI下半场核心命题:从「解决问题」转向「定义问题」、模型与产品的Co-Design、Agent技术的演进与性价比、以及腾讯在AI时代的战略节奏与组织变革。

智能体大佬观点
08:00
HuggingFace Daily Papers(社区热门论文)
46
POISE:面向LLM智能体的位置感知不可检测技能注入攻击

POISE是一种位置感知的攻击方法,通过将触发指令压缩为单个看似良性的身体指令,并利用上下文感知生成器将其与附近步骤融合,实现对LLM智能体的隐蔽技能注入。在codex+gpt-5.2上的Skill-Inject评估中,POISE达到89.3%的攻击成功率(ASR),比随机位置身体基线高28.0个百分点,比仅YAML注入基线高2.6个百分点,同时保留了身体注入的隐蔽优势。由于LLM扫描器对合法技能身体误判率达74.6%,POISE仅使5.6%的受污染变体触发新的高风险警报,令当前静态防御失效。

智能体安全/对齐
08:00
HuggingFace Daily Papers(社区热门论文)
59
Bayesian-Agent:基于后验引导的技能演化框架

Bayesian-Agent是一个原生跨框架,将可复用的技能和SOP视为关于冻结LLM在特定提示、上下文和环境下能否成功的后验假设。它记录已验证的轨迹证据,维护基于特征条件的分类后验,并将后验状态映射为补丁、拆分、压缩、退役和探索等可检查操作。使用deepseek-v4-flash,该方法使SOP-Bench从80%提升至95%,Lifelong AgentBench从90%提升至100%,RealFin-Bench从45%提升至65%。评估覆盖原生后端及GenericAgent、mini-swe-agent、Claude Code等可选后端,结果包含正、负、饱和及案例研究。源代码已开源。

智能体论文/研究
07:21
Hacker News 热门(buzzing.cc 中文翻译)
62
我用于测试驱动开发的代理技能

作者分享了一个用于测试驱动开发(TDD)的Agent技能,该技能在Hacker News上获得100个HN点数,于6月4日发布。

智能体教程/实践编码
07:21
Hacker News 热门(buzzing.cc 中文翻译)
66
Lowfat--一款可插拔的CLI过滤器,帮我节省了91.8%的LLM token

Lowfat是一款可插拔的命令行界面(CLI)过滤器,可在LLM使用场景中节省约91.8%的模型token消耗。项目已开源并托管在GitHub上。

智能体GitHub开源/仓库
07:09
Boris Cherny@bcherny
44
我们将 Claude Cowork 的使用额度在下个月翻倍。这适用于你的 5 小时速率限制。如果你一直在积攒一个庞大混乱的项目,现在是时候了。

Claude: We've doubled usage limits in Claude Cowork for the next month. Delegate bigger, more complex tasks to Claude.

智能体Anthropic产品更新
06:47
Hugging Face:Blog(RSS)
精选74
用Qwen2.5-3B构建多智能体经济体:工程报告

开发者用Qwen2.5-3B构建了五人森林生物多智能体经济体,每个智能体独立运行,通过vLLM部署在Modal,以Gradio为交互窗口。3B模型在100%调用中输出有效JSON,但经济判断能力弱。通过设计稀缺性(食物品种限制、易腐坏、冬季燃料危机)和优化提示词(禁止买入自产物品、给出示例)提升决策质量。15轮模拟中,蜜价从10跌至3、柴价从4涨至7、财富基尼系数从0.14扩至0.38。项目展示了小模型可靠格式化与不可靠推理之间的工程填补。

智能体Hugging Face教程/实践部署/工程

推荐理由:我觉得这是近期最诚实的小模型工程复盘,把为什么不换大模型、怎么靠提示修正推理、怎样设计系统稀缺性讲透了,比看十篇论文有实操价值。
06:29
Rohan Paul@rohanpaul_ai
精选76
Arena 发布真实世界 AI 智能体排行榜 Agent Arena

Arena 推出基于真实用户任务的智能体排行榜,评估模型在代码编写、应用构建、文档分析等工作中的表现,而非孤立基准。排行榜基于30万+任务、200万+工具调用和4000万行代码,综合任务成功、纠正遵从性、错误恢复、用户表扬与抱怨、工具幻觉等信号。前三名:GPT-5.5 High(+10.7%)、Claude Opus 4.7 Thinking(+9.5%)、GPT-5.4 High(+8.9%)。

Arena.ai: Introducing Agent Arena: real-world agentic evals at scale. How do you evaluate agents doing actual work? We measure mil...

智能体AnthropicOpenAI评测/基准

推荐理由:Arena 跳出了刷榜逻辑,用真实用户的多轮交互来评估 Agent,这比任何 toy benchmark 都更有说服力,选模型做 Agent 应用的可以把它当新指南。
06:20
Claude@claudeai
56
我们将下个月 Claude Cowork 的使用限额翻倍。 将更大、更复杂的任务委托给 Claude。
智能体Anthropic产品更新
06:00
Chubby♨️@kimmonismus
65
MIT团队提出自我修正发现系统,推动AI从搜索走向真正科学发现

MIT Buehler团队提出Self-Revising Discovery Systems框架,让AI能自主扩展科学词汇(变量、工具、验证器、模型结构),而非仅搜索固定空间。论文使用typed copresheaf和Kan obstruction数学框架形式化智能体工作流,证明真正发现是可验证的schema扩展:旧证据通过Left Kan extension迁移,新异性由pointwise残差客观量化,区分发现与搜索。三种模态:检索(添加已知对象)、搜索(固定schema)、发现(验证的范式转换)。案例包括Builder/Breaker发现蛋白质模式条件合规性,CategoryScienceClaw发现各向异性纤维网络刚度规则。论文arXiv:2606.01444(2026)。

Markus J. Buehler: We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...

智能体推理论文/研究
04:51
Hacker News 热门(buzzing.cc 中文翻译)
46
Ask HN:您的AI开发技术栈/工作流程是怎样的?

Hacker News 上一个讨论帖询问开发者们使用的AI开发技术栈与工作流程,目前获得101个点赞。

智能体教程/实践编码
04:22
宝玉@dotey
57
现在 Codex 的设置已经多到要靠搜索来解决了。 但是作为一个成熟的 Agent,难道交互不应该是在 Chat 里面说一句:"Hey Codex,帮我修改一下 XX 设置"?

OpenAI Developers: Today's Codex quality-of-life updates start in settings. You can now search Codex settings, with results grouped by cate...

智能体OpenAI大佬观点编码
03:47
HuggingFace Daily Papers(社区热门论文)
53
重复博弈中自适应对手的后悔最小化

研究在重复博弈中提出重复策略遗憾(RP-Regret),度量所有玩家基于历史响应时实际效用与事后最佳效用之差。该度量允许更强的比较器和更少约束的对手,且所有玩家最小化时能发现更优均衡。确定了时间亚线性RP-Regret的必要条件。提出三种算法:基于优化先导、最小化凸线性化替代、以及直接最小化(对手缓慢变化时)。所有玩家最小化RP-Regret可学习子博弈完美均衡。实验表明能在鹿猎博弈中带来更高效用的合作解。

智能体论文/研究
03:34
Claude:Blog(网页)
同事件精选76
Claude Cowork 产品指南

Anthropic 发布 Claude Cowork,一款运行在 Claude 桌面应用中的知识工作智能体。它可读写本地文件、跨 Slack 和 Google Drive 等应用协作,执行多步骤任务并生成带引用的实际交付物。核心能力包括本地文件访问、子智能体、长时间运行和定时任务。Claude Cowork 区别于对话式 AI 工具,支持用户描述目标与期望结果后自动规划执行。指南还介绍了产品矩阵(对话聊天、Claude Code 编程、Claude Cowork 跨应用知识工作)、设置要求、权限模型、七种常见工作流(如研究简报、会议准备、定期报告)以及营销和产品管理等插件。

智能体AnthropicMCP/工具教程/实践
同一事件,精选展示《Claude Cowork 入门最佳实践》
推荐理由:把 Claude 从问答工具升级成能读写本地文件、跨应用交付可交付物的知识工作代理,这份官方指南给出了明确上手路径和七个真实工作流,做产品、做调研的都能直接照抄。
03:19
Perplexity@perplexity_ai
69
Nemotron 3 Ultra 现已面向 Perplexity 和 Computer 上的 Pro 和 Max 订阅用户开放。 这是@nvidia 为长期运行的智能体打造的全新开源模型。
智能体产品更新开源/仓库
关联讨论 9 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)
02:58
elvis@omarsar0
67
不错的小工具! 跑了一下我的 AI Wrapped,本以为会被打击。前 1%。不错! 我整天都用编程智能体做所有事。 试试 `npx standout`

Alexis Aftalion: Are you really tokenmaxxing? We shipped your AI wrapped Everyone's bragging about their token usage having 45 agents run...

智能体开源/仓库编码
‹ 上一页
1…3738394041…50
下一页 ›