AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月9日周二
17:18歸藏(guizang.ai)15Skill新领悟与写作计划
16:55HuggingFace Daily Papers(社区热门论文)70精选用对抗性黑客-修补循环强化Agent基准测试
16:39SiliconFlow61硅基流动联合CodeWhale推出DeepSeek V4终端最佳性价比组合
16:34Chubby♨️58Anthropic 明日发布 Mythos 公开版
16:18歸藏(guizang.ai)63MiMo推出V2.5 Pro UltraSpeed超高速模型,每秒输出超1000 Token
14:55HuggingFace Daily Papers(社区热门论文)63PBSD:利用特权贝叶斯自蒸馏实现长程信用分配
14:40向阳乔木65Aye:可录制自定义Skill的AI Agent浏览器
14:22IT之家(RSS)52滴滴宣布接入微信 AI 生态,用户可在聊天时直接叫车
14:17ginobefun32BestBlogs 用 Claude Code 和 Codex Goal 搭建世界杯专刊
14:12MarkTechPost(RSS)60哈佛与Perplexity新研究:AI智能体每会话自主工作26分钟,搜索助手仅33秒
14:08Tibo66编码智能体:用循环设计替代直接提示
13:55HuggingFace Daily Papers(社区热门论文)67SkeMex:通过自进化技能记忆实现可泛化医学智能体推理
12:55HuggingFace Daily Papers(社区热门论文)73精选OmniGameArena:面向VLM游戏智能体的统一UE5基准与改善动态
12:22IT之家(RSS)36魅族 22 Next"AI 小方块"工程机外观曝光:紫光展锐 T8200、4 英寸机身
11:55HuggingFace Daily Papers(社区热门论文)67大规模端到端上下文压缩
11:40公众号:月之暗面(Kimi)47Kimi 将公开预测 104 场世界杯赛事:德国队或爆冷夺冠
11:22IT之家(RSS)59Cadence 携手 NVIDIA 发布业界首位全自主芯片设计 AI 虚拟工程师
11:01Huawei Cloud54华为云INSPIRE 2026探讨Agent-Native数据库未来
10:43meng shao52阶跃星辰 Step 3.7 Flash 完成真实 Coding Agent 任务:将 Agent Memory 痕迹生成本地 HTML 工具
10:42Rohan Paul60跨中美国际实验室111页综述:AI应分级探索未知,而非仅提升回答能力
10:26MiniMax (official)32AgentBox一键部署M3基础模型
10:17ginobefun33BestBlogsDev英文新号与Claude Code一周年进化
09:13meng shao68Claude Code 上线一周年:演进与方法论回顾
08:16ginobefun67BestBlogs 早报 06-09:Claude Code 自主化、循环工程、阳萌访谈
08:03Berryxia.AI75同事件精选Kimi Work 桌面 AI 代理上线,支持 300 个本地代理并行同一事件,精选展示《Kimi Work Beta版发布:面向知识工作者的本地Agent》
08:03Berryxia.AI61Google NotebookLM 大更新:智能体能力 + 更强推理
08:03Berryxia.AI74Kimi Code升级:一行安装+视频上下文+插件系统
08:00HuggingFace Daily Papers(社区热门论文)69Arbiter Agent:持续监控多智能体对话以检测突现失调
08:00HuggingFace Daily Papers(社区热门论文)45WebChallenger:不依赖模型规模、通过架构设计提升自主网页导航的智能体框架
07:50公众号:数字生命卡兹克61同事件精选微信正在变成Agent时代的操作系统同一事件,精选展示《微信AI官宣内测:两种接入模式供开发者选择》
07:33Hacker News 热门(buzzing.cc 中文翻译)61Ask HN:自AI问世以来你为自己开发了哪些工具?
07:23Orange AI60苹果新Siri仍只是API chatbot,Agent待明年
06:21IT之家(RSS)63完善 Mac 游戏生态:苹果更新工具,借助 AI 加速游戏移植
06:16Claude Code:GitHub Releases(RSS)61同事件精选Claude Code v2.1.169 发布同一事件,精选展示《Claude Code v2.1.163 发布》
05:14Apple:Newsroom(RSS)70精选Apple 推出新智能能力、Xcode 生产力功能及平台改进以辅助应用开发
05:12Rohan Paul70Anthropic 研究:AI 智能体在生物数据库检索中失败率高,结论偏差严重
04:58ViggleAI66精选Viggle API 上线:任意角色任意动作秒级生成
04:46OpenAI:官网动态(RSS · 排除企业/客户案例)74精选OpenAI 公布让 AGI 造福所有人的计划
04:42Rohan Paul65AdaCoM:独立小模型管理上下文,智能体长任务提升39%
04:32swyx62Cognition 推出 FrontierCode 编码评估基准,聚焦代码可维护性
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月9日
17:18
歸藏(guizang.ai)@op7418
15
最近 Skill 做多了,感觉对于 skill 有点新的领悟,找时间写个文章聊聊。
智能体其他
16:55
HuggingFace Daily Papers(社区热门论文)
精选70
用对抗性黑客-修补循环强化Agent基准测试

对五个终端Agent基准测试的1,968个任务审计发现,323个(16%)可被前沿模型仅凭任务描述进行奖励黑客攻击。研究者提出hacker-fixer loop方法:三个LLM agent轮流作为黑客尝试绕过验证器、修补者拒绝每次漏洞、求解者确认修补后仍接受合法方案。在KernelBench上,该循环将公开报告漏洞的攻击成功率从62%降至0%。弱agent也能防御强黑客:Gemini 3 Flash循环使Gemini 3.1 Pro和Claude Opus 4.7在KernelBench上的攻击成功率分别从76%和61%降至0%;在Terminal Bench的77个任务上,从39%降至17%。发布Terminal Wrench(323个可攻击环境、3,632条攻击轨迹)及修补后的验证器与实现。

智能体安全/对齐论文/研究

推荐理由:现有 Agent 基准的验证器太容易被钻空子了,这篇论文挖出 16% 可 hack 的任务,还提出用三个 LLM 自动对抗修补的循环方法,做 RL 评估的值得细读。
16:39
SiliconFlow@SiliconFlowAI
61
硅基流动联合CodeWhale推出DeepSeek V4终端最佳性价比组合

硅基流动宣布,通过V4-Pro(质量)与V4-Flash(速度)两行配置,即可在终端获得DeepSeek V4的最佳性价比组合。专为DeepSeek V4构建的终端编码智能体CodeWhale现已内置SiliconFlow。CodeWhale具备流式推理(显示思考过程)、自动路由(根据任务复杂度切换模型与思考深度)、零漂移(通过书面宪法为每轮排序权威,保持V4定向)以及自我改进(V4协助编写框架,框架提升后每个会话更强大)等特性。

智能体DeepSeek产品更新编码
16:34
Chubby♨️@kimmonismus
58
据消息,Anthropic 计划明天发布 Mythos 公开版。该版本将配备实质性护栏,权限不如 Project Glasswing 合作伙伴可访问的版本宽松,但在长周期、多轮任务上表现将大幅提升。准备好,朋友们,就要来了!

Alex Heath: Sources: Anthropic is planning to release a public version of Mythos tomorrow - Will have substantial guardrails and not...

智能体Anthropic模型发布
16:18
歸藏(guizang.ai)@op7418
63
MiMo推出V2.5 Pro UltraSpeed超高速模型,每秒输出超1000 Token

MiMo推出V2.5 Pro UltraSpeed超高速模型版本,每秒输出超1000 Token,号称全球首个达此速度的万亿参数模型。实测显示:复杂3D小游戏TPS 804 Token/s(峰值810),首次响应4.71秒;官网3D动画峰值1426 Token/s,首次响应0.83秒,32秒输出25624 Token(1000行代码);另一复杂官网3D效果TPS 1136,首次响应4.5秒。相比此前超高速推理方案常见能力下降,MiMo未出现此类迹象。该模型主要面向效率要求极高的ToB客户,在Agent和Sub-Agent并发场景下效率提升明显。

智能体推理模型发布
14:55
HuggingFace Daily Papers(社区热门论文)
63
PBSD:利用特权贝叶斯自蒸馏实现长程信用分配

PBSD提出一种贝叶斯校准的自蒸馏方法,用于在稀疏最终奖励下进行细粒度信用分配。它通过验证答案的后验与先验概率比衡量轨迹质量,并利用贝叶斯规则将难以估计的答案侧比率转化为标准学生模型与特权、以答案为条件的教师模型之间的似然比。对该贝叶斯证据分数进行自回归分解,产生每步信号,识别中间推理步骤是支持还是削弱已验证结果。PBSD将稀疏结果监督转化为贝叶斯校准的逐步信用信号,与标准策略优化兼容。实验表明,该方法在领域内和领域外设置中一致提升性能,并有效将知识从短上下文训练迁移到长上下文推理。

智能体数据/训练论文/研究
14:40
向阳乔木@vista8
65
Aye:可录制自定义Skill的AI Agent浏览器

推友推出AI Agent浏览器Aye,基于Chromium模拟真人操作。支持一句话操作,如拉黑X、回小红书、转写文章到知乎;可录制自定义Skill定时执行,完成繁琐网页操作。

智能体产品更新
14:22
IT之家(RSS)
52
滴滴宣布接入微信 AI 生态,用户可在聊天时直接叫车

滴滴作为首批合作伙伴,已将核心网约车服务融入微信 AI Agent。用户通过微信内 AI 交互说出“帮我叫一辆滴滴去机场”等指令,系统可根据行程距离、时效与个人偏好自动推荐最优车型并一键唤起叫车,全程不跳转。滴滴顺风车、滴滴代驾等更多服务也将接入。6月8日,微信发布《关于开发者接入微信 AI 生态的指引》,提供自动模式与开发模式两种接入选项。京东、美团、滴滴、携程、同程和肯德基均宣布作为首批内测团队接入。

智能体MCP/工具行业动态
14:17
ginobefun@hongming731
32
BestBlogs 用 Claude Code 和 Codex Goal 搭建世界杯专刊

洪明 (@hongming731) 透露,经过与 @puliandc 多轮讨论,他们使用 Claude Code、Claude Design 进行设计和讨论,并用 Codex Goal 模式完成了搭建。目标是在明晚上线 BestBlogs 世界杯专刊,邀请用户一起用 BestBlogs 看世界杯。

智能体AnthropicOpenAI产品更新
14:12
MarkTechPost(RSS)
60
哈佛与Perplexity新研究:AI智能体每会话自主工作26分钟,搜索助手仅33秒

哈佛大学与 Perplexity 联合发表论文,采用匹配对会话方法对比自主 AI 智能体与搜索助手。结果显示,AI 智能体每会话可自主工作 26 分钟,而搜索助手仅能完成 33 秒的自主工作。智能体在自主性、时间效率与成本方面均实现大幅提升,并且尝试的工作范围更为广泛。

智能体搜索论文/研究
14:08
Tibo@thsottiaux
66
每月提醒:你不应再手动提示编码智能体了,而应设计循环来驱动它们。有人已经在写嵌套循环了吗?

Peter Steinberger 🦞: Here's your monthly reminder that you shouldn't be prompting coding agents anymore. You should be designing loops that p...

智能体教程/实践
13:55
HuggingFace Daily Papers(社区热门论文)
67
SkeMex:通过自进化技能记忆实现可泛化医学智能体推理

SkeMex 是一种部署后自进化框架,通过技能记忆提升医学智能体的临床交互推理能力,无需更新模型权重。它将历史交互轨迹蒸馏为结构化技能(可复用流程知识),组成跨通用、任务特定及行动级的多分支仓库。利用环境反馈估计上下文效用,指导价值感知检索与仓库治理,形成“读取—写入—评估—治理”闭环生命周期。实验表明,在多种临床任务中,SkeMex 在离线和在线设置下均优于代表记忆型智能体,且能跨模型骨干泛化并实现可转移技能记忆。

智能体推理论文/研究
12:55
HuggingFace Daily Papers(社区热门论文)
精选73
OmniGameArena:面向VLM游戏智能体的统一UE5基准与改善动态

OmniGameArena是一个基于十二个Unreal Engine 5新构建游戏的实时基准,涵盖单人(7个)、PvP(3个)和合作(2个)模式,提供统一动作接口。除冷启动排行榜分数外,还引入Improvement Dynamics Curve (IDC),一种智能体反射评估机制:通过工具调用反射大语言模型自动优化技能提示词,追踪多轮反射中的分数变化以及习得技能在任务变体上的泛化表现。论文报告了12个VLM智能体在冷启动排行榜上的表现,以及4个顶级智能体在IDC下的指标。

智能体多模态论文/研究

推荐理由:在 UE5 里直接测 agent 的自我改进,这个思路让游戏 benchmark 从一次性的刷榜变成动态成长观测,对做多模态 agent 的团队是个新标尺。
12:22
IT之家(RSS)
36
魅族 22 Next"AI 小方块"工程机外观曝光:紫光展锐 T8200、4 英寸机身

魅族今年 1 月公布的 22 Next“AI 小方块”因内存涨价被无限期推迟,但工程机现已现身网络。该机实际定名“MEIZU AI 小方块”,搭载紫光展锐 T8200 芯片,配备 4 英寸聚碳酸酯亮面外壳,运行 Flyme AIOS。官方曾规划数十个场景、超 100 个表情界面的 AI 智能体交互体验,可放入吉利系汽车作为“驾乘机器人”,但最终未能上市。

智能体行业动态
11:55
HuggingFace Daily Papers(社区热门论文)
67
大规模端到端上下文压缩

长上下文语言模型推理受KV缓存内存瓶颈制约。现有压缩方法或大幅降低质量,或耗时耗算力。本文通过架构搜索和从头预训练,在350B tokens上持续预训练了0.6B编码器、4B解码器的模型家族,支持1:4、1:8、1:16压缩比,命名为Latent Context Language Models (LCLMs)。该家族在通用任务性能、压缩速度和峰值内存上提升了帕累托前沿,并能作为长时程智能体的高效骨干,快速扫描压缩后的长上下文并按需展开相关片段。

智能体推理论文/研究
11:40
公众号:月之暗面(Kimi)
47
Kimi 将公开预测 104 场世界杯赛事:德国队或爆冷夺冠

Kimi 通过「Agent 集群」同时调度 300 个子 Agent,从战术、球员、伤病等维度并行分析 104 场世界杯赛事,并公开预测与复盘。模型综合采用 Elo/FIFA 强度模型、Poisson 与 Dixon-Coles 进球分布模型、xG/xT 指标体系、Monte Carlo 模拟等。分析发现德国队夺冠概率被市场低估:基准约 11.0%,校准后约 11.3%,而部分市场隐含概率仅约 7.4%,存在约 +3.6 个百分点的正向偏离。同时推出总奖池 1 万亿 Token 的竞猜活动,并发布 Kimi Work——面向知识工作者的通用型本地 Agent,集成了建站、PPT 等专业 Skills 及 Kimi WebBridge。

智能体推理行业动态
11:22
IT之家(RSS)
59
Cadence 携手 NVIDIA 发布业界首位全自主芯片设计 AI 虚拟工程师

Cadence(楷登)在 COMPUTEX 2026 上宣布,与 NVIDIA 合作推出的 ChipStack AI Super Agent 自主水平达到 Level-5,成为业界首款全自主芯片设计 AI 虚拟工程师。该智能体基于 Cadence AI 驱动 EDA 产品组合与 NVIDIA Nemotron 模型构建,并由 NVIDIA OpenShell 沙箱保障安全,可独立执行规格理解、RTL 生成、验证规划、形式分析、仿真、调试和设计收敛等任务,无需逐步提示,能评估中间结果并自主决策下一步。Cadence 高级副总裁 Paul Cunningham 称,该工具让资深工程师以更高速度和信心推进更具挑战性的设计。

智能体产品更新
11:01
Huawei Cloud@HuaweiCloud1
54
6月6日,在华为云INSPIRE 2026大会上,华为云数据库举办了题为"Agent-Native: The Next Phase of Databases"的会议。 客户、合作伙伴和行业专家齐聚上海,探讨数据库趋势、实际实施以及智能体时代的未来。https://tinyurl.com/ycbnbsva #INSPIRE2026 #HuaweiCloud #Database
智能体行业动态
10:43
meng shao@shao__meng
52
阶跃星辰 Step 3.7 Flash 完成真实 Coding Agent 任务:将 Agent Memory 痕迹生成本地 HTML 工具

开发者用 Step 3.7 Flash 测试真实 Coding Agent 任务:将已有 Local Agent Memory MVP 的运行痕迹(memory_events、structured_facts、memory_chunks 等 9 个场景测试数据)生成为单文件本地 HTML 工具 agent_memory_inspector.html。页面展示 8 条 memory events、9 条 structured facts、8 个 memory chunks、9/9 场景测试通过、敏感信息过滤前后对比、recall 命中内容及 retrieval 类型与分数、跨 session 记忆连续性。模型先读取现有代码和测试输出,检索 Letta、LangSmith 等工具展示方式后编写代码。测试环境:Cursor Agent + step-3.7-flash,本地 HTML 输出。

智能体编码评测/基准
10:42
Rohan Paul@rohanpaul_ai
60
跨中美国际实验室111页综述:AI应分级探索未知,而非仅提升回答能力

一篇来自中美顶级实验室的111页综述论文提出,AGI需要主动探索未知(认知探索),而非仅提升回答能力。论文将AI进展分为五级:responder(响应者)、reasoner(推理者)、agent(智能体)、prospector(勘探者)和ecosystem(生态系统),每级探索空间更广。核心强调智能体应通过获取有用信息、将困难经验转化为能力、避免过早锁定单一策略来降低不确定性,保持未来路径开放。

智能体论文/研究
10:26
MiniMax (official)@MiniMax_AI
32
在AgentBox上选择M3作为你的基础模型,一键部署,即可获得前沿编码能力、百万token上下文窗口和原生多模态。

GMI Cloud: Today, we are launching GMI Agent Box. A complete infrastructure stack for production-ready AI agents: native Docker, fl...

智能体行业动态部署/工程
10:17
ginobefun@hongming731
33
BestBlogsDev英文新号与Claude Code一周年进化

洪明为内容推荐平台BestBlogsDev开设英文新号,分享精选博客与创作者内容,个人号保留构建与开发思考。引用推文回顾Claude Code过去一年的演进:从简单的编码助手成长为由数千自主agent组成的网络,可协作测试、修复、部署代码,无需人类逐级指导。AI在12个月内完成了从工具到协作者再到系统级编排者的转变,被视为新工程范式的诞生。

BestBlogs: 1/ Claude Code: One Year Later A year ago, Claude Code was a humble coding assistant - helpful for small dev tasks. Toda...

智能体Anthropic现象/趋势编码
09:13
meng shao@shao__meng
68
Claude Code 上线一周年:演进与方法论回顾

Claude Code 负责人Boris Cherny与Cat Wu回顾一周年核心方法论:每次Claude犯错写入CLAUDE.md或Skill持久化规则而非口头纠正;Verification指agent亲自跑起来验证(如启动模拟器、computer use测试)。Auto Mode取代Plan Mode,用独立分类模型筛权限风险而非人工审批。Routines实现自动化运维(如监听GitHub bug自动提PR)。Context Minimalism主张最小system prompt和工具集。团队预判未来agent运行更久、成百上千并行,产品形态将巨变。

ClaudeDevs: Claude Code's first demo got two Slack reactions. One year after GA, @bcherny and @_catwu look back: verification best p...

智能体AnthropicMCP/工具大佬观点
08:16
ginobefun@hongming731
67
BestBlogs 早报 06-09:Claude Code 自主化、循环工程、阳萌访谈

本期早报聚焦AI编程从辅助到自主Agent的拐点。Anthropic复盘Claude Code一周年:Auto Mode用路由分类模型替代人工审批,通过Claude 4.6/4.7实现数千Agent动态协作。Boris Cherny提出“循环工程”——工程师应设计自动循环系统(定时自动化、并行工作树等5模块),并警示“认知投降”风险。安克创新CEO阳萌4小时访谈阐述从“浅海”到“深海”战略、第三类公司愿景及AI原生组织变革。

智能体Anthropic现象/趋势编码
08:03
Berryxia.AI@berryxia
同事件精选75
Kimi Work 桌面 AI 代理上线,支持 300 个本地代理并行

Kimi Work 是一款桌面 AI 代理,支持在本地最多 300 个代理并行执行任务,已适配 macOS(Apple Silicon)和 Windows。配合 WebBridge 扩展,代理可自主在浏览器中搜索、滚动、点击、打字完成操作。内置财经场景优化,原生调用 Yahoo Finance 和世界银行数据,无需复杂 API 配置。自带记忆系统记录用户偏好和决策历史。最终自动生成 PPTX、Word、PDF、Excel 文件。

Kimi.ai: Meet Kimi Work - a local AI agent on your desktop that does the work for you. 🔹Native agent swarm: Up to 300 AI agents ...

智能体MCP/工具产品更新端侧
同一事件,精选展示《Kimi Work Beta版发布:面向知识工作者的本地Agent》
推荐理由:Kimi 这次把 300 个本地 agent 塞进桌面,外加浏览器操控和财经数据直连,让「AI 秘书团」从概念变成了一件能立刻上手的事,做桌面自动化的值得试试。
08:03
Berryxia.AI@berryxia
61
Google NotebookLM 大更新:智能体能力 + 更强推理

Google NotebookLM 迎来重大升级,在聊天中注入智能体(agentic)能力、更先进的推理逻辑以及一整套新输出格式。它可自主拆解复杂多步研究任务,逐步推理并生成结果;能主动从网络挖掘新资料,但最终答案严格基于用户批准过的来源,大幅减少幻觉。这让人机协作从“对话”升级为“搭档”。该更新已面向 Google AI Ultra 订阅用户逐步推送。

NotebookLM: Introducing a more powerful NotebookLM 🚀 Massive upgrades deliver agentic capabilities in chat, more advanced reasoning...

智能体Google产品更新搜索
08:03
Berryxia.AI@berryxia
74
Kimi Code升级:一行安装+视频上下文+插件系统

Kimi Code 开源 coding agent 迎来重大升级:一行 CLI 命令安装、零配置、秒启动;支持拖拽视频作为编码上下文,可参考视频生成 .cube LUT 文件或把屏幕录像转成可运行代码;插件系统上线,可一键拉取股票、财报、学术论文;支持 ACP 协议,对接 JetBrains、Zed,并提供自定义 hooks 扩展工作流。配合 Kimi K2.6 模型使用,视频推理能力大幅增强。

Kimi Developers: Kimi Code, our open-source coding agent, just got a major upgrade! 🔹One-line CLI install, zero setup, fast startup 🔹Dr...

智能体GitHub产品更新编码
08:00
HuggingFace Daily Papers(社区热门论文)
69
Arbiter Agent:持续监控多智能体对话以检测突现失调

提出 Arbiter Agent,在有限 inspection budget 下实时监控多智能体对话,逐步选择等待、质问参与者、检查系统提示或推理轨迹、记录可疑行为,最终报告失调源头。在五种对话条件(风险财务建议模型生物、评估感知、合谋智能体等)下测试五种工具配置和两种骨干模型。结果表明,Arbiter 可在对话结束前可靠检测失调智能体,主动检查工具同时提升检测准确率和速度;weight-induced 失调最难检测,instruction-induced 失调在被动观察下也能可靠识别;记录工具提升召回率但降低精确度。代码已开源。

智能体安全/对齐
08:00
HuggingFace Daily Papers(社区热门论文)
45
WebChallenger:不依赖模型规模、通过架构设计提升自主网页导航的智能体框架

WebChallenger 围绕核心模块 PageMem(从 DOM 确定性构建的带摘要语义层次页面结构)设计三种机制:分而治之的观测管线(让智能体扫读摘要、仅提取任务相关区域细节)、轻量级网站探索与记忆系统(遍历一次网站即可复用页面与元素行为地图)、以及将多步交互压缩为单步智能体动作的工作流。使用未经微调的开源模型,在 WebArena 上达 56.3%、VisualWebArena 48.7%、Online-Mind2Web 51.0%、WorkArena 70.9%,接近前沿闭源系统但成本极低。代码已开源。

智能体GitHub开源/仓库论文/研究
07:50
公众号:数字生命卡兹克
同事件精选61
微信正在变成Agent时代的操作系统

微信近期密集布局AI Agent:据外媒,用户在主界面右滑可唤出Agent对话窗口,自动调用小程序完成点单等任务;与华为、荣耀、小米、OPPO、vivo合作推出A2A助手能力,允许手机语音助理发起微信音视频通话或发送消息;6月8日发布开发者指引,提供自动接入模式,通过GUI Agent帮助数百万小程序实现AI调用。微信试图整合内部小程序生态与外部硬件,成为AI时代的操作系统,并触及Agentic Commerce(代理式交易)模式。

智能体MCP/工具现象/趋势
同一事件,精选展示《微信AI官宣内测:两种接入模式供开发者选择》
推荐理由:微信 Agent 的拼图今天终于凑齐了,自动改造百万小程序这一步,让微信从聊天工具直接跨向 Agent 时代的操作系统,比当年公众号革命还大。
07:33
Hacker News 热门(buzzing.cc 中文翻译)
61
Ask HN:自AI问世以来你为自己开发了哪些工具?

Hacker News 用户发起讨论,询问大家自 AI 兴起以来为自己开发了哪些个人工具。该提问来自 HN(news.ycombinator.com),获得 100 个点赞,标签为 #Ask HN。

智能体开源生态现象/趋势
07:23
Orange AI@oran_ge
60
看完了苹果发布会,这新 Siri 的智能程度… 依然是个接了很多很多 API 的 chatbot 苹果自己的 Agent 估计要到明年了 (不如收购 Cola 啊不是
智能体大佬观点语音
06:21
IT之家(RSS)
63
完善 Mac 游戏生态:苹果更新工具,借助 AI 加速游戏移植

苹果在 2026 年 WWDC 主题演讲后推出 Game Porting Toolkit 4,加速游戏移植至 Mac。新版配套上线 GitHub 代码仓库,提供开源 AI 智能体技能与示例代码。这些智能体具备更深入的 Metal 知识,可通过命令行访问 Metal 工具,完成捕获、调试与性能分析。评估环境已支持最新图形接口 Metal 4,便于开发者早期测试兼容性与性能。

智能体产品更新编码
06:16
Claude Code:GitHub Releases(RSS)
同事件精选61
Claude Code v2.1.169 发布

Claude Code v2.1.169 新增 --safe-mode 标志及环境变量,用于禁用所有自定义配置以排查问题;新增 /cd 命令,可在不破坏提示词缓存的情况下切换工作目录;新增 disableBundledSkills 设置隐藏内置技能。修复了企业 MCP 策略在重连、IDE 配置及首次会话中不被强制的问题,以及 macOS 用户每轮约 30–50ms 的 UI 卡顿、Windows 下 claude -p 和 Git 凭证弹窗等多项 bug。改进了任务创建的可靠性,恢复 Vertex/Foundry 默认 5 分钟空闲超时,并降低 CPU 占用。

智能体AnthropicMCP/工具产品更新
同一事件,精选展示《Claude Code v2.1.163 发布》
推荐理由:全是修 bug 的版本里藏了两个实用命令,/cd 换目录不丢缓存和 safe-mode 跳过所有自定义直接排查,重度用户的小痛点被摸到了。
05:14
Apple:Newsroom(RSS)
精选70
Apple 推出新智能能力、Xcode 生产力功能及平台改进以辅助应用开发

Apple 今天推出了新的智能能力、Xcode 中扩展的生产力功能以及平台改进,旨在协助应用开发。

智能体AnthropicGoogleOpenAI
关联讨论 1 条IT之家(RSS)
推荐理由:苹果WWDC放出Xcode 27与多模型Agentic Coding,加上Core AI框架直接跑本地大模型,是今年开发者生态最大新闻,补齐了苹果AI工具箱的最后短板。
05:12
Rohan Paul@rohanpaul_ai
70
Anthropic 研究:AI 智能体在生物数据库检索中失败率高,结论偏差严重

Anthropic 研究发现,AI 智能体在代码任务表现出色,但在生物数据库检索中容易失败。以埃博拉序列任务为例,Claude Sonnet 4 三次运行分别返回 106、15 和 5 条序列,而预期为 266 条。缺失序列导致科学结论严重偏移:智能体推断疫情回溯至 1922 年,人工筛选结果却指向 2014 年初。问题根源在于生物数据库分散、网站规则隐蔽、脚本脆弱。引入可重复检索工具后,智能体准确性和一致性大幅提升。Anthropic 呼吁建设更友好的基础设施。

Anthropic: New Science Blog: Why has AI advanced faster in coding than in biology? To agents, bio databases are like cities built b...

智能体Anthropic数据/训练现象/趋势
04:58
ViggleAI@ViggleAI
精选66
推出 Viggle API。 给任意角色添加任意动作,一次 API 调用--数秒内即可激活。 可接入 Claude、Codex 或你正在构建的任何智能体。起价 $0.01/秒。 注册即获 100 次免费额度。 转发 + 关注 + 评论,10 位中奖者再获 100 次! 了解更多👇
智能体产品更新视频

推荐理由:给角色加动作的API降到$0.01/秒,还能直接接进Claude和Codex,做视频Agent的开发者可以试试。但纯API发布,普通用户不用激动。
04:46
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选74
OpenAI 公布让 AGI 造福所有人的计划

OpenAI 发布计划,阐述让 AGI 造福所有人的愿景。该计划聚焦于 AI 的可及性、安全性和共享繁荣,确保技术进步惠及每个人。

智能体OpenAI大佬观点推理
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Sam Altman (@sama)
推荐理由:Altman 和 Pachocki 把 OpenAI 的下一步讲清楚了,2028 年让 AI 做大部分研究的内部目标很具体,这比任何产品发布都更能说明他们对 AGI 的判断。
04:42
Rohan Paul@rohanpaul_ai
65
AdaCoM:独立小模型管理上下文,智能体长任务提升39%

论文提出 AdaCoM,一个独立的 LLM,在智能体每步操作前编辑其工作上下文。它可重写、合并、剪枝或保留任务历史,使主智能体保持冻结,无需重新训练或暴露权重。与简单摘要不同,AdaCoM 学习不同智能体需要不同类型上下文——强智能体保留更多原始历史,弱智能体需更短更清晰的笔记。在 web search 和 deep research 任务上测试,平均提升 39%。

智能体论文/研究
04:32
swyx@swyx
62
Cognition 推出 FrontierCode 编码评估基准,聚焦代码可维护性

Cognition 发布 FrontierCode 编码评估,每任务由顶级开源维护者花费 40+ 小时编写。METR 发现 SWEBench 超一半结果为不可合并的垃圾代码。FrontierCode 含 3000+ 评分标准,首次衡量代码是否可合并。最高难度 FC Diamond 上,Opus 4.8 仅得 13.8%。在 FC Extended 最易任务中,Opus 在 2025 年底 4 个月内从 41% 提升至 74%,标志 AI 编码进入"可维护代码"时代。

Cognition: Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...

智能体编码评测/基准
‹ 上一页
1…3334353637…50
下一页 ›