AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「MCP/工具调用」清除
5月12日周二
17:33凡人小北62管理者用飞书Agent代劳沟通,应对AI时代协作瓶颈
17:22向阳乔木62SkillsVote:解决AI Agent技能发现与安全运行痛点的基建工具
12:44HuggingFace Daily Papers(社区热门论文)65Shepherd:一个为元智能体提供形式化执行追踪的运行时基板
12:44HuggingFace Daily Papers(社区热门论文)64面向智能体强化学习的动态技能生命周期管理
10:55Hacker News 热门(buzzing.cc 中文翻译)57交互模型
09:05meng shao71Codex 发布 OpenAI Developers 插件
08:49ginobefun71Claude Code 推出智能体视图,集中管理并行任务
08:25Chubby♨️34每日发布流于形式,创新性受质疑
06:03宝玉80Claude Code 推出 Agent View,统一管理 AI 编程会话
05:03宝玉66Codex 的野心,MCP 和 Skill 的下一步
05:03🚨 AI News | TestingCatalog56Sigma浏览器隐私模式集成Hermes智能体
03:52Simon Willison 博客80精选在脚本的shebang行中使用LLM
02:52Claude Code:GitHub Releases(RSS)72精选Claude Code v2.1.139 版本更新
00:27Google AI Developers60谷歌DeepMind与Coursera推出"Gemini for Developers"开发者专项课程
00:02凡人小北85精选Anthropic开源金融AI全栈模板,定义行业落地新标准
5月11日周一
20:30Peter Steinberger 🦞48Trimmy新增Claude代码提示优化功能
20:01凡人小北61对比研究Google Health API后的几点感受
19:48Berryxia.AI73小块有大智慧?这下真成真了!
17:34IT之家(RSS)64字节火山引擎 Agent Plan 发布:业界首个"Agent 套餐包",每月 40 元起
16:00Peter Steinberger 🦞25利用OpenClaw对聊天完成端点进行端到端测试改进
14:34IT之家(RSS)62腾讯 QClaw 上线"文件空间"功能,打通本地文件、腾讯文档、ima 知识库
12:34阿绎 AYi62中国移动上线AI中转站,国家队布局AGI时代智能电网
11:34阿绎 AYi58GBrain升级客户端-服务器架构,MCP协议推动个人AI向基础设施演进
08:00HuggingFace Daily Papers(社区热门论文)57RubricEM:超越可验证奖励的、基于评分标准引导策略分解的元强化学习框架
06:32宝玉57深度拆解:AI Agent Harness 的构造
04:58elvis66AI工具栈快速生成交互式3D生物结构
03:58elvis65苹果研究新突破:将评估嵌入执行循环,实时修正AI代理工具调用错误
03:37Thariq65Bun 用 Rust 重写,测试通过率 99.8%
01:34阿绎 AYi62AI预测视频爆款:脑科学模型革新内容创作流程
5月10日周日
23:52Chubby♨️18卧病在床灵感迸发时的烦恼
21:03meng shao60智能体表现差异的关键:模型之上的"外壳"
19:22Chubby♨️49病中搭建个人知识库,体验AI第二大脑
16:33IT之家(RSS)52马斯克入局 AI 编程赛道:SpaceXAI 桌面编程应用 Grok Build 曝光
11:13小互49HTML比Markdown更利于人机协作与Agent工作理解
08:00HuggingFace Daily Papers(社区热门论文)59LLM代理无需推理已知何时调用工具
07:57Artificial Analysis67OpenRouter推出基于AI基准的编码路由新功能
07:44Berryxia.AI72Google 开放 Fitbit Air 的全新 Health API
05:31🚨 AI News | TestingCatalog35Grok iOS版技能演示预览
05:27Greg Brockman64Codex二十分钟自动完成报销全流程
00:28elvis56关键启示:在智能体工作流中同时使用 Markdown 和 HTML
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月12日
17:33
凡人小北@frxiaobei
62
管理者用飞书Agent代劳沟通,应对AI时代协作瓶颈

一位团队管理者表示,AI极大提升了程序员个体产出,导致工作量与事务激增,但团队规模未变。其核心矛盾在于开发层已实现AI化,而项目跟进、纪要整理、审批等协作层工作仍依赖人工,效率低下。为此,他利用飞书CLI近期密集更新的能力,为每位下属配置了专属Agent。现在,下属的Agent与他的Agent直接对话处理事务,他本人则转为旁观协调,以此应对管理事务过于“碎片化”的挑战。

智能体MCP/工具教程/实践
17:22
向阳乔木@vista8
62
SkillsVote:解决AI Agent技能发现与安全运行痛点的基建工具

AI Agent面临技能发现难、匹配不准及运行安全等挑战。SkillsVote利用GPT-5.4分析了Github上超160万个技能,筛选出79万多个,并提取功能、环境及权限等关键信息。它不仅提供精准推荐,还能记录执行步骤、反馈结果以优化技能,并生成工作流组合建议,提升技能价值。相比Vercel仅支持发现安装,SkillsVote覆盖了从发现、适配、归因到迭代的全流程,支持多种Agent客户端,是AI Agent的重要基础设施工具。

智能体MCP/工具开源/仓库
12:44
HuggingFace Daily Papers(社区热门论文)
65
Shepherd:一个为元智能体提供形式化执行追踪的运行时基板

Shepherd提出了一种函数式编程模型,将元智能体对目标智能体的操作形式化为函数,其核心操作在Lean中实现。该系统将所有智能体-环境交互记录为类似Git的类型化执行追踪,支持对任意历史状态进行分支与重放。其分支智能体进程及文件系统的速度比Docker快5倍,重放时提示缓存复用率超过95%。应用案例表明,其实时监督可将结对编程通过率从28.8%提升至54.7%;反事实元优化在四个基准测试中最高超出基线11个百分点,同时减少高达58%的挂钟时间;在Tree-RL训练中,于选定轮次进行分支展开将性能从34.2%提高至39.4%。该系统已开源。

智能体arXivMCP/工具开源/仓库
12:44
HuggingFace Daily Papers(社区热门论文)
64
面向智能体强化学习的动态技能生命周期管理

研究团队提出SLIM框架,用于动态管理大型语言模型智能体在强化学习中使用的外部技能。该框架将活跃技能集视为与策略学习协同优化的变量,通过留一验证评估技能边际贡献,并执行三项操作:保留高价值技能、淘汰贡献可忽略的旧技能、在持续失败时扩展技能库。在ALFWorld和SearchQA基准测试中,SLIM平均超越最佳基线方法7.1个百分点。实验表明,策略学习与外部技能保留可共存:部分技能被策略内化,另一些则持续提供外部价值,验证了动态技能管理的普适性与优越性。

智能体MCP/工具论文/研究
10:55
Hacker News 热门(buzzing.cc 中文翻译)
57
交互模型

2026年5月11日,thinkingmachines.ai发布关于交互模型的文章,在Hacker News上获得103点关注。交互模型作为人机交互的核心概念,可能涉及人工智能系统与用户互动方式的创新或改进。这一高关注度反映了技术社区对交互模型发展的兴趣,表明该主题在AI领域具有讨论价值。文章链接指向详细内容,但未提供具体技术细节或变化指标,仅从社区反馈可见其影响力。

智能体MCP/工具现象/趋势
09:05
meng shao@shao__meng
71
Codex 发布 OpenAI Developers 插件

OpenAI 为 Codex 推出 OpenAI Developers 插件,将 API 密钥管理、Agents SDK、Apps SDK 及 ChatGPT Apps 开发等分散流程整合至单一会话环境。该插件包含一个 OpenAI Platform 应用和五项核心技能,支持开发者直接构建完整应用、创建并配置 API 密钥,以及诊断 API 错误。其核心目标是帮助开发者更高效地利用 OpenAI API 构建 AI 应用和智能体,实现从开发到提审的闭环工作流,提升开发效率。

OpenAI Developers: Codex can now help you build AI apps and agents faster with OpenAI APIs using the OpenAI Developers plugin.

智能体MCP/工具OpenAI产品更新
08:49
ginobefun@hongming731
71
Claude Code 推出智能体视图,集中管理并行任务

Anthropic为Claude Code发布智能体视图功能,旨在解决开发者管理多任务时的认知负担。该功能将所有并行会话集中显示在一个面板中,用户主要在关键决策点介入,其余时间会话可自动运行。其核心亮点包括Peek功能,支持快速预览会话最新进展并直接回复,以及使用/bg命令将任务推至后台。该视图支持批量下发任务、管理长期运行Agent及快速处理子任务,从而将多任务协作的组织成本从开发者转移至工具本身,有望显著改变开发工作流。该功能目前以研究预览形式向Pro、Max、Team、Enterprise及API用户开放。

智能体AnthropicMCP/工具产品更新
08:25
Chubby♨️@kimmonismus
34
发布不错。但现在看来,似乎只是为了每天发布*点东西*。

Claude: New in Claude Code: agent view. One list of all your sessions, available today as a research preview.

智能体AnthropicMCP/工具大佬观点
06:03
宝玉@dotey
80
Claude Code 推出 Agent View,统一管理 AI 编程会话

Claude Code 上线新功能 Agent View,允许开发者在单一界面集中管理所有正在运行的 AI 编程会话,解决了以往依赖多个终端标签页或 tmux 分屏、需手动记忆进度的繁琐问题。用户可通过按左箭头或运行 claude agents 命令进入总览界面,直观查看每个会话的状态(如等待回复、运行中或已完成)。其核心便利在于无需切换上下文即可直接回复特定会话,并能“偷看”进展后输入指令,不中断当前工作。此外,支持通过 /bg 命令将会话置于后台,或直接用 claude --bg 启动后台任务。该功能目前以研究预览形式向 Pro、Max、Team、Enterprise 及 API 用户开放。

Claude: New in Claude Code: agent view. One list of all your sessions, available today as a research preview.

智能体AnthropicMCP/工具产品更新
05:03
宝玉@dotey
66
Codex 的野心,MCP 和 Skill 的下一步

Codex、Claude等顶尖Agent应用均采用三栏界面,反映其从问答转向任务执行与审查的演进。Codex野心是成为“处理一切任务”的平台,但用户需二次编辑AI生成内容。目前MCP解决工具连接,Skill解决执行方法,仍缺编辑闭环。作者认为,建立类似VSCode的插件生态是合理路径,将文件预览、专业编辑等能力开放给社区开发,实现商业化,从而为中小团队提供开发垂直插件的机遇。

智能体MCP/工具OpenAI现象/趋势
05:03
🚨 AI News | TestingCatalog@testingcatalog
56
Sigma浏览器现已在隐私模式中支持Hermes智能体! Hermes智能体可基于现有本地模型执行浏览器任务。用户可在设置菜单中选择OpenClaw或Hermes选项。 选择Hermes团队还是OpenClaw团队?👀

Sigma Browser: Hermes agent running in private browser on free local models Private by design. Local. Open-source

智能体MCP/工具产品更新端侧
03:52
Simon Willison 博客
精选80
在脚本的shebang行中使用LLM

本文介绍了一种创新方法,将LLM工具直接嵌入脚本的shebang行中执行指令。通过LLM的fragments模式,shebang行可执行简单任务,如生成SVG图像;使用-T选项能调用外部工具(如llm_time)创作包含当前时间的俳句;更复杂的是运行YAML模板,其中定义了Python函数作为工具进行数学计算,示例中演示了计算2344乘以5252加134的过程,并通过调试输出展示了分步结果,最终得到12,310,822。这展现了LLM作为脚本解释器的强大扩展性,能够支持从内容生成到数据查询的多样化任务。

MCP/工具教程/实践

推荐理由:Simon 这个 shebang 技巧让 LLM 直接变成脚本解释器,虽然是极客玩法,但对常写自动化脚本的开发者来说可以直接抄走,创意很妙。
02:52
Claude Code:GitHub Releases(RSS)
精选72
Claude Code v2.1.139 版本更新

本次更新引入了多项新功能与优化。核心新增包括:集中管理会话的Agent视图(研究预览)、可设置目标并持续工作的/goal命令、实时调整滚轮速度的/scroll-speed命令,以及查看插件详情的claude plugin details命令。交互界面导航与控制能力得到增强。底层优化涵盖MCP服务器可获取CLAUDE_PROJECT_DIR环境变量、/context all的令牌估算会考虑模型分词器并显示舍入值。此外,修复了超过20项问题,如凭证死锁、内存无限制增长、权限规则、UI显示错误及路径处理等缺陷。

智能体AnthropicMCP/工具产品更新

推荐理由:Claude Code 这波更新给了两个真正改变工作流的杀手功能,agent view 让你一眼看清所有会话,/goal 命令能让 Claude 自己跑完一个任务直到满足条件,做开发的同学可以立刻试试。
00:27
Google AI Developers@googleaidevs
60
谷歌DeepMind与Coursera推出"Gemini for Developers"开发者专项课程

谷歌DeepMind与Coursera合作推出的“Gemini for Developers”专项课程现已开放注册。该课程旨在指导开发者利用Gemini模型构建可用于生产环境的AI解决方案。其核心涵盖三大模块:“推理与行动”使AI应用能推理并执行复杂任务;“连接与自动化”通过函数调用将Gemini与现实世界工具集成;“规模化与信心”则专注于构建、测试和部署可扩展的AI系统。课程强调超越单纯文本生成,实现实际任务的自动化与系统集成,助力开发者快速上手。

智能体DeepMindGoogleMCP/工具
00:02
凡人小北@frxiaobei
精选85
Anthropic在GitHub开源了金融服务行业AI解决方案完整模板库,包含10个端到端智能体、7个垂直行业插件及11家主流金融数据商的MCP连接器,覆盖投研、投行、风控等核心工作流。该库提供了从个人插件到企业API的部署方式,支持集成至Microsoft 365及私有云。此举为金融AI落地提供了开箱即用的标准作业程序,与OpenAI的消费级路线形成鲜明对比,凸显了其深耕企业场景、通过开源构建行业生态的战略意图。

Jason Zhu: Anthropic 真的惊为天人 直接把金融服务行业的 AI 工作流模板全开源了 投资银行 / 股票研究 / 私募 / 财富管理 / 基金管理 / KYC 风控 七大业务线的参考 agent / 技能包 / 数据连接器 全部公开 这超出了 ...

智能体AnthropicMCP/工具产品更新

推荐理由:Anthropic 把金融行业 AI 落地的完整 SOP 开源了,10 个 agent 加 11 家数据商 MCP 连接器,这不是 demo,是逼迫全行业在 Claude 轨道上长,金融 AI 格局就此定型。
5月11日
20:30
Peter Steinberger 🦞@steipete
48
Trimmy现已支持Claude代码提示优化功能。当然,如果你把提示词输入Codex效果会更佳,但我们要兼容并包嘛。 对了,考虑到我意识到自己正在占据菜单栏,你现在可以完全隐藏那个图标了。 https://trimmy.app
MCP/工具产品更新编码
20:01
凡人小北@frxiaobei
61
对比研究Google Health API后的几点感受

作者在体验Apple Health后,认为其数据可控性与生态开放性不足。新推出的Google Health API提供了31种健康数据点、Webhook实时推送和精细权限控制,在数据颗粒度与开放程度上优势显著,为开发者构建健康AI Agent或自动化工作流奠定了强大基础。作者计划将其接入现有系统作为核心数据源,并强调未来将优先选择接入此生态的海外健康终端以掌握数据主权,同时暗示国内生态在开放性上存在差距。

Berryxia.AI: Google 把 Fitbit Air 的全新 Google Health API 直接开放了! 昨天 Fitbit Air 刚刚发布,但更重磅的是它自带了全新的 @googlehealth API,开发者现在可以直接在上面构建 AI Ag...

智能体GoogleMCP/工具产品更新
19:48
Berryxia.AI@berryxia
73
小块有大智慧?这下真成真了!

一项新研究证明,一个通过强化学习训练的7B语言模型能够有效指挥GPT-5、Claude Sonnet 4和Gemini 2.5 Pro等前沿大模型。该模型通过编写自然语言子任务、分配给不同大模型执行,并精确指定上下文信息,在GPQA Diamond、LiveCodeBench和AIME25等硬核基准测试中,其性能全面超越了单个前沿模型。该系统平均每个问题仅需调用约三次大模型,比手动设计的多代理流程更高效。该工作提供了关键证据,表明目前商业AI产品中依赖人工的提示工程和流程设计,完全可以仅通过奖励信号进行端到端学习。这揭示了AI发展的新方向:智能的差距可能不在于模型规模,而在于协调与指挥的能力。

BURKOV: In this paper, a 7B language model trained with reinforcement learning learns to orchestrate larger frontier models like...

智能体arXivMCP/工具推理
17:34
IT之家(RSS)
64
字节火山引擎 Agent Plan 发布:业界首个"Agent 套餐包",每月 40 元起

火山引擎发布业界首个“Agent套餐包”Agent Plan,起售价每月40元。该套餐深度整合模型与工具能力,包含字节自研的Doubao-Seed系列SOTA模型及GLM-5.1、Kimi-K2.6等主流三方模型,原生支持文本、代码、图像、视频多模态任务处理。同时提供联网搜索、记忆增强等Harness工具,可自动适配Claude Code、OpenClaw等主流编程与Agent平台。套餐采用AFP(Agent燃料值)统一计费,设有40元、200元、500元和1000元四档月费阶梯。

MCP/工具产品更新行业动态
16:00
Peter Steinberger 🦞@steipete
25
使用OpenClaw对OpenClaw聊天完成端点的端到端测试改进发起挑战。 在它工作时使用/side功能提出更多问题。
MCP/工具OpenAI其他编码
14:34
IT之家(RSS)
62
腾讯 QClaw 上线"文件空间"功能,打通本地文件、腾讯文档、ima 知识库

腾讯云QClaw正式上线“文件空间”功能,通过一次授权即可一站式打通用户的本地文件、腾讯文档和ima知识库,实现了深度集成与稳定的权限管控。用户可在QClaw内直接操作腾讯文档内容,勾选多份文件交由AI处理,AI能生成可协作的活化文档并支持团队协同编辑。同时,用户可直接调取ima知识库文件进行分析,AI生成的方案也能一键保存回知识库,便于后续使用。

MCP/工具检索增强产品更新
12:34
阿绎 AYi@AYi_AInotes
62
中国移动上线AI中转站,国家队布局AGI时代智能电网

中国移动正式上线AI模型中转平台MoMA,标志着“AI国家队”入场,并将其定位为国家级的AI基础设施。该平台已接入包括DeepSeek、通义千问、豆包、Kimi、GLM在内的300多个主流模型。其核心逻辑在于,AI中转站被视为未来AGI时代的“智能电网”,是关乎定价权与行业未来的关键基础设施。此举呼应了此前关于AI中转站本质是“AI水电煤”生意的分析,预示着基础设施层面的竞争格局变化。

阿绎 AYi: http://x.com/i/article/2051958484304891904

MCP/工具政策/监管现象/趋势行业动态
11:34
阿绎 AYi@AYi_AInotes
58
GBrain升级客户端-服务器架构,MCP协议推动个人AI向基础设施演进

YC CEO主导的GBrain发布v0.31.1版本,实现从本地单机到客户端-服务器架构的关键升级。通过MCP协议,用户可部署中央家庭服务器,让所有设备与AI Agent远程连接、共享记忆,解决了同步不一致与资源浪费问题。此次更新修复了瘦客户端在本地错误创建数据库的关键bug,该bug由CEO的个人AI在生产环境发现并记录,凸显AI参与调试的新范式。这标志着个人AI正从玩具转向可控、永久的本地智能基础设施。

Garry Tan: GBrain v0.31.1 just shipped real MCP thin client support. So basically you can run ONE "home GBrain server" and everythi...

智能体MCP/工具产品更新开源生态
08:00
HuggingFace Daily Papers(社区热门论文)
57
RubricEM:超越可验证奖励的、基于评分标准引导策略分解的元强化学习框架

本文提出RubricEM框架,将评分标准作为结构化策略执行、反馈与记忆共享的核心接口,以训练深度研究智能体。该框架通过自生成评分标准使研究过程具备阶段意识,并采用阶段结构化GRPO进行更密集的语义信用分配。同时,它训练一个共享骨干的反思元策略,将已评估轨迹提炼为可重用的评分标准指导。最终实现的RubricEM-8B模型在四个长文本研究基准测试中表现优异,超越同类开源模型并接近专业系统水平。分析结果揭示了该框架各组成部分的关键作用。

智能体MCP/工具数据/训练论文/研究
06:32
宝玉@dotey
57
深度拆解:AI Agent Harness 的构造

文章指出,将大语言模型转化为可靠智能体的关键在于其外围基础设施,即“AI Agent Harness”。它被定义为产生智能体行为的完整软件架构,包括编排循环、工具、记忆、上下文管理等核心组件。这如同操作系统之于CPU,是智能体得以自主运行的“机器”。Harness工程超越了提示词工程,涵盖了完整的应用架构,是解决智能体在生产环境中表现不稳定的根本方案。

智能体AnthropicMCP/工具OpenAI
04:58
elvis@omarsar0
66
作者受启发复现了一个利用AI工具栈快速生成3D生物结构的工作流。该流程整合了Gemini Nano Pro生成概念、Tripo进行3D生成、Codex组装代码,并通过HTML构件实现交互式查看。作者认为,此类AI应用将指数级加速学习过程,并推动高质量教育的民主化。其灵感来源于@DilumSanjaya展示的利用GPT生成UI、Gemini编写代码来创建交互式科学探索应用的概念。

Dilum Sanjaya: Fun interactive science app ideas | Part 3 Played around with generating 3D biological structures and made an app to exp...

MCP/工具图像生成多模态教程/实践
03:58
elvis@omarsar0
65
苹果研究新突破:将评估嵌入执行循环,实时修正AI代理工具调用错误

苹果公司提出一种新型AI代理评估方法,将评估环节从事后分析移至执行循环内部。该方法部署一个专门的审查代理,在主代理执行每个工具调用前进行检查,若发现问题则注入反馈令其修正。研究引入了“帮助性-危害性”指标来权衡修正效果与新错误产生。在BFCL基准测试中,无关性检测准确率从84.9%提升至90.4%;在τ²-Bench多轮对话测试中,准确率从48.7%提升至55.8%。此方法的核心优势在于无需重新训练基础代理,仅通过优化审查代理的模型与提示工程即可实现显著性能提升,为生产部署提供了独立的优化杠杆。

智能体MCP/工具论文/研究
03:37
Thariq@trq212
65
Jarred 尝试用 Rust 重写 Bun,新版本已通过现有测试套件 99.8% 的测试。这是一次涉及 96 万行代码的重写,代码在 Linux 上已实际运行并通过测试,其他平台也将跟进。整个过程并非简单地指令 AI 完成,未来将有博客文章详细阐述其对 Bun 性能、内存使用、可维护性的影响,以及具体的重写过程。

Jarred Sumner: there will be a blog post about this. on what this means for bun, benchmarks, memory usage, maintainability going forwar...

AnthropicMCP/工具产品更新编码
01:34
阿绎 AYi@AYi_AInotes
62
AI预测视频爆款:脑科学模型革新内容创作流程

Higgsfield发布Virality Predictor工具,利用基于700多人fMRI数据训练的AI模型,直接预测视频引发的人脑神经反应。它能分析15秒视频的整体病毒潜力、前3秒钩子得分及注意力曲线,并生成脑区激活热图。该工具可与Claude等AI结合,实现批量生成视频变体并自动筛选高分版本,使内容测试成本从高昂广告费降至极低token费。这标志着爆款创作从依赖灵感和人工测试,转向依靠系统化预测与高效淘汰机制,核心竞争力变为利用AI快速筛除非爆款的能力。

Higgsfield AI 🧩: Higgsfield releases Virality Predictor What does it mean: > Upload any clip up to 15s > Get viral potential, hook score ...

MCP/工具产品更新视频
5月10日
23:52
Chubby♨️@kimmonismus
18
当你卧病在床却有太多想法时的问题

Chubby♨️: I'd somehow completely forgotten that Karpathy introduced the wikiLLM a while back (obsidian + Claude code/codex). I'm s...

MCP/工具其他
21:03
meng shao@shao__meng
60
智能体表现差异的关键:模型之上的"外壳"

智能体表现差异的核心在于模型之上的“外壳”,它包括提示词、工具、上下文策略等工程组件。外壳为裸模型提供状态和执行能力,使其成为智能体。行业常将智能体失败归咎于模型,但实为可定位的配置问题。通过“棘轮”方法,每次失误都可转化为优化外壳的永久规则。没有通用的最优外壳,最佳外壳是为具体任务定制的。未来,行业焦点将从构建LLM API转向构建提供运行时环境的Harness API。

Addy Osmani: http://x.com/i/article/2050749611237847040

智能体MCP/工具大佬观点编码
19:22
Chubby♨️@kimmonismus
49
我居然完全忘了Karpathy之前介绍过wikiLLM(obsidian + Claude code/codex)。 我卧病在床,因为无事可做就搭建了一个。 太喜欢了。我现在有了第二个大脑。真不可思议。
MCP/工具教程/实践
16:33
IT之家(RSS)
52
马斯克入局 AI 编程赛道:SpaceXAI 桌面编程应用 Grok Build 曝光

SpaceXAI(原xAI)的桌面编程应用Grok Build因网页端按钮意外泄露而曝光。该应用将支持macOS、Linux和Windows系统,直接对标Claude Code和Codex,主打智能体自主编程工作流。它支持插件、MCP、技能模块,并能管理Git仓库、启动开发服务器及处理本地文件。预计将搭载近期内测的Grok 4.3模型,其前端编程能力获好评。尽管具体上线时间未定,但功能泄露和内测权限发放表明发布已准备就绪。

智能体MCP/工具xAI产品更新
11:13
小互@xiaohu
49
HTML比Markdown更利于人机协作与Agent工作理解

推文提出,在Agent工作流和人机协作交互场景中,HTML格式比Markdown更易于人类阅读和理解。作者建议让Codex使用HyperFrames来制作解说视频,并指出虽然生成的解说文案带有明显的AI风格,但整体效果不错。引用的推文提供了关于HyperFrames技术或相关演示的背景支持,强调了HTML在提升人机交互清晰度方面的优势。

Thariq: http://x.com/i/article/2052796100608974848

智能体MCP/工具OpenAI大佬观点
08:00
HuggingFace Daily Papers(社区热门论文)
59
LLM代理无需推理已知何时调用工具

针对工具增强型LLM代理过度调用工具的问题,研究提出了When2Tool基准,系统评估工具调用必要性。研究发现,尽管提示优化和“推理后行动”等免训练方法效果有限,但模型隐藏状态已线性编码了工具必要性信息(AUROC达0.89-0.96)。基于此提出的Probe&Prefill方法,通过轻量级线性探针读取隐藏信号并预填充引导句,在测试的所有模型中实现了工具调用减少48%而准确率仅损失1.7%的显著效果,远超现有基线。

智能体GitHubMCP/工具论文/研究
07:57
Artificial Analysis@ArtificialAnlys
67
OpenRouter推出令人兴奋的新功能,采用Artificial Analysis基准测试 设置请求中的`min_coding_score`参数,即可根据@ArtificialAnlys的排名,自动路由至符合要求且成本最低的编码模型。 实时查看帕累托前沿的变化👇

OpenRouter: Introducing Pareto Code: a new, free, experimental coding router Set `min_coding_score` in your request and route to the...

MCP/工具产品更新编码
07:44
Berryxia.AI@berryxia
72
Google 开放 Fitbit Air 的全新 Health API

Google 随新款 Fitbit Air 发布了全新的 Health API 并向开发者开放。该 API 提供了涵盖运动、睡眠、心率、血氧等维度的 31 种健康数据点,支持 Webhooks 实时数据推送、精细的读写权限控制以及按时间范围查询和汇总数据。开发者可利用该 API 基于个人真实健康数据构建 AI Agent、MCP Server、CLI 或实时监控系统等应用,从而创建实用的个人健康自动化工作流。官方已发布包含首次调用教学的入门指南。

Philipp Schmid: Yesterday Fitbit Air launched, but did you know it comes with a new @googlehealth API? You can build AI agents, MCP serv...

智能体GoogleMCP/工具产品更新
05:31
🚨 AI News | TestingCatalog@testingcatalog
35
iOS版Grok技能实战演示 👀 * 尚未开放

I. ϟ: @testingcatalog Show us the skills option on action.

MCP/工具xAI产品更新
05:27
Greg Brockman@gdb
64
Codex处理报销事务 它自行下载月初至今的发票 更新费用电子表格并填写实际表格 使用Drive和Sheets插件进行状态跟踪 通过Gmail插件追踪发票 使用Chrome扩展程序处理实际表格及Drive上传 自加入OpenAI以来我一直拖延此事 Codex仅用约20分钟就完成了所有工作!

Vaibhav (VB) Srivastav: Codex quite literally filed my reimbursements, downloaded invoices since the start of the month, updated the expenses sp...

智能体MCP/工具OpenAI教程/实践
00:28
elvis@omarsar0
56
推文强调,在智能体工作流中结合使用 Markdown(LLM Wikis)和 HTML(Artifacts)至关重要。LLM Wikis 用于捕获和存储所有关键信息,为智能体提供工作基础;而 HTML Artifacts 则以动态、可交互的方式呈现这些信息,支持用户与智能体协同执行操作。两者结合能构建强大工具,实现收件箱清零、快速原型设计、深度研究、实验触发与信息管理等多样化功能。HTML Artifacts 并非替代 Markdown,二者协同能显著提升设计师、工程师及研究者的工作效率。

elvis: LLM Wikis + HTML Artifacts are insanely powerful. You should seriously consider this in your workflows. LLM Wikis captur...

智能体MCP/工具教程/实践
‹ 上一页
1…1617181920…26
下一页 ›