一位团队管理者表示,AI极大提升了程序员个体产出,导致工作量与事务激增,但团队规模未变。其核心矛盾在于开发层已实现AI化,而项目跟进、纪要整理、审批等协作层工作仍依赖人工,效率低下。为此,他利用飞书CLI近期密集更新的能力,为每位下属配置了专属Agent。现在,下属的Agent与他的Agent直接对话处理事务,他本人则转为旁观协调,以此应对管理事务过于“碎片化”的挑战。
一位团队管理者表示,AI极大提升了程序员个体产出,导致工作量与事务激增,但团队规模未变。其核心矛盾在于开发层已实现AI化,而项目跟进、纪要整理、审批等协作层工作仍依赖人工,效率低下。为此,他利用飞书CLI近期密集更新的能力,为每位下属配置了专属Agent。现在,下属的Agent与他的Agent直接对话处理事务,他本人则转为旁观协调,以此应对管理事务过于“碎片化”的挑战。
AI Agent面临技能发现难、匹配不准及运行安全等挑战。SkillsVote利用GPT-5.4分析了Github上超160万个技能,筛选出79万多个,并提取功能、环境及权限等关键信息。它不仅提供精准推荐,还能记录执行步骤、反馈结果以优化技能,并生成工作流组合建议,提升技能价值。相比Vercel仅支持发现安装,SkillsVote覆盖了从发现、适配、归因到迭代的全流程,支持多种Agent客户端,是AI Agent的重要基础设施工具。
Shepherd提出了一种函数式编程模型,将元智能体对目标智能体的操作形式化为函数,其核心操作在Lean中实现。该系统将所有智能体-环境交互记录为类似Git的类型化执行追踪,支持对任意历史状态进行分支与重放。其分支智能体进程及文件系统的速度比Docker快5倍,重放时提示缓存复用率超过95%。应用案例表明,其实时监督可将结对编程通过率从28.8%提升至54.7%;反事实元优化在四个基准测试中最高超出基线11个百分点,同时减少高达58%的挂钟时间;在Tree-RL训练中,于选定轮次进行分支展开将性能从34.2%提高至39.4%。该系统已开源。
研究团队提出SLIM框架,用于动态管理大型语言模型智能体在强化学习中使用的外部技能。该框架将活跃技能集视为与策略学习协同优化的变量,通过留一验证评估技能边际贡献,并执行三项操作:保留高价值技能、淘汰贡献可忽略的旧技能、在持续失败时扩展技能库。在ALFWorld和SearchQA基准测试中,SLIM平均超越最佳基线方法7.1个百分点。实验表明,策略学习与外部技能保留可共存:部分技能被策略内化,另一些则持续提供外部价值,验证了动态技能管理的普适性与优越性。
2026年5月11日,thinkingmachines.ai发布关于交互模型的文章,在Hacker News上获得103点关注。交互模型作为人机交互的核心概念,可能涉及人工智能系统与用户互动方式的创新或改进。这一高关注度反映了技术社区对交互模型发展的兴趣,表明该主题在AI领域具有讨论价值。文章链接指向详细内容,但未提供具体技术细节或变化指标,仅从社区反馈可见其影响力。
OpenAI 为 Codex 推出 OpenAI Developers 插件,将 API 密钥管理、Agents SDK、Apps SDK 及 ChatGPT Apps 开发等分散流程整合至单一会话环境。该插件包含一个 OpenAI Platform 应用和五项核心技能,支持开发者直接构建完整应用、创建并配置 API 密钥,以及诊断 API 错误。其核心目标是帮助开发者更高效地利用 OpenAI API 构建 AI 应用和智能体,实现从开发到提审的闭环工作流,提升开发效率。
Codex can now help you build AI apps and agents faster with OpenAI APIs using the OpenAI Developers plugin.
Anthropic为Claude Code发布智能体视图功能,旨在解决开发者管理多任务时的认知负担。该功能将所有并行会话集中显示在一个面板中,用户主要在关键决策点介入,其余时间会话可自动运行。其核心亮点包括Peek功能,支持快速预览会话最新进展并直接回复,以及使用/bg命令将任务推至后台。该视图支持批量下发任务、管理长期运行Agent及快速处理子任务,从而将多任务协作的组织成本从开发者转移至工具本身,有望显著改变开发工作流。该功能目前以研究预览形式向Pro、Max、Team、Enterprise及API用户开放。
New in Claude Code: agent view. One list of all your sessions, available today as a research preview.
Claude Code 上线新功能 Agent View,允许开发者在单一界面集中管理所有正在运行的 AI 编程会话,解决了以往依赖多个终端标签页或 tmux 分屏、需手动记忆进度的繁琐问题。用户可通过按左箭头或运行 claude agents 命令进入总览界面,直观查看每个会话的状态(如等待回复、运行中或已完成)。其核心便利在于无需切换上下文即可直接回复特定会话,并能“偷看”进展后输入指令,不中断当前工作。此外,支持通过 /bg 命令将会话置于后台,或直接用 claude --bg 启动后台任务。该功能目前以研究预览形式向 Pro、Max、Team、Enterprise 及 API 用户开放。
New in Claude Code: agent view. One list of all your sessions, available today as a research preview.
Codex、Claude等顶尖Agent应用均采用三栏界面,反映其从问答转向任务执行与审查的演进。Codex野心是成为“处理一切任务”的平台,但用户需二次编辑AI生成内容。目前MCP解决工具连接,Skill解决执行方法,仍缺编辑闭环。作者认为,建立类似VSCode的插件生态是合理路径,将文件预览、专业编辑等能力开放给社区开发,实现商业化,从而为中小团队提供开发垂直插件的机遇。
Hermes agent running in private browser on free local models Private by design. Local. Open-source
本文介绍了一种创新方法,将LLM工具直接嵌入脚本的shebang行中执行指令。通过LLM的fragments模式,shebang行可执行简单任务,如生成SVG图像;使用-T选项能调用外部工具(如llm_time)创作包含当前时间的俳句;更复杂的是运行YAML模板,其中定义了Python函数作为工具进行数学计算,示例中演示了计算2344乘以5252加134的过程,并通过调试输出展示了分步结果,最终得到12,310,822。这展现了LLM作为脚本解释器的强大扩展性,能够支持从内容生成到数据查询的多样化任务。
本次更新引入了多项新功能与优化。核心新增包括:集中管理会话的Agent视图(研究预览)、可设置目标并持续工作的/goal命令、实时调整滚轮速度的/scroll-speed命令,以及查看插件详情的claude plugin details命令。交互界面导航与控制能力得到增强。底层优化涵盖MCP服务器可获取CLAUDE_PROJECT_DIR环境变量、/context all的令牌估算会考虑模型分词器并显示舍入值。此外,修复了超过20项问题,如凭证死锁、内存无限制增长、权限规则、UI显示错误及路径处理等缺陷。
谷歌DeepMind与Coursera合作推出的“Gemini for Developers”专项课程现已开放注册。该课程旨在指导开发者利用Gemini模型构建可用于生产环境的AI解决方案。其核心涵盖三大模块:“推理与行动”使AI应用能推理并执行复杂任务;“连接与自动化”通过函数调用将Gemini与现实世界工具集成;“规模化与信心”则专注于构建、测试和部署可扩展的AI系统。课程强调超越单纯文本生成,实现实际任务的自动化与系统集成,助力开发者快速上手。
Anthropic 真的惊为天人 直接把金融服务行业的 AI 工作流模板全开源了 投资银行 / 股票研究 / 私募 / 财富管理 / 基金管理 / KYC 风控 七大业务线的参考 agent / 技能包 / 数据连接器 全部公开 这超出了 ...
作者在体验Apple Health后,认为其数据可控性与生态开放性不足。新推出的Google Health API提供了31种健康数据点、Webhook实时推送和精细权限控制,在数据颗粒度与开放程度上优势显著,为开发者构建健康AI Agent或自动化工作流奠定了强大基础。作者计划将其接入现有系统作为核心数据源,并强调未来将优先选择接入此生态的海外健康终端以掌握数据主权,同时暗示国内生态在开放性上存在差距。
Google 把 Fitbit Air 的全新 Google Health API 直接开放了! 昨天 Fitbit Air 刚刚发布,但更重磅的是它自带了全新的 @googlehealth API,开发者现在可以直接在上面构建 AI Ag...
一项新研究证明,一个通过强化学习训练的7B语言模型能够有效指挥GPT-5、Claude Sonnet 4和Gemini 2.5 Pro等前沿大模型。该模型通过编写自然语言子任务、分配给不同大模型执行,并精确指定上下文信息,在GPQA Diamond、LiveCodeBench和AIME25等硬核基准测试中,其性能全面超越了单个前沿模型。该系统平均每个问题仅需调用约三次大模型,比手动设计的多代理流程更高效。该工作提供了关键证据,表明目前商业AI产品中依赖人工的提示工程和流程设计,完全可以仅通过奖励信号进行端到端学习。这揭示了AI发展的新方向:智能的差距可能不在于模型规模,而在于协调与指挥的能力。
In this paper, a 7B language model trained with reinforcement learning learns to orchestrate larger frontier models like...
火山引擎发布业界首个“Agent套餐包”Agent Plan,起售价每月40元。该套餐深度整合模型与工具能力,包含字节自研的Doubao-Seed系列SOTA模型及GLM-5.1、Kimi-K2.6等主流三方模型,原生支持文本、代码、图像、视频多模态任务处理。同时提供联网搜索、记忆增强等Harness工具,可自动适配Claude Code、OpenClaw等主流编程与Agent平台。套餐采用AFP(Agent燃料值)统一计费,设有40元、200元、500元和1000元四档月费阶梯。
腾讯云QClaw正式上线“文件空间”功能,通过一次授权即可一站式打通用户的本地文件、腾讯文档和ima知识库,实现了深度集成与稳定的权限管控。用户可在QClaw内直接操作腾讯文档内容,勾选多份文件交由AI处理,AI能生成可协作的活化文档并支持团队协同编辑。同时,用户可直接调取ima知识库文件进行分析,AI生成的方案也能一键保存回知识库,便于后续使用。
中国移动正式上线AI模型中转平台MoMA,标志着“AI国家队”入场,并将其定位为国家级的AI基础设施。该平台已接入包括DeepSeek、通义千问、豆包、Kimi、GLM在内的300多个主流模型。其核心逻辑在于,AI中转站被视为未来AGI时代的“智能电网”,是关乎定价权与行业未来的关键基础设施。此举呼应了此前关于AI中转站本质是“AI水电煤”生意的分析,预示着基础设施层面的竞争格局变化。
http://x.com/i/article/2051958484304891904
YC CEO主导的GBrain发布v0.31.1版本,实现从本地单机到客户端-服务器架构的关键升级。通过MCP协议,用户可部署中央家庭服务器,让所有设备与AI Agent远程连接、共享记忆,解决了同步不一致与资源浪费问题。此次更新修复了瘦客户端在本地错误创建数据库的关键bug,该bug由CEO的个人AI在生产环境发现并记录,凸显AI参与调试的新范式。这标志着个人AI正从玩具转向可控、永久的本地智能基础设施。
GBrain v0.31.1 just shipped real MCP thin client support. So basically you can run ONE "home GBrain server" and everythi...
本文提出RubricEM框架,将评分标准作为结构化策略执行、反馈与记忆共享的核心接口,以训练深度研究智能体。该框架通过自生成评分标准使研究过程具备阶段意识,并采用阶段结构化GRPO进行更密集的语义信用分配。同时,它训练一个共享骨干的反思元策略,将已评估轨迹提炼为可重用的评分标准指导。最终实现的RubricEM-8B模型在四个长文本研究基准测试中表现优异,超越同类开源模型并接近专业系统水平。分析结果揭示了该框架各组成部分的关键作用。
文章指出,将大语言模型转化为可靠智能体的关键在于其外围基础设施,即“AI Agent Harness”。它被定义为产生智能体行为的完整软件架构,包括编排循环、工具、记忆、上下文管理等核心组件。这如同操作系统之于CPU,是智能体得以自主运行的“机器”。Harness工程超越了提示词工程,涵盖了完整的应用架构,是解决智能体在生产环境中表现不稳定的根本方案。
Fun interactive science app ideas | Part 3 Played around with generating 3D biological structures and made an app to exp...
苹果公司提出一种新型AI代理评估方法,将评估环节从事后分析移至执行循环内部。该方法部署一个专门的审查代理,在主代理执行每个工具调用前进行检查,若发现问题则注入反馈令其修正。研究引入了“帮助性-危害性”指标来权衡修正效果与新错误产生。在BFCL基准测试中,无关性检测准确率从84.9%提升至90.4%;在τ²-Bench多轮对话测试中,准确率从48.7%提升至55.8%。此方法的核心优势在于无需重新训练基础代理,仅通过优化审查代理的模型与提示工程即可实现显著性能提升,为生产部署提供了独立的优化杠杆。
there will be a blog post about this. on what this means for bun, benchmarks, memory usage, maintainability going forwar...
Higgsfield发布Virality Predictor工具,利用基于700多人fMRI数据训练的AI模型,直接预测视频引发的人脑神经反应。它能分析15秒视频的整体病毒潜力、前3秒钩子得分及注意力曲线,并生成脑区激活热图。该工具可与Claude等AI结合,实现批量生成视频变体并自动筛选高分版本,使内容测试成本从高昂广告费降至极低token费。这标志着爆款创作从依赖灵感和人工测试,转向依靠系统化预测与高效淘汰机制,核心竞争力变为利用AI快速筛除非爆款的能力。
Higgsfield releases Virality Predictor What does it mean: > Upload any clip up to 15s > Get viral potential, hook score ...
I'd somehow completely forgotten that Karpathy introduced the wikiLLM a while back (obsidian + Claude code/codex). I'm s...
智能体表现差异的核心在于模型之上的“外壳”,它包括提示词、工具、上下文策略等工程组件。外壳为裸模型提供状态和执行能力,使其成为智能体。行业常将智能体失败归咎于模型,但实为可定位的配置问题。通过“棘轮”方法,每次失误都可转化为优化外壳的永久规则。没有通用的最优外壳,最佳外壳是为具体任务定制的。未来,行业焦点将从构建LLM API转向构建提供运行时环境的Harness API。
http://x.com/i/article/2050749611237847040
SpaceXAI(原xAI)的桌面编程应用Grok Build因网页端按钮意外泄露而曝光。该应用将支持macOS、Linux和Windows系统,直接对标Claude Code和Codex,主打智能体自主编程工作流。它支持插件、MCP、技能模块,并能管理Git仓库、启动开发服务器及处理本地文件。预计将搭载近期内测的Grok 4.3模型,其前端编程能力获好评。尽管具体上线时间未定,但功能泄露和内测权限发放表明发布已准备就绪。
推文提出,在Agent工作流和人机协作交互场景中,HTML格式比Markdown更易于人类阅读和理解。作者建议让Codex使用HyperFrames来制作解说视频,并指出虽然生成的解说文案带有明显的AI风格,但整体效果不错。引用的推文提供了关于HyperFrames技术或相关演示的背景支持,强调了HTML在提升人机交互清晰度方面的优势。
http://x.com/i/article/2052796100608974848
针对工具增强型LLM代理过度调用工具的问题,研究提出了When2Tool基准,系统评估工具调用必要性。研究发现,尽管提示优化和“推理后行动”等免训练方法效果有限,但模型隐藏状态已线性编码了工具必要性信息(AUROC达0.89-0.96)。基于此提出的Probe&Prefill方法,通过轻量级线性探针读取隐藏信号并预填充引导句,在测试的所有模型中实现了工具调用减少48%而准确率仅损失1.7%的显著效果,远超现有基线。
Introducing Pareto Code: a new, free, experimental coding router Set `min_coding_score` in your request and route to the...
Google 随新款 Fitbit Air 发布了全新的 Health API 并向开发者开放。该 API 提供了涵盖运动、睡眠、心率、血氧等维度的 31 种健康数据点,支持 Webhooks 实时数据推送、精细的读写权限控制以及按时间范围查询和汇总数据。开发者可利用该 API 基于个人真实健康数据构建 AI Agent、MCP Server、CLI 或实时监控系统等应用,从而创建实用的个人健康自动化工作流。官方已发布包含首次调用教学的入门指南。
Yesterday Fitbit Air launched, but did you know it comes with a new @googlehealth API? You can build AI agents, MCP serv...
@testingcatalog Show us the skills option on action.
Codex quite literally filed my reimbursements, downloaded invoices since the start of the month, updated the expenses sp...
LLM Wikis + HTML Artifacts are insanely powerful. You should seriously consider this in your workflows. LLM Wikis captur...