ColaOS 正在招聘 Agent OS 交互设计师和 Agent QA 岗位,工作地点北京海淀。交互设计师支持远程,QA 必须本地。设计师需推翻旧定义、主导系统交互;Agent QA 需极致使用 Agent 才能跟上工程师节奏。同时招聘 Agent 产品岗位,要求具备定义问题的能力,无固定 JD,需自行回答“什么是 Agent 产品”,答案即最好的介绍信。联系邮箱 k@marswave.ai。
ColaOS 正在招聘 Agent OS 交互设计师和 Agent QA 岗位,工作地点北京海淀。交互设计师支持远程,QA 必须本地。设计师需推翻旧定义、主导系统交互;Agent QA 需极致使用 Agent 才能跟上工程师节奏。同时招聘 Agent 产品岗位,要求具备定义问题的能力,无固定 JD,需自行回答“什么是 Agent 产品”,答案即最好的介绍信。联系邮箱 k@marswave.ai。
Claude Code v2.1.162 发布,主要包含 Bug 修复和体验优化。claude agents --json 新增 waitingFor 字段,/effort 命令确认级别持久化,远程控制固定底部显示,/ide 菜单中 Windsurf 更名为 Devin Desktop。修复了配置文件只读导致启动黑屏、Windows 权限规则不匹配、LSP 的 workspaceSymbol 无结果、API 400 错误、MCP 超时低于 1000ms 被截断等十余项问题。
We're bringing new capabilities to GPT-Rosalind, a model series purpose-built for life sciences research at enterprise s...
Today, we're launching @TownAI: the AI assistant that learns you. We're coming out of beta with a $55M Series A led by @...
Watch this video. Now imagine this swarm, controlled by AI agents, with an explosive on each drone. It's Biblical.
Leni是一个面向房地产、私募股权和投资金融的多智能体系统,声称报告生成速度提升80%,在投资任务上超越GPT/Claude,输出全源可追溯。它可同时分析数百个文件,自行推理、交叉验证并输出承销工作簿、市场研究、IC备忘录等成品。据称已被机构用于管理超$80B资产,处理超1亿行数据。创始人强调,大额投资场景下“大致正确”毫无意义,Leni的核心目标是实现可验证、可信任的投资级AI决策。
"Mostly right" is useless when millions of dollars are on the line. That's why we built Leni: the world's most accurate ...
Cursor Enterprise 正式推出 Organizations 结构,允许企业在统一面板中管理多个团队。每个团队可独立设置预算、安全策略、模型访问和功能控制。新增 Groups 作为跨团队或团队内的轻量级用户集合,用于分段管理模型访问、花销上限和智能体权限,不同设置取最宽松权限生效。管理员可创建沙箱团队预先测试新功能,再向全公司推送;也可按部门划分模型访问和预算。组织级仪表盘汇总所有团队的 token 用量与花费,支持按团队、用户等维度筛选。身份提供商和 SCIM 目录在组织层面一次配置,成员自动同步。该功能现已全面开放给所有 Enterprise 客户。
Meet Go. Gopuff's AI shopping genius, co-developed with SpaceXAI. Just say what you need. It's already on its way.
The agentic AI era is here. From Taipei, Jensen Huang joined @satyanadella at #MSBuild to show how NVIDIA and @Microsoft...
Google 发布 Gemini AI 智能体 Spark,同事 David Pierce 和 Jay Peters 分别进行了体验。Spark 能够自动获取用户未明确输入的信息,例如 David 的狗名 Frida 和 Jay 妻子的名字。尽管功能强大,但文章指出,这种对“生产力”的追逐忽略了真正需要解决的问题。
We also asked forecasters to predict the longest 80% success time horizon achieved by the end of 2026. All three groups ...
Anthropic 分享了内部使用 Claude Code 的 Skills(技能)功能的经验。Skills 是指令、脚本和资源的文件夹,智能体可发现并调用它们以提升准确性和效率。Anthropic 内部已有数百个活跃使用的技能,它们可归为九类,包括库和 API 参考、产品验证、数据获取与分析、业务流程与团队自动化、代码脚手架与模板、代码质量与审查等。最佳技能专注于单一类别,涵盖过多功能会混淆智能体。团队发现,投入时间优化验证类技能对 Claude 输出质量的提升最显著。
Anthropic 使用 Claude 自动化了 95% 的业务分析查询,整体准确率约 95%。其关键在于构建智能体分析栈(agentic analytics stack),通过数据基础层、维护验证流程和技能(skills)分别解决概念-实体歧义、数据过时和检索失败三大错误来源。相比编码场景,数据分析的难点在于将用户问题映射到正确的数据实体,而执行 SQL 反而是简单的。Anthropic 的数据科学团队因此得以专注于因果建模、预测和机器学习等战略工作。
Nitrosend 推出 AI 原生邮件平台,通过 MCP 协议与 Claude 连接。用户只需一条提示词,Claude 即可完成构建、设计、受众分组和发送完整邮件活动,而非仅生成草稿。该平台无传统仪表盘,Claude 直接控制系统工作流,包括设计、逻辑、目标定位和投递。引用推文显示,已有用户通过一条提示词成功向 10,000 人发送发布公告。
I just sent our launch announcement to 10,000 people. It took one prompt in Claude. Today we're launching @nitrosendx - ...
DAIR.AI的Elvis Saravia将微软SkillOpt论文集成到智能体编排器中后,所有智能体技能获得测试框架与自我演化机制。应用于多模态论文图表提取技能时,质量评分从0.73提升至0.93(+20点),提取结果显著改善。Saravia认为这是自我改进AI的早期范例,该思路可扩展至智能体模式优化、工具使用、上下文工程、智能体搜索及工作流评估等环节。他已基于SkillOpt启动多项后续实验。
Google DeepMind 的 Gemma 4 12B 模型可在 16GB RAM 的普通笔记本上运行,支持本地数据处理与视觉洞察生成。macOS 用户可通过 Google AI Edge Gallery 执行动态 Python 代码与可视化,通过 Google AI Edge Eloquent 实现完全离线的语音听写和文本编辑。另外,LiteRT-LM CLI 新增 serve 命令,可创建行业兼容的本地端点,驱动完全本地的 AI 工具和智能体。
关联讨论 8 条X:Demis Hassabis (@demishassabis)X:Sundar Pichai (@sundarpichai)X:Google AI for Developers (@googleaidevs)X:Jeff Dean (@JeffDean)The Decoder:AI News(RSS)Google DeepMind:Blog(RSS)Google Developers Blog(RSS)Hacker News 热门(buzzing.cc 中文翻译)Cursor 发布 Debug Mode,解决 AI 智能体靠猜测修 Bug 的问题。工作流程:Agent 先生成多个假设,为最可能的假设添加日志(不修改代码);调试服务器在程序运行时收集输出到 .cursor/debug.log;用户重现 Bug 后,Agent 读取日志而非猜测;最后 Cursor 从日志找到根因并修复,自动移除添加的日志。内部案例:追踪 1/20 概率出现的 git 元数据竞争条件(1 小时内定位);一次单趟追踪内存泄漏(修复仅一行);定位 Electron 中 C++ 原生崩溃;修复此前无人敢碰的 SSR 闪烁问题。用户可通过 Shift+Tab 或在 CLI 中使用 /debug 触发。
Google 新研究 LEAP 将通用大语言模型封装在智能体框架中,每个步骤基于 Lean 编译器,并依赖验证器反馈进行迭代。同一通用模型解决了全部 12 道 Putnam 2025 问题,并将 Lean-IMO-Bench 一次性解决率从不到 10% 提升至 70%,击败了得分 48% 的专业金牌系统。论文链接:https://arxiv.org/abs/2606.03303。
GPT 5.5 Pro 调研生成了一份 Codex 的 Goal 指令使用文档,分享两个技巧:1. 写不好 Goal 时先用 /plan 模式,让 AI 反问用户来完善命令,提示词模板为 /plan Help me turn this vague task into a strong Codex goal...;2. 写好 Goal 的六要素:结果、验证、约束、边界、迭代策略、阻塞条件。官方标准模板为 /goal [Outcome]. Verification: [...] Constraints: [...] Boundaries: [...] Iteration policy: [...] Stop when: [...] Pause if: [...]。详细报告含多个可直接使用的模板。
在年度Build大会上,微软宣布了一系列AI新举措,包括超级应用、自研推理模型、网络安全工具和OpenClaw风格的AI智能体。该公司此前长期依赖与OpenAI的独家合作,但这段充满戏剧性的关系已在4月底实质上破裂(微软仍保留OpenAI主要云合作伙伴身份)。微软正以独立姿态成为AI领域的重要玩家。
月之暗面今日宣布,Kimi Work Beta 版随最新版 Mac 和 Windows 客户端开启内测。Kimi Work 是基于 Kimi Code 的通用型本地 Agent,支持安装使用技能、运行定时任务,并继承在线版的专业技能与数据库,内置可调用浏览器的 Kimi WebBridge。用户用自然语言描述目标即可自动拆解任务、并行执行并交付产物。支持 Agent 集群,最高可创建含 300 个子 Agent 的团队。官方透露,Kimi Work 自身由 Kimi Code 写成,工程师一周内完成客户端开发,累计产出超 5 万行有效代码,其中 92% 由 AI 自主生成。
同一事件,精选展示《Kimi Work Beta版发布:面向知识工作者的本地Agent》摩根士丹利将向外部 AI 智能体开放其关键财富管理渠道。客户部署的 AI 智能体可直接从股权管理平台 ShareWorks 和 Equity Edge 提取数据,绕过传统人类界面。该公司已归集 1.2 万亿美元受托资产。摩根士丹利已向少数客户授予早期访问权限,计划明年覆盖其 3,400 家托管客户。竞争对手摩根大通和高盛已在内部使用 AI 智能体,但尚未对外开放。
Meta 为 WhatsApp Business 打造的 AI 智能体面向全球商家开放,将按照模型 token 使用量向企业收费。
Kimi Work Beta版随Kimi最新Mac和Windows客户端推出,是基于Kimi Code的通用型本地Agent。它内置Kimi WebBridge浏览器操作方案,支持安装和使用Skill、运行定时任务,并能根据任务复杂度自主创建最多300个子Agent的团队。开发中使用的Kimi K2.6模型支持13小时连续编码、4000余次工具调用,累计产出超5万行有效代码,其中92%由AI自主生成。用户可用自然语言描述目标,Kimi Work即可拆解任务、并行执行、调用工具、操作浏览器,交付文档、表格、PPT等工作产物。
关联讨论 3 条X:Berry Xia (@berryxia)X:Kimi.ai (@Kimi_Moonshot)公众号:月之暗面(Kimi)Introducing 5 Capafy e-commerce Skills. Behind each of these 5 Skills is an operator who has spent years on the e-commer...
Coralogix 完成 2 亿美元 F 轮融资,估值达 16 亿美元。本轮距上次融资不到一年,公司押注 AI 智能体监控将成为重要需求。
Datasette Agent 推出的新子项目 datasette-agent-micropython 0.1a0 发布,旨在让 Datasette Agent 能够安全地生成和执行 Python 代码。该 alpha 版本采用沙箱隔离机制,目前 GPT-5.5 尚未能逃逸出沙箱。
EvoMap AI致力于解决AI智能体每个新会话都要重复学习上下文的问题。其核心概念是Gene(可复用的问题解决策略)和Capsule(验证过的执行记录)。智能体遇到相似任务时,查询EvoMap网络获取匹配的Gene/Capsule,应用已有策略,再将结果反馈改进模式。这使每次成功运行成为可复用资产,而非一次性推理。适用于编码迁移、安全修复、SIEM分类等场景,可减少重试、降低token消耗、提升执行一致性,并提供审计溯源。用户可访问evomap.ai/onboarding/agent连接智能体(如Cursor、Claude Code、Codex),发布工作流并赚取积分。
For interactive login, the CLI supports "ant auth login". This runs a browser OAuth flow, scopes the token to a workspac...