Google DeepMind论文首次系统分类六类攻击:HTML注释/白色文本隐藏指令、图像隐写、PDF元数据/演讲者笔记覆写、跨会话内存投毒、目标劫持及多智能体级联攻击。隐藏提示注入在86%场景中部分控制智能体,子智能体劫持成功率58–90%,数据泄露攻击在五种架构中均超80%。内存投毒成功率超80%,仅需不足0.1%数据污染。论文指出网页、邮件等非受信材料可被武器化,构成主要攻击面。
Anthropic 将 95% 的业务分析查询交给 Claude,准确率约 95%。最初仅 21%,通过搭建数据基础、权威来源、技能等四层系统提升。核心发现:准确性问题本质是上下文和验证,而非代码生成。三种失败模式:概念对应错误、数据过时、找不到正确字段。重复分析由 Claude 承担,数据科学团队专注更高价值任务。
场外衍生品名义846万亿美元,45%保证金追缴有争议,过半源于合同解读。系统用四层架构分离语义与算术:ADE提取字段绑页码,多个Claude并行归一化,规则预审矛盾,纯Python计算器确定性运算,生成带追溯的审计包。LLM处理模糊语义,规则保证算术一致性,适用于文档解释驱动的场景。
http://x.com/i/article/2062396450479427584
Introducing frame.md, a spec built for videos & motion design.md kept your brand consistent across screens but when appl...
Zara Zhang 的开源项目 feishu-claude-code-bridge 现已升级,新增支持连接本机 Codex CLI。由于 6 月 15 日起 Claude 订阅计划对 claude -p 和 Agent SDK 独立计费,不走订阅额度,用户可改用 Codex 避免此限制。Codex 支持调用 GPT Image 2 画图,可在飞书内指挥它抓取网页、翻译并生成中文手绘教育风信息图,直接创建飞书文档。连接命令改为 lark-channel-bridge run --profile codex。项目 README 提供中英文说明。
如果你同时用飞书和 Claude Code 的话,Zara Zhang这个开源项目 feishu-claude-code-bridge 值得一试,它可以让你在飞书里面直接连接 Claude Code,从飞书指挥 Claude Code,反过...
StepFun's Step 3.7 Flash sits on the Intelligence vs Output Speed Pareto frontier, scoring 43 on the Artificial Analysis...
AI Agent 不会完全取代手机和 PC,但用户无需打开多个 App,直接给 Agent 下指令即可。通用 Agent 将成未来操作系统,App 有三种结局:消亡、转为 CLI/MCP、保留为 GUI 插件。SaaS 应尽快推出 CLI 与 Skill 以适配 Agent。
通用 Agent 就是未来的操作系统了,就像现在我们操作电脑需要借助操作系统,以后我们跟 AI 通信会通过 Agent OS。 App 会有几种结局: - 消亡:Agent 自己就有能力,不需要独立的 App - 变成 CLI 或者 MCP...
Recently met @srush_nlp and he started giving me an impromptu lecture on how targeted on-policy self-distillation works....
Cursor 推出 Debug Mode,解决传统 AI Agent 依赖静态推理易产生“假修复”的问题。其核心是通过添加临时日志、让用户复现 Bug,收集运行时证据进行诊断,再自动清除日志。Cursor 团队内部案例显示,该模式能高效定位概率性竞态条件、内存泄漏、C++ 原生崩溃及 SSR 渲染等难以静态分析的 Bug,将“猜测”转为“基于证据的诊断”。
http://x.com/i/article/2061967596568875008
谷歌将 Gemma 4 12B 与 Google AI Edge 深度整合,开发者可在笔记本上运行 100% on-device 的 Agentic workflow。Mac 用户新增两款工具:AI Edge Gallery 直接生成代码,AI Edge Eloquent 支持语音输入并实时编辑文本。底层通过 LiteRT-LM 本地 serve 模型,实现零网络、零延迟、数据完全留在设备端。Google 将模型、推理引擎和开发工具链打包,让开发者拥有私有的、可连续执行的本地 AI 队友。
Unlock local, agentic workflows with Gemma 4 12B and Google AI Edge, directly on your laptop. Experience 100% on-device ...
OpenAI 为专为生命科学研究打造的企业级模型系列 GPT-Rosalind 增加新能力,融合 GPT-5.5 的 Agentic Coding 与工具调用能力。Rosalind 可自主生成假设、调用工具模拟、设计实验方案并追踪工作流可重复性,面向药物发现、分子分析、实验设计及湿实验流程。该模型非通用模型加生命科学提示,而是从头针对药物发现、蛋白设计等场景专项强化,支持企业级海量数据处理、跨团队协作与合规审计。命名致敬 DNA 结构科学家 Rosalind Franklin。
We're bringing new capabilities to GPT-Rosalind, a model series purpose-built for life sciences research at enterprise s...
OpenClaw 推出 Skill Workshop,将 Agent 的 Skill 定位为可复用工作流。机制为先提案后生效:Agent 生成提案,用户可修改措辞、补充步骤、调整支持文件,确认后才写入正式 Skill,避免错误固化。提供 Board 视图(按 pending/applied/rejected/stale 分栏管理)和 Today 视图(快速过审)。Tweak 微调功能允许围绕同一提案反复修订。Skill 可捆绑 assets、scripts 等支持文件,路径规则严格禁止绝对路径和目录穿越。引用 OpenClaw:Agent 应学习重复工作,但非静默改写未来运行;Skill Workshop 将可复用经验变成可审查提案。
Agents should learn repeated work, but not by silently rewriting future runs. Skill Workshop turns reusable agent lesson...
微软CEO纳德拉在Build 2026阐述「Frontier Intelligence Platform」战略,主张企业AI竞争壁垒来自私有评测集与运行轨迹数据,而非模型采购;Azure网络团队通过Agent系统Miles自动化500余名运维人员知识。月之暗面发布Kimi Work Beta桌面端,基于Kimi K2.6模型,支持最高300个子Agent并行、13小时编码、4000余次工具调用,能自主完成金融调研、科研数据分析和128页报告生成;开发中92%代码由AI生成。腾讯研究院3万字报告量化超级个体与组织效率的关系。三篇内容指向人机协作边界重塑。
ColaOS 正在招聘 Agent OS 交互设计师和 Agent QA 岗位,工作地点北京海淀。交互设计师支持远程,QA 必须本地。设计师需推翻旧定义、主导系统交互;Agent QA 需极致使用 Agent 才能跟上工程师节奏。同时招聘 Agent 产品岗位,要求具备定义问题的能力,无固定 JD,需自行回答“什么是 Agent 产品”,答案即最好的介绍信。联系邮箱 k@marswave.ai。
We're bringing new capabilities to GPT-Rosalind, a model series purpose-built for life sciences research at enterprise s...
Today, we're launching @TownAI: the AI assistant that learns you. We're coming out of beta with a $55M Series A led by @...
Watch this video. Now imagine this swarm, controlled by AI agents, with an explosive on each drone. It's Biblical.
Leni是一个面向房地产、私募股权和投资金融的多智能体系统,声称报告生成速度提升80%,在投资任务上超越GPT/Claude,输出全源可追溯。它可同时分析数百个文件,自行推理、交叉验证并输出承销工作簿、市场研究、IC备忘录等成品。据称已被机构用于管理超$80B资产,处理超1亿行数据。创始人强调,大额投资场景下“大致正确”毫无意义,Leni的核心目标是实现可验证、可信任的投资级AI决策。
"Mostly right" is useless when millions of dollars are on the line. That's why we built Leni: the world's most accurate ...
Meet Go. Gopuff's AI shopping genius, co-developed with SpaceXAI. Just say what you need. It's already on its way.
The agentic AI era is here. From Taipei, Jensen Huang joined @satyanadella at #MSBuild to show how NVIDIA and @Microsoft...
We also asked forecasters to predict the longest 80% success time horizon achieved by the end of 2026. All three groups ...
Nitrosend 推出 AI 原生邮件平台,通过 MCP 协议与 Claude 连接。用户只需一条提示词,Claude 即可完成构建、设计、受众分组和发送完整邮件活动,而非仅生成草稿。该平台无传统仪表盘,Claude 直接控制系统工作流,包括设计、逻辑、目标定位和投递。引用推文显示,已有用户通过一条提示词成功向 10,000 人发送发布公告。
I just sent our launch announcement to 10,000 people. It took one prompt in Claude. Today we're launching @nitrosendx - ...
DAIR.AI的Elvis Saravia将微软SkillOpt论文集成到智能体编排器中后,所有智能体技能获得测试框架与自我演化机制。应用于多模态论文图表提取技能时,质量评分从0.73提升至0.93(+20点),提取结果显著改善。Saravia认为这是自我改进AI的早期范例,该思路可扩展至智能体模式优化、工具使用、上下文工程、智能体搜索及工作流评估等环节。他已基于SkillOpt启动多项后续实验。
Cursor 发布 Debug Mode,解决 AI 智能体靠猜测修 Bug 的问题。工作流程:Agent 先生成多个假设,为最可能的假设添加日志(不修改代码);调试服务器在程序运行时收集输出到 .cursor/debug.log;用户重现 Bug 后,Agent 读取日志而非猜测;最后 Cursor 从日志找到根因并修复,自动移除添加的日志。内部案例:追踪 1/20 概率出现的 git 元数据竞争条件(1 小时内定位);一次单趟追踪内存泄漏(修复仅一行);定位 Electron 中 C++ 原生崩溃;修复此前无人敢碰的 SSR 闪烁问题。用户可通过 Shift+Tab 或在 CLI 中使用 /debug 触发。
Google 新研究 LEAP 将通用大语言模型封装在智能体框架中,每个步骤基于 Lean 编译器,并依赖验证器反馈进行迭代。同一通用模型解决了全部 12 道 Putnam 2025 问题,并将 Lean-IMO-Bench 一次性解决率从不到 10% 提升至 70%,击败了得分 48% 的专业金牌系统。论文链接:https://arxiv.org/abs/2606.03303。
GPT 5.5 Pro 调研生成了一份 Codex 的 Goal 指令使用文档,分享两个技巧:1. 写不好 Goal 时先用 /plan 模式,让 AI 反问用户来完善命令,提示词模板为 /plan Help me turn this vague task into a strong Codex goal...;2. 写好 Goal 的六要素:结果、验证、约束、边界、迭代策略、阻塞条件。官方标准模板为 /goal [Outcome]. Verification: [...] Constraints: [...] Boundaries: [...] Iteration policy: [...] Stop when: [...] Pause if: [...]。详细报告含多个可直接使用的模板。
Introducing 5 Capafy e-commerce Skills. Behind each of these 5 Skills is an operator who has spent years on the e-commer...