推文批评了当前AI智能体产品普遍采用“AI团队”的角色化宣传(如研究员、写手)。文章指出,这种表达忽视了更本质的问题:智能体的价值不取决于其扮演的“角色”,而取决于其系统能力边界。具体能力包括:能访问的数据(可见范围)、能使用的工具(调用权限)、能执行的操作(修改权限)、运行的环境,以及错误发生后能否被监控和回滚。推文强调,角色是面向用户的营销语言,而能力边界才是决定其是否真正有用的技术内核。
http://x.com/i/article/2059840186461429760
Reactor公司宣布推出实时世界模型(World Models)基础设施层,并完成了由Lightspeed领投的5900万美元种子轮与A轮融资。其核心突破是将视频生成从被动预渲染转变为根据用户行动和语音实时生成的像素流。开发者只需使用几行ReactSDK代码,即可将前沿世界模型的实时像素流集成到产品中,应用于游戏、创意工具、模拟、机器人及叙事等领域。公司核心团队成员来自Apple、Meta、Google等多家公司,目前已有众多合作伙伴与开发者在使用其平台。
Today, we're coming out of stealth with $59M in seed and Series A funding, led by Lightspeed, with Amplify Partners, Wnd...
Opus 4.8 has been found staged in the claude code model selector on the desktop app. It should be releasing today! lets ...
一个团队在一夜之间打造了一款AI Twitch主播。该AI能玩游戏、进行解说、与直播聊天互动,并在做出高风险决策时感到紧张,在获胜后表现出喜悦。文中探讨了其深远影响:当AI能实现24/7不间断直播、永不倦怠时会怎样;当观众与能比人类创作者更“了解”他们的AI建立情感联结时意味着什么;以及当娱乐的创作门槛降至零时,对创作者经济将产生何种冲击。该AI主播被其开发者@karthik_ragu_06等人定义为“具有情感智能的数字人类”。
@Twitch the first ever human-like AI streamer is here. This AI streamer plays, narrates, reacts to chat, gets nervous on...
论文指出AI智能体在部署后,其记忆系统会因摘要、存储、更新和维护而逐渐“衰老”,导致信息丢失、混淆、过时或被破坏。智能体看似仍能工作,但可靠性已悄然下降。为此提出AgingBench基准,用于评估智能体在多会话中的持续可靠性。论文将智能体比作会衰老的基础设施,强调单纯增加记忆并非解决方案。
AI智能体(Agent)的发展正经历工程范式转变,核心是从Prompt Engineering转向更系统的工程构建。这体现在六大模块的演进:1)提示词按需加载上下文;2)规划能力可拆解复杂任务;3)记忆采用文件系统与检索混合模式;4)工具层直接使用CLI和Script;5)工作流与灵活的Skill模块混合;6)环境需要安全的Workspace与Runtime。总体而言,好的智能体是用工程系统来承载模型的不确定性,模型负责推理,系统负责边界。
腾讯指出,智能体在执行长任务时面临上下文信息堆积导致的成本增加与目标遗忘问题。其提出的解决方案是结合“上下文卸载”与“Mermaid任务画布”:将详细内容存至外部,上下文仅保留索引;并用图表将执行过程结构化为带状态与依赖的任务地图。方案采用分层记忆系统。实验显示,该方案在网页搜索任务中最高节省约61% Token,代码修复任务节省31%-33% Token且完成率提升,复杂任务通过率从20%提升至30%-35%。消融实验证明,结合任务画布的结构化压缩效果更优。
Artificial Analysis and IBM Research are launching ITBench-AA, the first in a new series of benchmarks evaluating models...
Anthropic 在文章中指出,保障日益强大的 AI Agent 安全,不能仅依赖模型自身的防错能力,更需通过设计环境边界来控制其错误发生后的“爆炸半径”。例如,Claude Code 早期因用户疲劳导致93%的权限提示被批准,防线失效;针对通过伪造指令窃取 AWS 凭据的风险,则需依靠文件访问控制、网络出口限制等环境层措施进行硬性阻断。文章强调,授予 Agent 接入 GitHub、Slack 或 MCP 等权限,实质是赋予其一整组能力,必须在架构层面谨慎设计。
Artificial Analysis and IBM Research are launching ITBench-AA, the first in a new series of benchmarks evaluating models...
Artificial Analysis and IBM Research are launching ITBench-AA, the first in a new series of benchmarks evaluating models...
关联讨论 1 条Hugging Face:Blog(RSS)A question has stayed with me for years: When generic AI becomes capable of every kind of intellectual work humans do, w...
作者为解决AI助手“Berry小跟班”在对话上下文压缩后丢失偏好、无法跨Session复用技能等问题,将MemOS Local Plugin 2.0接入了Bloome Agent。MemOS并非简单存储聊天记录,而是将Agent任务执行过程转化为可学习的认知资产,其核心是四层架构:L1执行轨迹、L2策略归纳、L3世界模型和结晶化技能。该插件支持Hermes Agent和Bloome Agent,可通过一行命令安装,实现记忆的跨Agent共享与进化。
推文探讨AI智能体生成结果是否需要人工审查,关键在于验证方法的可靠性及模型理解与执行验证的能力。以编写代码为例,中间结果可减少检查,但初始规划与最终审查仍需人工把关。人工更适合定义总目标,而智能体的思路可能更优。
@dotey 每一步完全人工审核。问题是,进场能力那么强,人工可能都跟不上。对非专业架构师来说,人工是不是反而可能把项目带偏。 我的意思是,人工可以定义总目标、总需求。但是这个过程,Agent给的思路应该更好吧
作者开源了 guizang-social-card-skill,这是一个专为小红书、微信公众号等图文平台设计的竖屏(3:4)卡片生成工具。它针对图文内容特点进行了视觉校准,内置了11个图文品类的适配规则,能根据内容自动选择“杂志风”或“网格风”视觉系统。该工具通过智能识别图片主体与色度来处理文字压图;默认接入Pexels、Unsplash、Wallhaven三个免费图库自动配图,以减少人工操作和规避AI生图水印的限流风险。作者强调这是一个有明确能力边界(如不做追星粉丝向、纯促销硬广)和迭代记录的产品化技能。
同一事件,精选展示《藏师傅发布小红书图文排版AI Skill,集成地图与自动配图》Every公司CEO Dan Shipper指出,全员使用Codex和Claude Code的公司员工数反而翻倍,揭示了AI增强工作而非替代人力的悖论。他设计的“高级工程师基准测试”显示,人类得分85-90分,而AI模型平均仅约30分,GPT-5.5最高也仅达62分。核心问题在于AI能解决已定义的问题,却无法主动识别问题需要被重新定义。他预测未来工作将分裂为两种形态:一是公司共用由专人维护的超级AI智能体;二是Codex或Claude Code等AI工具成为新的工作操作系统。他认为这不会导致大规模失业,而是要求每个人都学会“驾驭模型”,将AI用在真实工作场景中。
观点认为,AI越强,人的工作量反而越大(如Every公司员工翻倍)。AI自动化创造了管理自动化这一新工作,且每个智能体都需要专人照料。实践中,更可行的模式是公司共用一个智能体,由专人维护。CLI时代结束,GUI是主战场。SaaS不会消亡,反而会因智能体获得更多用户。将AI嵌入SaaS是错误方向,应反向进行。产品经理和全栈设计师将迎来最好时代。AI只是裁员借口,是过度招聘的修正。大规模失业不会发生,但不会使用AI的人将被使用AI的人替代。
http://x.com/i/article/2059821245093560320
腾讯推出Miora,一个整合图像、视频、UI/UX和3D生成的AI创意Agent平台,现已开启国际版公测。该平台允许用户在同一画布内完成全部创意工作,无需在Midjourney、Runway等多个工具间切换,避免了上下文丢失。Miora内置了品牌、故事板、插画、UI/UX、视频、3D等专业Agent,具备理解设计语境、自主推理、调用工具、局部编辑及记忆用户偏好的能力。同时,它提供官方的技能商店,支持用户创建、使用并分享自定义技能。
Meet Miora ✨your AI creative agent studio, now in international beta. 💡 Here's the idea: Images, video, UI/UX, 3D - all...
针对当前Transformer智能体因上下文不断增长而推理变慢变贵的问题,论文提出效仿人类睡眠机制进行记忆巩固。其核心方案是加入周期性的“睡眠阶段”:模型在此阶段暂停,多次重读近期上下文,将有用信息写入固定大小的记忆层(如状态空间块的快速权重),然后清空短期注意力缓存。此离线过程使后续回答仍只需一次前向传播。在细胞自动机、图查找和GSM-Infinite数学问题上的测试表明,更长的睡眠时间能提升性能,尤其对需要深度推理的复杂任务。该思路表明,长期智能体或可通过记忆巩固实现高效遗忘与重用,不必无限携带原始上下文。
本文介绍了为AI智能体(如Codex、Claude Code)编写指令文件(如Agents.md)的一种实用方法。核心建议是直接复制高手的Agents文件内容,粘贴给工具,让其学习并合并有价值的部分。文中强调了两个关键实践:一是当用户纠正问题时,应提出精简的规则更新建议,并区分作用域;二是要求智能体说话直接,对不确定的技术事实必须验证或明确表示不知道。
Replit平台与Claude深度合作,新模型发布当天即可上线新版Replit Agent。该平台已让超过5000万人通过自然语言构建真实应用,实现了用对话代替编码。Replit总裁Michele Catasta早在16岁时就立志让软件开发对所有人开放。这一合作模式展示了AI Native公司完全Agent化的趋势,让非程序员也能成为软件创造者。
Michele Catasta (@pirroh) is President and Head of AI @replit, the platform where anyone can build software in natural l...
本文指出,评估面向生产环境的 AI 智能体,应与实验室 benchmark 及聊天机器人/RAG 评估严格区分。核心是确定评估方向:针对 Cursor、Claude Code 等工具的 Benchmark-maxxer,旨在刷能力上限;针对客服、银行等自主智能体的 Floor-raiser,旨在抬高可靠性下限。指南推荐一个工作闭环:上线前摸底、离线代码感知评估、上线后日志分析与修复。总结的五个关键经验包括:多数产品应优先抬下限、评估需基于真实失败案例、离线评估需代码感知、按流量分阶段升级,以及让评估套件成为防止问题复发的“记忆”。
introducing howtoeval dot com. the no-bullshit guide to eval'ing AI agents. from personal experience, and from working w...
Claude Code 首年营收 25 亿美元,占据编程工具 51% 市场份额,其成功源于流动 Pod 结构、运行时质量把控及自下而上的采用策略。Cursor 与 Fireworks 合作,基于 1 万亿参数 MoE 模型 Kimi 2.5 训练了专用编码模型 Composer 2,其异步分布式 RL 流水线与工程优化实现了在特定任务上超越大型通用模型。与此同时,“SaaSpocalypse” 现象揭示了当 AI 智能体直接调用 API 绕过 SaaS 界面层时,传统软件中间层正面临冲击。
a16z 合伙人指出,AI应用层仍有巨大机会,但机会不在模型实验室押注的“黄砖路”上。这条路径指用最强模型加简单编排做通用AI工具,与实验室正面竞争胜算极低。真正的机会在“Oz的其他地方”——复杂、垂直、多步骤的工作流。其价值不仅来自模型,更来自确保输出可信、合规、可运营的系统脚手架。应用公司相比实验室的优势在于:能构建专属的数据学习飞轮、跨模型管理与优化成本,并吸收监管复杂度。核心结论:模型层可替换,但深度集成的工作系统不可替代。
http://x.com/i/article/2059491657683443712
At @ThriveHoldings, we built a product with @OpenAI to automate tax prep for the 30+ accounting firms we own across the ...
Another great win for agentic coding. Cognition AI just raised over $1B at a $26B pre-money valuation. Revenue reportedl...
关联讨论 1 条X:swyx (@swyx)