本文聚焦AI编码领域正从追求“写得快”向“做得对”的工程化范式转变。文章通过三条核心线索展开:Cursor发布Composer 2.5并公开训练栈,标志着从产品公司转向模型迭代;Anthropic工程师提出对抗式生成-评估架构,将长时Agent自主运行时间从1小时提升至12小时;阿里云CIO则指出“AI生码率”是危险指标,强调代码是负债,工程化与组织能力才是关键。这共同指向一个结论:AI降低了代码生成成本,但将其转化为资产需要深度工程化。
本文聚焦AI编码领域正从追求“写得快”向“做得对”的工程化范式转变。文章通过三条核心线索展开:Cursor发布Composer 2.5并公开训练栈,标志着从产品公司转向模型迭代;Anthropic工程师提出对抗式生成-评估架构,将长时Agent自主运行时间从1小时提升至12小时;阿里云CIO则指出“AI生码率”是危险指标,强调代码是负债,工程化与组织能力才是关键。这共同指向一个结论:AI降低了代码生成成本,但将其转化为资产需要深度工程化。
当前AI发展的核心瓶颈已从模型智能转向架构编排。LobeHub推出了名为Chief Agent Operator(CAO)的后端管理层,能够根据高层级策略自动组建代理团队并行处理任务。该平台作为编排系统无缝集成到Claude Code、Cursor等开发者环境中,接入庞大的技能市场,并在云端全天候运行,无需本地维护,从而显著降低运营成本。用户专注于制定宏观策略,而由CAO负责管理和执行具体的代理工作。
Meet your Chief Agent Operator in LobeHub now. You don't manage agents. Your CAO does. LobeHub hires agents from a 273K-...
PolyAI研究证实,专为客服设计的较小模型Raven 3.5,在性能上显著超越了规模大其100倍的通用前沿模型。该模型在所有四项客服基准测试中击败GPT-5和Claude Sonnet 4.6,并将响应延迟控制在300毫秒内。这项发布同时包括ADK代码开发工具包和PolyPhone网页语音生成工具,助力企业快速构建生产级语音代理。此举旨在将企业语音AI从大型项目转变为可快速部署的基础设施,从而有效解决客服等待时间长、成本高等问题,提升服务效率与客户体验。
Odyssey团队推出的Agoro-1是首个支持多智能体交互的世界模型,解决了多人共享同一虚拟环境时维持现实一致性的核心瓶颈。该模型突破了传统单玩家预测模式的限制,能够实时模拟多个参与者(人类或AI)在同一世界中的交互行为,并保持世界状态的稳定连贯。这意味着世界模型从单向预测演进为支持动态因果关系的共享实时环境,其真实性不再仅依赖视觉保真度,而取决于多方干预下世界逻辑的自洽性。
Introducing Agora-1, a multi-agent world model. Multiple participants-human or AI-can now interact inside the same world...
learned this quote from 2023 is making rounds -- i actually don't think this is true anymore in 2026! The model should b...
Your Mac can hold down the fort while you work from your phone. Enable remote connection in the Codex desktop app, then ...
Cursor发布的Composer 2.5并非全新底座,而是将85%算力集中于强化学习后训练的agentic模型。它在CursorBench 3.1上达63.2%性能,单任务成本极低。其核心突破在于通过“textual feedback RL”解决了长任务中的信用分配难题,实现精细化调优。该模型真正的优势是长时间运行下的稳定性与行为校准,这是现有基准未能体现但开发者能感知的关键能力。这标志着行业评价标准正从迷信底座规模转向衡量RL与合成数据闭环的投入效率。
Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...
Meta提出AIRA系统,通过分离策略与实现的双代理架构,实现神经架构的自主发现。AIRA-Compose负责宏观架构搜索,AIRA-Design专注低级机制实现。该系统在24小时计算预算内,于350M、1B和3B规模上找到超越Llama 3.2的架构。其核心方法论表明,在复杂任务中分离规划代理与实现代理能提升效能,此思路同样适用于流水线组装、查询规划等其他AI代理场景。
My colleagues wrote up a great post on using Goals in Codex. They go through when to use them, what changes when a Goal ...
Soooo @trq212 has straight up changed my life with these 5 words: "HTML is the new markdown." It's so obvious in hindsig...
使用AI代理处理复杂任务时,一个反直觉的现象出现:最耗时的环节并非思考决策,而是不断修正AI的低级错误。这种隐性修正成本难以预判和管理,使人从“执行者”转变为“验证者”,用注意力填补AI的不可靠性。这反映了AI自主性增强后的新挑战。Sam Altman指出AI可能负责发现复杂规律,而人类仍需负责理解,这印证了人类需承担对AI成果进行验证与理解的新负担,而非单纯地提效。
"Discovery may become the job of AI. Understanding remains ours." Sam Altman says biology may be too complex for humans ...
PolyAI现已向所有企业开发者开放其Agentic Dialog平台,将语音AI服务从高昂的年度合约变为可通过终端免费试用的产品。该平台的核心目标并非语音识别,而是攻克在通话中动态追踪复杂、多变的人类意图这一难题。其专有模型Raven将代理行为直接内置于模型本身,避免了冗长提示词在复杂对话中的失效问题。该模型已为FedEx等大品牌处理超10亿次对话。平台支持集成Raven或GPT-5等外部模型,使任何团队都能轻松构建、测试并部署企业级对话智能体。
Starting today, we're opening our Agentic Dialog Platform to every enterprise builder. Our dialog agents have resolved 1...
I've finished a video of just over 4 minutes, entirely created using Grok Imagine's Agent mode (see image). It's a much ...
一个10岁孩子想创建火箭模拟器等科学应用,却屡屡被主流AI编码工具所挫败。这揭示了当前以LLM为核心的技术短板:它们擅长在丰富训练数据框架内维护和构建现有模式,但难以灵活应对需要全新综合创造能力的边缘与生成性任务。这暴露了LLM距离实现通用人工智能(AGI)的局限,指明了未来需向更具泛化能力的原生多模态系统与世界模型等方向突破。
LobeHub推出“首席代理运营官(CAO)”这一新角色,旨在将AI代理从一次性对话助手转变为云端运行的自动化运营团队。用户无需再手动管理、重复上下文或逐一检查进度。该平台通过拥有27.3万项技能的市场来“雇佣”代理,并在云端进行24/7调度,通过团队现有的IM应用汇报进展。用户只需分配一次任务,代理即作为后台工作者持续运行、更新状态并将完成的工作置于待审核。用户专注于制定战略,而CAO则负责管理所有代理的执行与运作。
Meet your Chief Agent Operator in LobeHub now. You don't manage agents. Your CAO does. LobeHub hires agents from a 273K-...
Lovart作为一款AI设计工具,通过密集的社交媒体推广和为国内用户提供Nano Banana等模型的中转服务迅速走红。其推广包括与罗永浩合作的直播,但该次推广未成功。为解决跨境访问,Lovart在港设立代理服务器,这在国内大规模PR推广导致流量激增后暴露,并被切断服务。该事件与直播时间重合,导致Lovart从备受瞩目的“Design Agent”迅速面临重大运营挑战。
最近跟几位朋友沟通中多次提及 Lovart,真的很好奇,Lovart 过去的一年发生了 tm 的什么? 好像从那个横空出世的 Design Agent,变成了...
微软AI业务负责人Mustafa Suleyman警告,AI可能在12到18个月内实现对大多数基于计算机的专业任务的自动化。他指出,这类工作的核心是将人类意图转化为数字指令(如处理文档、邮件、代码、项目管理等),而这正是AI代理日益能够阅读、规划、执行并修正的流程。其风险并非源于技能门槛低,而在于许多高成本的办公任务本质上是重复性的阅读、书写、比较、归档、总结、搜索和基于已知规则的决策模式。
TRAE团队基于真实的用户技能调用数据(而非安装量),分析了用户实际高频使用的Agent Skills Top 10。这些技能覆盖了从UI设计、流程规划到测试调试的产品开发全链路,甚至包含一个带有反讽意味的“PUA”高压问责技能。其设计具有清晰的分层逻辑,从元层的技能检索与调度,到行为层的约束护栏,再到具体的执行与验证层,共同构成了一个“想清楚→拆细→做精→验透→担责”的结构化、负责任的闭环工作流。
We analyzed real skill call data from TRAE users. Here are the 10 Most Popular Agent Skills that people actually use, no...
谷歌Gemini桌面应用即将迎来重大功能更新。新增的“Stream to Cursor”功能类似上周Android Show上展示的“Magic Pointer”。Gemini Spark智能代理将能直接操作本地文件夹中的文件。此外,应用将引入被内部称为“Veo4 Omni”的新模型,并支持Skills技能体系。不过,Gemini Live实时功能目前仍在开发中,尚未可用。
该工具基于藏师傅PPT Skill,结合Codex与远程控制,可实现离家时一键生成讲解视频。方案以极低成本保证了视频的可用性与表现力,主要通过前端技术生成内容,仅配音和部分分镜使用了Seedance 2.0等模型。此组合能直接基于文本生成带动效的解释视频。
藏师傅的 PPT Skill+Codex+Heygen HyperFrames 这个组合太顶了! 可以直接基于问当生成带动效的解释视频 而且 Codex 居然可以在聊天里面直接预览视频,这个挺厉害的。 再加上即梦 CLI 补几个真实视频片段...
ORCA是一款新开源的Agent IDE,提供iOS及移动端客户端,支持多账号切换(例如多个ChatGPT订阅),并显示Token消耗与5小时重置信息。它能自动检测电脑中已安装的CLI工具,如Claude Code CLI、Codex CLI、Gemini CLI等,支持目录文件拖拽对话及内置Markdown预览。该工具优化了Tui工具的常见痛点,但安装包体积较大。开源地址及官网已公布。
I finally used /goal in Codex and I'm absolutely mind blown. I had it look through my last 500 archived emails. Then loo...
@vista8 我做了个skill,支持飞书机器人之间稳定相互at,支持自定义停止方式,比如x轮、手动停止。并且内置了自由讨论、头脑风暴、评审、辩论4种模式。支持跨openclaw、Hermes的机器人相互at,可以试试。就算用不上,我把飞...
你应该在 Twitter 上关注的 30 个与 AI 相关的账号: 英文: @karpathy,Andrej Karpathy,Eureka Labs创始人,OpenAI早期成员,前Tesla AI负责人,擅长把神经网络、LLM、Agent...
Google论文提出的Nexus框架颠覆了传统时间序列预测仅依赖历史数据的模式,强调“事件上下文”的核心作用。该框架采用多智能体协作架构:分别从文本中提取事件时间线、解读宏观态势、追踪局部冲击,最终通过合成器整合信息并校准误差。在Zillow数据集测试中,基于Claude的版本将平均预测误差(MAPE)大幅降低86.6%,实现了从“识别模式”到“理解因果”的范式转变。这标志着预测方法正从统计外推转向结构化推理,为未来预测系统指明了新方向。
New Google paper: A forecast needs context, not just history. Some patterns are caused by events, not time. Nexus refram...
LLM应用层产物形态从chat演进到agent,两者输出均受限于会话,每次运行都需冷启动、重输上下文并消耗token。KroWork推出第三步应用固化,通过将对话编译为本地可执行App,使后续运行完全避免token消耗,实现一次编译后多次调用,提升效率并降低成本。
Addy Osmani 警示工程师过度依赖AI生成代码会导致“认知投降”,即牺牲深度理解换取效率。研究显示,依赖AI会削弱问题理解、脑部活动和决策质量。产品设计追求效率,但学习恰恰发生在“摩擦力”中。AI委托在样板代码中有效,但在调试、AI犯错、底层变化、处理独特问题及面对市场价值重估时必然失败。作者建议应形成假设再提问、先要解释再要代码、开启学习模式、审阅AI输出如PR、徒手重写代码,并区分“交付”与“学习”指标,避免用未来能力换取短期轻松。
http://x.com/i/article/2055936913211899904
"The Cybernetic Teammate" is a fascinating field experiment by a superstar team of researchers, including @raffasadun @e...
🚨 "AUTOMATIONS" WILL COME TO "GROK" SOON! Grok is working to let you automate your personal tasks! These are some of th...