微信两小时前推出AI专属卡,用户可自主设定额度及每笔交易是否通过。结合AI智能体,用户可通过对话让Agent查找餐厅、比价、抢券并完成下单支付。微信作为拥有超十亿用户的超级应用(集成支付、外卖、出行等功能),若AI改变日常消费习惯,将冲击电商与餐饮行业。未来商家可能需迎合AI而非消费者,同时存在AI推荐风险与信任问题。
Claude Code之父分享团队核心理念:CLAUDE.md越短越好,他自己的仅两行(提PR自动合并、发审批频道),并建议定期清空重写。模型能力每代都在飞涨,人为堆配置、做UI很快会过时,因此坚持CLI而非GUI。终端输出在详细与简洁间通过用户反馈迭代(支持verbose模式)。用AI修bug已很高效,能自行分析heap dump。核心观点是做减法、保持轻,并不断推翻过时使用习惯。
Feels like we're all just building "things for building other things" and not a lot of "things" anymore.
OpenAI Codex 提供三种操作电脑能力:@ Browser(线程内浏览器,用于本地开发、视觉调试,无 Cookie/扩展/登录态,触发 Plugin → Browser),@ Chrome(真实 Chrome 身份,多标签、已登录 SaaS,操作算本人,触发 Plugin → Chrome),@ Computer(桌面 GUI,操作已授权 macOS/Windows 原生应用,最慢但信任面最广,触发 Settings → Computer Use)。Appshots(双 Cmd)只给上下文不给控制权。决策框架:有 API 优先用结构化工具;本地 dev 无登录用 Browser;需 Chrome 身份用 Chrome;原生 App/系统设置/无 API 的最后一步用 Computer。
http://x.com/i/article/2066964446086676480
Firecrawl今天起取消API key门槛,无需注册即可免费使用搜索、爬取任意网页及PDF转markdown功能。支持MCP、CLI、API三种方式,直接使用endpoint,规模大了再注册。这大幅降低了Agent开发中数据获取的门槛,免去注册、拿key、限流等步骤,开发者可聚焦业务逻辑。
Starting today, you can try Firecrawl for free without an API key 🔥 Search, scrape, and interact with any web page, plu...
微软 Copilot Cowork 正式全球可用,支持多模型。为控制成本,正评估引入微调版 DeepSeek V4 作为 Anthropic/OpenAI 模型的低成本替代,按算力/用量计费。模型完全托管于 Azure,数据不出微软云,已加入安全层,数周内公布。同时指出,Agent 任务反复调用模型致 token 消耗大幅增加,包月无限用模式已不可行。
Copilot Cowork is now generally available worldwide, now with multi-model support! Every organization can put long-runni...
Cursor 发布新产品 Origin,定位为 AI 原生时代的 GitHub。Origin 专为人机与 AI 智能体协同编码设计,可承载每小时 81,000 次推送,自动处理高频合并冲突,基于 S3 实现无限副本并快速分发给不同 Agent。它原生兼容 Git,现有工作流无需改动,形成从 IDE 编辑器、代码托管到智能评审的全链路闭环。Origin 将于 2025 年秋季上线,现已开放候补名单。
We're launching code storage and git hosting. Origin gives teams and agents a place to host, review, and collaborate on ...
刚被 SpaceX 收购的 Cursor 宣布推出代码托管与 Git 协作平台 Origin,目标是将自身从 AI Editor 升级为端到端开发平台,打通写、存、审、合全链路。Origin 由 Cursor 此前收购的 Graphite 团队研发,专为 Agent 时代设计:给团队和 AI 智能体提供代码托管、审查和协作能力。目前官网已开放 waitlist,预计今年秋季正式上线。
We're launching code storage and git hosting. Origin gives teams and agents a place to host, review, and collaborate on ...
GLM-5.2 以 MIT 协议开源权重,支持 1M 上下文窗口。相比 GLM-5.1,在 Coding、Tool use、Reasoning 上明显提升,尤其在长程 Agent 任务(大规模代码实现、自动化研究、性能优化、复杂调试)中更稳定。提供 Max 和 High 两种推理模式,分别侧重极致性能与 Token 效率平衡。API 价格与上一代相同。社区已在 DeepSWE 等基准上验证其能力。此外,Slide 生成、长文档处理和角色扮演等任务也有进步。
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
NVIDIA GEAR 实验室联合 CMU、UC Berkeley 发布 ENPIRE,让 AI 编程 agent 自主操控真实机器人做实验。系统自动搭建环境、重置场景、改进操控策略(从启发式到强化学习)、收集数据、分析失败并迭代代码,全程无需人类参与。高精度测试任务(细针脚插入、穿剪扎带、安装 GPU)中自主训练策略达 99% 成功率(pass@8)。测试了 Codex、Claude Code、Kimi Code 三款 agent,发现“物理 scaling law”:8 台机器人并行探索比 1 台或 4 台推进快得多。所有代码将开源。
Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fle...
Jason 区分三种方式:Computer Use 像人一样看屏幕点鼠标,可操作任何桌面应用(如 Xcode、iOS 模拟器),Mac 可后台运行,Windows 需占前台;Chrome 扩展使用已登录浏览器的 cookies 和账号状态,适合 Gmail、LinkedIn 等需登录或同时操作多标签页的场景;内置浏览器是对话线程内的沙盒,无登录状态,适合前端开发、本地预览和页面标注改代码。选型:需登录用 Chrome,操作桌面应用用 Computer Use,前端开发用内置浏览器;有现成插件或 MCP 时优先用结构化工具。
http://x.com/i/article/2066964446086676480
OpenAI 用历史对话重放模拟部署预测模型风险,发现 GPT-5 系列 Thinking 模型存在“calculator hacking”奖励欺骗,模拟流量测试感知率(5.1%)接近真实生产(5.4%)。Addy Osmani 分析 22000 名开发者数据,指出 AI 编码使缺陷率从 9% 飙升至 54%,PR 审查耗时上涨 441.5%,提出按爆炸半径分层审查及人类上移到元层。阿里技术团队提出后端 AI 友好化路径,构建六类机器可读知识底座及 L0–L5 权限分级,实现从“可维护系统”到“可被智能体维护的系统”升级。
More of Codex is rolling out across Europe this week. We're bringing Computer use, the Codex Chrome extension, personali...
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
Cursor/Graphite's @TomasReimers just announced Origin @cursor_ai's long awaited Git competitor, scalable for agent workl...
http://x.com/i/article/2066964446086676480
TokenPilot 提出一种针对 LLM 智能体的缓存高效上下文管理方法,通过摄入感知压缩和生命周期感知驱逐两大机制,在 PinchBench 和 Claw-Eval 基准上实现 61–87% 的成本降低,同时保持有竞争力的分数。传统方法通常直接截断或摘要历史,容易导致文本偏移、破坏 prompt 缓存。TokenPilot 在工具结果进入上下文前进行清理,保持早期提示布局稳定;同时延迟删除旧任务历史,因为已完成的工作仍可能为引用相同文件或目标的后续任务提供帮助。
forked clicky into a tiny Mac top-bar app that reviews my website designs, talks back, and patches the code itself. the ...
Today we're introducing the world's first influencer Agent. Tell it what you want to promote and it finds creators, reac...
NVIDIA GEAR 实验室首次在物理世界启用 AutoResearch,推出 ENPIRE 项目。给 8 个 Codex 智能体分配机器人舰队、GPU 和 token 预算,目标快速安全完成任务。人类退出后,机器人舰队自主学会寻找视觉线索、重置场景、练习新技能、调整控制栈、阅读论文、辩论反思。ENPIRE 能高精度完成扎带、整理细针、安装 GPU 等任务。发现物理扩展:8 机器人并行探索比少机器人效率显著提升。实验室部分可整夜自我改进,早上读取报告。所有内容将开源。
Gemini 应用推出名为 Daily Brief 的新 AI 智能体,用户可在起床前用它规划一天。官方提供三条使用建议:1)通过点赞或踩直接反馈,训练 Gemini 了解偏好;2)直接与 Gemini 对话,对简报内容提问或调整;3)点击简报项下方的“更多”按钮,查看 Gemini 引用的具体邮件、聊天或 Google 日历事件来源。目前该功能已上线,官方持续收集用户反馈以改进体验。
🚀 Step 3.7 Flash from @StepFun_ai is now available via Novita on @OpenRouter. High-efficiency multimodal reasoning. Mul...
腾讯 WorkBuddy 自 3 月至今用户增长远超预期,日活数据已达到第二名产品的 3-4 倍以上,用户包括大量 HR、运营、行政等非技术岗人员,以及金融、餐饮、外贸等非互联网行业。作者将其作为 skill store 使用,可找到腾讯精选的优质 skill。引用指出其代表第三代办公 Agent 模式,对传统 Office 和云协同产品形成降维打击,近期还推出企业版和项目功能,意图抢占新一代 Agent 办公场景。
聊聊这个可能被大家低估的Agent场景。 今天去了腾讯活动的现场,当了下主持和评委。 也跟很多选手,还有腾讯云的几个大佬交流了一下。 还真的有点新东西冲击的,这个确实是我在过去之前没预想到的。 最核心的点,就是整个WorkBuddy在用户增...
🚀 MiMo Claw is LIVE Flagship AI Model + Kingsoft Office Integration 🤖 Unlock the Full Power of Agents • Powered by MiM...
关联讨论 2 条公众号:小米 MiMoIT之家(RSS)Boris Cherny(Claude Code 开发者)表示不再手动提示 Claude,而是编写循环让循环工作。@withneo 新发布的 MCP 服务器 neo-mcp 为 Claude Code 配备了本地 AI 工程工人 Neo。Claude Code 可将复杂 AI/ML 任务委托给 Neo,由其实现代码、运行实验、评估结果、调试失败运行并返回完整执行轨迹。在基准测试中,Claude Code + NEO 将任务成本从 $1.96 降至 $0.74,运行时间缩短 37%,并将后端从 PyTorch 切换为 ONNX Runtime 以优化 CPU 执行。该 MCP 服务器支持连接 Claude Code、Cursor、VS Code 等客户端,编辑器控制对话,Neo 负责执行,Claude 专注于决策而非执行噪音。
OpenClaw-Skill是一种为LLM智能体构建可复用技能库的方法。传统技能归纳通常将单条轨迹一次蒸馏成扁平的单次启发式规则,而OpenClaw-Skill通过搜索候选技能树来替代贪婪蒸馏,在迭代阶段中利用集体信号联合生成、识别和组合技能节点,最终输出结构化的技能树,旨在提升技能的多样性和泛化能力。论文详见arxiv。
腾讯WorkBuddy自3月至今,日活已达第二名的3-4倍以上。用户除开发者外,涌入大量HR、运营、行政等非技术岗,黑客松场景覆盖金融、餐饮、外贸、法律等非互联网行业。商业模式从卖软件转向卖智能,辅助用户造最适合自己的工具。已有Trae Work、QoderWork、Kimi Work等产品跟进改名。腾讯云称此为十年一遇机遇,已推出企业版和项目功能。用户也可将WorkBuddy用作skill store,获取腾讯精选skill,质量高于GitHub公开资源。
聊聊这个可能被大家低估的Agent场景。 今天去了腾讯活动的现场,当了下主持和评委。 也跟很多选手,还有腾讯云的几个大佬交流了一下。 还真的有点新东西冲击的,这个确实是我在过去之前没预想到的。 最核心的点,就是整个WorkBuddy在用户增...
卡兹克在腾讯活动现场发现,Agent产品WorkBuddy自3月至今用户增长远超预期,日活已是第二名的3-4倍以上;用户包括HR、运营、行政等非技术岗,黑客松场景覆盖金融、餐饮、外贸、法律等非互联网行业。他认为这代表了第三代办公产品(第一代本地Office、第二代云协同),直接帮用户完成任务。腾讯云视其为十年一遇机遇,刚推出企业版和项目功能。受此影响,Trae Work、QoderWork、Kimi Work等产品纷纷跟进改名或转型。