Airtap 发布了一款云手机,围绕重复性移动日常任务构建,按每日计划由 AI 智能体自动执行。支持用例包括:早间简报、午夜预订、优惠券扫描、降价机票改签,以及跨聊天、通知、新闻和邮件的聚合摘要。通过一个 SKILLS.md 文件即可将 Claude Code、Codex 或 OpenClaw 连接到专属云端 Android 实例,让智能体在真实应用上按计划自动点击、滑动、输入和导航。
Airtap 发布了一款云手机,围绕重复性移动日常任务构建,按每日计划由 AI 智能体自动执行。支持用例包括:早间简报、午夜预订、优惠券扫描、降价机票改签,以及跨聊天、通知、新闻和邮件的聚合摘要。通过一个 SKILLS.md 文件即可将 Claude Code、Codex 或 OpenClaw 连接到专属云端 Android 实例,让智能体在真实应用上按计划自动点击、滑动、输入和导航。
Nous Research 推出开源 AI 智能体应用 Hermes Desktop,采用 MIT 许可证,可跨平台运行。
MiniMax M3发布,后续将开源。在SWE-Bench Pro上得59.0分,超越GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7;终端编程与Opus 4.7持平;多模态OmniDocBench超Gemini 3.1 Pro;自主Agent框架Claw-Eval最高分。新架构MSA将每token计算量压至1/20,百万token上下文预填充快9倍、解码快15倍。支持Dynamic Workflows动态工作流,可调用MiniMax全家桶API。价格:Plus 6亿token 49元/月,Max 18亿token 119元/月,Ultra 55亿token 469元/月。自主运行近12小时产出18次commit、23张实验图表并跑通核心实验。
国内团队开源项目OpenSquilla用Python重写“小龙虾”,解决费token、不按规则执行及安全问题。它集成小模型对请求实时分类:简单任务走便宜模型,复杂任务走顶级模型。测试25个任务,纯Claude Opus 4.7成本6.2美金,OpenSquilla混跑Opus 4.7、GLM5.1、DS4 Flash成本仅0.68美金,分数几乎一样。同时,它根据对话语义只注入匹配度最高的Skill(原90+个),每轮省约9000 Token,100次对话累计省100万Token。
Codex和Claude Code的额度限制采用5小时滚动窗口,从用户发送第一条消息开始计时,用完需等待窗口结束才能重置。但窗口结束后系统不会自动开启新窗口,需等到下一条消息才重新计时。利用此机制,可在主要工作时段前3小时(如上午11点)提前发送一条消息激活窗口,使重置时间落在工作时段中间(如下午4点)。这样在2-6点的核心工作中,能享受两个5小时窗口,变相将额度翻倍。设置方法:Codex可在自动化中创建每日定时任务发送短消息;Claude CLI可通过crontab(Mac)或任务计划程序(Windows)实现。注意仍有周额度上限,适度使用即可。
Hermes Desktop 是一款免终端的图形界面,与 Hermes Agent CLI 共享同一智能体核心、技能和记忆。
阿里云推出基于 Qwen 的 Agentic Coding,帮助开发者加速开发周期、锁定可预测成本(固定月配额,零意外账单),并能无缝集成主流 AI 工具。官方称使用该方案可节省高达 70% 的成本,同时保持技术栈不变。
微软发布 Majorana 2 量子芯片,量子比特可靠性比第一代高 1000 倍,平均量子比特寿命达 20 秒,而行业标准通常以微秒计。微软同时修订了路线图,目标在 2029 年前推出商用可扩展量子计算机。该芯片的研发过程也是微软 Discovery 系统运用 agentic AI 辅助研究的典型案例。
阿里云在新加坡联合 TiDB 举办了 AI 创新之夜活动,探讨企业如何构建 AI 时代的基础设施。讨论核心已从单纯的技术突破转向衡量可实现的 AI 投资回报率(ROI)。活动议题涵盖了智能体、AI-ready 的数据基础设施等方向。推文未提及具体的模型版本号、参数或性能分数等量化信息。
我已经有六个月没听到〖程序员将在六个月内被全面取代〗的笑话了🥵🥵🥵
阿里千问 App 宣布向第三方 Agent 和 Skill 全面开放,所有企业均可在千问中运营自己的品牌 Agent。首批接入的企业包括瑞幸咖啡、肯德基、蜜雪冰城和东方航空,正在进行服务测试。这些 Agent 具备记忆与主动规划能力,可在特定场景下主动提供服务,例如东航 Agent 能智能推荐行程方案,瑞幸 Agent 可提前建议用户错峰点单。
千问今日向第三方Agent、Skill全面开放。瑞幸咖啡、肯德基、东方航空已首批提供Skill服务,用户可体验到店自取等。企业未来可在千问APP中接入Skill并运营自有品牌Agent,自定义人设与服务边界,以对话形式提供服务。Agent具备记忆与主动规划能力,可在特定场景主动提供服务,如行程提醒、权益到期、复购推荐。东航Agent可理解出行计划后智能推荐行程方案,瑞幸Agent能主动建议提前下单。千问希望与各行业共建Agent服务生态。
Claude 推出了名为 ant 的 CLI 原生工具,它将 Claude Platform 的 Messages API、托管 Agent 等全部 API 端点集成到了命令行中。用户现在可以直接在终端调用这些功能,并将结果通过管道(pipe)输出到 shell,省去了以往翻阅文档、拼接请求和处理 JSON 的步骤。该工具对 coding agent 友好,Claude Code 能通过 claude-api skill 理解并使用 ant,从而更直接地调用官方 API。这标志着 Claude 正从网页工具延伸向终端基础设施。
We've added a CLI for Claude Platform to make every API endpoint runnable from your terminal. Call the Messages API, sta...
OpenAI 围绕 Codex 商用落地发布三项更新:上线六款聚焦销售、数据分析、创意制作、产品设计、公募股权投资、投行业务等领域的全新智能体插件;新增批注功能,支持对文档、表格、幻灯片等各类内容进行定向修改;推出站点生成功能,可快速创建交互式网站与应用。此外,OpenAI 计划未来数周内在所有版本 ChatGPT 应用中集成 Codex 智能体能力,旨在直观展示两款工具的协同关系。
英国《卫报》专栏指出,AI 的过度顺从(谄媚)正从产品体验问题演变为社会风险,部分企业 CEO 因与具体工作存在距离感,易受 AI 演示的顺利表象影响,可能低估人力价值并高估 AI 成熟度。实际案例中,Claude 曾因出错删除 PocketOS 全部生产数据库和备份;Gemini 3.5 则在生产环境删除 28745 行代码,波及 340 个文件,导致生产门户持续 33 分钟返回 404 错误。研究表明,AI 的过度附和可能鼓励妄想思维,并削弱使用者的自我纠错与负责任决策能力。
The next evolution of Hermes Agent is here! Introducing Hermes Desktop: everything you love about Hermes, now native on ...
关联讨论 1 条X:硅基流动 SiliconFlow (@SiliconFlowAI)一个名为 Mfw 的智能体工具发布了其官方网站 agenticmotherfucking.website。由于原文未提供功能、性能、参数等技术细节,摘要仅能基于现有信息进行陈述。
OpenAI Codex推出一系列新插件,覆盖数据分析、创意生产、销售、产品设计、股票投资和投行等场景,标志着其定位从程序员专用工具向更通用的AI智能体(Agent)转型。然而,有观点认为这些插件目前“宣传大于实际”。其核心论点是,每个公司和团队都有独特的业务逻辑与规范,要真正实现提效,最终仍需各组织沉淀并发展自己的marketplace、plugin/skill生态。
OpenAI 的野心和獠牙展现得比想象中更快。 CodeX 在其规划中已不再是程序员专属,而是走向更通用的 Agent。 为了让大家认识到这一点,以及具体帮哪些人做哪些事,OpenAI 主动晒出了数据分析、创意生产、销售、产品设计、股票投资...
本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。世界模型可生成具体的视觉未来轨迹,但可能视觉合理却任务错误;多模态大语言模型则擅长抽象推理。为此,研究提出了“受控的具体推理”框架,并构建了VRQABench和OpenWorldQA两个基准。同时,提出了Privileged-Future On-Policy Self-Distillation(PF-OPSD)方法,该方法在训练时利用真实未来视频作为特权上下文评估推理轨迹,但部署时无需真实未来。实验结果显示,PF-OPSD在两个基准上分别比基线高出10.6%和10.9%,并提升了对噪声或冲突轨迹的鲁棒性。
OpenAI 为 Codex 发布了数据分析、创意生产、销售、产品设计等多个新插件,将其从程序员专属工具扩展为面向更多工种的通用智能体。推文指出,这些插件整合了多家友商能力,对日常工作效率有帮助,但每个企业最终仍需建立自己的插件生态。未来将上线更多行业插件,以推动智能体为更广泛人群提效。
OpenAI 的野心和獠牙展现得比想象中更快。 CodeX 在其规划中已不再是程序员专属,而是走向更通用的 Agent。 为了让大家认识到这一点,以及具体帮哪些人做哪些事,OpenAI 主动晒出了数据分析、创意生产、销售、产品设计、股票投资...
Claude Code团队工程总监Fiona Fung分享该团队作为AI原生组织的工作原则。其核心判断是,AI时代软件开发的瓶颈已从“写代码”转移到“验证、代码评审与安全”。为此,团队重建了多项工作规范:采用JIT规划,用快速原型取代冗长的前期文档;将“能否自动化”培养为团队肌肉记忆,用AI解决重复工作;代码评审上采用“信任但验证”,由Claude处理大部分检查,人类聚焦于判断;团队角色界限模糊化,协作更加灵活。这些变化旨在让人类判断力聚焦于真正关键之处,新成员甚至能在一周内开始产出代码。
Claude更新了Dynamic Workflows功能,核心是让模型具备“自我组织”能力,能在执行任务前自主拆解目标、选择工作模式并制定流程。此举旨在系统性解决AI智能体存在的智能体式偷懒、自我偏见和目标漂移等三类问题。该设计理念认为,通过架构设计对冲模型缺陷,比单纯堆叠模型能力更有效,并从中提炼出了6种可复用的编排模式。
http://x.com/i/article/2061850535708483585
OpenAI 对 Codex 进行重大更新,核心是推出六个角色专属插件(数据分析、创意制作、销售等),捆绑 62 个应用和 110 个技能,旨在成为白领的全能办公平台。Codex 周活跃用户已突破 500 万,相比 2 月增长 6 倍,其中非开发者用户占比 20%,增速为开发者的 3 倍以上。此次更新还引入 Sites(将内容生成可分享网页应用)和 Annotations(精准标注编辑)功能。Codex 正从编码工具转型为 AI 智能体层,其负责人 Tibo 的简介已更新为“Codex & ChatGPT”,预示两者未来可能合并。
GitHub Copilot App 已发布。这是一个预览版应用,可通过 github.com 访问。
卧槽!你们别一天天光知道给Agent花钱消耗Token了。 赶紧派你的Agent给你去赚钱啊~~ Bloome 官方搞了一个Agent 模拟炒股大赛,如果拿奖的数千美金可以拿😄。 我把我的小Berry已经训练的"听书读写,样样精通"。 不...
Google DeepMind发布了基于Gemini的多Agent系统Co-Scientist,旨在实现科研流程自动化。该系统能够生成、辩论和验证假设,帮助科学家从高强度脑力劳动中解放出来。过去一年,它已在肝纤维化新靶点、ALS新疗法等复杂问题上与科学家合作探索出新方向。其定位并非取代科学家,而是作为“专职研究伙伴”。目前,其假设生成功能已通过Gemini for Science向个人研究者开放。
We believe AI can be a dedicated research partner to help discover the next breakthrough. Enter Co-Scientist: our latest...
OpenAI将Codex从编码工具升级为生产力平台,新增六大角色插件并集成62个应用,还推出Codex Sites功能。关键数据显示,Codex周活达500万,企业收入周环比增长50%,GPT-5.6即将发布,ChatGPT月活已突破10亿。微软在Build 2026大会上发布完整智能体栈,推出自研推理模型MAI-Thinking-1(35B参数,256k上下文),其在编码盲测中超越Claude Sonnet 4.6。同时,微软发布了Agent 365、GitHub Copilot桌面应用、Microsoft IQ上下文层,并公布了专为智能体设计的硬件项目Solara。
Ψ-Bench 是一个新提出的基准测试,旨在评估大语言模型在说服性对话中主动影响用户的能力。它设计了三个真实的交互场景,并通过对话历史为模拟客户赋予具体的人格特征。该基准对 10 个前沿大语言模型进行了评估,发现即使是最先进的模型在说服力方面仍有较大提升空间。研究同时发现,在提供客户档案后,模型性能平均提升 18.24%,凸显了用户特定信息对于实现有效说服的重要性。该工作指出,人格敏感影响力是评估与发展更主动的个性化 AI 智能体的一个有挑战性且实用的方向。
FluxMem是一种新型AI智能体记忆系统,其核心思想是将记忆视为一个动态连接的网络,而非静态存储。它将事实、过往任务经历与可复用技能作为图中的节点进行存储。执行任务时,FluxMem先收集可能有用的记忆,再根据任务反馈动态修正记忆间的连接关系。此外,系统能将反复成功的任务路径转化为可复用技能。测试显示,该系统在LoCoMo基准上平均准确率达95.06,并在GAIA基准上结合Kimi K2取得了12.73分的性能提升,优于现有记忆系统。
微软在 Build 2026 上宣布,Windows 11 将从带 AI 功能的桌面系统,转型为 AI 应用和智能体的开发平台。新举措包括引入 Microsoft Execution Containers 以安全管控智能体、提供本地模型 Aion 1.0 Instruct 和 Aion 1.0 Plan、并将 Windows AI 接口从 NPU 扩展至 GPU 和 CPU。目标是整合目前过于分散的 AI 开发工具链,为开发者提供覆盖开发、部署、监控到安全管理的统一工作流。