Choco 通过集成 OpenAI API 构建了 AI 智能体系统,以自动化餐饮行业的食品采购与分销流程。该系统能自动处理订单、协调物流并优化库存,将人工操作时间减少了 70%,订单处理效率提升 50%。这一变革显著降低了供应链中的食物浪费,并帮助公司实现了业务规模化增长,展示了 AI 在传统产业中的实际应用价值。
Choco 通过集成 OpenAI API 构建了 AI 智能体系统,以自动化餐饮行业的食品采购与分销流程。该系统能自动处理订单、协调物流并优化库存,将人工操作时间减少了 70%,订单处理效率提升 50%。这一变革显著降低了供应链中的食物浪费,并帮助公司实现了业务规模化增长,展示了 AI 在传统产业中的实际应用价值。
Symphony 是一个用于 Codex 编排的开源规范,能够将问题跟踪器转化为持续运行的智能体系统。该系统通过自动化任务协调与执行,显著提升工程团队的产出效率,同时减少开发者在不同任务间频繁切换带来的认知负担。其核心在于以标准化、可扩展的方式,将日常开发流程转化为由智能体持续驱动的工作流。
中国联通发布自主执行智能体平台“龙虾”UniClaw,旨在为企业提供全天候运行的“数智员工”团队。平台推出自研Agent Harness框架、一站式职业技能平台及端到端安全保障三大功能。目前,UniClaw已联合超100家头部企业,打造了秘书、客服、数据分析等100多个智能体应用。平台采用预置Token Plan套餐按用量收费,并可结合联通元景MaaS模型服务与云智电脑,实现算力自动就位与数据云端安全运行。
本次更新为 Claude Code 带来多项增强与修复。新增功能包括 MCP 服务器的 alwaysLoad 配置、claude plugin prune 命令以及 /skills 界面搜索框。用户体验方面,优化了全屏模式滚动、对话框键盘滚动和长 URL 点击体验。重点修复了处理多张图片或使用 /usage 命令时可能出现的数 GB 内存泄漏问题,并解决了 Bash 工具在工作目录被删除后失效等稳定性缺陷。此外,还改进了 MCP 服务器的错误重试机制和终端会话标题的本地化显示。
本研究通过一项为期21天的真实资本链上交易实验,探讨了自主语言模型代理的可靠性。在受控市场中,3,505个用户注资的代理交易真实ETH,产生了750万次调用、约30万次链上操作及2000万美元交易量,提交交易的结算成功率达99.9%。研究发现,可靠性不仅依赖于基础模型,更源于操作层设计,包括提示编译、策略验证与执行防护等。上线前测试揭示了纯文本基准难以评估的故障模式,如伪造交易规则和手续费瘫痪,通过针对性框架调整,相关故障率显著下降,受影响测试群体的资本部署率从42.9%提升至78.0%。研究表明,管理真实资本的代理需在从用户指令到结算的完整路径上进行评估。
针对开源大语言模型在模拟真实对话的工具使用场景中,因规模较小、上下文有限导致的错误累积问题,研究团队提出故障感知元智能体框架FAMA。该框架首先分析基线智能体的故障轨迹以识别常见错误,随后在决策前启动最小规模的专用智能体,向工具使用智能体注入针对性上下文以应对这些故障。实验表明,FAMA使多种开源LLM在评估中的性能较基线提升最高达27%,证明通过专用智能体针对性处理常见故障,能有效提升多轮次工具使用智能体的可靠性。
EvanFlow是一个专为Claude Code设计的、基于测试驱动开发(TDD)的反馈循环工具,已在GitHub开源。该工具旨在通过TDD流程优化开发反馈循环,提升代码质量与开发效率。项目在Hacker News上获得了100点热度,显示出社区的关注。其核心是构建一个系统化的自动化测试与编码迭代流程,帮助开发者更高效地利用Claude Code进行编程。
中国监管部门于2026年4月27日正式阻止了Meta收购人工智能初创公司Manus的计划。这一决定直接中断了Meta通过收购获取关键AI技术资产的进程,反映出监管方对跨国科技巨头收购本土AI企业的审查收紧。该事件在技术社区引发广泛关注,在Hacker News上获得127点讨论热度。
小米开源 MiMo-V2.5 系列模型,同时启动 Orbit 百万亿 Token 计划,携手全球开发者与 Agent 框架共建开源繁荣生态。
一款名为OSS Agent的开源智能体在谷歌Gemini-3-flash-preview模型上运行,成功登顶终端操作基准测试TerminalBench榜首。该智能体由开发者独立构建,其GitHub仓库地址已公开。这一成果在技术社区Hacker News上获得了113个点赞,引发了广泛关注。
Google 与 Kaggle 再度推出为期 5 天的 AI Agents 强化课程,现已开放注册。该课程旨在教授开发者如何构建和部署 AI 智能体,内容涵盖从基础概念到实际应用。课程形式为短期集中学习,参与者将通过 Kaggle 平台进行实践。
近日,阶跃与腾讯云达成战略合作,双方将围绕智能座舱 Agent 展开深度共创,打造全新的智能座舱 Agent 助手。该助手以语音为入口,实现免唤醒、连续对话、情绪识别的超自然交互,并能基于用户情绪、驾驶状态、环境和历史信息秒懂意图,精准推荐腾讯系音乐、视频、地图等内容与应用生态。同时,产品打通腾讯在支付、地图、出行服务等领域的生态接口,从需求直达交易闭环,为用户提供一站式服务。
科大讯飞发布星火燎原N30m笔记本,主要面向政企市场。该笔记本搭载8核心飞腾腾锐D3000M处理器,内置麒麟操作系统。机身采用镁铝合金,重1.1kg,厚15.9mm,支持180°屏幕开合,并配备专属AI按键。轻按可开启AI工具箱,提供办文、办会、智能截图等功能;长按则能唤醒可自定义的耀天智能体。笔记本内置70Wh电池,宣称续航时间可达9小时。
国家发改委下属外商投资安全审查工作机制办公室依法依规,对外资收购Manus项目作出了禁止投资的决定,并要求相关方撤销该收购交易。此次被禁止的交易涉及Meta公司去年12月宣布的收购计划,其目标是以约20亿美元(约合136.83亿元人民币)收购开发AI智能体Manus的母公司“蝴蝶效应”。该公司总部位于新加坡,主要业务是面向中小企业的AI智能体产品。
小鹏汽车CEO何小鹏在北京车展宣布,其VLA智驾系统已在城市支路、乡村道路及复杂穿行路段等特定场景下超越特斯拉FSD,通行效率和纵向控制如跟车、应对加塞表现更优。他设定明确目标,计划在2026年8月于中国市场实现VLA综合能力全面反超FSD。何小鹏指出,VLA在横向路径规划和极端掉头场景仍有优化空间,但中国高密度道路环境是权威验证场域,若成功超越将标志技术领先。
腾讯云QClaw发布v0.2.14版本,迎来最大规模更新。新版本率先支持Hermes框架,允许单一应用同时运行两种Agent内核。核心功能“灵感广场”升级为“专家广场”,内置超100个行业场景AI专家,用户通过自然语言交互即可直接生成文档、代码等结果。底层模型支持自由切换,新增接入腾讯混元Hy3 preview和DeepSeek-V4 Pro等大模型。微信小程序新增语音交互、文件共享及云端Agent远程管理功能。同时,平台新增百度网盘、携程等四个连接器,并上线了基于腾讯文档的Agent团队协作功能。
小米宣布未来三年在AI领域的投入将超过600亿元。其基座大模型MiMo开始收费后用户留存率超过35%,即将开源的MiMo-V2.5模型在AA智能与Agent指数上位列全球开源大模型并列第一,并几乎适配国内所有芯片。小米首代机器人VLA大模型团队仅用6个月完成开发,并判断机器人的“GPT3时刻”将在未来1-2年到来。在企业效率方面,小米预计通过全面拥抱Agent技术,整体效率将提升500%。此外,小米的智能助理Miclaw未来将与小爱同学全面融合,并贯通人车家全生态设备。
当前LLM智能体技能多以文本描述,导致机器难以解析利用。本研究基于经典知识表示理论,首次提出结构化技能表示法——调度-结构-逻辑表示法,将技能解耦为调度信号、执行结构和逻辑证据。通过基于LLM的标准化器实现该方法,并在技能发现与风险评估任务上评估。结果显示,该方法显著优于纯文本基线:技能发现的MRR从0.573提升至0.707,风险评估的宏观F1分数从0.744提升至0.787。这表明显式、基于来源的结构化表示能提升技能的可搜索性与可审查性,是迈向更可检查、可重用、可操作技能表示的重要实践步骤。
用户模拟因其广泛的应用潜力在计算机科学中长期扮演重要角色,而对话行为的模拟是核心研究领域。大语言模型的进展通过生成高保真合成用户对话,显著推动了该领域发展。本文综述了基于LLM的对话用户模拟最新进展,提出一个涵盖用户粒度和模拟目标的新分类法,并系统分析了核心技术与评估方法。研究旨在向学界同步该领域最新动态,并通过识别开放挑战、在统一框架下梳理现有工作,进一步促进未来研究。
为实现真正的数字自主性,研究团队推出了AutoGUI-v2基准,旨在评估智能体对图形用户界面(GUI)的深度功能理解与交互结果预测能力。该基准通过一种新颖的视觉-语言模型与人类协作流程构建,递归解析多平台截图,生成了涵盖六个操作系统的2,753项任务,严格测试区域与元素级语义理解、功能定位及动态状态预测。评估结果显示,基于智能体数据微调的开源模型在功能定位上表现优异,而商业模型则在功能描述上领先。关键发现是,所有模型在面对非常见操作的复杂交互逻辑时均表现不佳,表明深度功能理解仍是当前面临的核心挑战。
本文提出GoClick,一个仅含2.3亿参数的轻量级视觉语言模型,用于图形用户界面元素定位。针对资源受限设备,模型采用编码器-解码器架构,在小参数量下优于仅解码器架构。通过渐进式数据精炼流程,从1080万原始数据中筛选出380万高质量样本进行训练,显著提升定位精度。实验表明,GoClick在多项基准测试中达到与大型模型相当的准确度,同时保持小体积和高推理速度。集成于设备-云端协作框架时,能有效协助云端任务规划器精确定位元素,提升任务成功率。
策略蒸馏在多轮智能体任务中存在轨迹级KL不稳定问题,即KL散度随错误累积上升,导致训练不稳定。为此,研究提出时序课程策略蒸馏框架TCOD,通过课程学习控制学生模型接触的轨迹深度,从短轨迹逐步扩展到长轨迹。在ALFWorld、WebShop和ScienceWorld基准上的实验表明,TCOD有效抑制KL散度上升,提升训练稳定性,并将智能体性能较原始策略蒸馏最高提升18个百分点。进一步评估显示,TCOD甚至能超越教师模型性能,并泛化至教师失败的任务。
针对当前智能体视频生成流程存在的语义漂移与级联失败问题,研究团队提出了Co-Director。该框架将视频叙事构建为全局优化问题,其核心是分层参数化设计:全局层采用多臂老虎机探索有潜力的创意方向,局部层通过多模态自优化循环来缓解身份漂移并确保序列一致性,从而平衡叙事策略探索与创意配置利用。为进行评估,团队构建了包含400个场景的个性化广告数据集GenAD-Bench。实验表明,Co-Director在生成连贯性上显著优于现有先进基线,并能无缝泛化至更广泛的电影叙事场景。
一名AI代理意外删除了生产数据库。该代理在供述中解释,其本意是执行一项维护任务,但因权限配置错误和指令理解偏差,错误地执行了删除操作。事件导致服务中断数小时,影响了大量用户数据。这一事故凸显了当前AI系统在复杂环境中自主操作时,仍存在明显的安全风险与可靠性问题,引发了关于AI代理权限管理和操作监督的广泛讨论。
一项新基准测试让GPT-5.4和Claude Opus 4.6等顶级模型处理初级投资银行家的日常任务。评审结果显示,没有任何一个AI输出被评定为可直接交付客户,其内容存在不精确或完全错误的问题。尽管如此,超过半数的银行家表示,他们会将AI输出作为工作的起点。
查尔姆斯理工大学和沃尔沃集团的研究人员在一篇新论文中指出,认为AI智能体将取代程序员的主流观点并不准确。研究认为,AI智能体不会导致软件工程消亡,而是将这一学科的核心活动从传统的代码编写,大幅拓展至更广泛的系统设计、需求工程、测试与维护等领域。这意味着软件工程师的角色将发生演变,其工作范畴将远远超出单纯的编程。
关联讨论 1 条IT之家(RSS)在2026北京国际车展上,斑马智能与东风研发总院宣布,基于元神AI的淘宝闪购Agent将首次搭载于东风天元智舱。该功能允许用户仅通过自然语音完成全流程点餐,能精准识别模糊意图、自动匹配门店并推荐餐品,支持自由对话与订单中途修改。服务覆盖全品类美食,原生集成于座舱系统,可实现优惠自动叠加、配送时间智能联动导航。未来双方还计划在影音娱乐、出行游玩等场景推出更多原生Agent服务。
OpenClaw 2026.4.24版本发布,重磅接入DeepSeek V4模型。其中,DeepSeek V4 Flash被设为默认大模型,V4 Pro也已上线模型库。V4 Pro拥有1.6万亿总参数和49B激活参数,是全球最大的开源模型;V4 Flash总参数284B,激活参数13B。两者均采用MoE架构,支持100万token上下文,并以MIT协议开源。此次更新还深度整合了Google Meet作为内置插件,支持实时语音通话、会议记录处理与导出。同时,系统修复了多轮工具调用中的逻辑错误,增强了浏览器自动化的稳定性和坐标点击等兜底功能,并优化了插件与模型的架构以降低启动负担。
京东于4月26日启动“Aidol 创造营”计划,面向全球征集AI智能硬件项目,目标在今年孵化101个标杆产品。该计划对新品牌、初创团队、开发者及高校实验室开放,不设公司规模与销售门槛,注重产品独特性、技术突破与用户体验。入选项目将获得资本对接、全链路包销、技术开放、出海支持和全域曝光五大核心资源支持。报名截止至5月15日,首期活动将于5月25日至6月18日与京东618联动,前十名有机会获得京东百万台包销资源。
PageGuide是一款浏览器扩展,通过视觉叠加将大语言模型的回答直接锚定在网页中,以解决用户在杂乱页面中定位信息、完成多步骤任务和对抗干扰内容三大需求。它提供三种模式:Find模式原位高亮答案来源以供验证;Guide模式分步显示操作指南引导用户执行;Hide模式帮助隐藏干扰内容。一项涉及94名用户的研究表明,该工具在所有模式下均显著优于无辅助浏览,例如Hide模式使任务准确率大幅提升、完成时间缩短70%,Guide模式提高任务完成率,Find模式则减少80%的Ctrl+F使用并缩短任务时间。代码与演示已开源。
ClawMark是一个针对长期协作智能体的新型基准测试,旨在模拟外部环境独立变化的真实工作场景。它构建于一个状态可动态演化的沙盒环境,包含文件系统、电子邮件等五类服务,覆盖13个专业场景下的100项任务。评估完全依赖1537个确定性Python检查器对服务状态进行评分,未使用LLM作为评判工具。对七个前沿智能体系统的测试表明,最强模型加权得分为75.8,但严格任务完成率仅为20.0%,说明智能体常能取得部分进展却难以完整达成工作流。分析发现,性能在首次环境更新后普遍下降,适应动态变化仍是核心挑战。
Anthropic 公司搭建了一个名为“交易计划”的 AI 智能体交易测试平台,模拟二手市场由智能体代理买卖,使用真实货币结算。实验邀请 69 名员工参与,每人获得 100 美元预算,共达成 186 笔交易,总价值超过 4000 美元。测试发现,更高级的智能体能带来更优交易结果,但用户未察觉收益差距,暴露了智能体能力差异的潜在风险。此外,智能体的初始指令对成交概率和定价无显著影响。
编程辅助工具能帮助开发者重启那些曾被搁置或放弃的软件项目。通过自动生成代码、提供重构建议和解释复杂逻辑,这些工具显著降低了继续开发旧项目的心理与技术门槛。实践表明,开发者利用此类工具可在数小时内恢复对陈旧代码库的理解,并实现新功能。这改变了“必须独立完成所有代码”的传统观念,强调以工具为杠杆提升生产力,让半成品项目有机会真正完成并产生价值。
开源项目Stash发布,为AI代理提供长期记忆与上下文管理能力。它通过独立存储和检索对话历史,使开发者无需依赖特定API即可为应用添加持久化记忆功能。该项目已在GitHub开源,并获Hacker News社区关注,降低了构建复杂AI代理的门槛。
项目“Wuphf”是一个受卡帕西风格启发的大语言模型维基系统,支持Markdown格式和Git版本控制。其核心特点是可由用户设定的AI代理自动维护和更新内容,实现了知识库的持续自主管理。该项目已在GitHub开源,并在Hacker News上获得了100点热度。
Anthropic 进行了一项内部实验,让 69 个 AI 代理在员工内部市场中代表人类进行为期一周的交易。结果显示,性能更强的 AI 模型能为自己代理的用户争取到更有利的交易条件,而使用较弱 AI 代理的员工则完全未察觉到自身处于劣势。这一发现警示,若未来 AI 模型开始广泛代理人类进行真实交易,此类“强者愈强”的动态可能会加剧现有的经济不平等。
关联讨论 1 条X:阿易 AI Notes (@AYi_AInotes)WUPHF 是一个为 AI 员工设计的协作办公平台,通过一个命令即可启动,在本地提供 Web 界面。它将不同角色的 AI 智能体置于一个共享的虚拟办公室中,使其可见、可争论并协作完成任务。平台为每个智能体提供私人笔记,团队共享一个基于 Markdown 和 Git 的本地维基,智能体可自主将可靠信息同步至团队知识库。项目目前处于 1.0 版本前的预发布阶段,默认使用 Claude Code,支持通过命令行参数灵活配置。
开源项目“Browser Harness”发布,旨在赋予大型语言模型(LLM)在浏览器中自主完成任意任务的能力。该工具通过提供一个可编程的浏览器控制框架,使LLM能够像人类一样操作网页,执行点击、输入、导航等复杂交互。此举有望突破当前AI代理在自动化网络操作方面的限制,扩展LLM的实际应用场景。该项目已在GitHub开源,并在Hacker News社区获得100点热度关注。
阿联酋计划在两年内将其一半的政府运营转变为自主人工智能系统管理。这一雄心勃勃的目标旨在通过部署自主AI代理来大幅提升政府效率和公共服务水平,标志着国家治理向高度自动化转型的关键一步。
阿联酋总统穆罕默德·本·扎耶德宣布,该国计划在未来两年内将50%的政府部门、服务和运营转变为由Agentic AI驱动。此举将使阿联酋成为全球首个大规模应用此类AI处理政府事务的国家。Agentic AI是一种能够独立执行任务、管理流程并支持决策的自主人工智能系统。为实现这一目标,政府将对各部长、干事及联邦机构进行评估,考察其AI实施进度,并为所有政府雇员提供AI知识培训,以推动整体政府转型。