Deepseek正在北京组建团队,开发名为"Deepseek Code"的AI代码代理产品,直接对标Claude Code、Codex和Cursor。招聘要求表明,该岗位需要精通智能体循环、MCP协议和上下文工程,并深度使用现有编程工具。此举标志着Deepseek正式进军AI辅助编程领域,旨在与现有主流产品展开竞争。
Deepseek正在北京组建团队,开发名为"Deepseek Code"的AI代码代理产品,直接对标Claude Code、Codex和Cursor。招聘要求表明,该岗位需要精通智能体循环、MCP协议和上下文工程,并深度使用现有编程工具。此举标志着Deepseek正式进军AI辅助编程领域,旨在与现有主流产品展开竞争。
谷歌在2026年I/O开发者大会上宣布,其搜索功能的AI进化将显著加速。公司计划引入一种“代理式AI”技术,从根本上重构搜索体验。这意味着搜索引擎将从被动回答问题转向能够主动理解意图、规划并执行复杂任务的智能代理。此举标志着谷歌搜索战略的重大转向,旨在应对AI驱动的新一轮技术竞争。
Google I/O大会发布了Gemini 3.5 Flash和Gemini Spark。Gemini Spark是一个基于Gemini 3.5 Flash与Antigravity运行的个人AI代理,能原生连接Gmail、日历等Google应用。Antigravity是开源工具套件,包括桌面应用、CLI工具、Python SDK及VS Code分支IDE。Gemini Spark在Google Cloud运行,采用临时隔离虚拟机和安全网关保障企业数据安全。此外,开源的Gemini CLI将于6月18日后停服,由闭源的Antigravity CLI取代。
智能代理领域迎来新突破,Qwen3.7-Max于2026年5月20日发布,标志着前沿技术的演进。该模型聚焦智能代理创新,具体细节可通过qwen.ai博客获取。发布消息在Hacker News上获得128个关注点,显示技术社区的广泛兴趣。尽管未披露详细性能指标,但Qwen3.7-Max的推出暗示了在自主代理架构或任务处理能力上的提升,推动AI向更高效、智能的方向发展。
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》AI代理正从过去像“无用的实习生”般的承诺,转变为切实可用的工具,这一转变主要得益于近六个月来开源AI代理平台OpenClaw的兴起。谷歌被认为最有能力大规模实现这一目标。在I/O 2026大会上,谷歌宣布推出用于信息收集、活动规划、收件箱与日历总结等功能的新一代AI代理。这些代理能持续在后台运行,谷歌宣称它们将无缝集成到各类服务中,标志着AI助手实用性的重大进展。
该研究提出了一种基于大语言模型的通用文本优化系统,将优化问题统一表述为通过评分函数改进文本产物。在六项任务中达到最优结果:智能体架构使Gemini Flash在ARC-AGI上的准确率从32.5%提升至89.5%;调度算法降低40%云成本;87%的CUDA内核匹配或超越PyTorch表现;圆包装问题超越AlphaEvolve。实验表明,可操作的附加信息比仅使用分数反馈收敛更快、得分更高;多任务搜索通过跨任务迁移学习,在同等预算下优于独立优化,且任务数量越多收益越大。该工作首次证明基于LLM的文本优化是通用问题解决范式,能统一传统领域特定算法。系统已开源,支持多种后端。
Figma推出一款新的AI助手,用户可通过自然语言文本提示与之交互。该助手能够根据指令生成全新设计、编辑现有设计,并实现诸如为现有设计生成迭代版本等任务的自动化处理。
阿里巴巴发布专为AI智能体设计的新款处理器Zhenwu M890,并同步公布了多年的芯片发展路线图及新的大语言模型。这标志着阿里巴巴正构建完整的AI技术栈,而非单纯填补美国出口管制留下的市场空白。此举凸显了行业竞争重心已从通用算力转向以智能体为核心的系统化AI能力整合。
DeepSeek在内部组建了全新的Harness团队,主攻代码智能体产品,内部对标Anthropic的Claude Code。该团队将负责研发DeepSeek Code Harness,并已开放Harness产品经理和研发工程师两个关键岗位,工作地点在北京。其核心目标是将前沿的模型能力转化为领先的Agent产品,并深度参与定义DeepSeek的桌面端Agent产品。
Google在2026年I/O大会上发布了新一代模型Gemini 3.5 Flash。该模型在代码生成和AI智能体任务等基准测试中性能超越了此前的旗舰版本,同时运行速度提升四倍,推理成本降低一半。这一更新显著增强了模型在实际应用中的效率与经济性,特别面向需要快速响应和复杂任务处理的开发者场景。
CopT提出了一种反转传统链式思考(CoT)顺序的推理框架:先生成草稿答案,再进行策略内反思。其核心是将连续嵌入向量转化为推理时的对比验证器,通过比较模型在离散令牌与连续嵌入输入下对同一生成令牌的支持度,构建序列级反向KL估计器,以此评估答案的可靠性。当答案不可靠时,CopT会执行进一步思考,并利用第二个KL估计器动态控制草稿答案的可见性,在保留有用信息与规避误导间取得平衡。在无需额外训练的前提下,该方法在数学、编程等任务上显著提升了准确率(最高达23%)并大幅减少了令牌消耗(高达57%)。
阶跃星辰与金蝶达成战略合作,双方将利用大模型技术推动企业服务范式变革,核心方向是从传统SaaS模式向AI智能体(Agent)模式升级。
针对现有方法在处理重复长外部上下文时未能有效保存和重用定向知识的问题,本文提出PEEK系统。该系统将关于上下文内容、组织方式及历史有用实体的知识缓存为一个小型固定大小的上下文映射,并置于智能体提示中,以持续辅助处理外部上下文。PEEK通过蒸馏、制图和驱逐模块的可编程缓存策略维护映射。实验表明,在长上下文推理和信息聚合任务上,PEEK相比强基线提升6.3-34.0%,迭代次数减少93-145次,成本比ACE低1.7-5.8倍;在上下文学习任务中,解决率和标准准确率分别提升6.0-14.0%和7.8-12.1%,成本降低1.4倍。这些成果在多种模型和智能体架构(包括OpenAI Codex)上均有效,证明了上下文映射能帮助智能体更准确高效地处理重复外部上下文。
阿里云千问大模型今日正式发布新一代旗舰智能体模型 Qwen3.7-Max,定位为全能的智能体基座。该模型在编程、办公自动化及长周期自主任务方面能力突出,其中在一项持续35小时、超过1000次工具调用的内核优化实验中验证了其稳定的推理与执行能力。基准测试显示,Qwen3.7-Max 在 SWE-Pro、MCP-Mark、GPQA Diamond 等多项评测中成绩领先,其编程、通用智能体及推理能力已达到业界顶尖水平。该模型即将通过阿里云百炼 API 提供服务。
AutoResearchClaw是一种旨在突破现有系统线性流程局限的多智能体自主研究系统。其核心在于五大机制:结构化多智能体辩论用于假设生成与分析;具备自修复能力的执行器可将失败转化为信息;可验证的结果报告防止数据伪造与引用幻觉;提供从全自动到逐步监督的七种人机协作模式;以及能将过往经验转化为未来保障的跨运行进化能力。实验表明,该系统性能显著优于基线模型,且精准、定向的人机协作模式始终优于完全自主或穷举式监督。它被定位为一种增强而非取代人类科研判断力的研究放大器。
OpenComputer是一个验证器基础框架,旨在为计算机使用智能体构建可验证的软件世界。它集成了四个核心组件:针对特定应用的状态验证器、利用执行反馈进行自我优化的验证层、用于生成真实桌面任务的任务生成器,以及可记录轨迹并计算部分奖励的评估工具。目前,该框架已覆盖33款桌面应用,生成了包含浏览器、办公、创意等六类软件的1000个可机检任务。实验表明,其硬编码验证器比大语言模型评估更贴近人类判断。同时,研究揭示当前前沿智能体在端到端任务完成上仍面临瓶颈,表明稳健的计算机自动化仍存在挑战。
通义实验室推出 Qwen3.7-Max,定位为重新定义 AI 智能体基座的模型,侧重提升智能体的基础能力与架构。
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》阿里云在2026云峰会上发布了新一代平头哥训推一体AI芯片真武M890与ICN Switch互联芯片,并推出搭载该芯片的128卡超节点服务器。该服务器通信时延低至百纳秒级,可让128张AI芯片协同工作,以满足Agentic时代海量Agent的并发推理与大模型训练需求。阿里云表示已实现从底层芯片到上层应用的全栈技术就绪。
微软内部发出警告,称其代码托管平台GitHub正面临“生存级风险”。主要原因是Cursor、Claude Code等AI编程助手兴起,改变了开发者工作流,削弱了持续将代码上传至GitHub的必要性。为统一工具链并控制成本,微软已要求部分团队在2026年6月底前停止试用Claude Code,转而使用自有工具GitHub Copilot CLI。同时,OpenAI曾考虑自建替代平台,也加剧了对GitHub地位的潜在威胁。
通义千问发布 Qwen3.7-Max,专为智能体时代设计。它具备从原型到复杂多文件工程的编码智能体能力,通过 MCP 和多智能体编排实现办公自动化,能自主执行超 1000 步工具调用(如 35 小时全自主内核优化)。兼容 Claude Code、OpenClaw、Qwen Code 等多框架。在多项基准测试中超越 Opus-4.6 Max 等模型:Terminal Bench 2.0 (69.7)、SWE-Verified (80.4)、GPQA Diamond (92.4)、HLE (41.4) 等。现已通过阿里云 Model Studio 提供 API 调用。
关联讨论 7 条X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)公众号:通义实验室(千问)X:OpenRouter (@OpenRouter)IT之家(RSS)多智能体强化学习(MARL)中,通信对于协调至关重要,但常受带宽限制。现有架构常将通信与策略共享潜在表示,导致缩减通信尺寸会直接限制策略容量,造成性能下降。为此,我们提出两项贡献:一是引入归一化带宽预算β,将稀疏度、轮次和消息维度统一为一个可比约束;二是提供最小架构SLIM,它将通信路径与策略的潜在表示解耦,从而隔离带宽与策略容量的影响,并支持步内通信。在多个需要通信的部分可观测基准测试中,该方法取得了最先进的性能,在带宽受限时表现出可扩展性与鲁棒性,性能下降边际。
SciAtlas 是一个大规模、多学科、异构的学术资源知识图谱,旨在为自动化科学研究提供“认知地图”。它整合了26个学科的超过4300万篇论文,包含1.57亿实体和30亿三元组,构建了可打破学科壁垒的结构化拓扑认知底座。为克服现有检索工具缺乏拓扑推理能力的问题,其开发了具备三路协同召回和图重排序功能的神经符号检索算法,实现从语义匹配到确定性关联发现的过渡。应用方向包括文献综述、研究趋势综合、想法定位与学术轨迹探索,旨在以结构化方式赋能科研全流程并显著降低推理成本。相关接口已在GitHub开源。
本研究提出了CoTrace目标级归因框架,用于分解协作目标并追踪AI的贡献。对638份真实对话的分析发现,大语言模型在目标塑造中的直接贡献为11%-26%,但在引入具体实践需求方面作用显著,并存在多种间接影响。控制实验表明交互设计会影响AI的目标行为。用户研究显示,向用户展示目标级分析后,其对AI贡献的感知评分在5分制中变化了近2分,揭示了用户对自身AI协作成果存在系统性的校准偏差。
GenEvolve是一个旨在让图像生成代理自我进化的框架。该框架将每次生成过程建模为工具协调轨迹,代理通过收集证据、选择资源并组合生成技能来完成任务。与主要依赖图像级奖励的方法不同,GenEvolve通过对比同一请求的多个轨迹,将优劣差异提炼为结构化视觉经验,并仅提供给特权教师分支。借鉴策略自蒸馏思想,这些经验为学生代理提供了密集的token级监督,从而帮助其内化更优的搜索与构建能力。研究还构建了配套的数据集与评测基准,实验表明该方法达到了最先进的性能。
苹果宣布在 iOS 27、iPadOS 27 和 macOS 27 系统中,深度集成 Apple Intelligence 到无障碍功能。语音控制通过整合 AI,新增自然语言输入,用户可描述屏幕内容如“点开最佳餐厅指南”来操作设备,无需记忆按钮。VoiceOver 升级加入图像探索器,细致描述视觉内容;放大器支持口头指令;无障碍阅读器扩展适配复杂材料,并提供摘要与翻译功能。此外,Agentic 智能体能力将应用于新版 Siri,使其能理解屏幕内容并执行操作。
本次更新为Claude Code工具带来了多项功能增强与问题修复。新功能包括:新增JSON格式的会话列表命令以便脚本化操作,并在OTEL追踪中完善了Agent父子关系。插件浏览界面现可预览详细信息。在稳定性方面,修复了权限提示被绕过的安全问题、MCP参数校验错误、终端窗口调整后的显示冻结,以及非ASCII名称导致的API调用失败等问题。同时改进了Read工具的文件超限处理,并优化了任务列表排序和状态栏信息显示等交互细节,整体提升了工具的易用性与可靠性。
Forge – Guardrails 是一个开源工具,通过集成防护栏机制,将8B参数AI模型在代理任务中的准确率从53%大幅提升至99%。这一改进显著增强了模型在复杂任务中的可靠性和效率,降低了错误率。该工具于2026年5月19日在Hacker News社区发布,获得100个点赞,代码已托管在GitHub上供开发者使用。
Claude Code团队正从Markdown转向HTML作为主要输出格式。Markdown虽简洁,但在信息密度、阅读性、分享和交互方面存在局限。HTML能支持表格、CSS样式、SVG图表和JavaScript交互,提供更清晰的视觉结构和高信息密度。由于HTML文件可通过浏览器直接打开和分享,便于团队协作审阅。Claude Code利用其广泛的上下文获取能力生成实用的HTML制品,适用于项目规划、文档编写和验证等多种场景,显著提升了AI生成内容的可读性与实用性。
Forge 是一个为自托管大语言模型设计的可靠性层,专注于提升工具调用能力。它通过错误解析、重试提示、步骤强制等防护机制以及高效的上下文管理,成功将8B参数模型在复杂多步骤智能体任务中的表现从53%大幅提升至99%。其核心配置(Ministral-3 8B模型)在自建的26项评估中综合得分达86.5%。Forge 提供三种集成方式:作为全托管工作流运行器、多智能体架构的共享调度器,或嵌入自有编排循环的防护中间件,并附带一个可透明接入的OpenAI兼容代理服务器。
在2026年开发者大会上,Google宣布其AI战略核心从辅助工具转向开发独立智能体。大会重点发布了Gemini 3.5系列模型,并对“反重力”智能体优先平台进行了重大更新。面向移动开发者,推出了Android CLI工具、评估排行榜及能将多种框架代码快速迁移至原生Kotlin的智能体。Web开发领域也迎来变革,包括专为智能体设计的Chrome DevTools、HTML-in-Canvas API,以及旨在让浏览器内AI智能体执行复杂任务的开放标准WebMCP提案。
Google Cloud与NVIDIA开发者社区迎来成立一周年,会员规模突破10万。社区为开发者提供先进AI基础设施与资源支持,包括LLM优化、GPU加速数据分析等专项学习路径及专家网络研讨会。第二年计划将进一步扩展,推出实践实验室、工程活动及聚焦代理式AI增长的专项内容。
Google 推出 AI 驱动的信息代理,这些代理能够在后台自动监控指定主题,并主动向用户推送更新和变化通知。此功能旨在帮助用户突破传统搜索的限制,提供更智能、实时的信息追踪体验,实现从被动搜索到主动获取的转变。
AI代理邮件安全平台Ocean宣称,其AI能够全面分析每封传入邮件的语境,以检测欺诈和冒充行为。该公司由一位曾参与以色列“铁穹”防御系统的前少年黑客创立,近期完成2800万美元融资,旨在通过深度上下文理解技术,提升对企业级电子邮件安全的防护水平。
在I/O 2026大会上,Google发布了一系列AI驱动的新工具,旨在提升用户生活效率。其中包括始终在线的AI助手Gemini Spark,可协助组织活动;Daily Brief提供每日日程概览;以及扩大使用范围的Gmail AI收件箱,能基于邮件内容生成待办事项并起草个性化回复。这些功能的核心是一个处理海量个人信息的AI引擎,虽然便捷,但引发了用户信任和数据隐私的重大担忧,使隐私保护成为Google AI战略的关键挑战。
5月22日,xAI宣布,其用户现可在开源个人助理OpenClaw中直接使用Grok模型。所有持有SuperGrok或X Premium订阅的用户均可使用该功能。OpenClaw是一个开源的、本地优先的智能助手,可在多种硬件上运行并保持跨会话记忆,同时能接入WhatsApp、Telegram等多款主流通讯平台。用户通过简单安装和登录,即可在自有设备上运行OpenClaw,并通过其界面或关联的聊天工具与Grok交互。此举进一步扩展了Grok的应用场景,未来还将推出更多开源代理与集成支持。
在2026年I/O开发者大会上,谷歌宣布推出Antigravity 2.0,这是一款围绕智能代理编排构建的独立桌面应用程序。同时发布的还包括Antigravity命令行工具(CLI)和软件开发工具包(SDK),并在Gemini API中引入了托管代理功能。此外,通过Gemini Enterprise提供企业级支持。此次发布标志着谷歌从工具集成迈向构建完整代理开发生态的重要转变。
在2026年I/O开发者大会上,谷歌发布了Antigravity 2.0桌面应用及一系列配套工具。产品定位从智能体式IDE转变为通用智能体优先工作平台,支持开发者同时部署多个子智能体处理不同编程任务。新功能包括通过“/schedule”命令设置定时任务,以及多种斜杠命令以提升任务可控性。产品结构改为按“project”管理,取消了与代码仓库的强绑定。云端方面,Gemini API推出Managed Agents,一次API请求即可启动一个持久化的隔离Linux环境智能体。同时,Google AI Studio移动应用开放预注册,并新增Android原生应用生成与直接导出测试的能力。
谷歌在 2026 年 I/O 开发者大会上发布智能手表平台 Wear OS 7。新版本重点升级续航与智能交互,电池续航从 Wear OS 6 升级后最高提升 10%。新增 Gemini Intelligence 支持,用户可通过语音执行智能体任务,如启动应用或完成多步骤操作。系统还能作为跨设备任务入口,减少手机依赖,同时推出 AppFunctions API 供开发者集成 Gemini 助手,增强自动化体验。
谷歌在2026年I/O开发者大会上宣布,旗下搜索业务迎来25年来最大改版,核心是用AI重塑搜索入口与交互方式,由最新Gemini 3.5 Flash模型提供支撑。主要变化包括:用户交互从输入关键词转向描述完整需求,搜索框将动态扩展并支持文本、图片、视频等多模态输入。用户可从AI概览中连续追问,形成聊天式对话。新版引入搜索智能体,可在后台24小时运行并追踪用户设定的目标。此外,谷歌将生成式界面功能引入搜索,并将个人智能扩展至98种语言、近200个国家。据悉,AI Mode月活用户已突破10亿,查询量每季度翻倍。
在2026年I/O开发者大会上,谷歌宣布推出AI电商通用购物车“Universal Cart”及相关协议。核心协议包括开源的通用购物车协议UCP(获亚马逊、Meta、微软等支持),旨在为智能体提供通用语言;以及智能体支付协议AP2,用于管理AI支付流程。该功能将于今年夏天在谷歌搜索、Gemini、YouTube、Gmail中上线,支持多场景添加商品、追踪优惠与历史价格,并具备智能推理能力,可检测兼容性并推荐替代品。