Claude Tag 推出 agent identity(智能体身份)访问模型,让 Claude 在共享频道中以独立身份工作,而非模拟某个用户。管理员在工作区级配置连接器、仓库访问、技能插件和固定指令等权限,每个频道可覆盖继承的基线设置。私有频道拥有独立身份,记忆和访问不跨频道流转;公共频道共享工作区级身份。该模型为自主多玩家 AI 场景设计,允许频道成员通过 Claude 访问已授权工具和数据,同时通过按身份撤销简化权限管理。
Claude Tag 推出 agent identity(智能体身份)访问模型,让 Claude 在共享频道中以独立身份工作,而非模拟某个用户。管理员在工作区级配置连接器、仓库访问、技能插件和固定指令等权限,每个频道可覆盖继承的基线设置。私有频道拥有独立身份,记忆和访问不跨频道流转;公共频道共享工作区级身份。该模型为自主多玩家 AI 场景设计,允许频道成员通过 Claude 访问已授权工具和数据,同时通过按身份撤销简化权限管理。
Most underrated data source in a company: your AI agent's conversations. Your agent talks to more customers than any emp...
腾讯低调发布EdgeOne Makers平台,无发布会,仅一条推文和一个GitHub仓库。核心理念:让AI Agent一句话部署应用——通过CLI自动完成Git推送、CI/CD触发、边缘函数部署及预览链接生成,无需打开浏览器。底层标准化Skill系统支持边缘函数、云函数、KV存储等能力模块,Claude Code、Cursor等Agent可直接调用。GitHub已开源,支持Node.js、Go、Python云函数和V8边缘运行时,集成LangGraph、Claude SDK、OpenAI Agents等主流框架。这标志着云平台从为人设计转向为Agent设计。
KroWork 新发布,解决 AI 智能体每次运行后会话即失效的痛点。用户用自然语言描述任务,AI 自动构建工作流并保存为可重用的桌面应用,无需编程背景。应用完全本地运行,数据不出设备。相比一次性回答,它生成持久、可复用的软件——例如一句指令即可生成免费市场监控应用,替代分散的付费工具。KroWork 将“氛围编码(vibe-coding)”转变为“结果编码(outcome-coding)”。
Mistral AI 于 6 月 23 日发布 OCR 4,除提取文本外还返回边界框、块分类(标题、表格、公式、签名等)和逐页/逐词置信度分数。支持 170 种语言、10 个语系,可单容器自托管部署。在 OlmOCRBench 上获 85.20 最高分,独立标注者偏好率达 72%。API 定价 $4/千页,Batch-API 五折后 $2/千页。可作为 Mistral Search Toolkit 的输入组件,为 RAG 和企业搜索提供结构化输出。
关联讨论 2 条Mistral AI:News(网页)MarkTechPost(RSS)进迭时空今日宣布完成自研互联总线N200的研发。N200将与通算CPU核X200、智算AI核A200共同应用于下一代计算芯片,预计2027年量产。N200支持AXI2CHI/CHI2AXI协议转换桥、多种聚合节点、专有消息与配置通路、符合RISC-V RERI规范的端到端RAS、灵活时钟结构、Debug & Trace、PMU性能统计接口及Partial Good设计,并提供完整配置GUI,支持RTL分区分层自动生成与校验。目前N200已完成架构设计、RTL开发验证、PPA Push、驱动开发与软硬件协同验证,并基于FPGA原型与X200构建的原型系统完成多项关键验证。
戴尔科技发布 PowerEdge XE8812 服务器,采用 NVIDIA Vera Rubin NVL4 架构,每机架最多支持 144 块 GPU。全液冷设计覆盖 CPU 和 GPU,支持超过 300kW 供电。与上一代 GB200 NVL4 相比,CPU 核心从 144 个增至 176 个,每个插槽内存容量和 GPU 显存均提升 50%。从部署到运行负载仅需六小时。已有超 5000 家客户部署戴尔 AI Factory,实例包括劳伦斯伯克利国家实验室的 Doudna 超算、InstaDeep 的 Kyber 集群等。戴尔援引行业预测称 2026 年 AI 投资同比增长 44%。
EverOS 1.0.0是一款开源、本地优先的记忆操作系统,专为AI Agent提供跨会话持久记忆。其核心是将记忆存储为可直接cat、git、编辑的Markdown文件(唯一可信来源),配合SQLite管理状态、LanceDB处理向量/BM25索引及标量过滤,无需Docker或向量数据库集群。官方基准:LoCoMo 93.05%、LongMemEval‑S 83.00%、HaluMem约90%+。支持多模态摄取(PDF/图片/网页URL),任务可自我演化成可复用Skill,计划加入Knowledge Wiki和Reflection。用户通过CLI(everos init/server start)约30分钟上手。
华为乾崑公布 CAS 5.0 详解:新增与主、被动安全同级别的第六维“全时域安全目标”,基于安全风险场技术,将安全能力从“事前预防”延伸到“事后守护”。前向 AEB 最低触发速度降至 1km/h,侧向防碰撞 LOCP 降至 10km/h,通过新增前向高精度固态激光雷达和优化融合感知算法实现。eAES 升级至 3.0 版本,防护范围覆盖侧后方,可提前察觉侧后方车辆加塞、抢道,并在后方来车可能碰撞、前方无车时向前加速避险,实现从“避免撞别人”到“避免被别人撞”。
日本团队 Sakana AI 推出 Fugu(Fugu Ultra),一个仅 0.6B 参数的多智能体编排系统,通过统一 API 调用。它不是单体大模型,而是 AI“项目经理”:简单任务自处理,复杂任务自动拆分,从全球模型池选择模型分配思考、执行、验证角色,多轮协作输出答案。编排策略由训练生成,而非手工 prompt。Fugu Ultra 在多个基准上超过 Claude 和 GPT,性能匹敌 Fable 和 Mythos,绕开 scaling law 军备竞赛。缺点包括黑箱性、复杂任务延迟高、简单任务成本更高。此举标志着多智能体编排从实验室走向可用生产力工具,开启编排层赛道。
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...
Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周,全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型(当前为 Z.ai 的 GLM‑5.2)来起草发布说明和 Slack 公告,但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建,任何维护者都可直接复制使用。
火山引擎在FORCE大会上展示YoooClaw C-ONE,一款卡片大小的「AI记忆卡」。它能录音转文字,也能抓取手机通知实时喂入,两路数据汇入火山引擎的ArkClaw做抽取和推理,形成个人知识大脑。出口端打通飞书,例如老板开完会后一句话即可将任务分别推送给对应同事。推文作者称这是除seedance2.5外今次最心动的产品。
prime-rl 0.6.0 是一个开源异步强化学习框架,针对万亿参数 MoE 模型,聚焦长周期智能体任务(如软件工程)。研究团队在 GLM-5 上训练 SWE 任务,序列长度达 131k,步时间低于5分钟,batch size 256,仅用28个H200节点。推理优化包括 FP8(DeepEP、DeepGEMM 内核)、宽专家并行(≥32 GPU)、前填充与解码分离、KV 缓存分层卸载(vLLM 原生或 Mooncake Store)以及路由重放(R3,降低 KL 不匹配约一个量级)。训练基于 torchtitan,采用3D并行(FSDP2、上下文并行、专家并行)和块缩放 FP8(由 DeepSeek V3 提出),以匹配推理精度并稳定训练。
软银孙正义称马斯克推崇的太空数据中心价值有限,电费占数据中心运营成本很低,芯片等硬件才是大头,且运输、维护及通信延迟代价高昂。他表示未来几年比十年后更重要,软银将专注地面强大算力,先发制人者胜。孙正义已向OpenAI投入约650亿美元,承诺再投数千亿美元建数据中心,认为AI尚处早期,具备十倍百倍增长潜力。
GLM-5.2 通过 OpenAI 兼容 API 提供深度思考开/关、推理努力级别(high/max)、流式推理与回答、函数调用、工具代理、结构化 JSON 输出及长上下文检索。API 输入每百万 token 1.40 美元、输出 4.40 美元,支持 zai、OpenRouter 等多提供商访问。教程演示了从客户端设置、API key 安全加载到可复用聊天封装与成本追踪的完整开发流程。
SpaceX has signed a $6.3 billion dollar compute deal with Reflection. Reflection will gain immediate access to GB300s to...
京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction,获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应,支持将复杂任务委托后台Agent处理。在58个真人盲评中,对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%,监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统,支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署,适用于安防监控、老人看护、直播讲解等实时场景。
关联讨论 2 条HuggingFace Daily Papers(社区热门论文)IT之家(RSS)国际半导体标准组织 JEDEC 正式批准新一代高带宽内存标准 SPHBM4(JESD330-4)。该标准将信号引脚数降至约 400 个(HBM4 约 2000 个),每引脚速率从约 11 Gbps 提升至约 44 Gbps,总带宽接近 HBM4 的 2.8TBps。通过采用标准基板和标准封装,降低对中介层等先进封装工艺的依赖,旨在降低 AI 加速器、GPU 和高性能计算芯片的制造难度与成本。
马斯克旗下 SpaceX 与 Reflection 签署 63 亿美元算力合同,出租 Colossus 2 数据中心的 NVIDIA GB300 GPU,有效期 2026 年 7 月至 2029 年 6 月,月费 1.5 亿美元。Colossus 2 约有 55 万块 NVIDIA GPU(含 GB200、GB300)。此前 SpaceX 已与谷歌(月费 9.2 亿美元,对应 11 万块 GPU)和 Anthropic(月费 12.5 亿美元,对应 22 万块 GPU)签下大额合同。
NVIDIA 宣布 Vera Rubin NVL4 系统预计 2026Q4 上市。单个“托盘”集成 4 颗 Rubin GPU 和 2 颗 Vera CPU,GPU‑GPU 互连采用运行第六代 NVLink 协议的第二代 NVLink 桥接器,GPU‑CPU 互连使用 NVLink‑C2C。物理设计针对超级计算优化了密度、能效和操作简便性,兼容液冷 NVIDIA MGX 模块化服务器。与 Grace Hopper 相比,Vera Rubin NVL4 的科学计算模拟性能提升 4 倍,科学 AI 训练性能提升 6 倍,科学 AI 推理性能提升 8 倍。
Samsung rolls out ChatGPT Enterprise and Codex to all staff in Korea and DX division staff globally; OpenAI says it's on...
Deloitte 报告显示 77% 的公司将供应商国籍纳入 AI 选型考量。OpenRouter 将数据驻留视为路由决策:通过 API 请求中的 provider 对象设置 order 或 only 限定服务商、allow_fallbacks 为 false 禁止回退、data_collection 为 deny 禁止数据存储或训练、zdr 为 true 要求零数据保留。示例以 anthropic/claude-sonnet-4.6 调用,首选 Anthropic 直连和 Amazon Bedrock。针对欧盟需求,可限制仅 Mistral 等欧盟总部供应商。若无可合规供应商,API 返回错误而非路由至不合规服务商。
Deloitte 报告显示企业 AI 抱负与治理成熟度之间差 53 个百分点,74% 计划两年内部署智能体 AI,仅 21% 拥有成熟治理模型。路由架构是首个治理层。三种姿态——托管网关(如 OpenRouter、Portkey)、自托管网关(如 LiteLLM)和直接 API——默认治理能力不同,直接 API 缺乏统一控制面,造成治理盲区。治理清单可映射为资产盘点、问责制、访问控制、证据记录与合规性五大支柱。路由层能提供跨团队可见性与审计证据,而电子表格不能。
甲骨文 2026 财年员工总数减少 13%,裁员约 2.1 万人,截至 2026 年 5 月 31 日员工 14.1 万,去年同期 16.2 万。重组相关离职补偿金支出 18.4 亿美元,远高于上年的 3.74 亿美元。裁员由管理层与产品线调整、绩效、战略转向及收购整合等驱动。公司近期与 OpenAI、Meta 签订大型数据中心协议,但股价年内下跌约 10%。预计本财年净资本开支约 700 亿美元,计划再融资 400 亿美元,含 200 亿美元股票增发。
Z.ai 发布 GLM-5.2,开源 744B 参数(40B 活跃),1M 上下文窗口,性能与 Claude 4.8 Opus、GPT-5.5、Gemini 3.1 Pro 持平。通过 Unsloth 动态量化,2-bit GGUF 版本内存需求降至 239GB(-84%),1-bit 版降至 217GB(-86%),可运行于 256GB 统一内存 Mac 或 1×24GB GPU+256GB RAM。提供非思考、高、最大三种思考模式。评测显示动态 1-bit 准确率约 76.2%,2-bit 约 82%。
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》在线策略蒸馏异步训练中,轨迹生成与学习器更新解耦引入陈旧策略数据;KL方向决定影响:教师加权正向KL鲁棒,学生加权反向KL脆弱。异步RL稳定方法无效,反向计算当前学生信号更优。有限教师分数缓存导致稀疏采样反向KL估计器的偏差-方差权衡,多采样蒙特卡洛可降低方差。基于此,开源AsyncOPD全异步管道在严格同步训练基础上实现1.6至3.8倍吞吐量提升,精度相当。
现有低比特KV量化器将每个key视为平面向量,而RoPE下key的注意力贡献分解为二维频率块的和。Block-GTQ基于TurboQuant-MSE,为每层和KV头计算每个RoPE块的无标签能量分数,通过边际增益贪心分配整数位宽。在10模型诊断集上,2/3 b/dim单K量化下每层MAE降低32–80%,367/367层全部优于均匀TQ-MSE。在Llama-3.1-8B-Instruct的K2V2设置下,六任务NIAH平均分从70.6提升至97.4,LongBench-EN平均分从36.87升至53.31。在DeepSeek-R1-Distill-Qwen-7B的AIME 2024/2025上,K3V2无fp16近期key缓冲区时得分51.7/37.5,接近fp16的54.2/37.9。基于打包缓存的推理路径在单H800、Qwen2.5-3B-Instruct上,K3V3实现3.24倍压缩,128K下比fp16 FlashAttention2快1.34倍,峰值内存从56.31GB降至19.85GB,并在256K和512K下仍可运行。
Nvidia称,其Rubin代参考设计采用100%液冷并让服务器在更高温度(最高45°C)下运行,可将AI数据中心用水量降至“接近零”。热量在芯片处直接捕获,通过高温液体回路传输,使室外干式冷却器全年高效排热。Nvidia可持续发展主管Josh Parker表示,相比传统冷却塔系统每年每兆瓦约260万加仑的用水量,新设计降幅高达100%。但该方案未提及建设成本及数据中心建造、发电环节的其它环境关切。
伊利诺伊州Holiday Hills警察局长于2026年6月18日被捕,被控两项渎职重罪。检方指控他利用Flock车牌读取系统及州警察数据库,跟踪6名认识的人,其中3人为前女友,并对其中一人的前男友车牌查询140次(86次脱岗),持续18个月。全美至少18起类似案例:佐治亚州Braselton警察局长、爱达荷州Jerome县警长(700余次查询其妻车牌)等均因此辞职或被捕。Flock首席法务官Dan Haley承认,滥用该系统“最常见情况”就是跟踪前女友。Flock称系统只跟踪车辆,但案例表明车辆是手段,人是目标。
通过 AWS、Google Cloud 和 Microsoft Foundry 使用 Claude Desktop 的组织现已获得 Chat、Claude Cowork 和 Claude Code 集成的完整桌面体验。IT 团队可将推理保留在自己的云环境中,对话历史本地存储。支持 IAM Identity Center、Workforce Identity Federation、Microsoft Entra ID 或 Okta 登录;策略模板可导出至 Intune、GPO 或 Jamf;提供离线安装器。Chat、Claude Cowork 和 Claude Code 各有独立策略键,支持精细访问控制。M365 连接器通过 Entra 应用访问邮件和文档,并支持 GCC High/DoD 端点。
Nvidia宣布一套温水冷却系统,称可在数据中心内部“基本消除所有用水”。冷却液以45°C注入、55°C流出,闭环循环。适宜气候下可实现100%现场用水削减。但外部用水(发电和芯片制造)可使总用水量翻倍或三倍,Nvidia方案仅解决约四分之一到三分之一。目前约一半数据中心电力来自化石燃料,且到2030年新供电中超40%仍依赖天然气和煤。因此仅靠内部节水远未解决AI用水问题。
Google DeepMind 宣布 Interactions API 正式可用,成为 Gemini 模型和智能体的默认接口。该 API 自 2025 年 12 月进入 Beta 测试,现取代 Google AI Studio 和文档中的旧 generateContent 接口;未来新智能体功能仅通过它提供。近期新增功能包括:自带 Linux 沙箱的 Managed Agents、后台执行、Google 搜索与地图工具链、图像/音乐/语音媒体生成。架构从旧的 "user"/"model" 角色简化为 typed steps,每步动作独立定义。开发者可选择 Flex 模式(成本降低 50%)或 Priority 模式(优化速度)。
OpenAI Daybreak 计划更新,推出 Codex 安全插件和专属 GPT-5.5-Cyber 模型,实现从漏洞发现到补丁生成的自动闭环,将以往数周乃至数月的修复时间压缩至数小时。该模型已为 Linux 内核、FreeBSD、cURL、Go、Python、Sigstore、pyca/cryptography 等关键项目发现并生成补丁。GPT-5.5-Cyber 仅限经验证的防御者进行授权渗透测试。此举大幅压缩零日漏洞攻击窗口,但 AI 补丁可能引入新问题,未来或需更高阶 AI 监督修复进程。
We're accelerating patching, in addition to vuln finding, with new tools and models in OpenAI Daybreak. Our models are n...
SemiAnalysis发布CUDA MOAT警报:在不到70天内,通过纯软件优化,Kimi架构(与xAI的Cursor Composer 2.5相同模型架构)在GB200 NVL72上的服务成本降低2.5倍。关键优化是使用CuTe-DSL重写NVFP4 MoE kernel,作为现有宽专家并行优化的补充。该优化利用了NVL72的铜背板,带宽是标准RoCEv2/InfiniBand的18倍。此项工作由Xin Li、Jun Yang及NVIDIA团队完成。
微软正在德克萨斯州Pecos建设一座约2吉瓦的数据中心园区,项目耗资数十亿美元,工期5至7年,高峰期将提供超过6000个建筑岗位和数百个永久职位。园区配备由微软出资的燃气发电厂,脱离公共电网供电。微软声称采用闭环冷却,全生命周期耗水仅为典型快餐店年用水量的“一小部分”,并承诺不会推高当地电价、回补更多水资源、尽早听取居民意见。受电网容量限制,微软等公司正自建电厂。雪佛龙将为该站点提供燃气轮机,预计2028年左右投入运行。
Delos发布Workers,将AI智能体转化为拥有专属邮箱、电话、Slack、Teams、电脑、记忆及公司训练的“数字员工”。每个Worker针对单一企业训练,学习其常规、工具、词汇、权限和交接模式。核心是持久身份与长期记忆,使同事可像联络人类同事一样找到它,并信任其记住过往决策与客户上下文。引用推文透露上线数天内已实现100万美元ARR,指出大多数知识工作本不该存在——大量工作仅为流程(回复邮件、跟进、更新CRM等),而Workers能像人类队友一样跨组织执行任务,软件与劳动力界限消失。
Introducing Workers: unlimited AI employees that run your company... And we've just made $1M ARR in a couple of days. Mo...
Micron与Anthropic签署多年期HBM、DRAM和SSD合作协议,双方将围绕Claude工作负载共同设计内存和存储架构。Micron既是Anthropic的投资者(参与Series H融资)、客户(内部部署Claude)和供应商,又是合作伙伴。这一深度绑定将AI基础设施的垂直整合从计算层延伸至内存存储层,预示硬件巨头与前沿实验室的生态闭环趋势。
SpaceX完成857亿美元IPO后,与开源AI初创Reflection签署GPU计算租赁协议。Reflection自2026年7月起每月支付1.5亿美元,使用SpaceX Colossus数据中心的Nvidia GB300集群,若延续至2029年总支付约63亿美元,协议可于3个月后提前90天取消。Reflection采用B2B/B2G开放权重模式,构建前沿模型并向政府、国家实验室和企业出售定制化部署。该集群用于训练基础模型并适配科学和国家安全场景。Anthropic切断Fable和Mythos服务后,Reflection强调关键AI客户不应依赖可被撤销或受限的闭源供应商。
SpaceX just announced its first investment-grade bond sale after its record $85.7B IPO last week. The company is issuing...