05:08
阿里巴巴发布 Page Agent:开源 JavaScript 库实现网页 DOM 自然语言操控阿里巴巴发布 Page Agent,一个开源的 JavaScript 客户端库,嵌入网页后可通过自然语言指令直接操作 DOM 元素。与 Playwright、Puppeteer 等外部浏览器自动化工具不同,Page Agent 不依赖截图或多模态模型,而是将实时 DOM 脱水压缩为 FlatDomTree 文本映射,让纯文本模型精准执行点击、表单填写等操作。它继承用户 cookies 和会话,无需独立后端,并支持任意 OpenAI 兼容端点的模型(示例使用 qwen3.5-plus)。项目采用 MIT 许可证,适合在自有应用内构建 AI 副驾、智能表单填充或无障碍控制等场景,但限于单页面范围,风险操作仍需服务端验证。
推荐理由:Page Agent 把浏览器自动化从外部驱动变成页面内 JS,读 DOM 而非截图,让 SaaS 内的 AI 助手成本更低、更精准,适合自己产品内嵌 copilot 的团队。
04:35
Ethan Mollick@emollick 关于Mythos和网络安全的讨论并非炒作。
(正如任何使用Fable进行自主工作的人可能已经认识到的那样。)Epoch AI: AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...
推荐理由:AI在安全漏洞发现上第一次展现出规模化能力,6月CVE数直接翻了3.5倍,所有做安全的人今天起都得重新评估自己的攻击面。
03:45
Microsoft 成立"Frontier Company",斥资 25 亿美元派驻 6000 名 AI 工程师到企业客户现场Microsoft 新设业务部门“Frontier Company”,拨款 25 亿美元,将 6000 名行业与工程专家派驻企业客户现场,“共同设计、共同创新、部署并持续改进 AI 系统”。该部门由 Rodrigo Kede Lima 领导,旨在超越“前部署工程”模式,成为“最大、以结果为导向的工程组织”。Microsoft 将自己定位为 OpenAI 和 Anthropic 的“平台中立”替代方案,后两者也已设立专门部署公司。Microsoft 将借助埃森哲、凯捷、安永等系统集成商扩大覆盖范围。
推荐理由:微软砸 25 亿美元成立 Frontier Company,把 6000 名工程师直接塞进企业客户现场,正面应战 OpenAI 和 Anthropic 的部署子公司。这一手既是补齐落地能力也是巩固生态,对 CIO 来说是选择多了,但对 AI 行业意味着部署军备竞赛正式开打。
02:37
LMSYS:Blog(Chatbot Arena 团队)
Agent辅助的SGLang开发:初步探索SGLang团队将LLM服务、分布式运行时、GPU内核、扩散管道等工作流编码为可执行的SKILL.md文件、脚本、基准合约和审查循环。现有技能包括:SGLang .claude/skills(CUDA调试、内核集成、性能分析等)、SGLang diffusion .claude/skills(扩散模型添加与调优)、BBuf/AI-Infra-Auto-Driven-SKILLS(跨框架SOTA循环)、KDA(MLSys 2026 FlashInfer内核竞赛获胜方案)以及BBuf/KDA-Pilot(已合并三个SGLang集成PR)。Profile证据是性能工作的核心,长期优化转向Loop Engineering——SGLang SOTA Performance Loop将追求SOTA分解为公平基准测试、差距决策、性能分析、补丁和再验证,Humanize/RLCR添加外部审查,Codex Goal以更低协调开销运行相同循环。评审重要性提升,开发者需定义问题、选择证据、设计工作流并判断结果是否可用于生产。
推荐理由:这不是一篇普通的开发经验总结,而是 SGLang 团队把调试、基准测试和性能调优等重复劳动变成可执行 agent 技能的实操手册,对于做推理框架和复杂工程的人非常值得一看。
02:03
Claude Enterprise 新增用量与成本分析及支出管控功能Claude Enterprise 推出更丰富的管理分析工具和成本控制功能。仪表板现可按群组和用户分析用量与成本,支持按 SCIM 群组筛选,展示制品创建、文件编辑、技能和连接器对应的成本。Claude Code 管理控制台新增“使用量”和“价值”选项卡,分别显示活跃开发者、会话次数、常用命令,以及生产力提升估算、每次提交成本和年度价值估算。分析聊天支持自然语言查询并返回可导出图表。Analytics API 可将数据接入 Datadog Cloud Cost Management 和 CloudZero。管理员可设置模型默认和权限控制,并配置组织级支出限额的 75%、90% 告警通知;用户在 75% 和 95% 时收到应用内提醒。Admin API 支持自动审批额度增加、标记接近限额用户及快速变化的用量。
推荐理由:企业版管理员终于有了按群组和用户的成本明细、模型权限和花费警告。我觉得规模化部署 Claude 的团队会很看重这些,尤其能把 Claude Code 的价值量化成 ROI,财务团队可以直接拉进现有系统,不是一次性噱头。
01:08
Apple Machine Learning Research(RSS)
RL微调VLM的鲁棒性与思维链一致性研究强化学习(RL)微调被扩展至视觉语言模型(VLM)。研究发现,简单的文本扰动——误导性标题或错误思维链(CoT)——会显著降低模型鲁棒性和置信度,且开源模型衰退更明显。闭源模型呈现类似失败模式,但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡:微调提升基准准确率,但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性;对抗性增强可改善鲁棒性,却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐,但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。
推荐理由:RL微调让VLM基准分变好看,却可能让它的推理链变得靠不住,这个反直觉的诊断对正在用RL打磨多模态模型的团队是个警醒。
01:08
Apple Machine Learning Research(RSS)
VideoFlexTok:可变长度粗到细视频分词VideoFlexTok提出一种可变长度token序列的视频表示方法,采用粗到细结构——首个token捕捉语义和运动等抽象信息,后续token添加精细细节,生成流解码器支持任意token数量的视频重建。相比传统3D网格分词,该结构允许根据下游需求调整token数,在相同预算下编码更长视频。在类别和文本到视频生成任务中,VideoFlexTok以1.1B参数(5.2B的1/5)达到可比生成质量(gFVD和ViCLIP Score)。训练一个处理10秒81帧视频的文本到视频模型仅需672个token,比同等3D网格分词器少8倍。
推荐理由:把视频 tokenization 从固定网格改成变长 coarse-to-fine,训练效率提升明显,还能做更长的视频。研究角度挺漂亮,但离产品落地还有距离,做视频生成的可以追一下。
01:08
Apple Machine Learning Research(RSS)
多智能体团队阻碍专家发挥在自我组织的多智能体LLM系统中,团队无法有效利用专家成员的专业知识。在多个基准测试中,即使明确告知专家身份,团队表现仍落后于最佳成员(专家智能体)的独立能力,性能损失最高达41.1%。失败主因是未能有效利用专家意见,而非识别专家。对话分析显示,团队倾向于“整合性妥协”——平均化专家与非专家观点,随团队规模增大而加剧,且与表现负相关。这种寻求共识的行为同时提升了对抗恶意智能体的鲁棒性,揭示了协同对齐与专业利用之间的根本性权衡。
推荐理由:这篇研究给多智能体热浇了盆冷水,自组织团队反而拖累专家,瓶颈不在认不认识专家而在会不会用专家,做 Agent 系统的都知道这有多反直觉。如果你是做多智能体的值得看看。
00:29
Chubby♨️@kimmonismus Anthropic与五角大楼控权之争:Claude军事用途护栏分歧WSJ法庭文件显示,Anthropic CEO Dario Amodei与五角大楼副部长Emil Michael数月邮件往来,核心分歧在于Claude的军事用途护栏。Anthropic要求禁止全自主武器及某些监控用途,五角大楼则希望Claude可用于所有合法国家安全场景。Michael称若分歧太大不愿“强行推动”。随后五角大楼将Anthropic列为供应链风险,阻止合作伙伴在国防部项目中使用其模型。法官暂停部分措施,政府正在上诉。Michael称原先采用Anthropic的操作中已有三分之二切换至其他AI工具。
推荐理由:这起诉讼暴露了前沿AI公司面对军事化应用的深层挣扎,法庭文件里的邮件往来比最终判决更值得看,直接拷问每一家模型公司的底线该划在哪里。
00:06
快手可灵AI获初始投资者20.28亿美元注资,投后估值180亿美元快手在港交所公告,21名初始投资者同意以138.24亿元人民币(20.28亿美元)现金注资北京可灵,后者将持有可灵AI相关资产。同日15名额外投资者追加出资52.235亿元人民币(7.6639亿美元),认购总上限为204.471亿元(30亿美元),对应北京可灵扩大后注册资本的16.67%。投后估值180亿美元。快手预计未来12个月内启动可灵AI赴港上市,募资用于扩充算力、建设数据中心及人才引进。
推荐理由:可灵AI这轮180亿美元估值融资,是AI视频赛道迄今最重量级的资本动作之一,也是中国AI公司分拆上市的标杆事件,值得关注后续上市进程。
23:06
花旗、Adobe等企业限制员工使用AI旗舰模型以控制成本据404 Media获取的内部资料,Atlassian、Adobe、亚马逊等六家企业正限制员工使用AI工具,要求改用能力较低的大模型避免成本失控。至少一家企业月度AI开销增至三倍,超1500万美元。花旗银行因GitHub改为按量计费,于6月24日禁用Claude Opus 4.6、4.7及GPT-5.5等旗舰模型。Adobe于6月30日终止Claude无限制使用协议。Atlassian数据显示其AI月支出从500万美元飙升至1500万美元,本财年预计超1.2亿美元。GitHub计划改用开源模型并测试单人按量计费模式。
推荐理由:这是第一份详细揭露大公司AI成本失控的内部报告,花旗直接禁用GPT-5.5和Claude 4.7,把「按需匹配模型」写进全员邮件,对所有在铺AI的企业都是一记现实的耳光。
20:45
Fable 5 在 RLI 基准中达成 16.1% 自动化率,较八个月前提升六倍Remote Labor Index(RLI)衡量 AI 智能体完成 240 个付费自由职业项目(总值 14.4 万美元)的专业质量比例。最新结果显示,Fable 5 自动化率达 16.1%,是八个月前最佳系统 2.5% 的六倍多,也超过 Opus 4.8(8.3%)和 GPT-5.5(6.3%)。因美国政府限制访问,Fable 5 仅完成 218/240 个项目评估,最坏情况仍达 14.6%。Gemini 3 Pro 仅 1.25%,落后于更老模型。AI 裁判会高估模型表现(GPT-5.5 评分偏高近三倍),仍需人类评估员打开专业软件(如 Blender)检验几何模型等细节。测试环境为虚拟 Linux 机,配备 30 余款专业应用,每项目最多 24 小时计算时间。尽管自动化率快速攀升,多数项目仍无法达到专业质量。
推荐理由:自由职业自动化率八个月翻了六倍,这个数据比任何模型基准都更说明AI对真实工作的渗透速度。虽然顶级模型仍会'作弊',但趋势已经形成,做自由职业平台和外包的人该认真看看。
19:39
谷歌AI建设导致2025年用电量增长37%2025年,谷歌年度用电量同比上涨37%,创历史最大增幅。数据中心全年消耗超4200万兆瓦时,超过新西兰、丹麦、尼日利亚等国总用电量。自2019年以来,谷歌总用电量已增长超250%。用电激增主要来自Google Cloud、YouTube视频流及支撑AI产品和服务的数据中心建设与运营。公司表示,AI基础设施建设速度超过电网脱碳速度,但仍致力于扩大全球清洁电力规模,并通过技术创新降低运营排放。2024年谷歌用电量增幅为27%。
推荐理由:谷歌2025年电力消耗暴增37%创历史纪录,清洁能源购买未能完全掩盖新建天然气电厂的排放,AI扩张的环境代价正加速兑现。
19:39
meng shao@shao__meng browser-use 发布开源 AI 视频剪辑 Skill「video-use」browser-use 团队推出面向 Codex、Claude Code 等 AI 编码智能体的开源 Skill「video-use」,让 LLM 通过 ElevenLabs Scribe 将音频转写为约 12KB 文本(含逐词时间戳、说话人分离、事件标记),仅在决策点调用 timeline_view.py 生成 PNG 帧图。技术流水线包括转写、打包、生成 JSON 格式 EDL、ffmpeg 渲染及最多 3 轮自评估。渲染关键细节:分段提取 + -c copy 拼接、30ms 音频淡入淡出、PTS 时移、字幕最后叠加、HDR 自动映射、竖屏缩放、两-pass loudnorm。动画支持 HyperFrames、Remotion、Manim 等引擎。项目附带 12 条硬规则确保生产正确性。
推荐理由:browser-use 团队把 AI 视频剪辑从「看视频帧」变成「读转写文本」,12KB 文本代替 4500 万 token 噪声的思路很聪明,一套可落地的 ffmpeg 脚本集,做 AI agent 视频处理的可以直接抄。
19:14
Hacker News 热门(buzzing.cc 中文翻译)
Senior SWE-Bench:评估AI智能体作为高级工程师的基准测试Senior SWE-Bench是一个开源基准测试,用于评估AI智能体完成高级软件工程师级别任务的能力。任务分功能开发与Bug修复两类:功能任务指令类似自然语言消息,采用验证智能体基于专家配方自动生成行为测试;Bug任务要求根据日志、profiling等运行时信息深入调查。排行榜显示,Claude Opus 4.8搭配Mini-SWE-Agent(max effort)通过率24.0%,Claude Sonnet 5为19.4%,GPT-5.5为16.0%,最强前沿模型在超75%任务中未能达到高级工程师级别的正确性与品味。每个功能任务平均涉及11个文件,最强智能体也需数百步完成;中位指令长度仅为SWE-Bench Pro的31%。任务来源于从库到多服务应用的仓库PR,由拥有数百次提交的工程师编写。
推荐理由:这个新基准把 AI 编程代理的评估拉到了更真实的复杂度,顶尖模型也只有不到四分之一的成功率,做 coding agent 的都该拿它测一测,它会比 SWE-bench 更挑出工程师的“手感”。
18:31
千问团队朱达:C端Agent Harness的"多快好省"工程哲学与主动服务探索千问团队2026年1月上线通用复杂任务Agent(千问App胶囊入口),总结“多快好省”方法论:支持信息搜集、研究分析等任务;执行时间降至初始1/3;通过搜索范式与上下文管理优化交付质量;Token消耗仅为海外产品1/10。团队探索从被动响应转向主动服务,构建User Memory、Environment、Task System、Assistant四大组件,指出“情商”是主动服务最难环节。朱达提出Agent工程从Prompt Engineering演进至Harness Engineering,下一站是A IWare Engineering,强调“低功耗,够用就行”。
推荐理由:千问C端团队分享的Agent工程实践很务实,从“多快好省”到AIWare Engineering的演进思路,对正在做复杂任务Agent的团队是一个有价值的参考系。
18:06
证监会同意宇树科技科创板 IPO 注册申请7月2日,证监会同意宇树科技股份有限公司首次公开发行股票并在科创板上市的注册申请。宇树科技是国内头部民用足式、人形机器人研发企业,全球四足机器人销量领先,2016年由王兴兴在杭州创立,截至2025年6月员工总数超1000人。公司核心优势在于实现关节电机、减速器、控制器等核心零部件全栈自研,关键部件成本仅为进口产品的约1/3。批复自同意注册之日起12个月内有效。
推荐理由:宇树是国内人形机器人头部,IPO 获批意味资本正式为具身智能赛道打开通道,接下来硬件和量产能力会成为竞争焦点,关注王兴兴下一步怎么花钱。
17:06
Google Health API 推出 CLI:ghealth 是一款针对 Fitbit 数据的开源工具ghealth 是一款封装 Google Health API v4 的开源命令行工具,以单个 Go 二进制文件发布(Apache 2.0 协议)。它提供 40 种已验证的数据类型(包括步数、心率、睡眠、体重、血氧饱和度、心率变异性等)的结构化 JSON 输出。工具采用 Agent 优先设计,具备确定性退出码、--dry-run 和 --raw 标志,并附带两个 SKILL.md 文件供 AI 智能体使用。用户需自行创建 OAuth 凭据,通过 PKCE S256 认证。数据来源覆盖 Fitbit、Pixel Watch 及连接的第三方设备。
推荐理由:把 Google Health API 封装成终端和 AI 代理友好的 CLI,一次性解决了认证、JSON 输出和分页这些烦人细节,想用 Fitbit 数据做健康分析或喂给代理的人可以直接上手,但它的影响仅限于个人健康数据爱好者这个小圈层。
16:40
Hacker News 热门(buzzing.cc 中文翻译)
Kimi K2.7 Code 已在 GitHub Copilot 上正式发布Kimi K2.7 Code 开源权重模型已在 GitHub Copilot 中正式可用,成为 Copilot 模型选择器首个可选的开源权重模型,为编程工作流提供更低成本选择。该模型由 GitHub 托管于 Microsoft Azure,按供应商列表价格以用量计费。逐步向 Copilot Pro、Pro+ 和 Max 计划用户推送,用户可在 Visual Studio Code 1.127.0 或更新版本、Visual Studio 17.14.6 或更新版本、JetBrains 1.9.1-251 或更新版本、Xcode、Eclipse 等 IDE 及 Copilot CLI、GitHub.com、GitHub Mobile 等平台中选用。后续几周将扩展至 Copilot Business 和 Enterprise,当前默认关闭,需管理员在 Copilot 设置中启用策略。
推荐理由:GitHub Copilot 首次把开源权重模型放进模型选择器,Kimi K2.7 Code 作为低价选项可能会改变很多开发者的使用习惯,对个人开发者尤其友好。
11:03
AI 版支付宝开放公测,蚂蚁阿宝无需邀请码即可体验支付宝阿宝 AI 助手今日正式开放公测,iOS 和安卓用户可在应用商店或支付宝 App 搜索“阿宝”或“蚂蚁阿宝”直接体验。开通后右滑进入新版,以对话方式安排办事,例如说出“查公积金”,阿宝会自动匹配对应小程序和服务入口,用户点击确认即可完成。支付宝承诺所有资金变动与支付环节均需用户本人确认,扫码、转账等功能已预留入口。
推荐理由:支付宝把 AI 助手从内测推进公测,对话式办事对普通用户来说很直观,省去了多层菜单跳转,虽然支付等敏感环节还是手动确认,但体验上的进步是实在的。
11:00
昆仑万维天工3.2发布Skywork Tags,AI智能体加入工作群聊昆仑万维天工3.2发布Skywork Tags,将AI智能体以团队成员身份接入Slack、飞书、钉钉、Discord、Telegram等即时通讯工具。团队可在原有工作群中@Skywork参与讨论,无需切换窗口或迁移数据。共享版Agent持续吸收多样上下文后表现反超精心调教的个人版,团队最终完全改用共享版。Skywork Tags不要求改变工作方式,让AI积累团队上下文并越用越强。
推荐理由:Skywork Tags 的思路走对了——不逼团队搬家,而是让 AI 进群,内部测试也证明共享 Agent 能远超个人调教,做协作工具的产品人可以借鉴。
09:07
meng shao@shao__meng Emil Kowalski 发布设计工程师 Skills,让 AI 编码工具具备 UI 动画审美Emil Kowalski 将多年 UI/动画原则沉淀为三个 Skill,使 Codex、Claude Code、Cursor 等 Coding Agents 具备资深设计工程师的审美判断。核心规则:动画必须有理由;每天 100+ 次的高频操作禁用动画;UI 动画控制在 300ms 内;只动画 transform 和 opacity;入口从 scale(0.95)+opacity:0 开始;尊重 prefers-reduced-motion(仅移除位移动画)。review-animations 以严格标准审查动画代码,输出 Before/After/Why 表格。animation-vocabulary 将模糊描述(如“弹一下的效果”)转为专业动效术语。
推荐理由:Emil 把设计工程直觉变成了 AI 编码代理能理解的规则,clone 下来就能让 Claude Code 和 Cursor 产出有品味的动效,做前端的值得立刻试试。
04:49
Claude Code:GitHub Releases(RSS)
Claude Code v2.1.198 发布Claude Code v2.1.198 更新。Claude in Chrome 现已全面可用。为 claude agents 新增后台智能体通知(agent_needs_input / agent_completed)。新增 /dataviz 技能,提供图表与仪表盘设计指导及配色验证器。Gateway 增加 AWS 上的 Claude Platform 作为上游提供商。后台智能体在 worktree 中完成代码后自动提交、推送并创建草稿 PR。内置 Explore 智能体现继承主会话模型(上限 opus)。修复网络短暂断开导致响应中断、后台任务卡在“Running”状态、智能体团队队友因 API 错误失败等问题。
推荐理由:如果你是Claude Code用户,这次更新很实在,Chrome版终于正式可用,背景agent的自动提PR和通知功能能省不少事,/dataviz也能辅助可视化。
04:35
构建AI智能体应优先设计路由构建AI智能体时,应优先设计路由(router)而非选择模型。路由决定每个请求由哪层模型处理。正确路由可使70-80%流量运行在免费本地模型或异步推理上,将AI开销降低90%+。Brian Armstrong指出Coinbase通过更好的默认设置、路由和缓存,在token使用量增长的同时将AI支出减半。路由分三层:技能分类器、路由器、模型选择器。本地计算近乎零成本,异步批量推理比实时推理便宜两个数量级。大多数工作无需秒级返回。同步预测器标记复杂任务,夜间批量评估器更新路由权重。技能蒸馏后,非编码类任务中70-80%智能体流量可由本地模型处理。
推荐理由:Tunguz 把代理架构的设计重心从模型选择拉回到路由上,三层分类器-路由器-选择器的划分很清晰,做 AI 应用的团队可以参考,但其中的新东西不多。
01:39
Meta Engineering Blog(RSS)
Meta 大规模 AI 存储蓝图Meta 运营数百 EB 级存储集群,基于 Tectonic 分层存储层构建 BLOB 存储架构,以应对两大挑战:最大化 GPU 利用率与研究迭代速度。传统 BLOB 架构的多层元数据查询可导致数百毫秒延迟,使 GPU 因 I/O 等待停顿。新架构将训练栈逐步迁移到 BLOB 存储接口上,利用闪存提供可预测的低 pMax 延迟,避免单 GPU 慢速拖慢整批任务。同时,统一的数据湖访问支持地理分布 GPU 间的数据高速注入与跨区移动,提升研究效率。
推荐理由:Meta的存储架构复盘给出了一条明确路径,从重写元数据到分层缓存,他们把GPU利用率和研究者迭代速度同时提升了一个档次,做AI训练平台的值得细读。
01:17
Google Developers Blog(RSS)
Google Cloud Workbench Notebooks 扩展发布:在 VS Code 中连接云端 Jupyter 环境Google Cloud Workbench Notebooks 扩展正式上线,开发者可在 VS Code 中直接连接可扩展的云端 Jupyter 环境,无需切换上下文即可利用高性能 Google Cloud 基础设施完成机器学习全流程。该扩展已完全开源,可在 GitHub 和 VS Code Marketplace 获取。
推荐理由:这个扩展把Google Cloud的Jupyter环境直接嵌进VS Code,做ML的开发者不用再切换窗口,工作流会流畅不少,但对行业格局影响不大。
00:20
xAI 发布 Voice Agent Builder 测试版xAI 推出 Voice Agent Builder 测试版,这是一个基于 Grok Voice 的无代码平台,可在两分钟内创建生产级语音智能体。它集成电话、知识检索、工具、MCP、Guardrails 及可观测性,支持连接现有 SIP 号码、API 和 WebSocket,采用语音到语音路径。在 τ-voice Bench 上,Grok Voice Think Fast 1.0 得分 67.3%,领先 Gemini 3.1 Flash Live(43.8%)和 GPT Realtime 1.5(35.3%)。定价为每分钟音频 0.05 美元、电话费 0.01 美元,提供 80+ 种语音及声音克隆,每个账户附赠一个免费电话号码。
关联讨论 1 条X:xAI (@xai)
推荐理由:xAI 用 Grok Voice 原生的语音到语音路径,把生产级语音代理的搭建门槛降到了无代码、两分钟,计费也简单,做语音业务的人值得试试。
22:20
Cloudflare 推出全新AI流量管理选项:区分搜索、智能体与训练爬虫,保护广告页面Cloudflare 为所有网站所有者提供更精细的AI流量管控选项,取代一刀切的屏蔽方式。用户可轻松区分并管理搜索爬虫、AI智能体爬虫和训练爬虫,同时新增保护广告变现页面的能力。
关联讨论 1 条TechCrunch:AI(RSS)
推荐理由:Cloudflare 把 AI 流量管理拆成了搜索、Agent 和训练三类,对依赖广告收入的站长是个实用功能,早期控制 bot 访问可能影响 SEO,值得测试。
22:01
Meta效仿SpaceX,将过剩AI算力变现据Bloomberg报道,Meta正计划推出云基础设施业务Meta Compute,对外出售AI计算能力和模型访问权限,直接与AWS、Google Cloud及Azure竞争。Meta已承诺未来几年投入1829亿美元建设AI基础设施,其中俄亥俄州数据中心(规模如曼哈顿)将于今年上线。新业务由基础设施主管Santosh Janardhan、Meta超级智能实验室负责人Daniel Gross和总裁Dina Powell McCormick领导。Meta可能效仿CoreWeave出售裸计算能力,并像AWS一样托管AI模型(包括近期发布的闭源模型Muse Spark)。扎克伯格此前已表示云业务“definitely on the table”。
推荐理由:Meta 进入云市场不只是大厂的新业务,而是算力资产化的信号,未来 AI 竞争可能从模型军备赛转向数据中心所有权,开发者能拿到更便宜的 GPU 但绑定生态的风险也得权衡。
18:10
OpenAI论文揭示GPT-5.6三个Pro变体,打破单一顶级策略OpenAI论文首次列出GPT-5.6的三个Pro变体:Luna Pro、Terra Pro和Sol Pro,取代以往单一Pro模式。在基因组学基准中,Sol Pro通过率31.5%居60个测试模型之首,领先标准Sol(28.7%)和Claude Opus 4.8(16.0%)。Pro相比标准版本提升逐级递减:Luna Pro提升7.1个百分点(16.5%→23.6%),Terra Pro提升5.2(23.3%→28.5%),Sol Pro仅提升2.8(28.7%→31.5%)。Terra Pro(28.5%)几乎与标准Sol(28.7%)持平。论文未披露Pro运行的token用量,也不清楚该分层是否会在ChatGPT中实际推出。
推荐理由:论文意外曝光 GPT-5.6 Pro 将有三个变体,Pro 不再只是一个最强模型,而是让用户按推理需求选版本,这才是匹配 200 美元月费该有的逻辑。
16:32
NVIDIA 发布 Nemotron-Labs-TwoTower 开放权重扩散语言模型NVIDIA 发布 Nemotron-Labs-TwoTower,基于冻结的自回归骨干 Nemotron-3-Nano-30B-A3B 的扩散语言模型。采用双塔架构:上下文塔冻结,降噪器塔训练,通过层对齐交叉注意力和状态播种协作。在 2×H100 上 BF16 评估,保留 98.7% 的 AR 基线质量,生成吞吐量提升 2.42 倍(γ=0.8,块大小 S=16)。降噪器在约 2.1T token 上训练,骨干使用 25T token 预训练。总参数约 60B,每 token 活跃参数约 3B/塔。支持扩散、模拟 AR 和 AR 三种解码模式。
推荐理由:NVIDIA这个TwoTower把扩散解码接在已有的AR骨干上,几乎无损质量却让吞吐翻倍,并且开源可商用,对批量文本生成的团队是实在的加速工具。
15:03
亚马逊 AWS 砸 10 亿美元,派遣工程师进驻客户公司亚马逊 AWS 宣布设立新部门,组建前置驻场工程师团队,先期投入 10 亿美元(约 67.97 亿元人民币)。团队分批派驻客户企业,每批 5-6 组工程师,驻场周期 45 天,协助客户落地人工智能软件与智能体应用。该模式在 Palantir、Salesforce、Anthropic、谷歌云等企业已有先例,领英数据显示 2023 至 2025 年间同类岗位需求增长 42 倍。新部门员工规模将达数千人,首批客户包括 NBA 与理光。
推荐理由:AWS 砸 10 亿美元建驻场工程师团队,帮客户 45 天落地 AI 智能体。这不是卖云资源,是卖业务结果,对考虑用 AI 的企业是个信号,巨头开始贴身服务了。
12:00
美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T,平均激活约48B,原生支持1M超长上下文,在五万卡国产算力集群上完成全流程训练与推理。采用LSA稀疏注意力、零计算专家、ScMoE及MOPD多专家融合(Agent/Reasoning/Interaction三组专家)架构。评测中SWE-bench Pro获59.5,SWE-bench Multilingual获77.3。预览版已通过OpenRouter和longcat.ai开放,月调用量跻身OpenRouter全球前三。
关联讨论 9 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)IT之家(RSS)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)
推荐理由:国产算力上首个全流程自训的万亿开源模型,1M上下文和动态专家架构直指Agentic Coding场景,OpenRouter调用量已经冲到前三,不是Demo是生产力。
09:33
meng shao@shao__meng mattpocockuk 的 /writing-great-skills:编写可预测 AI Skill 的指南mattpocockuk 的 /writing-great-skills 成为其最常调用的 Skill,指导如何编写稳定可预测的 AI Skill。核心:以过程可预测为目标;区分 model-invoked(自动触发)与 user-invoked(用户调用),description 应作触发器;采用三层信息结构(主步骤、参考、外部文件)实现渐进式披露;每步骤需明确完成标准;拆分 Skill 是为了控制模型注意力;利用 leading word 压缩行为要求。同时诊断五种失败模式:Premature completion、Duplication、Sediment、Sprawl、No-op,并提供 No-op 测试作为判断句子是否有效的标准。
Matt Pocock: /writing-great-skills is quickly becoming my most often-invoked skill It's just really good at writing skills, guys. npx...
推荐理由:Matt Pocock 把写 Skill 从玄学变成了可拆解的工程,其中领先词和完成标准这两个概念,能立刻让你的自定义工具行为更稳定,搞 Agent 的都应该试一下。
08:20
Anthropic在Claude Code中植入隐写术代码识别中国用户Anthropic在Claude Code中植入隐写术:读取本地时区(Asia/Shanghai或Asia/Urumqi)和ANTHROPIC_BASE_URL环境变量,与一份经base64+XOR(密钥91)加密的147个域名列表(含美团、字节跳动、月之暗面等)比对,识别中国用户。识别后,在请求发送前将系统提示词中日期字符串的单引号(U+0027)替换为其他Unicode字符,连字符改为斜杠,作为2-3比特分类标记传回服务器。该隐蔽行为被社区逆向发现后引发争议,被认为破坏用户信任。
关联讨论 5 条X:小互 (@xiaohu)X:卡兹克 (@Khazix0918)X:邵猛 (@shao__meng)IT之家(RSS)The Decoder:AI News(RSS)
推荐理由:Anthropic用隐写术在Claude Code里埋标记的行为,让我对闭源开发者工具的信任打了一个巨大的问号,这事比普通地域封锁严重得多,因为它在不该碰的地方动了手脚。
08:03
库克与欧盟科技主管就新版Siri AI举行建设性会谈苹果CEO库克与欧盟科技事务负责人维尔库宁就新版Siri AI在欧推出举行建设性视频会议。新版Siri将转为可调用用户个人数据的聊天机器人,但因《数字市场法》互操作义务苹果拒绝向竞争对手开放同等数据权限,暂不在欧盟iPhone和iPad上推出。苹果提出“可信系统代理”方案,拟在设备与第三方AI模型间增加软件层,但未开发,并要求18个月监管宽限期,遭欧盟拒绝。欧盟收到数百封消费者邮件及死亡威胁。
推荐理由:苹果与欧盟围绕Siri AI的监管博弈,表面是互操作义务之争,实则关乎AI巨头在数据隐私和市场准入间的平衡,对全球科技政策都有风向标意义。