谷歌员工在内部渠道分享多张梗图,直指公司AI产品表现不佳。这些图片在员工间广泛传播,反映了团队内部对谷歌AI研发进度的普遍失望与自嘲。
谷歌员工在内部渠道分享多张梗图,直指公司AI产品表现不佳。这些图片在员工间广泛传播,反映了团队内部对谷歌AI研发进度的普遍失望与自嘲。
经济学家 Alex Imas 和 Phil Trammell 指出,AGI 时代机器人数量可以快速复制增长,但人类独特技能(以芭蕾舞演员为例)的数量保持不变,揭示了即使技术大幅进步,某些稀缺资源仍不可替代。
Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数,基于 Qwen3-4B 骨干,支持 100 种语言(内部评测覆盖 111 种),在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感(20+种)、风格、韵律(语速/音高/停顿)及音效。模型支持流式合成,文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计,统一调度 AR 解码与轻量计算,实现低延迟推理。
贝恩咨询对951家公司的调查显示,近40%的企业AI成本节省幅度不足10%,而大多数公司原定目标为11%至20%。原因之一是仅有7%的企业实际运行完全自主的AI智能体,其商业案例却假设了全自动化。
OpenAI CEO 萨姆·奥尔特曼提出 AI 三阶段:聊天机器人、AI 智能体(如 Codex)和“主动式 AI”——一种在后台持续运行并主动提供帮助的系统,他称这是未来一年最看好的方向。OpenAI 正研发整合 Codex 与 ChatGPT 的超级应用。成本问题已成企业第二重要话题,Uber 一季度耗尽全年 AI 预算。主动式 AI 旨在降低用户学习门槛,但对企业数据安全与 IT 架构提出新挑战。
SpaceX IPO 申请文件首次披露X(原Twitter)的财务状况:收入与用户增长陷入停滞,该业务已被两次并入马斯克其他公司(先xAI后SpaceX),成为其帝国中的次要部分。马斯克三年前收购Twitter时承诺的10亿用户、集成支付等功能均未实现。尽管X在关键指标上萎缩,但SpaceX IPO规模近2万亿美元,可能使马斯克成为万亿富翁。
OpenAI CEO Sam Altman 提出“主动式 AI”(proactive AI)概念,这种 AI 在后台持续运行、自主采取行动,而非等待用户提示。Altman 同时指出企业正面临 AI 成本飙升以及多数员工不知道如何向 AI 提问的根本问题,并承诺“帮助人们用更少的花费获得更多价值”。
Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型,单个检查点覆盖 40 种语言-地区(含英、西、德、法、意、日、韩、中、阿拉伯等)。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器,缓存内部状态避免重复计算,实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本,无需后处理。支持指定语言(target_lang=es-ES)或自动语言检测(target_lang=auto)。通过注意力上下文大小(att_context_size)可在推理时直接调节延迟-准确率权衡,范围从 80ms 到 1.12s,无需重新训练。模型以 NeMo 检查点形式发布,可用于微调以适配特定语言、领域或口音。
北京工业大学苗扬团队借助百度伐谋(全球首个可商用自我演化决策智能体),在三个高可靠性科研场景实现突破:空间站色谱柱构型优化中,72小时演化出新构型,归一化误差降低8.17%,体积缩小40%,分离效率提升3倍;PEM电解槽故障检测准确率从92.26%提升至95.04%,综合评分升至0.9383,建模周期从数天压缩到小时级;旋转机械故障诊断准确率从98.9055%提升至99.9877%,预测误差降至原来1%,参数量下降34%。科研人员用自然语言描述目标和约束,伐谋自动演化逼近全局最优解。
5月26日,昆仑万维发布SkyClaw-v1.0,定位面向复杂工具使用和真实世界任务执行的高性能Agent模型,输入仅0.5元/百万token、输出4元/百万。实测显示,其从零生成番茄钟和记账本应用时,能自主用Web Audio API合成音效、用SVG手绘图表,细节处理成熟。在现有代码库修改任务中,越难的任务表现越好:单点bug修复精准,能准确诊断iOS Safari滚动问题并给出克制式修复方案。但官方未报告SWE-bench成绩,表明其优势集中在从零生成与模式匹配场景,而非大型仓库精确修改。极致低价使其在批量Agent任务与快速原型生成上性价比突出。
YouTube、Instagram、TikTok等平台过去一年已陆续采用自动标签区分AI生成的图像、视频和音乐,但用户仍无法主动过滤这些内容。目前的标签机制并未改变内容的呈现方式,用户依然被迫接触大量AI垃圾内容。文章呼吁平台提供过滤选项,让用户自行屏蔽AI生成内容。
OpenRouter 在 30 场机器人冲刺对决中测试了 11 款大语言模型,共耗 482 美元推理成本。结果指向一个发现:应该重新审视模型 benchmark 的解读方式。
同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》华硕破晓 Ultra 于今年 3 月发布,搭载第三代酷睿 Ultra X7 358H 处理器和 Intel Arc B390 核显(12 个 Xe3 核心),配备 14 英寸 2.8K 120Hz 双层串联 OLED 触控屏,峰值亮度 1400nit。整机重 1.1kg、厚 10.9mm,内置 70Wh 电池并支持 90W PD 快充,32GB+1TB 版本售价 14999 元。游戏实测方面,1080P 低画质下《CS2》达 306 帧,《赛博朋克:2077》开启 XeSS 后达 100 帧,45W 功耗下噪音不超过 45 分贝。
TrendForce集邦咨询报告称,当前AI笔记本仍缺大规模驱动换机产品。随着Nvidia在Computex发布RTX Spark平台及N1/N1X处理器,首次将CUDA生态延伸至Windows笔记本市场,AI笔记本渗透率预计从2025年19.3%升至2029年84.9%。其中Windows x86 AI笔记本2029年占整体约50.7%,Windows on Arm AI笔记本由2025年1.2%升至2029年11.5%。苹果M系列维持约17%市场占比。在Windows on Arm、苹果M系列及AI Chromebook推动下,2029年Arm架构笔记本渗透率预计达34.2%。
安全研究员Kasra Rahjerdi在故意留有漏洞的APK中植入暴露的Firebase凭据,测试多款大语言模型的安全推理能力。每个模型预算10美元,限时2小时,总花费1500美元。GPT-5.5运行10次成功7次,每次成功成本9.46美元;DeepSeek V4 Pro成功3次,每次成功成本仅0.62美元,约为GPT-5.5的1/15。Claude Sonnet 4.6与Claude Opus 4.8各成功2次,Opus多次被安全护栏中断。Gemini 3.1 Pro Preview几乎每次开局就拒绝,Token消耗中位数仅约9000。测试还涉及GLM 5.1、Qwen 3.7 Max等模型。
Anthropic 在其官方博客发布文章,介绍其在各产品中管控 Claude 的具体方式。该文章在 Hacker News 上获得 103 个点赞。
加州大学伯克利分校的计算机科学课程中,随着学生越来越多地使用AI工具,课程不及格率显著上升,同时学生的数学基础能力持续下滑。
一篇来自 maxleiter.com 的博文,标题为“它们是用哑铃做的”。正文内容极为简短,仅包含一张图片和一句声明“They're made out of weights”(中文翻译为“它们是用哑铃做的”),未提供任何上下文或技术细节。该博文在 Hacker News 上获得 113 个点赞。由于缺少具体说明,读者无法得知所指对象以及“哑铃”的真实含义。
阶跃星辰的 Step 3.7 Flash 在 Artificial Analysis 最新榜单中多项关键维度领先。其输出速度达 409 tokens/s,位列主流模型第一;端到端响应时长仅 7.1 秒;智能效率与速度价格比均进入最吸引人的象限。模型在搜索、代码、多模态理解和 Agent 工作流中保持稳定表现,兼顾速度、智能与成本,适合大规模商业化部署。
原文仅包含一张标题为“Local in Reality”的图片(alt 文本为 local_cloud_routing_cleaned),无正文文字内容,无法提炼具体技术或产品信息。
科幻作家陈景德(Ted Chiang)在《大西洋月刊》发表评论,直接否定人工智能具备意识的可能性。文章从哲学和认知科学角度论证,当前的大语言模型仅是模式匹配与文本生成的统计系统,并不拥有主观体验或自我意识。
一篇教程介绍如何通过注册模块化函数,并在Workers、Functions和Cron Triggers等多个触发器间复用这些函数,使用iii构建文档智能后端。该文章展示了模块化注册与跨触发器复用的核心方法。
Google Research 在 GitHub 开源了其水文建模框架,这是一个基于 PyTorch 的 Python 包,采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据,并已与捷克水文气象研究所(CHMI)等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时,整合基于 AI 的洪水预报。
美国参议员伯尼·桑德斯(Bernie Sanders)在其官网发布的专栏文章中提出,大型人工智能公司的一半股份应归公众所有。
关联讨论 1 条Ars Technica:AI(RSS)Anthropic 增长营销负责人 Austin Lau 介绍了非技术知识工作者使用 Claude Cowork 的最佳实践。Claude Cowork 是面向文档、电子表格等多步骤任务的 AI 助手,用户无需编程技能,将其指向文件夹或连接已有应用即可委托任务。与用于快速问答和头脑风暴的 Chat 以及面向开发者的 Claude Code 不同,Claude Cowork 适用于需要产出交付物、涉及多个文件或应用、可重复执行的场景。Lau 给出了判断任务是否适合的五项检查清单,并预告将于6月4日分享具体营销用例。
关联讨论 1 条Claude:Blog(网页)Google 发布 Gemini AI 智能体 Spark,同事 David Pierce 和 Jay Peters 分别进行了体验。Spark 能够自动获取用户未明确输入的信息,例如 David 的狗名 Frida 和 Jay 妻子的名字。尽管功能强大,但文章指出,这种对“生产力”的追逐忽略了真正需要解决的问题。
莱顿人工智能与数学宣言(Leiden Declaration on Artificial Intelligence and Mathematics)在 leidendeclaration.ai 上线发布。
Anthropic 分享了内部使用 Claude Code 的 Skills(技能)功能的经验。Skills 是指令、脚本和资源的文件夹,智能体可发现并调用它们以提升准确性和效率。Anthropic 内部已有数百个活跃使用的技能,它们可归为九类,包括库和 API 参考、产品验证、数据获取与分析、业务流程与团队自动化、代码脚手架与模板、代码质量与审查等。最佳技能专注于单一类别,涵盖过多功能会混淆智能体。团队发现,投入时间优化验证类技能对 Claude 输出质量的提升最显著。
Anthropic 使用 Claude 自动化了 95% 的业务分析查询,整体准确率约 95%。其关键在于构建智能体分析栈(agentic analytics stack),通过数据基础层、维护验证流程和技能(skills)分别解决概念-实体歧义、数据过时和检索失败三大错误来源。相比编码场景,数据分析的难点在于将用户问题映射到正确的数据实体,而执行 SQL 反而是简单的。Anthropic 的数据科学团队因此得以专注于因果建模、预测和机器学习等战略工作。
关联讨论 1 条X:Claude Devs (@ClaudeDevs)本文来自 www.copetti.org,标题为“PlayStation Architecture”,是一篇介绍 PlayStation 游戏主机硬件架构的技术文章,并附有架构图。该文章于 2026 年 6 月 3 日在 Hacker News 上获得 100 个点赞,由 buzzing.cc 提供中文翻译版本。
4月发布的DharmaOCR(结构化OCR模型)在巴西葡萄牙语文档提取任务中,使用直接偏好优化(DPO)作为监督微调(SFT)后的第二训练阶段。SFT无法直接惩罚文本退化(重复循环),而DPO以模型自身失败输出(退化循环)作为负样本进行偏好训练,使所有测试模型族的文本退化率平均降低59.4%,最高达87.6%(如Nanonets-OCR2-3B从1.61%降至0.20%)。传统DPO多用于聊天对齐,该工作将其扩展至客观的OCR任务,证明DPO可针对性修复特定失败模式。
微软在模型发布卡中首次加入平均token使用量指标。其模型在SWE-Bench Verified上达71.6分,仅消耗约Claude Haiku 4.5三分之一的token。Artificial Analysis的Intelligence Index显示GPT 5.5与Claude Opus 4.8得分相近(约60分),但Opus 4.8运行成本高出40%($4,685 vs $3,357)。Uber因四个月内AI预算超支而限制员工使用;Salesforce花费$3亿购买Anthropic tokens并冻结工程招聘。模型公司如今需同时在性能和成本两个维度竞争。
Google Search 和 Google Shopping 中的 AI 工具帮助用户在二手和复古购物中发现好物。
优步(Uber)将员工使用AI编程工具(如Cursor和Claude Code)的每月token支出限制为每工具1,500美元,不同工具预算互不影响。按工程师平均使用两种工具计,年人均AI支出上限为36,000美元,约占美国软件工程师中位数年薪330,000美元的11%。该限额是2026年AI预算四个月内超支后的理性调整。作者Simon Willison个人每月token用量约1,000美元(个人订阅补贴后仅100美元),若在优步工作仍有约500美元/工具的余额。
德国能源巨头 E.ON 通过 SAP S/4HANA 标准化电网数据,进而现代化基础设施并部署 AI 应用。E.ON 管理能源电网、客户解决方案和能源基础设施解决方案三个领域,维持运营需要持续的 IT 硬件与软件资本支出。公司领导层最初对大规模业务案例存在疑虑。
近日,昆仑万维董事长兼CEO方汉在2026年香港科创主题研讨会上指出,中国AI的底层逻辑是智力与能源,中国具备明显优势,全球最好的开源大模型DeepSeek已能在多个垂直领域与美国产品竞争。公司2026年第一季度营收25.70亿元,同比增长45.69%;海外收入24.87亿元,同比增长49.29%;短剧及AI短剧平台月流水超4800万美元,ARR超5.7亿美元。方汉认为香港可扮演数据合规“沙盒”与学术交流桥梁角色,并呼吁长期资本重视AI应用层,称生成式AI将内容制作成本压低至几万分之一,传统渠道将被重做,订阅制将被免费模式取代。