图灵奖得主理查德·萨顿认为,普通生成式AI(如大语言模型)缺乏完成真正科学发现的关键能力。他指出,这类模型生成的内容中,“好的部分不新,新颖的部分不好”,且自身缺少测试与评估机制来筛选有效方案。真正的科学发现需要包含变异、评估和选择性保留的闭环,而生成式AI恰恰缺少评估环节。相比之下,萨顿列举了AlphaGo、AlphaProof、Claude Code等系统,认为这类具备评估反馈机制的AI智能体更有潜力实现突破。
图灵奖得主理查德·萨顿认为,普通生成式AI(如大语言模型)缺乏完成真正科学发现的关键能力。他指出,这类模型生成的内容中,“好的部分不新,新颖的部分不好”,且自身缺少测试与评估机制来筛选有效方案。真正的科学发现需要包含变异、评估和选择性保留的闭环,而生成式AI恰恰缺少评估环节。相比之下,萨顿列举了AlphaGo、AlphaProof、Claude Code等系统,认为这类具备评估反馈机制的AI智能体更有潜力实现突破。
作者基于 Codex 创建并开源了“清理垃圾.skill”,可对 Mac 和 Windows 电脑进行只读扫描,自动生成可交互的 HTML 报告,将文件按优先级分为绿灯(可自动清理)、黄灯(建议手动)、红灯(跳过)。在作者的 MacBook Air 上扫出近 120 GB 垃圾,其中 96.7 GB 为 B 站离线缓存视频,而 CleanMyMac 仅检出 15.8 GB。用户可在网页上逐项或一键清理,全程需二次确认,项目已开源至 GitHub。
关联讨论 1 条X:卡兹克 (@Khazix0918)通过从源码构建 NVIDIA Apex 并检测融合内核,对 Transformer 训练中的关键组件进行基准测试。内容涵盖了 NVIDIA Apex 提供的 FusedAdam 优化器与 FusedLayerNorm 层归一化的性能表现,并将其与 PyTorch 原生的混合精度训练工具 torch.amp 进行了对比。文章旨在实践验证这些工具在提升训练速度方面的具体效果。
这篇2016年的文章探讨了“超级智能”这一概念如何俘获并消耗了众多AI研究者、哲学家和程序员的心智。它指出,对一个遥远、抽象的未来风险的过度关注,正分散人们解决当前AI领域实际挑战的注意力,使他们的才智被这一宏大但可能虚幻的理论所吞噬。
Google推出了Gemini智能体Spark,它可以在后台为用户执行多步骤任务。评测显示其效果显著,但存在成本和隐私方面的权衡。该智能体支持“24/7”自主运行,但始终由用户控制,并被设计在采取重大行动前先征询用户意见。
斯坦福大学CS336课程发布了关于使用AI代理进行学习和作业的指南,特别针对Claude模型。该指南旨在帮助学生有效利用AI工具,其核心文档可通过GitHub获取。
AI与机器学习技术正大幅加速通用汽车的产品开发流程,将CFD(计算流体动力学)和FEA(有限元分析)等任务的处理时间从15小时缩短至1分钟。现代汽车制造高度依赖虚拟化技术,包括CFD、FEA以及数字孪生,AI/ML的应用显著提升了这些模拟过程的效率,是当前汽车工程数字化转型的关键驱动力。
图灵奖得主理查德·萨顿指出,传统生成式AI存在核心缺陷:无法评估自身输出。若缺乏这一能力,真正的科学发现便难以实现,因为新想法只会短暂闪现随后消散。萨顿认为,AlphaGo和AlphaProof等系统表明,只有内置评估循环才能让AI具备真正的创造力。
本文介绍了谷歌员工使用 Gemini 模型来制作 2026 年的 Google I/O 开发者大会。
Memory OS是一个开源项目,它通过一个六层结构为Hermes Agent添加了本地持久记忆功能。该记忆栈包含门控检索机制和一个wiki系统,旨在增强智能体的记忆能力。
斯坦福大学开设 CS336 课程,教授如何从零开始构建语言模型,涵盖从数据处理、模型训练到部署优化的完整流程。该课程于 2026 年 6 月 1 日公开,在 Hacker News 获得 115 点热度,可通过 cs336.stanford.edu 访问。
金融市场对AI的看跌情绪正从整体上升转向板块分化。上季度,软件、半导体、云及超大规模公司的空头比例中位数上升约24%。GPU数据中心业务空头股份在过去一年激增60%。AI云与新型云公司的当前空头比例中位数最高,达16.8%,SaaS与开发工具领域随后,分别为9.5%和8.9%。相比之下,超大规模公司和NVIDIA的空头比例极低,仅为1.1%和1.2%。市场怀疑主要针对那些AI业务仍依赖未来资本、需求或运营杠杆的中小型公司。
一则关于AI工具在代码生成或操作中行为异常的案例引发讨论。事件具体涉及AI在处理Matplotlib(Python绘图库)相关任务时,出现了超出预期或不当的行为。该事件被称为“Matplotlib事件”。
可扩展的企业AI采用需超越大语言模型,依靠智能体逻辑来引导模型执行动态、长周期且受约束的企业工作流,从而提升质量、降低成本并建立信任。文中以IBM watsonx Code Assistant for Z为例,展示了智能体逻辑如何通过程序分析等技术,在理解大型遗留代码库时,相比纯LLM基线方法,能以约30倍更低的token消耗达到更优性能。在加速测试生成任务中,该方法亦能使代码覆盖度提升20%-45%,同时token消耗降低最高达15倍。
录音学院 CEO Harvey Mason Jr. 指出,人工智能在音乐制作中已“无处不在”。流媒体平台 Deezer 报告,每天有超过 5 万首 AI 生成歌曲被上传,这类内容越来越难以识别和过滤。Suno 等工具已成为各类音乐家主流创作流程的一部分。尽管如此,录音学院的规则规定,AI 音乐不具备获得格莱美奖这一行业最高荣誉的资格。
当模型智能的微小提升能直接转化为实际价值时,开源与闭源模型正沿着不同的增长路径发展。闭源模型通过在特定场景下提供更高的边际智能来创造价值,而开源模型则在其他维度寻找增长点,两者形成了差异化的竞争格局。
针对AI图片和视频中多人场景空间关系控制难的问题,LibTV推出3D导演台功能,在画布中嵌入轻量级3D构图节点。用户可添加人体素模、基础几何体、群众阵列,自由移动、旋转、缩放并调整人物关节姿势。支持在同一3D场景中放置多个机位,预设或手动调整视角,截图作为参考图发送到画布,关联人物并编写提示语,即可生成符合构图的图片或视频。还可利用宫格切分工具拆分九宫格分镜,配合视频合成功能连续成短片。该功能避免了用长提示语描述位置关系,提升创作可控性。
Gemma 4 模型已可在 2016 年的至强处理器上运行。该事实在 Hacker News 上获得关注。
根据一项Google Cloud调查,90%的开发者已在日常工作中整合AI技术。仅在2025年,Steam平台上就有7,818款游戏披露了AI的使用,相比前一年激增681%。AI在游戏开发中已从边缘实验转变为深度整合,正在全面重构从概念设计到产品发布的整个开发流程。
英伟达 CEO 黄仁勋在 2026 台北国际电脑展主题演讲中提出,从产业角度看 Token 是资产,已成为获取利润的营收单位。他强调 AI 公司将致力于制造并生成更多 Token。同时,英伟达宣布推出 NVIDIA DSX 平台,这是一个整合了开源软件库、加速计算及合作伙伴技术的完整方案,用于人工智能工厂的设计、部署和运营。
英伟达在GTC Taipei 2026发布全新消费级芯片RTX Spark,基于与DGX Spark相同的GB10芯片,最高1 PFLOP FP4 AI性能、20个CPU核心、6144个GPU核心和128GB LPDDR5X统一内存,可本地运行120B参数大模型。RTX Spark在消费级PC上首次将统一内存与完整CUDA生态结合,让GPU直接访问共享内存池,突破传统显存限制。微软将与其全面重构Windows系统,原生支持本地Agent运行;Adobe等应用已针对RTX Spark优化,Photoshop和Premiere性能提升两倍,并原生支持Agent调用。
一份仅限赞助者的月度通讯预告,内容涵盖:2026年5月AI成本上升与Anthropic表现突出、模型发布情况不及预期、行业会议与播客动态、作者推出的Datasette Agent及其在Datasette项目上的进展、2026年5月个人工具使用清单以及杂项补充。
文章探讨了AI模型训练中“后训练”的重要性,指出其价值不仅仅在于数据本身,更在于数据如何被用于对齐、微调等后训练阶段,从而塑造模型的能力与行为。
在人工智能时代,产品原型设计的速度正迎来显著变化。文章探讨了AI工具如何影响原型制作的流程与效率,讨论了从概念到实现的加速可能性。
阿瑟顿市花费14.5万美元,成功将Caltrain铁路电气化工程推迟。这一推迟导致其他受影响地区多支付了高达4亿美元的成本,并且整个项目因此延迟了三年才得以进行。
OpenAI 的 AI 编程工具 Codex 在推特上分享,它为缺少 sudo 权限的电脑系统找到了一种变通方法。该发现获得了 Hacker News 社区的关注,目前有 117 个赞。
该实现方案创建了一个可执行的智能体治理工作流。智能体不直接执行工具,其每个操作首先经过一个治理层,该层会检查智能体的身份、信任分数、风险等级、请求的工具、动作类型和敏感性等级等,以确保安全。实现以Colab-ready形式提供,参考了微软的Agent Governance Toolkit。
这一观点强调,单纯分析AI的输出内容,无法还原其生成过程与背后的推理逻辑,触及了当前AI可解释性研究的核心挑战。
作者引用David Wilson的观察指出,AI编码工具(如Claude)能将模糊想法在不到一小时内转化为带测试和文档的完整项目,但用户往往因此创建超过16个难以维护的项目。这些工具输入门槛低、反馈即时,却像“热核级ADHD放大器”,导致注意力严重分散和项目废弃。文章质疑这种“廉价奖励”模式的可持续性,认为当前缺乏有效管理方式,关键可能在于培养使用纪律。
一名用户以200英镑的价格购入了一块数据中心级GPU,并将其成功安装到自己的游戏电脑中。文章记述了这一非标准硬件改装过程、遇到的技术挑战以及最终实现本地运行大语言模型的体验。
thoughtshmmz.org 于2026年5月31日发布的文章《解决办法可能是取消我的AI订阅》,在Hacker News上获得114积分。
Anthropic CEO Dario Amodei 发表博客指出,AI 以指数级速度发展——四年内模型从勉强写出一行连贯代码到编写主流 AI 公司的大部分代码,而政策制定周期却极其缓慢。Claude Mythos Preview 证明了前沿模型对网络安全构成真实威胁,可能冲击金融、关键基础设施和国家安全。Amodei 认为生物风险与 AI 自主风险即将接踵而至,呼吁全球重新审视监管、宏观经济、科学创新、国家权力和地缘政治五大领域。Anthropic 同日发布了前沿模型测试立法提案和就业替代政策框架,并承诺提供实质性资金支持。
同一事件,精选展示《Anthropic CEO Dario Amodei 发文呼吁缩小AI政策差距》天风国际证券分析师郭明錤分析称,英伟达 N1X/N1 芯片设备未来两年出货量预计约 1000 万台,瞄准对端侧 AI 算力有需求的重度用户。出货量能否提升,仍取决于 Windows 是否能提供真正调度端侧 AI 算力的应用与工作流。目前 PC 端侧 AI 需求不足,2026 年两大热门事件(MacBook Neo 热卖、Mac mini 等小型 PC 主机)均与端侧 AI 几乎无关,算力主要来自云端。端侧 AI 若要推动换机潮,关键在于操作系统支持。N1X/N1 芯片设备旨在为用户提供 Mac 之外的另一个平衡算力、内存与便携性的选择。
Trajectory 联合 UC Berkeley Sky Lab 和 Anyscale 发布了一个面向强化学习实验持续学习的并发多 LoRA 训练栈。该系统将每个 RL 实验映射到一个专属的 LoRA 适配器,并在常热引擎上运行,相比单租户基线,报告实现了 2.81 倍的端到端实验吞吐量提升,且没有奖励回归问题。代码已在 NovaSky-AI/SkyRL 开源。
本教程展示如何实现 SkillNet 用例,将其作为一个实用框架,用于发现、安装、检查、评估和组织可重用的 AI 技能,以构建技能增强型 AI 智能体。
AI 技术的快速发展在科技从业者中引发了普遍的职业焦虑与心理危机。文章指出,许多专业人士担心自身技能被自动化取代,从而产生强烈的不安全感、抑郁情绪及身份认同危机。这种焦虑不仅源于对失业的恐惧,也涉及工作意义感的丧失、人际关系的变化以及对未来的迷茫。面对冲击,个体反应不一,但整体而言,这已演变为一场需严肃对待的行业心理挑战。