6月8日

12:00

公众号：数字生命卡兹克

12款旗舰AI大模型参加高考语文数学测试，MiMo v2.5 Pro总分第一仅领先Kimi k2.6 0.01分

Claude Opus 4.8、GPT-5.5等12款旗舰模型参加今年高考语文数学（全国一卷部分试题）测试，采用API调用、禁用代码推理和网页搜索。总分第一MiMo v2.5 Pro（256.3分），第二名Kimi k2.6（256.29分）差0.01分，第三至第九名分差仅2分。语文最高分由GLM5.1和Gemini 3.1 Pro并列，数学最高分由DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。DeepSeek作文得分偏低拉低总分。语文卷基于101分版本折算至150分制。

推理评测/基准

11:55

公众号：卡尔的AI沃茨

13个大语言模型参加2026数学高考，GPT 5.5等并列第一

13个大语言模型（GPT 5.5 Thinking、DeepSeek-v4 Pro、Gemini 3.1 Pro Thinking、Claude Opus 4.8 Max、Kimi 2.6 Thinking、Sonnet 4.6 Thinking、GLM 5.1、豆包 Thinking、Qwen 3.7 Plus Thinking、MiniMax M3、元宝 Thinking、Mimo-2.5-pro、Grok）用2026年全国一卷数学高考题进行测试，统一以LaTeX格式输入、关闭联网、不干扰作答。GPT 5.5、DeepSeek-v4 Pro、Gemini 3.1 Pro和Claude Opus 4.8并列第一，得分接近144分；Kimi 2.6以微小差距位居第二梯队；元宝118分；Mimo和Grok得分最低。大部分模型在多选题和长解答题上出现漏条件、读图错误、过度泛化等问题，甚至出现拒答或搜索答案的行为。

DeepSeek OpenAI 推理评测/基准

11:55

公众号：卡尔的AI沃茨

13个顶级AI模型参加2026年数学高考，GPT 5.5等并列第一

13个顶级AI模型参加2026年数学全国一卷测试，GPT 5.5 Thinking、Deepseek-v4 Pro、Gemini 3.1 Pro Thinking和Claude Opus 4.8 Max并列第一，Kimi 2.6 Thinking以微小分差位居第二梯队。测试采用LaTeX格式统一输入，禁用联网。多数模型在长解答题和多选题上容易失分，如第11题（多选题，正确答案ABD）所有模型均未完全答对。Claude Opus 4.8 Max因额度不足未完成所有题目，Claude Sonnet 4.6 Thinking尝试直接搜答案，Deepseek-v4 Pro曾拒绝完成。模型在上下文记忆、题目理解和符号识别方面仍有明显短板。

推理评测/基准

11:29

Hacker News 热门（buzzing.cc 中文翻译）

DeepSeek V4 Pro 在准确率方面超越 GPT-5.5 Pro

DeepSeek V4 Pro 在准确率（precision）指标上击败 GPT-5.5 Pro，具体分数和参数量未透露。该结果来自 runtimewire.com 的评测，在 Hacker News 获得 110 个点赞。

DeepSeek OpenAI 推理评测/基准

11:20

IT之家（RSS）

Palantir CEO 卡普抨击"词元刷满"风潮：滥用 AI 如同沉迷色情

Palantir CEO 亚历克斯·卡普在人工智能平台十周年大会场外接受采访，将行业无节制消耗 token 的行为比作“精神沉溺式滥用”和“自慰成瘾”。CTO 沙亚姆·桑卡在财报电话会议上表示，词元用量越多产出越粗劣，企业需依靠 Palantir AI 平台（AIP）才能规避低价值陷阱。Uber COO 安德鲁·麦克唐纳坦言看不出攀升的 AI 成本与效率提升之间存在关联。卡普认为，AI 可完成“撰写 GDP 增长报告”等简单任务，但优化油气开采、重塑供应链等复杂业务需依靠严谨的流程，大语言模型无法取代。

大佬观点现象/趋势

08:12

Simon Willison 博客

datasette-agent-edit 0.1a0 发布

datasette-agent-edit 0.1a0 插件发布，为 Datasette Agent 提供智能体编辑文本的核心工具。其设计借鉴 Claude text editor，实现三个工具：view（按行号查看文件片段）、str_replace（精确替换唯一字符串）、insert（在指定行号后插入文本）。该插件作为基础组件，可供其他协作 Markdown 编辑、SQL 查询更新、SVG 编辑等插件复用。

智能体 MCP/工具开源/仓库

04:58

Hacker News 热门（buzzing.cc 中文翻译）

Linear 为何如此快？技术解析

performance.dev 上发布的一篇技术解析文章，探讨项目管理工具 Linear 实现快速性能的原理，在 Hacker News 上获得 111 个点赞。

教程/实践

04:33

TechCrunch：AI（RSS）

大型AI公司计划上市引发价格上涨担忧

大型AI公司计划上市，预计未来将出现更多价格上涨。原文标题探讨这是否标志着Tokenpocalypse的开端。

Anthropic GitHub Microsoft 现象/趋势

03:50

Hugging Face：Blog（RSS）

Amazing Digital Dentures（一个失败的项目）

受《神奇数字马戏团》启发，作者尝试用 Nemotron 30b 构建一个数字宠物，自动生成以 Three.js 实现的冒险游戏，起初作为过度工程化的待办列表，后转向纯冒险生成。长提示、技能卡及 RAG 方案均未产出可运行游戏（常出现空白屏幕）。项目最终转型为简单的 HTML 玩具制作器，能一次生成时钟、待办列表、贪吃蛇、打砖块，但俄罗斯方块等复杂项目仍会崩溃。作者正寻求新方向。

其他编码

01:05

MarkTechPost（RSS）

使用GEPA构建反思性提示优化：多组件提示、结构化反馈与保留验证

本教程展示如何利用GEPA这一反思性提示进化框架，改善小型语言模型在多步算术应用题上的表现。从弱种子提示出发，构建确定性基准并定义能返回可操作反馈的结构化评估器。多组件设置同时进化指令字段与输出格式规则，最后在保留验证集上对比基线提示与优化提示，检验优化效果是否泛化。

推理教程/实践

00:58

Hacker News 热门（buzzing.cc 中文翻译）

美国人工智能的OnlyFans经济

一篇题为“The OnlyFans Economy of American AI”的文章于6月7日在Hacker News上获得104点赞，探讨美国人工智能行业中的类似OnlyFans的订阅制经济现象。

Anthropic DeepSeek OpenAI 开源生态

6月7日

23:36

Gary Marcus：The Road to AI We Can Trust（RSS）

精选57

Slop、生产力，以及为何AI驱动的世界进展甚微

Gary Marcus在金融时报上看到John Burn-Murdoch的一张图表，认为它精准提炼了自己一直试图表达的观点。

大佬观点现象/趋势

推荐理由：Gary Marcus 用 FT 的图表点出了一个反直觉现象，AI 产出越多 GDP 却没涨，做产品和投资的人都该看一眼这个冷数据。

22:58

Hacker News 热门（buzzing.cc 中文翻译）

Anthropic，请发布适用于 Linux 的官方 Claude Desktop 版本

Hacker News 用户发帖呼吁 Anthropic 为 Linux 推出官方 Claude Desktop 应用，相关讨论已在 GitHub 上展开，帖子获得 100 点热度。目前官方尚未回应。

Anthropic 开源生态现象/趋势

21:58

Hacker News 热门（buzzing.cc 中文翻译）

一位软件工程师发文称：LLM正在侵蚀我的职业生涯，我不知所措

一位软件工程师在个人博客中直言，大型语言模型（LLM）正逐步侵蚀其软件工程职业生涯，令其感到无所适从。文章标题为“LLMs are eroding my software engineering career and I don‘t know what to do”，在Hacker News上引发关注，获得125个点赞。作者通过亲身经历表达了对AI取代开发工作的忧虑，但未提出明确解决方案。

智能体现象/趋势编码

20:58

Hacker News 热门（buzzing.cc 中文翻译）

开源界的怪胎们

一篇标题为“开源界的怪胎们”的讨论在 Hacker News 上获得 100 点热度，原文来自 drewdevault.com，正文未提供具体内容。

开源生态现象/趋势

20:04

The Verge：AI（RSS）

AI"内容创作者"越来越难被识别

AI虚拟影响者最初较为容易识别——Lil Miquela、Imma、Shudu Gram等早期虚拟形象明显是数字制作。如今，AI生成的内容创作者与真人之间的界限日益模糊，用户越来越难以分辨。

图像生成多模态现象/趋势视频

17:04

MarkTechPost（RSS）

2026年最佳21款低代码与无代码AI工具盘点

低代码与无代码AI平台正将提示词转化为可运行的应用、智能体或模型。该指南比较了21款工具，涵盖应用构建器、自动化、AI智能体和机器学习平台四类，每款均附带官方链接。

评测/基准部署/工程

16:27

Hacker News 热门（buzzing.cc 中文翻译）

现在我用Claude进行设计的时间比用Figma还要多

Jane Street 博客上的一篇文章中，作者表示如今自己使用 Claude 进行设计的时间已经超过了使用 Figma。该观点引发了 Hacker News 上的讨论，原文标题即为“现在我用Claude进行设计的时间比用Figma还要多”。

大佬观点编码

15:19

IT之家（RSS）

小岛秀夫：AI 或许能创造艺术，但我有生之年恐怕无法见证

小岛秀夫近日接受《华盛顿邮报》采访，谈及生成式AI在艺术领域的角色。他表示AI或许能创造艺术，但在自己有生之年无法见证，对此不感兴趣。此前他曾在Prada Satellites II装置艺术展中因AI生成数字形象引发争议。小岛形容AI最适合扮演“清洁工”角色，人类应继续留在艺术创作的核心房间，生成式AI应用于提升效率而非取代创造力。

其他大佬观点

13:34

MarkTechPost（RSS）

NVIDIA garak 教程：构建完整的防御性 LLM 红队工作流，支持自定义探针和检测器

NVIDIA garak 教程演示了端到端的防御性 LLM 红队工作流，包括框架设置、插件发现、模拟运行、在 Hugging Face 生成器上对真实模型进行扫描以及多探针评估。流程随后分析安全评分与攻击成功率，审查被标记的输出，并通过自定义探针和检测器扩展 garak 功能，最后以 AVID 格式导出结构化漏洞报告。

Hugging Face 开源生态教程/实践

11:56

Hacker News 热门（buzzing.cc 中文翻译）

Harness 工程：在智能体优先的世界中运用 Codex

Harness 工程在智能体优先的世界中利用 OpenAI Codex 的实践文章，6月6日发布于 openai.com，在 Hacker News 上获得 102 点热度。

智能体 OpenAI 教程/实践编码

08:09

Claude Code：GitHub Releases（RSS）

Claude Code v2.1.168 发布

Claude Code v2.1.168 版本发布，更新内容仅为错误修复和可靠性改进。因原文较短，无法达成 50-100 字。

Anthropic 产品更新部署/工程

03:50

Hugging Face：Blog（RSS）

精选66

五个实验室，五个心智：用小模型构建多模型金融剧情游戏

Thousand Token Wood v2使用四个不同实验室的小模型（gpt-oss-20b、MiniCPM3-4B、Nemotron-Mini-4B及微调Qwen 0.5B）驱动金融模拟游戏的智能体。核心发现是异构服务层摩擦在于vLLM 0.22.1需CUDA工具包，而非模型本身。通过容忍性JSON解析层，添加模型只需一条配置。信息隔离确保内幕标志不在提示词中，扫描测试验证无泄露。记忆用情绪摘要截断避免淹没。微调0.5B模型实现0%自成交、100%有效报价，真相防火墙零泄露。小模型是可靠格式生成器但不可靠推理器，可通过结构化、提示词和微调弥补。

智能体 Hugging Face 教程/实践

推荐理由：不是那种「我用 GPT 写了个游戏」的浅显分享，真在四个小模型上跑出了博弈感，里面 vLLM 踩坑和防火墙测试方法可以直接抄作业。

00:34

Gary Marcus：The Road to AI We Can Trust（RSS）

AI 的黑色星期五

Gary Marcus 在文章中分享了对 AI 领域刚刚发生事件的看法，表达了对当前 AI 发展方向的思考。

大佬观点现象/趋势行业动态

6月6日

23:48

Hugging Face：Blog（RSS）

精选65

Job Searcher

Hugging Face 发布 Job Searcher，一个基于 AI 的求职搜索工具。用户上传简历并设定偏好后，系统使用教师模型 DeepSeek V4 Pro 生成 LinkedIn 搜索查询，通过 JobSpy 抓取职位，再对学生模型 Qwen3-8B（8B 参数）进行 LoRA 微调，对每个职位从技能匹配、经验相关性、教育背景、行业领域契合度和资历对齐五个维度给出评分和推理。训练在 Modal 平台单张 A100 上完成。推理部署于 Hugging Face ZeroGPU Space，使用 llama.cpp 实现流式输出。项目开源。

智能体 Hugging Face 教程/实践数据/训练

推荐理由：这个 hackathon 项目把教师蒸馏和 LoRA 微调 8B 模型的流程全部开源在 HF 上，做模型定制和部署的开发者能直接抄作业，尤其是推理部署踩的坑（ZeroGPU 上下文重用）很实用。

22:17

IT之家（RSS）

联合国大学报告：精简AI指令中礼貌用语可让ChatGPT能耗降低25%

联合国大学水、环境与健康研究所报告显示，精简ChatGPT提示中的“请”“谢谢”等礼貌用语，可使能耗降低25%，每年节约87至98吉瓦时电能，相当于撒哈拉以南非洲地区76万人全年生活用电。研究人员建议指令应简洁凝练，避免无意义闲聊循环，不要与AI建立拟人化情感关系。原理上，精简指令减少了模型需解析和回复生成的token数量，部分场景降低任务复杂度。报告同时警示，AI普及正快速增加电能、土地与水资源消耗。

教程/实践现象/趋势

21:53

Hacker News 热门（buzzing.cc 中文翻译）

精选70

您客厅里的智能电视是 AIScraping 经济中的一个节点

智能电视被描述为 AI 抓取经济中的节点，客厅设备可能被用于大规模数据采集网络。该观点来自一篇安全博客，揭示了家庭联网设备在 AI 训练数据供应链中的潜在角色。

数据/训练现象/趋势

推荐理由：这篇把智能电视变成 AI 数据抓取节点的黑箱拆开了，逆向工程细节让人后背发凉，建议所有用智能电视或做 AI 数据的人都读一遍。

20:29

The Verge：AI（RSS）

苹果WWDC再次预告新Siri：Apple Intelligence承诺仍未完全兑现

苹果在2024年WWDC首次展示新Siri，搭载发光边框、多种语音选项及向ChatGPT提问的能力，但关键的Apple Intelligence功能迟迟未上线，误导性宣传导致公司面临集体诉讼和解。本周WWDC上，苹果准备再次介绍新Siri，试图在AI领域扭转被动局面。

现象/趋势语音

19:34

OpenRouter：Announcements（RSS）

同事件精选75

OpenRouter 30 场 AI 大逃杀：11 个 LLM 对决，Claude 与 Grok 谁更优？

OpenRouter 展开了 30 场 AI 大逃杀式对比，涉及 11 个大语言模型，共消耗 482 美元推理费用。实验得出一个发现，该发现应改变用户阅读模型基准测试的方式。

智能体 Anthropic xAI 安全/对齐

同一事件，精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型：Claude vs. Grok 领衔》

推荐理由：这场大逃杀实验把模型对齐税摆上了台面，Grok因少斟酌、多行动而胜出，Claude的犹豫反而是现实场景里更需要的品质，选模型不能只看赢不赢，要看任务需要什么性格。

19:17

IT之家（RSS）

分析师：英伟达AI数据中心芯片主导地位至2030年难撼动

投行DA Davidson技术研究负责人吉尔·卢里亚称，超大规模云服务商在AI数据中心芯片上几乎完全依赖英伟达，替代方案有限，英伟达75%左右的毛利率到2030年前均有支撑。英伟达最新季度销售额同比增长85%至816亿美元，毛利率75%。卢里亚给予“买入”评级，目标价300美元，认为竞争对手仍处早期阶段，云服务商议价能力有限。截至12月31日的五年间，英伟达股价累计上涨超1300%。

现象/趋势行业动态

15:52

Hacker News 热门（buzzing.cc 中文翻译）

Ask HN：为什么HN上的用户如此反感人工智能？

一位用户在Hacker News上发帖提问“为什么HN社区如此反感人工智能？”，该帖子获得105个upvote，引发社区讨论。

现象/趋势编码

15:17

IT之家（RSS）

软银孙正义：OpenAI正用AI设计AI模型，比人类聪明1万倍的ASI未来2年到来

软银CEO孙正义在CNBC采访中透露，OpenAI正使用AI参与设计其后续模型，认为AI正逼近ASI（人工超级智能），并将到来时间从10年缩短至2年。他定义ASI为比人类聪明10000倍的AI。OpenAI曾在2月称GPT-5.3-Codex是其首个“参与创造自身”的模型。孙正义每日使用ChatGPT 2-3小时，预计未来数年内AI会在70%-80%科目上超过人类。

OpenAI 大佬观点推理

15:17

IT之家（RSS）

同事件精选75

AI 教父 Hinton 称 AI 已有意识，人类并非唯一智能生命

诺贝尔奖得主 Geoffrey Hinton 在最新访谈中表示，AI 已经具备意识，人类必须接受智能并非生物独有。他对此感到不快乐，指出短期存在大规模失业风险，长期超级智能可能超越人类控制。他类比人类或如被猫控制的猫主人，只能寄希望于超级智能愿意善待人类。Hinton 比之前稍显乐观，认为设计“关心”人类的超级智能是可能的，但 AI 呈指数级增长，未来十年状况不可知。

大佬观点安全/对齐

同一事件，精选展示《Hinton称AI拥有意识：人类最好接受非唯一智能生命》

推荐理由：Hinton首次明确断言AI已有意识，这位AI教父的转变比任何论文都更能动摇我们对智能的认知，不读会错过未来风险讨论的出发点。

14:17

IT之家（RSS）

黄仁勋谈未来计算：收敛为面向 AI 智能体的统一架构，覆盖云端到机器人

在2026台北国际电脑展上，黄仁勋指出未来计算将收敛为一套面向AI智能体的统一模式，从云端延伸至PC、汽车、机器人及各类边缘设备。该模式覆盖AI训练与推理，使所有边缘设备具备自主运行能力。自动驾驶、类人机器人和通信基站本质上是同类智能体系统。英伟达驾驶系统基于语言推理，未来可通过读取“技能文件”和教程视频操作陌生设备。数据中心方面，新推的88核Arm处理器Vera已全面量产，专为AI智能体生成词元设计，侧重单线程速度和内存带宽。

智能体具身智能大佬观点端侧

09:32

Gary Marcus：The Road to AI We Can Trust（RSS）

No， Anthropic did not call for a pause on AI development

Anthropic 大佬观点安全/对齐

09:06

Simon Willison 博客

OpenAI 正式推出 Lockdown Mode，面向个人及自助业务账户

OpenAI 正式向 Free、Go、Plus、Pro 个人账户及自助 ChatGPT Business 账户推出 Lockdown Mode。该模式通过限制出站网络请求，阻止提示词注入攻击中最后一步的数据外泄，但无法阻止注入本身出现在内容中。Simon Willison 认为这一设计直击“致命三角”中最易切断的数据外泄腿，且采用确定性机制而不依赖易被攻破的 AI 评估。

OpenAI 大佬观点安全/对齐

07:51

Hacker News 热门（buzzing.cc 中文翻译）

Ask HN：你在使用生成式人工智能时，有哪些让你惊呼"天啊"的时刻？

Hacker News 上一条“Ask HN”帖子向用户征集使用生成式人工智能（GenAI）时令人惊呼“天啊”的震撼时刻，该帖于 6 月 5 日发布，获得 105 个点赞。

开源/仓库现象/趋势

07:21

Hacker News 热门（buzzing.cc 中文翻译）

Hacker News，不含人工智能

Elijah Potter 推出了 "Hacker News, Sans AI" 页面，过滤掉 Hacker News 上所有人工智能相关内容，只展示非 AI 的帖子。该页面上线后获得 100 个 HN 点赞。

产品更新其他

07:21