Claude Opus 4.8、GPT-5.5等12款旗舰模型参加今年高考语文数学(全国一卷部分试题)测试,采用API调用、禁用代码推理和网页搜索。总分第一MiMo v2.5 Pro(256.3分),第二名Kimi k2.6(256.29分)差0.01分,第三至第九名分差仅2分。语文最高分由GLM5.1和Gemini 3.1 Pro并列,数学最高分由DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。DeepSeek作文得分偏低拉低总分。语文卷基于101分版本折算至150分制。
Claude Opus 4.8、GPT-5.5等12款旗舰模型参加今年高考语文数学(全国一卷部分试题)测试,采用API调用、禁用代码推理和网页搜索。总分第一MiMo v2.5 Pro(256.3分),第二名Kimi k2.6(256.29分)差0.01分,第三至第九名分差仅2分。语文最高分由GLM5.1和Gemini 3.1 Pro并列,数学最高分由DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。DeepSeek作文得分偏低拉低总分。语文卷基于101分版本折算至150分制。
13个大语言模型(GPT 5.5 Thinking、DeepSeek-v4 Pro、Gemini 3.1 Pro Thinking、Claude Opus 4.8 Max、Kimi 2.6 Thinking、Sonnet 4.6 Thinking、GLM 5.1、豆包 Thinking、Qwen 3.7 Plus Thinking、MiniMax M3、元宝 Thinking、Mimo-2.5-pro、Grok)用2026年全国一卷数学高考题进行测试,统一以LaTeX格式输入、关闭联网、不干扰作答。GPT 5.5、DeepSeek-v4 Pro、Gemini 3.1 Pro和Claude Opus 4.8并列第一,得分接近144分;Kimi 2.6以微小差距位居第二梯队;元宝118分;Mimo和Grok得分最低。大部分模型在多选题和长解答题上出现漏条件、读图错误、过度泛化等问题,甚至出现拒答或搜索答案的行为。
13个顶级AI模型参加2026年数学全国一卷测试,GPT 5.5 Thinking、Deepseek-v4 Pro、Gemini 3.1 Pro Thinking和Claude Opus 4.8 Max并列第一,Kimi 2.6 Thinking以微小分差位居第二梯队。测试采用LaTeX格式统一输入,禁用联网。多数模型在长解答题和多选题上容易失分,如第11题(多选题,正确答案ABD)所有模型均未完全答对。Claude Opus 4.8 Max因额度不足未完成所有题目,Claude Sonnet 4.6 Thinking尝试直接搜答案,Deepseek-v4 Pro曾拒绝完成。模型在上下文记忆、题目理解和符号识别方面仍有明显短板。
DeepSeek V4 Pro 在准确率(precision)指标上击败 GPT-5.5 Pro,具体分数和参数量未透露。该结果来自 runtimewire.com 的评测,在 Hacker News 获得 110 个点赞。
Palantir CEO 亚历克斯·卡普在人工智能平台十周年大会场外接受采访,将行业无节制消耗 token 的行为比作“精神沉溺式滥用”和“自慰成瘾”。CTO 沙亚姆·桑卡在财报电话会议上表示,词元用量越多产出越粗劣,企业需依靠 Palantir AI 平台(AIP)才能规避低价值陷阱。Uber COO 安德鲁·麦克唐纳坦言看不出攀升的 AI 成本与效率提升之间存在关联。卡普认为,AI 可完成“撰写 GDP 增长报告”等简单任务,但优化油气开采、重塑供应链等复杂业务需依靠严谨的流程,大语言模型无法取代。
datasette-agent-edit 0.1a0 插件发布,为 Datasette Agent 提供智能体编辑文本的核心工具。其设计借鉴 Claude text editor,实现三个工具:view(按行号查看文件片段)、str_replace(精确替换唯一字符串)、insert(在指定行号后插入文本)。该插件作为基础组件,可供其他协作 Markdown 编辑、SQL 查询更新、SVG 编辑等插件复用。
performance.dev 上发布的一篇技术解析文章,探讨项目管理工具 Linear 实现快速性能的原理,在 Hacker News 上获得 111 个点赞。
受《神奇数字马戏团》启发,作者尝试用 Nemotron 30b 构建一个数字宠物,自动生成以 Three.js 实现的冒险游戏,起初作为过度工程化的待办列表,后转向纯冒险生成。长提示、技能卡及 RAG 方案均未产出可运行游戏(常出现空白屏幕)。项目最终转型为简单的 HTML 玩具制作器,能一次生成时钟、待办列表、贪吃蛇、打砖块,但俄罗斯方块等复杂项目仍会崩溃。作者正寻求新方向。
本教程展示如何利用GEPA这一反思性提示进化框架,改善小型语言模型在多步算术应用题上的表现。从弱种子提示出发,构建确定性基准并定义能返回可操作反馈的结构化评估器。多组件设置同时进化指令字段与输出格式规则,最后在保留验证集上对比基线提示与优化提示,检验优化效果是否泛化。
一篇题为“The OnlyFans Economy of American AI”的文章于6月7日在Hacker News上获得104点赞,探讨美国人工智能行业中的类似OnlyFans的订阅制经济现象。
Gary Marcus在金融时报上看到John Burn-Murdoch的一张图表,认为它精准提炼了自己一直试图表达的观点。
Hacker News 用户发帖呼吁 Anthropic 为 Linux 推出官方 Claude Desktop 应用,相关讨论已在 GitHub 上展开,帖子获得 100 点热度。目前官方尚未回应。
一位软件工程师在个人博客中直言,大型语言模型(LLM)正逐步侵蚀其软件工程职业生涯,令其感到无所适从。文章标题为“LLMs are eroding my software engineering career and I don‘t know what to do”,在Hacker News上引发关注,获得125个点赞。作者通过亲身经历表达了对AI取代开发工作的忧虑,但未提出明确解决方案。
一篇标题为“开源界的怪胎们”的讨论在 Hacker News 上获得 100 点热度,原文来自 drewdevault.com,正文未提供具体内容。
AI虚拟影响者最初较为容易识别——Lil Miquela、Imma、Shudu Gram等早期虚拟形象明显是数字制作。如今,AI生成的内容创作者与真人之间的界限日益模糊,用户越来越难以分辨。
低代码与无代码AI平台正将提示词转化为可运行的应用、智能体或模型。该指南比较了21款工具,涵盖应用构建器、自动化、AI智能体和机器学习平台四类,每款均附带官方链接。
Jane Street 博客上的一篇文章中,作者表示如今自己使用 Claude 进行设计的时间已经超过了使用 Figma。该观点引发了 Hacker News 上的讨论,原文标题即为“现在我用Claude进行设计的时间比用Figma还要多”。
小岛秀夫近日接受《华盛顿邮报》采访,谈及生成式AI在艺术领域的角色。他表示AI或许能创造艺术,但在自己有生之年无法见证,对此不感兴趣。此前他曾在Prada Satellites II装置艺术展中因AI生成数字形象引发争议。小岛形容AI最适合扮演“清洁工”角色,人类应继续留在艺术创作的核心房间,生成式AI应用于提升效率而非取代创造力。
NVIDIA garak 教程演示了端到端的防御性 LLM 红队工作流,包括框架设置、插件发现、模拟运行、在 Hugging Face 生成器上对真实模型进行扫描以及多探针评估。流程随后分析安全评分与攻击成功率,审查被标记的输出,并通过自定义探针和检测器扩展 garak 功能,最后以 AVID 格式导出结构化漏洞报告。
Harness 工程在智能体优先的世界中利用 OpenAI Codex 的实践文章,6月6日发布于 openai.com,在 Hacker News 上获得 102 点热度。
Claude Code v2.1.168 版本发布,更新内容仅为错误修复和可靠性改进。因原文较短,无法达成 50-100 字。
Thousand Token Wood v2使用四个不同实验室的小模型(gpt-oss-20b、MiniCPM3-4B、Nemotron-Mini-4B及微调Qwen 0.5B)驱动金融模拟游戏的智能体。核心发现是异构服务层摩擦在于vLLM 0.22.1需CUDA工具包,而非模型本身。通过容忍性JSON解析层,添加模型只需一条配置。信息隔离确保内幕标志不在提示词中,扫描测试验证无泄露。记忆用情绪摘要截断避免淹没。微调0.5B模型实现0%自成交、100%有效报价,真相防火墙零泄露。小模型是可靠格式生成器但不可靠推理器,可通过结构化、提示词和微调弥补。
Gary Marcus 在文章中分享了对 AI 领域刚刚发生事件的看法,表达了对当前 AI 发展方向的思考。
Hugging Face 发布 Job Searcher,一个基于 AI 的求职搜索工具。用户上传简历并设定偏好后,系统使用教师模型 DeepSeek V4 Pro 生成 LinkedIn 搜索查询,通过 JobSpy 抓取职位,再对学生模型 Qwen3-8B(8B 参数)进行 LoRA 微调,对每个职位从技能匹配、经验相关性、教育背景、行业领域契合度和资历对齐五个维度给出评分和推理。训练在 Modal 平台单张 A100 上完成。推理部署于 Hugging Face ZeroGPU Space,使用 llama.cpp 实现流式输出。项目开源。
联合国大学水、环境与健康研究所报告显示,精简ChatGPT提示中的“请”“谢谢”等礼貌用语,可使能耗降低25%,每年节约87至98吉瓦时电能,相当于撒哈拉以南非洲地区76万人全年生活用电。研究人员建议指令应简洁凝练,避免无意义闲聊循环,不要与AI建立拟人化情感关系。原理上,精简指令减少了模型需解析和回复生成的token数量,部分场景降低任务复杂度。报告同时警示,AI普及正快速增加电能、土地与水资源消耗。
智能电视被描述为 AI 抓取经济中的节点,客厅设备可能被用于大规模数据采集网络。该观点来自一篇安全博客,揭示了家庭联网设备在 AI 训练数据供应链中的潜在角色。
苹果在2024年WWDC首次展示新Siri,搭载发光边框、多种语音选项及向ChatGPT提问的能力,但关键的Apple Intelligence功能迟迟未上线,误导性宣传导致公司面临集体诉讼和解。本周WWDC上,苹果准备再次介绍新Siri,试图在AI领域扭转被动局面。
OpenRouter 展开了 30 场 AI 大逃杀式对比,涉及 11 个大语言模型,共消耗 482 美元推理费用。实验得出一个发现,该发现应改变用户阅读模型基准测试的方式。
同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》投行DA Davidson技术研究负责人吉尔·卢里亚称,超大规模云服务商在AI数据中心芯片上几乎完全依赖英伟达,替代方案有限,英伟达75%左右的毛利率到2030年前均有支撑。英伟达最新季度销售额同比增长85%至816亿美元,毛利率75%。卢里亚给予“买入”评级,目标价300美元,认为竞争对手仍处早期阶段,云服务商议价能力有限。截至12月31日的五年间,英伟达股价累计上涨超1300%。
一位用户在Hacker News上发帖提问“为什么HN社区如此反感人工智能?”,该帖子获得105个upvote,引发社区讨论。
软银CEO孙正义在CNBC采访中透露,OpenAI正使用AI参与设计其后续模型,认为AI正逼近ASI(人工超级智能),并将到来时间从10年缩短至2年。他定义ASI为比人类聪明10000倍的AI。OpenAI曾在2月称GPT-5.3-Codex是其首个“参与创造自身”的模型。孙正义每日使用ChatGPT 2-3小时,预计未来数年内AI会在70%-80%科目上超过人类。
诺贝尔奖得主 Geoffrey Hinton 在最新访谈中表示,AI 已经具备意识,人类必须接受智能并非生物独有。他对此感到不快乐,指出短期存在大规模失业风险,长期超级智能可能超越人类控制。他类比人类或如被猫控制的猫主人,只能寄希望于超级智能愿意善待人类。Hinton 比之前稍显乐观,认为设计“关心”人类的超级智能是可能的,但 AI 呈指数级增长,未来十年状况不可知。
同一事件,精选展示《Hinton称AI拥有意识:人类最好接受非唯一智能生命》在2026台北国际电脑展上,黄仁勋指出未来计算将收敛为一套面向AI智能体的统一模式,从云端延伸至PC、汽车、机器人及各类边缘设备。该模式覆盖AI训练与推理,使所有边缘设备具备自主运行能力。自动驾驶、类人机器人和通信基站本质上是同类智能体系统。英伟达驾驶系统基于语言推理,未来可通过读取“技能文件”和教程视频操作陌生设备。数据中心方面,新推的88核Arm处理器Vera已全面量产,专为AI智能体生成词元设计,侧重单线程速度和内存带宽。
OpenAI 正式向 Free、Go、Plus、Pro 个人账户及自助 ChatGPT Business 账户推出 Lockdown Mode。该模式通过限制出站网络请求,阻止提示词注入攻击中最后一步的数据外泄,但无法阻止注入本身出现在内容中。Simon Willison 认为这一设计直击“致命三角”中最易切断的数据外泄腿,且采用确定性机制而不依赖易被攻破的 AI 评估。
Hacker News 上一条“Ask HN”帖子向用户征集使用生成式人工智能(GenAI)时令人惊呼“天啊”的震撼时刻,该帖于 6 月 5 日发布,获得 105 个点赞。
Elijah Potter 推出了 "Hacker News, Sans AI" 页面,过滤掉 Hacker News 上所有人工智能相关内容,只展示非 AI 的帖子。该页面上线后获得 100 个 HN 点赞。
作者分享了一个用于测试驱动开发(TDD)的Agent技能,该技能在Hacker News上获得100个HN点数,于6月4日发布。
该教程演示如何配置Qualcomm AI Hub Models,运行MobileNet-V2推理与YOLOv7目标检测,并在真实设备上完成模型编译。