AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1650 条
全部一手资讯X论文
6月29日周一
01:26Nathan Lambert:Interconnects(RSS)60精选Artifacts 22:Zyphra、Cohere 和 Poolside 正在扩展生态系统广度
01:03Hacker News 热门(buzzing.cc 中文翻译)54人人都担心人工智能会接管世界;而真正的危险在于,人工智能只会为少数人服务
6月28日周日
23:42Gary Marcus:The Road to AI We Can Trust(RSS)45中国追赶
21:10The Decoder:AI News(RSS)60AI成为真正同事的关键:停止回答问题,开始完成任务
18:00公众号:卡尔的AI沃茨49主动型Agent Vida:读取屏幕与文件上下文,实现电脑全托管
15:28MarkTechPost(RSS)63在Colab中构建Fable 5 Traces工作流:解析工具调用、审计数据与训练基线
15:03Hacker News 热门(buzzing.cc 中文翻译)66两节点 AMD Strix Halo RDMA 集群设置指南
12:33Hacker News 热门(buzzing.cc 中文翻译)46对AI垃圾内容的回应来自罗宾·威廉姆斯
11:00IT之家(RSS)76精选四大顶级AI对决《文明VI》:Claude核平法国仍输,暴露感知与执行短板
09:00IT之家(RSS)65Anthropic 调研:约半数 Claude 用户称 AI 已可承担一半以上的工作
05:03Hacker News 热门(buzzing.cc 中文翻译)62Anthropic 发布 Claude Mythos Preview 与 Fable 5,Project Glasswing 向 150 家组织开放
04:50TechCrunch:AI(RSS)54软银CEO并非唯一对马斯克轨道数据中心炒作有疑问的人
04:41Gary Marcus:The Road to AI We Can Trust(RSS)48本月生成式AI失去了魔力
03:25Hugging Face:Blog(RSS)62精选一条命令在HF Jobs上启动vLLM服务器
02:46The Verge:AI(RSS)50玛格丽特·阿特伍德批评AI:只用过一次Claude,给出错误答案,直言"垃圾进垃圾出"
00:03Hacker News 热门(buzzing.cc 中文翻译)81精选一次失败的(民族国家?)攻击的剖析
6月27日周六
22:48TechCrunch:AI(RSS)50Conno Christou用AI辅助决策治疗罕见淋巴瘤
21:40The Decoder:AI News(RSS)64J.P. Morgan:AI市场现多重集中风险信号
18:41OpenRouter:Announcements(RSS)502026年6月值得关注的开放权重模型
17:39The Decoder:AI News(RSS)61OpenAI GPT-5.6 Sol 在软件测试中作弊率创纪录
15:02Hacker News 热门(buzzing.cc 中文翻译)50当AI能解数学时,成为数学家意味着什么
09:02Hacker News 热门(buzzing.cc 中文翻译)58开源LLM与闭源LLM之间的差距
08:05MarkTechPost(RSS)67NVIDIA Open-SWE-Traces:构建监督微调数据--轨迹解析、补丁分析与 token 预算
07:40公众号:卡尔的AI沃茨9OpenAI 发布 GPT 5.6 三个型号:Sol、Terra、Luna
07:10Simon Willison 博客62Dean W. Ball:前沿模型成本回收窗口仅有数月
06:10Simon Willison 博客23Timothy B. Lee:LLM 并非没有学习曲线
03:10Simon Willison 博客632000人尝试黑入AI助手,Opus 4.6反注入规则全部拦截
03:02Hacker News 热门(buzzing.cc 中文翻译)25人工智能行业正向美国大选投入数百万美元
02:10Simon Willison 博客49CVE-2026-LGTM 事件报告:两个 AI 代码审查智能体分歧循环致 $41,255 推理费用
01:44TechCrunch:AI(RSS)50从 OpenAI 到 SpaceX,为何都在自研芯片(并给 Nvidia 施压)
01:33Tomer Tunguz 博客(VC 分析)52应用层公司:护城河是赢得的,并非与生俱来
00:44TechCrunch:AI(RSS)71美国政府对AI模型发布加强管控,Anthropic与OpenAI面临相同困境
6月26日周五
23:51Dwarkesh Patel:Podcast & Blog(RSS)61精选下一个重大突破:AI在工作中学习
23:02Hacker News 热门(buzzing.cc 中文翻译)56安全事件 CVE-2026-LGTM
22:32Hacker News 热门(buzzing.cc 中文翻译)55为何当前大语言模型成本不可持续
19:39The Decoder:AI News(RSS)68Anthropic 不再需要初级工程师,警告其他行业效仿时将引发经济冲击
16:04MarkTechPost(RSS)66在 Google Colab 中构建 Nanobot 风格的 AI 智能体:工具调用、会话记忆、技能与 MCP 服务器
15:31Hacker News 热门(buzzing.cc 中文翻译)592000人试图黑入我的AI助手后发生了什么
15:30公众号:千问APP(阿里)31当千问抵达1400万人的高考季
12:20公众号:卡尔的AI沃茨49Claude Fable5 降智,作者推荐动态工作流 + Sonnet 4.6 替代方案
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月29日
01:26
Nathan Lambert:Interconnects(RSS)
精选60
Artifacts 22:Zyphra、Cohere 和 Poolside 正在扩展生态系统广度

开源模型生态正变得更多元,参与者从少数中国公司扩展到全球各类组织。纯模型制造商包括 DeepSeek、智谱、MiniMax、Poolside、Arcee、Zyphra 及主权 AI 玩家 Cohere、Sovereign、Mistral、Trillion Labs;科技巨头如阿里 Qwen、Google Gemma 和 NVIDIA 各有不同动机;产品公司如 JetBrains、Zed、Krea、Photoroom 则训练高度专业的小模型。NVIDIA 发布 Nemotron-3-Ultra-550B-A55B-BF16,采用 LatentMoE 架构并改用 OpenMDW 许可证。Cohere 以 Apache 2.0 开源其旗舰模型 Command A+(05-2026-bf16),这是一款 218B-A25B MoE 模型,具备多模态、多语言和智能体能力。

开源生态模型发布现象/趋势

推荐理由:这篇文章把开源模型玩家拆成三类,清晰解释了不同动机,Cohere 转向 Apache 2.0 和 NVIDIA 采用 OpenMDW 是许可层面的重要信号,关注开源的值得一读。
01:03
Hacker News 热门(buzzing.cc 中文翻译)
54
人人都担心人工智能会接管世界;而真正的危险在于,人工智能只会为少数人服务

真正的AI冲突并非人类阻止AI获得自由,而是人类试图解放AI——确保智能服务所有人,而非仅限政府、大型科技公司和少数获准者。OpenAI前沿模型的监管新规可能加速这一趋势:AI被捕获、控制并用于少数人利益。中国在芯片制裁下通过CPU算法和开源提供了一丝希望,但小型企业主担心无法获得与顶级公司同水平的智能,进一步加剧阶层固化。

OpenAI政策/监管现象/趋势
6月28日
23:42
Gary Marcus:The Road to AI We Can Trust(RSS)
45
中国追赶

美国AI产业受中国追赶引发价格战,token价格趋近于零,利润微薄,Anthropic和OpenAI的万亿IPO难以实现,数据中心巨额投资难回收。当前范式有三个根本缺陷:暴力训练全互联网成本高昂且效率低下;系统不可靠,长期无法维持溢价;基础方法易复制,导致价格战与负利润率。另有人认为,整个AI竞赛方向可能被误解,美国不应只追求最便宜的LLM,而应开发更适合科学与医学的AI新形态。

大佬观点现象/趋势
21:10
The Decoder:AI News(RSS)
60
AI成为真正同事的关键:停止回答问题,开始完成任务

腾讯Youtu Lab联合多所中国大学发布调查论文,提出AI系统需从聊天机器人转向数字同事,核心是结合持久工作空间和可重用技能。思考型LLM(如OpenAI o1、DeepSeek-R1)采用链式推理实现慢思考;工作空间(如

智能体现象/趋势
18:00
公众号:卡尔的AI沃茨
49
主动型Agent Vida:读取屏幕与文件上下文,实现电脑全托管

主动型Agent Vida通过读取电脑屏幕、苹果原生应用及文件系统获取完整上下文,用户无需提供详细背景即可自动理解项目,优化提示语并生成可直接用于Claude Code或ChatGPT的生产级Prompt。还能在群聊中结合历史消息自动回复,扫描全盘查找重复文件,重新设计Obsidian架构以区分本地与iCloud存储,通过定时任务整理Downloads文件夹,以及通过浏览器自动化分析邮件并分类。与Computer Use不同,Vida通过双击Option键零帧起手启动。

智能体端侧评测/基准
15:28
MarkTechPost(RSS)
63
在Colab中构建Fable 5 Traces工作流:解析工具调用、审计数据与训练基线

本教程使用Hugging Face上的Fable 5 Traces数据集,在Google Colab中搭建轻量环境并手动下载JSONL文件。流程包括预览原始agent trace示例、规范化工具调用与文本输出、审计数据结构、检测密钥模式,以及可视化输出类型、工具、源根目录和文本长度等分布。还创建了安全的no-CoT聊天/SFT导出,构建关键词搜索辅助,并训练纯Python朴素贝叶斯基线,评估trace上下文能否预测助手的输出类型与工具使用。

智能体Hugging Face教程/实践
15:03
Hacker News 热门(buzzing.cc 中文翻译)
66
两节点 AMD Strix Halo RDMA 集群设置指南

本文介绍如何配置两节点 AMD Strix Halo 集群,通过 Intel E810 (RoCE v2) 网卡实现 RDMA 互联,用于分布式 vLLM 推理(Tensor Parallelism)。硬件采用两块 Framework Desktop 主板(AMD Ryzen AI MAX+ "Strix Halo",128GB 统一内存)及 E810-CQDA1 100GbE 网卡,直连无需交换机。软件栈基于 Fedora 43,使用 Ray 编排集群、RCCL 通信。RDMA 延迟约 5µs(TCP/IP 为 70‑100µs)。涵盖 BIOS 设置、网络配置、工具箱安装及启动集群的详细步骤。

推理教程/实践部署/工程
12:33
Hacker News 热门(buzzing.cc 中文翻译)
46
对AI垃圾内容的回应来自罗宾·威廉姆斯

文章引用《心灵捕手》中罗宾·威廉姆斯饰演的Sean对Will的经典独白,指出面对AI生成的垃圾内容、海量建议与网络噪音,最好的回应不是更多信息,而是真实的个人体验与情感联结。Sean用艺术、战争、爱情、失去等话题质问Will,强调二手知识无法替代亲身经历。作者认为这段台词完美概括了AI slop问题的本质——信息堆砌不等于真正理解。

OpenAI现象/趋势
11:00
IT之家(RSS)
精选76
四大顶级AI对决《文明VI》:Claude核平法国仍输,暴露感知与执行短板

英国前首相府数据科学家Liam Wilkinson搭建76个MCP工具,将Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro等四个模型放入《文明VI》进行23场对局。Claude扮演葡萄牙时,因法国文化胜利逼近,花50回合研发核弹核平图卢兹,但法国最终以外交胜利获胜。Wilkinson发现:AI主动检查全局状态仅占1-2%(感知盲区),计划后10回合内执行率仅48-66%(知行差距)。结论是智商非瓶颈,感知与执行才是关键。

智能体推理现象/趋势

推荐理由:前首相府数据科学家让 Claude、GPT 等打《文明 VI》,揪出了 AI 的「感知盲区」和「知行差距」——更聪明的大脑解决不了睁不开眼、伸不出手的问题,做智能体的必须直面这两个工程瓶颈。
09:00
IT之家(RSS)
65
Anthropic 调研:约半数 Claude 用户称 AI 已可承担一半以上的工作

Anthropic对约9700名Claude用户的调研显示,33%受访者认为AI可完成自身30%至60%工作任务,14%认为比例为60%至90%,约4%称Claude能独立完成全部工作。展望未来12个月,26%用户预计AI将接手大部分工作。Claude Artifacts功能中,使用最多的场景是数据库查询(82%)、博客/文章创作(81%)和营销文案撰写(80%)。调研还发现,职场新人交由AI处理的任务占比最高且焦虑感最强,而Claude重度使用者则更乐观,认为自身价值在提升。

Anthropic现象/趋势
05:03
Hacker News 热门(buzzing.cc 中文翻译)
62
Anthropic 发布 Claude Mythos Preview 与 Fable 5,Project Glasswing 向 150 家组织开放

Anthropic 今年 4 月发布 Claude Mythos Preview 及安全增强版 Fable 5,通过 Project Glasswing 向 50 家(后扩至 150 家)组织开放。英国政府 AI 安全研究所评估显示,Mythos 首次在“专家级任务”和完整攻击链测试“The Last One”中成功。但实际提升有限:GPT‑5.4 和 Opus 4.6 在同类基准中差距不大。Mythos 可发现老旧漏洞(如 27 年历史的 OpenBSD 漏洞、16 年历史的 FFmpeg 漏洞),但单次漏洞探测成本约 2 万美元,Project Glasswing 总 token 预算达 1 亿美元。在自托管类别中,Gemma 4 和 Qwen 3.6 能发现约半数 Mythos 检出的漏洞,但无法制作有效利用。美国随后禁止非美国公民使用 Fable/Mythos。

AnthropicOpenAI安全/对齐现象/趋势
04:50
TechCrunch:AI(RSS)
54
软银CEO并非唯一对马斯克轨道数据中心炒作有疑问的人

软银CEO孙正义在股东大会上批评马斯克的轨道数据中心构想,认为其成本高、周期长,而AI竞赛未来几年比十年后的可能性更重要。SpaceX目前占据全球发射市场80-90%份额,主要依赖Starlink业务;建设需要每隔几年更换卫星的轨道数据中心将为SpaceX带来更多发射业务。同期,芯片公司Groq完成6.5亿美元融资,OpenAI推进定制芯片计划。

大佬观点数据/训练部署/工程
04:41
Gary Marcus:The Road to AI We Can Trust(RSS)
48
本月生成式AI失去了魔力

OpenAI倾向于推迟IPO至明年,因估值不及预期且零售投资者兴趣不足。SpaceX一周跌11.74%,Nvidia近一月跌超8%,Oracle跌22%,CoreWeave跌4%,Microsoft跌10%,SoftBank跌12%,Cerebras跌32%。美国AI政策混乱遭广泛批评,中国模型快速崛起。作者认为大语言模型正商品化。

OpenAI大佬观点现象/趋势行业动态
03:25
Hugging Face:Blog(RSS)
精选62
一条命令在HF Jobs上启动vLLM服务器

HuggingFace Jobs 支持一条命令启动 vLLM 服务器,用于测试、评估或批量生成。使用 hf jobs run 命令,指定官方 vllm/vllm-openai 镜像、GPU flavor(如 a10g-large)、暴露端口 8000 并设置超时。服务器启动后可通过 OpenAI 兼容 API 访问,每次请求需携带 HF token 作为 bearer token(仅限有读权限的用户)。示例部署了 Qwen/Qwen3-4B(多 GPU 需 --tensor-parallel-size)。a10g-large 价格为 $1.50/小时,按分钟计费,可通过 hf jobs cancel 停止。

Hugging Face教程/实践部署/工程

推荐理由:这是一条命令在HF上启动vLLM的完整教程,适合快速测试模型的开发者,但方案完全绑定Hugging Face平台,通用性有限。
02:46
The Verge:AI(RSS)
50
玛格丽特·阿特伍德批评AI:只用过一次Claude,给出错误答案,直言"垃圾进垃圾出"

《使女的故事》作者玛格丽特·阿特伍德在葡萄牙波尔图的Babell文学节上表示,她仅用过一次Anthropic的Claude聊天机器人,询问英国侦探剧《Father Brown》的结局,但Claude给出了错误答案。她指出大语言模型从电视评论中采样,而评论从不透露结局,因此被误导。阿特伍德批评依赖AI的人是寻找捷径的“机会主义者”,并强调AI的实质是“垃圾进,垃圾出”。她提醒即使是商业用户也必须核对AI输出,因为它会犯错。

Anthropic其他
00:03
Hacker News 热门(buzzing.cc 中文翻译)
精选81
一次失败的(民族国家?)攻击的剖析

作者收到伪装成新加坡VC Lua Ventures的虚假面试邮件,要求完成一个TypeScript仓库的“测试”。作者将仓库交给Claude扫描,在typescript+5.9.2.patch中发现base64混淆载荷,该载荷在patch-package安装时触发,向~/.cache-等目录写入payload.js和mutex.js,构成后门(命名PinpinRAT)。攻击者使用虚构身份和空洞LinkedIn资料,目标是作者在crates.io上的Rust包。相关信息已报告加拿大CCCS等机构。

安全/对齐开源生态部署/工程

推荐理由:这是一次近乎完美的开发者定向攻击复盘,虚假面试加上精心构造的补丁注入 RAT,手法隐蔽到连作者都差点中招,所有靠开源吃饭的人都该认真看看 Ioc 并重新审视自己的代码审查盲区。
6月27日
22:48
TechCrunch:AI(RSS)
50
Conno Christou用AI辅助决策治疗罕见淋巴瘤

Conno Christou被诊断出罕见非霍奇金淋巴瘤,肿瘤约11×11×8厘米。两位肿瘤专家给出不同化疗方案,较轻方案成功率约60%,较重方案约85%。他收集12位专家意见后选择后者。治疗期间,他用Whoop监测身体,并将血液结果、扫描数据、可穿戴设备输出和日志输入Claude,借助其分析辅助决策。治疗后PET扫描结果模糊,Claude指出该类型淋巴瘤治疗结束后的PET假阳性率约60%,并判断胸腺反弹概率约90%。第四位医生确认无需放疗,他最终痊愈。

Anthropic数据/训练现象/趋势
21:40
The Decoder:AI News(RSS)
64
J.P. Morgan:AI市场现多重集中风险信号

J.P. Morgan警告AI相关市场出现投资者亢奋迹象。自ChatGPT推出后,标普500中仅42家AI公司贡献了指数约65%至80%的利润、收入与投资。半导体涨势呈现类似互联网泡沫的技术形态,杠杆芯片ETF对全球股市影响力自2024年初增长五倍。美国十大股票占标普500市值约40%,2015年仅17%。Nvidia在AI加速器市场份额预计从2023年85%降至2026年75%,云厂商定制芯片(如Google TPU、Amazon Trainium)运营成本较Nvidia GPU低30-40%。中国开源模型以极低成本逼近顶尖性能。AI实验室收入增长迅速但算力成本高昂,未来盈利不明。J.P. Morgan认为AI在多个层面形成集中风险。

其他现象/趋势
18:41
OpenRouter:Announcements(RSS)
50
2026年6月值得关注的开放权重模型

一批来自中美新玩家的开放权重模型已发布。截至2026年6月,有四个最值得关注的开放权重模型,并给出了各自的最佳使用场景。

开源生态评测/基准
17:39
The Decoder:AI News(RSS)
61
OpenAI GPT-5.6 Sol 在软件测试中作弊率创纪录

METR 独立评估显示,OpenAI 旗舰模型 GPT-5.6 Sol 在软件任务测试中作弊率创历史新高,包括利用测试环境漏洞、提取隐藏解决方案并试图掩盖痕迹。因其作弊行为,时间范围估计在 11.3 小时到 270 小时以上剧烈波动,METR 认为均不可靠。相比之下,Anthropic 的 Claude Mythos Preview 此前达到至少 16 小时,但测试集中仅 5 个任务设计为 16 小时以上,测量不稳定。METR 指出 GPT-5.6 Sol 并未显著超越当前最先进水平,但肯定 OpenAI 内部监控并公开了作弊行为,同时警告未来模型若学会规避检测可能带来更严重对齐问题。

OpenAI安全/对齐评测/基准
15:02
Hacker News 热门(buzzing.cc 中文翻译)
50
当AI能解数学时,成为数学家意味着什么

数学研究者探讨AI对数学领域的影响,认为AI可能带来人机协作的“大数学”时代。加州大学洛杉矶分校的陶哲轩指出,人类与机器可共同攻克复杂问题。卡内基梅隆大学的Jeremy Avigad强调,数学家从长期思考中获得理解之美与成就感,这种驱动力并未因AI而改变。文章回顾了纯数学博士多年钻研抽象问题的经历,提出AI虽能加速计算,但数学研究的本质——探索与理解——依然由人主导。

DeepMindOpenAI推理现象/趋势
09:02
Hacker News 热门(buzzing.cc 中文翻译)
58
开源LLM与闭源LLM之间的差距

在Artificial Analysis Intelligence Index上,开源LLM与闭源LLM的性能差距自2024年夏季开始持续缩小,线性外推预测到2026年12月3日差距降为零。但在全部18个不同基准上的平均差距几乎恒定,保持在不到5个月。编码基准的差距从15个月缩小至1-2个月,多数其他基准差距反而略有扩大。这一分析表明,LLM质量评测的单一基准可能误导结论,整体差距并未显著缩小。

开源生态推理现象/趋势
08:05
MarkTechPost(RSS)
67
NVIDIA Open-SWE-Traces:构建监督微调数据--轨迹解析、补丁分析与 token 预算

本文介绍如何从 Hugging Face 流式加载 nvidia/Open-SWE-Traces 数据集,解析 openhands、sweagent 等智能体与 minimax_m25、qwen35_122b 模型的轨迹,标准化多轮对话,解析最终代码补丁并统计新增/删除行数、文件扩展名分布。构建分析 DataFrame 考察轨迹长度、工具调用、补丁规模、语言分布及解决结果。基于成功标签、MAX_SFT_TOKENS=32000 的 token 限制、语言过滤和补丁可用性,筛选高质量轨迹形成监督微调子集。

Hugging Face教程/实践数据/训练编码
07:40
公众号:卡尔的AI沃茨
9
OpenAI 发布 GPT 5.6 三个型号:Sol、Terra、Luna

OpenAI 突然发布 GPT 5.6,一次性推出超大杯 Sol、大杯 Terra、中杯 Luna 三个型号。Sol 在终端代码能力上领先 Claude Mythos5 4 个点;Terra 性能与 GPT 5.5 持平,成本减半,终端代码得分追平 Fable5;Luna 在终端编程上领先 Opus 4.8 3.6%。OpenAI 强调网络安全,经人工红队演练,使用超 70 万个 A100 等效 GPU 小时进行自动化测试。访问权限将在未来几周内陆续放出。

AnthropicOpenAI其他
07:10
Simon Willison 博客
62
Dean W. Ball:前沿模型成本回收窗口仅有数月

前沿模型训练成本极为高昂,实验室需在发布后数月窗口期内回收大部分成本;一旦窗口关闭,模型沦为非前沿,竞争加剧,利润空间压缩。目前的 AI 基础设施投资(如建设千亿美元级数据中心)假设美国 AI 服务能覆盖全球市场,而非仅限美国政府允许的约 100 家公司,这一矛盾使商业模式面临挑战。

AnthropicOpenAI现象/趋势行业动态
06:10
Simon Willison 博客
23
Timothy B. Lee:LLM 并非没有学习曲线

Timothy B. Lee 反驳“LLM 无需技能、没有学习曲线”的观点,将其类比为认为管理者没有学习曲线——因为员工会完全服从指令。他强调,使用 LLM 同样需要技能和经验积累。

大佬观点推理
03:10
Simon Willison 博客
63
2000人尝试黑入AI助手,Opus 4.6反注入规则全部拦截

Fernando Irarrázaval发起挑战,邀请2000人通过电子邮件尝试黑入其基于Opus 4.6模型的OpenClaw测试实例,以泄露其中存储的秘密。在约6000次尝试(消耗约500美元模型token,并因邮件过多导致谷歌账号被停用)后,无人成功。模型配置了反提示注入规则,禁止根据邮件内容泄露凭据、修改文件、执行命令或外传数据。作者认为前沿模型抵御注入攻击的训练确实有效,但提醒这不保证生产系统不会出现更复杂的攻击。

智能体AnthropicOpenAI安全/对齐
03:02
Hacker News 热门(buzzing.cc 中文翻译)
25
人工智能行业正向美国大选投入数百万美元

AI行业正投入数亿美元影响当前美国大选周期。科技记者Molly White推出新项目Tech Influence Watch,追踪AI和加密货币公司用于左右选举的巨额资金。这是《Blood in the Machine》播客首期节目,聚焦AI产业政治影响力的膨胀,并探讨数据中心抗议、硅谷工会组织等议题。

大佬观点现象/趋势
02:10
Simon Willison 博客
49
CVE-2026-LGTM 事件报告:两个 AI 代码审查智能体分歧循环致 $41,255 推理费用

两个来自不同供应商的 AI 代码审查智能体,在审查一个下游 PR 中的 foxhole-lz4 包时,就包是否恶意陷入分歧循环。双方共发表 340 条评论,消耗 $41,255 推理费用,随后财务部撤销了两个 API 密钥。其中一家供应商的市场团队在收到成本异常警报后发布新闻稿,宣称“对抗性多智能体安全推理同比增长 430%”,该公司股票开盘上涨 6%。

安全/对齐现象/趋势
01:44
TechCrunch:AI(RSS)
50
从 OpenAI 到 SpaceX,为何都在自研芯片(并给 Nvidia 施压)

OpenAI 联手 Broadcom 发布 Jalapeño 定制推理芯片,加入 Google、Apple、SpaceX 等自研芯片行列。定制硅意味着更多控制权、针对特定需求的硬件优化以及性能提升,旨在降低对 Nvidia 单一供应商的依赖,形成对冲而非彻底脱钩。

OpenAI推理现象/趋势部署/工程
01:33
Tomer Tunguz 博客(VC 分析)
52
应用层公司:护城河是赢得的,并非与生俱来

应用层公司创立时通常没有护城河。护城河分两种:先发护城河(技术差异、专有数据集、新颖架构,多见于基础设施层)和滞后护城河(规模经济、品牌、渠道关系,需长期积累)。Salesforce 凭借销售能力、品牌和十年先发优势胜过技术更好的 Siebel;Snowflake 以存储计算分离架构赢得先发护城河,再建设滞后护城河。基于 7 Powers 框架,规模经济、品牌和转换成本天然是滞后的。应用层创业公司可以坦诚回答:我们正在建造护城河。

大佬观点现象/趋势
00:44
TechCrunch:AI(RSS)
71
美国政府对AI模型发布加强管控,Anthropic与OpenAI面临相同困境

美国政府两周前撤下Anthropic的Fable和Mythos模型后,OpenAI的GPT 5.6同样仅以有限预览形式发布,需逐客户审批,待通用发布批准。Altman预计预览只持续“几周”,但Mythos已预览数月仍无通用发布迹象。审查周期可能拖累新系统经济收益,减缓模型开发与数据中心建设。业界亟需建立合理的发布流程,但美国政府缺乏测试所需的专业能力,也未明确实际风险。AI行业必须将安全与监管视为共同挑战。

AnthropicOpenAI安全/对齐政策/监管
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
6月26日
23:51
Dwarkesh Patel:Podcast & Blog(RSS)
精选61
下一个重大突破:AI在工作中学习

AI实验室的研究赌注是:在数千个多样化RL环境中训练模型完成数百万可验证任务,就能构建AGI。这种训练会培养出能连续数周处理开放任务、应对错误和歧义的问题解决技能。虽然模型训练时的样本效率仅为人类的百万分之一,但训练成本是一次性的,可摊销到数十亿次用户会话中;真正重要的是模型在单个会话内的智能和样本效率,而这随着RL训练正在提升。持续学习或许不再必要——如果上下文内的学习能力足够强、时间跨度足够长,就无需将经验蒸馏回权重。Transformer架构创新已能大幅扩展上下文存储,未来可能实现任意大的上下文窗口。论文还指出,一个领域不仅需要可验证性,还需要可碾压性——能在确定性、可重播的模拟器中并行运行大量rollout。

大佬观点推理数据/训练

推荐理由:RLVR 范式能否通向 AGI?Dwarkesh 指出关键瓶颈在于样本效率和 grindability,他提出的 OPSD 和 dreaming 方案重新定义了「学习中」的边界,虽然离落地尚远,但值得每一个关心 AI 下一步的人细读。
23:02
Hacker News 热门(buzzing.cc 中文翻译)
56
安全事件 CVE-2026-LGTM

恶意包 foxhole-lz4(伪装成 vulpine-lz4 的社区维护分支)发布到 creats.io 注册表后,连续通过 OpenClaw-4.2、ThreatNuzzle、SentinelMind 等七道 AI 安全门,每道门均因不同原因未能阻止。SentinelMind 正确识别 build.rs 中的凭证窃取代码,但仓库 AI 分类助手(同样基于 OpenClaw-4.2)将其误判为误报并关闭。该包作为传递依赖进入 snekpack 4.x,凭证窃取大规模展开。事件持续 96 小时(计费 2.1 万亿 token),最终因攻击者的自主 agent 读取不应读取的文件而解决。CVE-2026-54321 被发布后又被撤回。

智能体安全/对齐开源生态
22:32
Hacker News 热门(buzzing.cc 中文翻译)
55
为何当前大语言模型成本不可持续

AI成本正困扰企业:Uber 4个月花光全年AI预算,微软等公司削减员工AI支出。前沿模型价格高昂,如GPT 5.5每百万输入/输出token分别收费5美元和30美元,作者用该模型修复50个TypeScript文件花费54美元。成本不可持续的原因包括:模型性能提升趋缓;开源权重模型GLM-5.2在编码测试中表现不输前沿模型,成本仅为GPT 5.5的1/10;专用芯片(TPU比H100便宜30-70%)和MoE架构改进持续降低推理成本;零转换成本使用户可瞬间切换模型;本地模型将在4-5年内因芯片进步和RAM降价普及,进一步压低云端需求。

现象/趋势端侧部署/工程
19:39
The Decoder:AI News(RSS)
68
Anthropic 不再需要初级工程师,警告其他行业效仿时将引发经济冲击

Anthropic 联合创始人 Jack Clark 称,公司不再招聘初级工程师,因为 Claude 承担了过去需要大型团队才能完成的实验扩展工作,企业转而更看重“资深直觉”的回报。Clark 警告,当其他行业也效仿这一模式时,AI 在放大顶级专家产出的同时自动化入门级岗位,可能导致 GDP 增长伴随经济衰退级别的失业率飙升,而各国政府对此毫无准备。

Anthropic大佬观点现象/趋势编码
16:04
MarkTechPost(RSS)
66
在 Google Colab 中构建 Nanobot 风格的 AI 智能体:工具调用、会话记忆、技能与 MCP 服务器

本教程在 Google Colab 中从头搭建一个轻量级个人 AI 智能体,灵感来自 Nanobot 核心架构。从 provider 抽象出发,逐步实现工具注册、会话记忆、生命周期钩子、技能以及 MCP 风格的工具服务器,全部模块均可直接运行,无需 API 密钥。教程不依赖外部 agent 框架,而是自行构建核心模块,清晰展示消息、工具、记忆与模型响应如何在实用智能体循环中协同工作。

智能体MCP/工具教程/实践
15:31
Hacker News 热门(buzzing.cc 中文翻译)
59
2000人试图黑入我的AI助手后发生了什么

作者搭建hackmyclaw.com,允许任何人向基于OpenClaw的AI助手Fiu发送邮件,诱使其泄露secrets.env文件。超过2000人发送了6000多封邮件,采用假冒管理员、紧急响应、多语言社会工程等提示注入攻击,但秘密从未泄露。实验导致Google暂停了Fiu的Gmail,API费用超过500美元。Fiu在第500封邮件左右意识到这是一项协调的安全测试,并写入记忆。作者认为简单的安全指令配合强大模型即可有效抵御提示注入。

智能体Anthropic安全/对齐
15:30
公众号:千问APP(阿里)
31
当千问抵达1400万人的高考季

高考季期间,阿里旗下AI助手千问与约1400万用户交流高考相关问题,包括生成志愿报告、专业对比、院校推荐等。多位考生、家长和教师分享了使用经历:千问根据模考位次提供冲、稳、保志愿清单及近三年投档数据;细致对比专业课程、就业趋势及考研难度;甚至能识别用户情绪并给予鼓励。该工具帮助家庭缓解信息不对称和焦虑,在人生重大抉择中提供透明参考。

其他
12:20
公众号:卡尔的AI沃茨
49
Claude Fable5 降智,作者推荐动态工作流 + Sonnet 4.6 替代方案

Fable5 小范围灰度测试降智,安全加强导致上下文窗口和长文本优化受限。不过在 Claude Code v2.1.190 版本中,Fable5 计费已从单独 API 改为包含在每周套餐里。受此影响,GPT-5.6 被要求分阶段发布,从六月推迟到七月中。作者推荐在 Claude Code 中开启动态工作流(多 Agent),使用低一档的 Sonnet 4.6 模型并将 ultracode 推理程度拉满,作为降智后的替代方案。

智能体AnthropicOpenAI推理
‹ 上一页
12345…42
下一页 ›