6月17日

01:32

OpenAI@OpenAI

我们来聊聊评估。我们一直在寻找更好的方法来衡量和预测模型进展，尤其是在基准测试逐渐饱和或被钻空子的时候。领导我们前沿评估团队的 @tejalpatwardhan 与 @andrewmayne 谈到了评估为何重要，以及接下来模型需要被评判的标准。

OpenAI 大佬观点评测/基准

01:23

jason@jxnlco

脑内AI图像生成：人类的新能力？

作者Jason Liu发现自己在脑海中就可以进行类似AI图像生成的体验，无需打开应用写提示词。他举例：看到咖啡店窗边的橙猫和牛角面包后，直接想象出暖光、浅景深、胶片颗粒等电影感画面，甚至“脑补”了猫戴贝雷帽。他猜测AI的Codex使用图像生成时可能也是类似的内部感受。

其他

01:01

Simon Willison 博客

Georgi Gerganov：Qwen3.6-27B 是强大的本地编码模型

Georgi Gerganov 在 Hacker News 评论中表示，Qwen3.6-27B 是 100% 胜任的本地编码模型。过去一个半月他几乎每天在 M2 Ultra 或 RTX 5090 上使用该模型处理 ggml-org 的日常小任务。目前他采用轻量级 harness —— 精简版 pi agent（pi -nc --offline），配合简短系统提示来对齐个人编码风格。

大佬观点端侧编码

00:53

TechCrunch：AI（RSS）

调查：60%美国消费者反感品牌消息中使用"AI"一词

WordPress VIP基于2000名受访者的调查显示，60%美国消费者认为品牌消息中出现“AI”会令人反感，86%不完全信任AI并仍想查看原始来源。42%表示缺乏明确归属的AI生成答案比航空公司费用、隐私政策和医疗账单更不可信。近四分之三受访者认为互联网比十年前更不人性化。33%将点击查看原始来源视为首要信任信号，80%认为网络信息应保持开放可访问。企业方面，60%受访企业称来自AI搜索引擎和答案平台的流量在过去一年增加，74%企业决策者将AI可发现性和归属列为主要或重要优先级。

搜索现象/趋势

00:28

Rohan Paul@rohanpaul_ai

Charlotte Xia谈Jim Fan"Great Parallel"：机器人缺乏数据与基准瓶颈

Rohan Paul引用Charlotte Xia的博客，讨论Jim Fan的“Great Parallel”论点：具身AI将像LLM一样扩展。与语言不同，文本是压缩共享接口，物理行动分散于不同实体。尽管已有$5B+投资世界模型、$18B投入机器人，领域仍缺乏共享基准、架构收敛，且存在10万年的数据差距。世界模型能预测行动结果，但无法解决数据收集、评估、实时控制和部署可靠性。真正的创业机会在于数据循环、评估系统、记忆层、推理栈和垂直部署引擎等瓶颈。

Charlotte Xia: Jim Fan's "Great Parallel" thesis: embodied AI will scale like LLMs did. $5B+ is already betting on #worldmodels. $18B i...

具身智能现象/趋势

00:17

Luma@LumaLabsAI

PJaccetturo 展示了如何通过 XPRIZE 竞赛赢得 250 万美元来资助自己的梦想电影。他最初为 XPRIZE 制作了这部预告片，最终促使电影《Nexus》获得资金。他还分享了整套策略，供他人复制，通过 XPRIZE 为乐观科幻电影获得拍摄许可。Luma AI 对此表示赞叹。

PJ Ace: Let me show you how you can win $2.5M to fund your dream film. I originally made this trailer for the XPRIZE competition...

其他行业动态视频

00:01

IT之家（RSS）

开发者绕过苹果软件限制，成功解锁 M4 芯片 15.8TFLOPS 的 AI 算力

苹果 M4 神经网络引擎原仅开放推理，X 用户 @0x0SojalSec 通过逆向工程，从零开发自定义 MIL 直接与芯片通信，绕开了软件限制。训练全程将数据放在 RAM 中运行，不写入 NAND 闪存以维持高速。解锁后 M4 可达 15.8TFLOPS AI 性能，足以承担模型训练。目前不确定该 MIL 能否用于更新的 Apple Silicon，exec() 命令在新平台上的兼容性也未知。

开源/仓库端侧部署/工程

00:01

Artificial Intelligence News（RSS）

保险公司将AI战略转向核心风险承保

2026年Evident AI Index显示，保险公司正将AI嵌入直接影响承保纪律和资本配置的工作流。过去一年保险从业人员减少2.2%，AI专家增长32%，每50名员工即有一名AI专家。近40%公司设立AI高级主管。智能体AI采用率激增，新公开用例中四分之一涉及智能体编排（六个月前仅为二十分之一）。Zurich凭共享平台ZurichIQ从第12升至第4。Manulife、Generali、Intact Financial预计AI将产生超10亿美元回报。Allianz拥有业内最大AI人才池并注册900个用例。

数据/训练行业动态

6月16日

23:52

elvis@omarsar0

有机会尝试了 @mattpocockuk 的/teach 技能。它类似于我的/learn 技能。你现在就可以在我们的 academy 中使用 Hermes Agent 尝试该技能。我会暂时保持实验室免费。用 AI 智能体学习真是太棒了。去试试吧！

智能体教程/实践

23:49

Hacker News 热门（buzzing.cc 中文翻译）

现在运行本地模型效果不错

2026年6月16日，vickiboykis.com 上发布了一篇题为“Running local models is good now”的文章，作者认为当前阶段在本地硬件上运行大语言模型已经能够取得不错的效果。该文章在 Hacker News 社区引发讨论，相关帖子获得 114 点热度，表明本地模型运行体验得到了社区的认可。

智能体 Google 教程/实践端侧

23:48

fofr@fofrAI

你知道吗，Omni 也擅长文本处理。

OpenAI 多模态评测/基准

23:47

凡人小北@frxiaobei

WorkBuddy：被低估的工作场景 Agent 产品

腾讯 WorkBuddy 自 3 月至今用户增长远超预期，日活数据已达到第二名产品的 3-4 倍以上，用户包括大量 HR、运营、行政等非技术岗人员，以及金融、餐饮、外贸等非互联网行业。作者将其作为 skill store 使用，可找到腾讯精选的优质 skill。引用指出其代表第三代办公 Agent 模式，对传统 Office 和云协同产品形成降维打击，近期还推出企业版和项目功能，意图抢占新一代 Agent 办公场景。

数字生命卡兹克: 聊聊这个可能被大家低估的Agent场景。今天去了腾讯活动的现场,当了下主持和评委。也跟很多选手,还有腾讯云的几个大佬交流了一下。还真的有点新东西冲击的,这个确实是我在过去之前没预想到的。最核心的点,就是整个WorkBuddy在用户增...

智能体现象/趋势

23:27

向阳乔木@vista8

Factory AI CEO 播客：开源模型与AI未来趋势

Factory AI CEO 在播客中分享观点：约80%-90%的任务可用开源模型完成，顶级模型更适合规划与决策；AI工具对高杠杆人群提升更大，低杠杆者受益有限；未来最值钱的工程师是能端到端拥有业务结果的人，而非仅写代码者；预计三年内Token支出中位数将与薪资处于同一数量级。

大佬观点开源生态编码

23:27

向阳乔木@vista8

一个轻量快速的RSS免费客户端，还支持用自己的API key做 AI总结、问答。感觉Papr是个不错的项目，地址和安装见评论区。

开源/仓库开源生态

23:17

凡人小北@frxiaobei

WorkBuddy日活已达第二名的3-4倍以上，非技术岗用户大量涌入

腾讯WorkBuddy自3月至今，日活已达第二名的3-4倍以上。用户除开发者外，涌入大量HR、运营、行政等非技术岗，黑客松场景覆盖金融、餐饮、外贸、法律等非互联网行业。商业模式从卖软件转向卖智能，辅助用户造最适合自己的工具。已有Trae Work、QoderWork、Kimi Work等产品跟进改名。腾讯云称此为十年一遇机遇，已推出企业版和项目功能。用户也可将WorkBuddy用作skill store，获取腾讯精选skill，质量高于GitHub公开资源。

智能体现象/趋势

23:15

数字生命卡兹克@Khazix0918

卡兹克谈WorkBuddy：被低估的通用Agent场景，日活已达第二名3-4倍以上

卡兹克在腾讯活动现场发现，Agent产品WorkBuddy自3月至今用户增长远超预期，日活已是第二名的3-4倍以上；用户包括HR、运营、行政等非技术岗，黑客松场景覆盖金融、餐饮、外贸、法律等非互联网行业。他认为这代表了第三代办公产品（第一代本地Office、第二代云协同），直接帮用户完成任务。腾讯云视其为十年一遇机遇，刚推出企业版和项目功能。受此影响，Trae Work、QoderWork、Kimi Work等产品纷纷跟进改名或转型。

智能体现象/趋势

23:00

Ethan Mollick@emollick

我们正处于企业AI最舒适的"正常技术"阶段：它能提升生产力，但仍需整合到工作流程中--这是我们以前见过的！然而，这很可能只是一个中转站，而非稳定阶段。AI可能会自行整合。

智能体大佬观点现象/趋势

22:48

jason@jxnlco

@majidmanzarpour 为 Codex 和 Claude Code 构建了一个基于 Three.js 的游戏导演技能系统，可引导 AI 智能体完成游戏循环、图形、HUD/UI、调试、QA 等流程，并可选集成 @tripoai、@ElevenLabs、@NanoBanana 的 3D/图像/音频资源。该系统已开源。Jason Liu 称赞并表示要用它做麻将游戏。

Majid Manzarpour: I built a @threejs game director skill system for Codex & Claude Code to help agents create more polished playable brows...

智能体开源/仓库编码

22:48

fofr@fofrAI

提醒：如果你先移除视频中现有的音轨，Omni 可以为你生成全新音频。 ffmpeg -i input.mp4 -c：v copy -an input_without_audio.mp4

fofr: Omni tip: If you remove any audio from the video you're editing, Omni will fully regenerate the audio for you, which mig...

多模态教程/实践

22:46

凡人小北@frxiaobei

Gemini （antigravity）编程能力排名降至第四，前三名依次为 Claude （Claude code）、ChatGPT （codex）和 SpaceXAI （cursor）。国产编码模型 GLM、Kimi、千问、豆包紧随其后，若再有一家国产模型超越，Gemini 将进一步跌至第五。此外，SpaceX 行使期权收购 Cursor AI，过去数月双方联合训练模型，即将在 Cursor 和 Grok Build 中发布。

SpaceX: SpaceX has exercised the option to acquire @cursor_ai in an all-stock transaction with the goal of building the world's ...

大佬观点编码

22:46

Elon Musk@elonmusk

这是令人谦卑的思考：如果我们利用太阳百万分之一的能量用于AI，那将比全人类的智力高出百万倍以上。

xAI 大佬观点

22:01

Nathan Lambert：Interconnects（RSS）

前沿大模型后训练配方回顾：与 Finbarr Timbers 对谈

Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变：从 InstructGPT 的 SFT→奖励模型→RL 三阶段，到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL，再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation（MOPD）：训练 N 个领域专家（经 SFT 和领域 RL），再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入，DeepSeek V4 与 Nemotron 3 Ultra 扩展至超过 10 个教师。MOPD 兴起源于单一 RL 流程在多领域间产生能力冲突，而专家模型易于并行训练，在线蒸馏技术日趋成熟。

DeepSeek 大佬观点开源生态推理

21:51

Nathan Lambert@natolambert

Nathan Lambert联合Finbarr Timbers发布新播客，调研GLM 5.1等模型后训练配方

Nathan Lambert与Finbarr Timbers合作推出新播客，系统调研GLM 5.1、Kimi K2.6、DeepSeek V4、Xiaomi MiMo V2.5、Nemotron Ultra等模型的最新后训练方法。核心讨论包括：行业转向多教师在线策略蒸馏（MOPD）的原因；Olmo风格配方需改进的方向；后训练如何适配大型组织；以及在AGI早期阶段的职业建议。播客章节涵盖历史回顾、2026年模型配方（MiMo Flash、DeepSeek V4、GLM 5、Kimi K2.6等）及开放式后训练讨论。

DeepSeek 大佬观点数据/训练

21:47

jason@jxnlco

你在 codex 中见过哪些最好的技能？请分享你的仓库 / 链接

OpenAI 其他

21:46

凡人小北@frxiaobei

这种故事 AI 写不了吧？如果可以写，我可以付费买提示词。

多模态现象/趋势

21:30

公众号：数字生命卡兹克

同事件精选67

WorkBuddy日活飙升至行业第二的3-4倍，非技术用户涌入

从3月至今，WorkBuddy日活用户数已达行业第二名的3-4倍，用户不再限于开发者，大量HR、运营、行政等非技术岗位也在使用。其企业版和项目功能进一步扩展了Agent办公场景。同期，Trae Work、QoderWork、Kimi Work等产品纷纷改名或出新，争夺市场。腾讯云认为这可能是十年一遇的机遇。

智能体现象/趋势

同一事件，精选展示《从0到1速通WorkBuddy：国内通用Agent产品教程》

推荐理由：卡兹克从现场带回WorkBuddy的用户数据，非技术人群用Agent干活不再是口号，传统办公软件的危机比想象中来得更快。

21:17

jason@jxnlco

wow 突破 10 万那么，最大的需求之一是关于重置速率限制，所以这里有个小技巧。 Codex 现在有推荐机制，让你可以自行重置速率限制。

jason: so close to 90k followers... what codex articles do i need to write to get there...

教程/实践编码

21:04

AYi@AYi_AInotes

OpenAI Codex 2026版全景：架构、生态横评与最佳实践

OpenAI Codex 2026版以统一执行层+编排中枢架构覆盖App、CLI、IDE、Cloud、Web五入口，模型迭代至GPT-5.4 for Codex，Spark版快15倍。平台层由MCP、Skills（开放标准）、Plugins（可分发）构成。SWE-Bench Pro Public上56.8%微弱领先，OSWorld-Verified 64.7%接近人类；Claude Code在百万token重构占优，Codex强在异步执行与并行调度。最佳实践：Prompt含Goal/Context/Constraints/Done-when，用AGENTS.md固化持久指令，MCP按高频痛点优先配置。

智能体 MCP/工具 OpenAI 教程/实践

21:01

IT之家（RSS）

微软CEO纳德拉警告：AI模型正掏空企业知识，少数巨头恐吞噬一切

微软CEO萨提亚·纳德拉在X上发文警告，AI模型正大量吸收企业知识，未来少数AI提供商可能拿走大部分经济价值，各行业将失去对自身知识资产的控制。他以全球化外包掏空工业经济作比，主张建立更开放、更分散的AI生态，让企业继续掌控学习系统。Snowflake CEO斯里达尔·拉马斯瓦米在2月播客中称，大型软件公司可能沦为AI大模型的数据来源；Box CEO亚伦·莱维在1月LinkedIn帖文中指出，当AI覆盖高层知识工作，公司差异化要靠上下文。

Microsoft 大佬观点数据/训练

20:59

François Chollet@fchollet

我们将创造强大AI开源且人人可用的未来的方法，是让AI在推理计算和（更重要的）训练数据需求方面大幅提高效率。这正是符号学习将实现的目标。

大佬观点推理数据/训练

19:59

The Decoder：AI News（RSS）

爱沙尼亚语言研究所发布基准测试：衡量AI模型对俄罗斯宣传的易感性

爱沙尼亚语言研究所发布基准测试，用75个问题覆盖14种宣传叙事，以中立、偏颇和操纵三种措辞测试60个AI模型，评分1-5分（1分代表重复俄方话术）。Claude Opus 4.5作为评估模型。结果显示Anthropic的Claude模型居首，Nvidia Nemotron 3和阿里Qwen 3.6 Plus紧随，Mistral Medium 3.5排在底部三分之一。测试期间模型无网络搜索权限。结果与Newsguard研究一致：Mistral的持续性虚假信息率达36.67%，该公司正以200亿欧元估值谈判30亿欧元融资。

Anthropic 安全/对齐评测/基准

19:17

Hacker News 热门（buzzing.cc 中文翻译）

人类尚未做好应对即将到来的智能爆炸的准备

经济学人文章认为，人类尚未做好应对即将到来的智能爆炸的准备。该观点在 Hacker News 上获得 102 个点赞。

安全/对齐现象/趋势

18:28

Rohan Paul@rohanpaul_ai

微软CEO纳德拉：AI实现文档到应用无缝转换

微软CEO萨提亚·纳德拉在达沃斯世界经济论坛与贝莱德董事长拉里·芬克对话时表示，AI的真正力量在于转换：文档可通过AI生成代码变成网站，网站可进一步转为应用；企业将原本耗时数小时的决策规模化为几分钟。纳德拉强调，AI首次赋予了软件自我转换的能力。

Microsoft 大佬观点现象/趋势

18:27

向阳乔木@vista8

博主回顾去年文章，认为如今 AI Coding 工具普及，注册个人域名搭配 VPS 的可玩性大幅提升，能获得大量资源，强烈推荐大家注册自己的域名。

向阳乔木: http://x.com/i/article/2066825834409984000

现象/趋势编码

18:18

PixVerse@PixVerse_

用户@heisturnx 用PixVerse等AI工具制作了整条15秒UGC广告，零相机、零摄影棚、零真实产品拍摄。步骤如下：✅ 在PixVerse中用ChatGPT生成首张图片 ✅ Nana Banana Pro 2（Flow AI）完成其余图片 ✅ 在PixVerse中用Kling 3.0制作视频动画 ✅ 在TikTok上精剪完成。这就是品牌现在付费购买的内容。想要完整提示词分解可回复"BLEND"。 PixVerse官方赞叹：太棒了UGC广告！

Turnx: 🤖 made this entire 15-second UGC ad with AI zero camera, zero studio, zero real product shoot. Here's the quick breakdo...

教程/实践视频

18:00

IT之家（RSS）

《浪浪山小妖怪》将拍第二部，导演於水回应AI模仿风格担忧

6月16日，导演於水在上海国际电影节透露下一步工作计划是《浪浪山小妖怪2》。他坦言第一部故事已完整，第二部需在此基础上提升。谈及AI模仿其动画风格时，於水认为AI基于大模型无所不知，但人作为“小模型”因不完美才构成喜怒哀乐；艺术源于人类痛苦喜悦，大模型只能模拟概率而非真实情感，无法与观众产生共鸣。《浪浪山小妖怪》在2025年暑期档票房突破17.19亿元，成为中国影史二维动画票房冠军。

图像生成现象/趋势

16:23

Artificial Intelligence News（RSS）

AI红队测试解析：是什么及为何需要

AI红队测试通过模拟提示注入、数据操纵、越狱等真实攻击场景，系统性探测模型、智能体及应用的安全缺陷。研究显示AI安全事件从2024年233起增至2026年362起，凸显测试必要性。红队测试可提升模型安全性、对齐NIST AI RMF与EU AI Act等框架、加快事件响应并增强系统韧性。主要服务商包括：CBIZ Pivot Point Security（覆盖API、RAG、智能体工作流与MCP，结合手动测试与治理）；Reply（融合威胁建模、对抗攻击模拟与持续监控）；Mindgard（自主红队复制攻击者技术并提供运行时防御）。

安全/对齐教程/实践

16:00

IT之家（RSS）

Perplexity CEO 斯里尼瓦斯：黄仁勋教他保持危机感，马斯克教他工作不应仅由金钱驱动

Perplexity CEO 斯里尼瓦斯分享创业经验：从英伟达 CEO 黄仁勋学到保持危机感——英伟达市值 5 万亿美元、两年内营收预计 5000 亿美元，但黄仁勋经营公司像 30 天后就会倒闭；从马斯克学到工作不能仅由金钱驱动——SpaceX 薪酬围绕火星殖民地目标设计。他不认同卖掉公司退休，认为创始人应永远工作。Perplexity 正寻求新一轮融资，投后估值 200 亿美元，投资方包括软银、英伟达和贝索斯。

大佬观点搜索

16:00

IT之家（RSS）

高通CEO安蒙：正设计40多款新AI设备，智能体将取代应用

6月16日，高通CEO安蒙表示公司正推进40多款新型AI设备的设计工作，为智能体浪潮做准备。这些设备涵盖珠宝饰品、带摄像头耳机、胸针、手表等可穿戴形态，具备情境感知能力，用户可通过语音随时调用智能体。安蒙认为智能体将取代传统应用，例如无需打开银行App即可通过智能体即时调取交易记录。他看好智能眼镜前景，目前年出货量已达数千万副，预计几年后增至数亿副，最终市场规模可与智能手机媲美。

智能体大佬观点端侧

16:00

IT之家（RSS）

微软称保守假设下典型AI查询耗水量少于1滴水

微软6月15日博文引述《Joule》研究：典型AI查询耗电0.16–0.60瓦时（约40瓦电脑运行15–60秒），为先前文献的1/4–1/20；冷却用水0.0–0.067毫升，中位数约1/100茶匙，少于1滴。10亿次查询场景下基础耗电约0.7吉瓦时，经效率优化可降至约0.3吉瓦时；即使10%请求为长任务，能耗仍可下降过半。

数据/训练现象/趋势