AIHOT

5月1日

07:45

dax@thdxr

man opencode的撤销功能真是救了我大忙，我几乎每次会话都会用到它，当我不可避免地给出一个糟糕的提示时

大佬观点编码

07:41

Berryxia.AI@berryxia

Pine AI首席科学家李博杰提出新方法，通过模型回答1400道冷知识题的能力来估算其参数量。原理是存储事实需占用参数空间，先利用已知开源模型拟合曲线，再将闭源模型得分投射得出估算。研究评估了92个闭源模型，结果显示GPT-5.5以约9.7T参数断层领先，Claude Opus 4.6约5.3T次之。主流旗舰模型如GPT-5、Claude Opus 4.7参数集中在3-4T量级。分析还推断GPT-5的.x版本及Claude Opus 4.7等可能是全新训练而非微调产物，并指出MoE模型的知识容量取决于总参数量。评测工具与数据已开源。

思维怪怪：有人做了一个很好玩的研究，用冷知识来给大模型称体重，得出结论：GPT-5.5 约 9.7T、Opus 4.7 约 4T、Grok-4 约3.2T。。。 Pin…

AnthropicOpenAI数据/训练论文/研究

07:36

OpenRouter@OpenRouter

精选68

@xai 的新模型 Grok-4.3 现已在 OpenRouter 上线！ Grok-4.3 以比 Grok-4.2 更低的价格发布，同时在代理性能上实现大幅跃升：在 @ArtificialAnlys 的 GDPval-AA 基准上 ELO 分数提升 321 点至 1500，尽管价格更低，但仍超越了其他顶级模型。

智能体xAI模型发布评测/基准

关联讨论 1 条

推荐理由：Grok-4.3 降价但性能反升，agentic 跑分直接到 1500，如果之前觉得 Grok 贵而没试过，这次可以上车了。

07:34

Berryxia.AI@berryxia

中文摘要暂缺，点击查看原文。

07:30

Berryxia.AI@berryxia

2026年你必须了解的6个大语言模型（LLM）知识库专业术语！

本文介绍了2026年构建高效团队LLM知识库必须掌握的六个核心术语。LLM知识库是让大语言模型处理原始资料并自主检索回答的系统，难点在于团队适配。持续数据摄取能自动从Slack、CRM等工作工具同步信息。来源可信度分级帮助区分官方决策与聊天观点等不同价值信息。时效性监控可主动发现信息矛盾并降低过时内容权重。自主维护实现文档随工作进展自动更新。这些技术共同对抗知识漂移，即文档与现实间缓慢产生的信息偏差，这是导致AI代理给出错误答案的主要根源。

检索增强教程/实践

07:25

Berryxia.AI@berryxia

利用AI工具链快速生成360度沉浸式游戏场景

推文介绍了一种利用AI工具链快速创建360度全景沉浸式小游戏体验的方法。核心流程是：首先，向图像生成AI（Agent）提供一个简单提示，例如让其研究AI公司吉祥物并生成一个360度全景动物园图像。然后，将生成的全景图输入Codex，即可获得相应的3D视图，从而构建出游戏场景。这种方法旨在简化沉浸式内容的创作门槛，标志着一种新的内容生成时代的到来。

图像生成多模态教程/实践

07:25

IT之家（RSS）

IT早报 0501：追觅 CEO 要求员工开通社媒账号；OPPO 将推四曲面手机；iPhone 18 Pro 相机大升级

本期IT早报主要内容包括：追觅科技CEO要求全体员工开通社交媒体账号并发布视频；OPPO计划下半年推出效仿苹果风格的四曲面设计手机；iPhone 18 Pro系列或将迎来史上最大相机硬件升级。此外，极越汽车关联主体进入合并重整程序，DeepSeek发布多模态模型技术报告，央视曝光部分充电头功率虚标，宇树发布起售价2.69万元的双臂人形机器人，比亚迪与高德地图达成充电合作，支付宝等17家支付机构牌照获续展，华为鸿蒙新版本占比提升，以及小米大屏旗舰手机预计5月下旬发布。

DeepSeek多模态推理行业动态

07:23

Simon Willison 博客

Codex CLI 0.128.0 新增 /goal 指令

OpenAI 的 Codex CLI 编码代理最新版本 0.128.0 引入了类似 Ralph 循环的功能。用户可通过设置 `/goal` 指令，让 Codex 持续循环执行任务，直至系统判定目标完成或达到预设的 token 预算上限。该功能主要通过自动注入的 `goals/continuation.md` 和 `goals/budget_limit.md` 提示模板实现，标志着 Codex CLI 在自主任务执行与预算控制方面的能力得到增强。

智能体OpenAI产品更新编码

07:21

Berryxia.AI@berryxia

这几天使用Cursor 就发现在最后一步会有一个bug检测什么的的执行MCP一直提示我。现在Curosr针对企业和Team版本有专门的针对安全漏洞做了审核的Agent！

智能体产品更新安全/对齐

07:19

Berryxia.AI@berryxia

Gemini Embedding 2 已正式发布！ RAG 知识库的应用又可以支持的更好了。

Google检索增强模型发布

07:17

Berryxia.AI@berryxia

苹果内部正在使用一款名为 AFM Playground 的应用程序，它看起来与 ChatGPT 非常相似，但使用的是苹果的 Foundation Models。不知道能搞出来个啥？【引用 @MWRevamped】：（ #appleinternal ）

产品更新多模态

07:16

Berryxia.AI@berryxia

在这场访谈中，Karpathy 分享了他作为程序员在 AI 时代的亲身经历与深刻洞见

Karpathy指出，2025年12月AI生成代码从需修改变为直接可用，标志进入Vibe Coding状态。软件开发进入Software 3.0大语言模型时代，编程核心转为通过prompt等操纵LLM。LLM能力呈锯齿状智能，在可验证、RL优化领域强，但常识任务上易犯错。他区分Vibe Coding（提高开发下限）与Agentic Engineering（守住质量、安全上限），强调人类理解、品味和判断仍最宝贵。未来可能转向神经计算机，基础设施需Agent-first。

智能体大佬观点现象/趋势编码

07:06

Peter Steinberger 🦞@steipete

OpenClaw宣布其群聊功能已大幅改进，建议用户体验新版对话机制。若此前使用GPT效果不佳，推荐切换至codex harness插件。同时启用两项改进可显著提升性能。此次更新使群聊体验更原生，具体改进包括优化对话感受、增强上下文跟进承诺、提升安全执行与管控、新增NVIDIA供应商及模型目录，并加速启动与修复插件/通道问题。

智能体GitHub开源/仓库教程/实践

07:06

Mistral AI@MistralAI

Mistral AI 入选 TIME100 2026 年 AI 领域前十最具影响力公司

Mistral AI 被列入 TIME100 2026 年最具影响力公司名单，并在人工智能类别中排名前十。公司强调其客户能够根据自己的条件在自有基础设施上运行前沿模型，这体现了自主性和数据控制优势。Mistral AI 感谢客户的信任和全球团队成员的贡献，同时祝贺所有今年被认可的企业。

开源生态行业动态

07:06

Berryxia.AI@berryxia

这一波GPT-Image-2出圈的原因感觉更多的是将其结合游戏真实的UI设计融合且效果出奇好。省token简单的prompt就可以完成，开发3D游戏也可以快速打好草稿。

OpenAI图像生成大佬观点

07:03

Simon Willison 博客

我们对 OpenAI GPT-5.5 网络能力的评估

英国人工智能安全研究所发布了对 OpenAI GPT-5.5 网络安全能力的评估结果。该模型在发现安全漏洞方面的能力与 Claude Mythos 相当，但不同于仍处于预览阶段的 Mythos，GPT-5.5 目前已可公开使用。此次评估是继该研究所先前对 Claude Mythos 进行评估后的又一重要测评。

AnthropicOpenAI安全/对齐

关联讨论 2 条

07:03

Berryxia.AI@berryxia

David Sacks 回应 AI 安全机构公告，解读 GPT-5.5-cyber 的网络攻击模拟能力

AI 安全机构宣布 OpenAI 的 GPT-5.5-cyber 成功完成多步网络攻击模拟，成为继 Anthropic 的 Mythos 后第二个端到端完成攻击链的模型。David Sacks 回应指出，此类模型并非魔法或末日武器，仅是能自动化网络安全任务的工具，且所有前沿模型（包括中国模型）预计将在约6个月内达到同等水平。他强调模型不创造漏洞，而是发现并帮助修补已有漏洞，从而增强系统安全。从“前AI”到“后AI”网络安全将经历重大升级，最终达到AI驱动攻防的新平衡。关键在于确保防御方优先获得模型访问权，且需加速此进程。GPT-5.5-cyber 因无token限制，可能成为首个防御方可实际使用的模型。

AnthropicOpenAI大佬观点安全/对齐

07:00

SemiAnalysis@SemiAnalysis_

平壤，2026年4月29日：人工智能基础设施有一个角落几乎无人深入报道，但每个人都想了解。他们正与超大规模云服务商/AI实验室达成数十亿美元的交易，并在计算领域迅速抢占市场份额。（1/4） 🧵

现象/趋势部署/工程

06:59

Artificial Analysis@ArtificialAnlys

xAI发布Grok 4.3模型：智能指数提升且成本大幅降低

xAI推出Grok 4.3模型，其在Artificial Analysis智能指数得分达53，超越Muse Spark等模型，较前代提升4分。模型在显著降低成本的同时保持智能水平，输入与输出价格分别降低约40%和60%。在真实世界智能体任务上表现突出，GDPval-AA基准得分大幅提升至1500 ELO，超越Gemini 3.1 Pro Preview等多款模型，但仍落后于GPT-5.5 (xhigh)。其在指令遵循和客服任务上表现强劲，但AA-Omniscience非幻觉率略有下降。

智能体xAI推理模型发布

关联讨论 2 条

06:55

OpenClaw🦞@openclaw

OpenClaw 2026.4.29 🦞 💬 群聊体验现在感觉好多了 📌 基于上下文的后续承诺 🔐 更安全的执行、配对和所有者控制 🟩 NVIDIA 提供商 + 模型目录 ⚡ 更快的启动速度 + 插件/频道修复群聊终于感觉是原生为智能体设计的了。 https：//github.com/openclaw/openclaw/releases/tag/v2026.4.29

智能体产品更新部署/工程

06:53

Berryxia.AI@berryxia

Stripe 重磅推出 Link CLI！

Stripe 发布 Link CLI 工具，旨在为 AI Agent 提供安全的支付解决方案。该工具允许 Agent 通过命令行生成一次性支付凭证，每次消费时用户会收到实时推送，并需通过 FaceID 等方式进行同步人工批准，从而确保每笔交易都经过用户确认，有效解决了 Agent 自主支付的信任问题。Claude 已成功使用该工具在 Gumroad 上自主购买礼物，完成了支付闭环。Link CLI 为 Agent 时代的应用提供了关键的支付基础设施，开发者可便捷集成，让 Agent 在受控前提下安全执行交易任务。

智能体GitHub产品更新

关联讨论 1 条

06:51

Luma@LumaLabsAI

物体是对的。比例不对。上传你的参考图。设定尺寸。Luma Agents 会处理后续的缩放调整。立即调整 → http：//lumalabs.ai/app

产品更新多模态

关联讨论 1 条

06:47

Artificial Analysis@ArtificialAnlys

Suno发布V5.5音乐生成模型，登顶双榜并推出个性化新功能

Suno公司最新发布的音乐生成模型V5.5，在Artificial Analysis的器乐和人声排行榜上均位列第一，性能较前代V5模型有显著提升。本次更新重点聚焦个性化与身份特征，推出了三项新功能：用户可通过上传人声样本生成定制演唱音色；可个性化定制最多三个反映自身风格的模型版本；系统还能学习用户偏好的音乐流派、情绪和风格，以提供个性化推荐。该模型已通过Suno平台向Pro和Premier订阅用户开放，年费订阅起价为每月8美元（约含500首歌曲生成额度），且包含商业使用权。

模型发布语音

06:43

Orange AI@oran_ge

人类又开始大型幻觉了 V4 写作都比 Opus 好了大家开心就好哈节日快乐

大佬观点

06:39

IT之家（RSS）

苹果 CEO 库克：Mac Studio 和 Mac Mini 将在未来数月内供不应求

苹果CEO蒂姆·库克在财报电话会议上表示，Mac mini和Mac Studio将在未来数月内持续供不应求，预计需几个月才能达到供需平衡。苹果低估了两款产品的需求，因其作为AI和智能体工具的优秀平台，客户认知速度快于预期。目前部分型号发货延迟已达数月，苹果已停售512GB RAM版Mac Studio，并停止接受某些大内存型号订单，基础款Mac mini在美国官网已显示缺货。

端侧行业动态

06:19

Peter Steinberger 🦞@steipete

过去几个月我对安全生态系统有了很多了解。很荣幸能与 @nvidia @OpenAI @Microsoft @GitHub @TencentHunyuan @convex @Atlassian @useblacksmith 合作保障 Claw 的安全。我们撰写了关于安全通告泛滥、实际修复方案、ClawHub、混沌代理以及那些公开协助强化 OpenClaw 的公司的内容。🦞 https：//openclaw.ai/blog/openclaw-security-in-public/

安全/对齐行业动态

06:09

Nathan Lambert@natolambert

蒸馏在很大程度上是行业标准，并非仅是中国实验室针对 OpenAI/Anthropic 的做法。许多美国公司也会蒸馏中国的（开源）模型。

DeepSeek大佬观点开源生态

06:04

Midjourney@midjourney

精选60

两个快速公告--我们推送了一项更新，提升了V8.1的图像质量和清晰度，特别是在SREFs、情绪板和HD图像方面，但整体效果您也应该能注意到！其次，V8.1现已在我们主网站和Discord上可用。尽情享受吧！

产品更新图像生成

推荐理由：V8.1更新提升图像锐度，常规打磨却恰好卡在SREF和moodboards的痛点上，对用Midjourney做视觉稿的算个小福音。

06:00

Microsoft Research@MSFTResearch

精选71

安全的智能体并不能保证由相互连接的智能体组成的生态系统是安全的。微软研究院研究了当AI智能体交互时会出现什么问题，以及为什么网络层面的风险需要新的方法。了解更多：https：//www.microsoft.com/en-us/research/blog/red-teaming-a-network-of-agents-understanding-what-breaks-when-ai-agents-interact-at-scale/

智能体Microsoft安全/对齐论文/研究

推荐理由：大多数 Agent 安全研究还在测单个模型，微软这篇把场景放大到多个 Agent 交互的网络，发现了只靠单体安全挡不住的生态风险，做多 Agent 系统的人最好读一下。

05:59

OpenClaw🦞@openclaw

事实证明，最安全的龙虾是每个人都能检查的那一只。我们撰文探讨了咨询洪流、真正的修复方案、ClawHub、混沌代理，以及那些公开帮助强化OpenClaw的公司。🦞 https：//openclaw.ai/blog/openclaw-security-in-public/

安全/对齐开源生态

05:57

Greg Brockman@gdb

Codex 应用正变得不可思议

OpenAI大佬观点编码

05:52

Tibo@thsottiaux

你现在可以让Codex持续运行数天。使用GPT-5.5，它可以根据你的要求构建完整的操作系统内核，或在代码库中发现关键错误，或优化你的数据库架构，或者……可能性无穷无尽。【引用 @fcoury】：/goal功能也随Codex CLI 0.128.0版本上线。我们对Ralph循环的实现：让目标在多轮对话中保持活跃。不达目标绝不停止。由我的同事兼OpenAI导师Eric Traut（即Pyright的开发者）构建。这是我日常合作的最强者之一。

智能体OpenAI产品更新

关联讨论 2 条

05:41

ginobefun@hongming731

本文介绍了一套提升内容在主流AI（如ChatGPT、Claude）中可见性的实用方法，核心是主动提供结构化数据。关键步骤包括：在网站部署`llms.txt`文件概述站点；在`robots.txt`中允许AI搜索爬虫；向Google、Bing等提交Sitemap并利用其工具监测AI引用；参与Perplexity出版者计划；使用JSON-LD结构化数据标记内容；甚至可为AI创建专用知识端点，集中提供实时更新的结构化信息。这些做法旨在帮助AI更准确、高效地理解内容，而非制造垃圾信息。

Tw93：这几天，有好几个小伙伴@我说，我的一些作品在他们问 AI 的时候主动被推荐了，很神奇，我想了想感觉啥也没有做，居然可以被收录，那要不要做点更体系化的事情来整一整…

搜索教程/实践部署/工程

05:39

TestingCatalog News 🗞@testingcatalog

ANTHROPIC 👀： Claude 将获得一项名为 "Cardinal"（内部名称）的新功能！ > 用户将能够选择一个月份，Claude 将向他们展示统计数据，包括他们最关注领域的高亮总结。 - "这是你对话内容聚集的领域。" - "这些是你使用的主要工作风格。" > 这项新功能将在设置中提供。 > 网页版和桌面端应用的设置布局也将更新。可视化记忆！🔥

Anthropic产品更新

05:28

Marc Andreessen 🇺🇸@pmarca

有效。【引用 @Birdyword】：许多人似乎不希望数据中心建在自家附近，尽管它们不会造成太多交通拥堵，且常为地方带来大量税收。我猜部分原因是因为它们太丑了！我的建议：

大佬观点现象/趋势

05:24

Simon Willison 博客

Zig 语言创始人 Andrew Kelley 谈如何识别 AI 生成的代码

Zig 语言创始人 Andrew Kelley 反驳了“无法识别谁在使用 LLM”的常见误解。他指出，尽管可能未捕获所有由 AI 辅助的拉取请求，但人类错误与 LLM 的幻觉存在本质区别，使得后者易于识别。他进一步比喻道，习惯于使用 AI 代理编程的人带有一种“数字气味”，就像吸烟者进入房间时，不吸烟者能立刻察觉一样。Kelley 澄清自己并非反对使用 LLM，但明确禁止在 Zig 项目中使用 AI 辅助生成的代码。

大佬观点开源生态编码

05:19