AIHOT

5月1日

10:13

歸藏(guizang.ai)@op7418

67

用户原本抱着尝试心态使用Codex，结果该AI工具仅用一个下午就协助开发出了一款非常完整的、类似《杀戮尖塔》的卡牌游戏。目前，该项目的全部代码和客户端均已开源，可供公众体验和测试。这展示了Codex在游戏开发辅助方面的高效与强大能力。

智能体OpenAI开源/仓库教程/实践

10:13

歸藏(guizang.ai)@op7418

62

Codex智能解析游戏素材包，自动拼图归类

用户让Codex处理一个包含上千张图片的游戏素材包，Codex在没有具体指令的情况下，自主将每个文件的图片拼接成一张包含图片和文件名的大图。这种方法让用户能通过单张图快速浏览文件夹内所有素材的样式，找到所需素材后，只需将文件名拖入素材库修改即可，展现了其强大的自动化处理能力。

智能体OpenAI多模态教程/实践

10:11

阿绎 AYi@AYi_AInotes

64

AI颠覆3D网站开发：零代码一个下午完成万元级原型

作者利用Emergent和Claude Agent，无需编写Three.js代码或搭建环境，仅通过上传参考视频和描述需求，即在一个下午内全自动生成并迭代出可运行的3D交互网站原型。成本仅为每月20美元Claude订阅费，而以往同类外包项目报价高达8000至15000美元，标志着3D网站开发门槛已大幅降低。

智能体Anthropic教程/实践编码

10:11

阿绎 AYi@AYi_AInotes

63

Cursor SDK发布：AI编程Agent融入日常工具，开启新时代

Cursor SDK正式发布，标志着AI编程能力成为可嵌入基础设施。其演示中，AI Agent Uma能通过Gmail和Google Chat自动处理客户问题：读取邮件、分析GitHub仓库与Stripe结账流程，并输出结构化报告，将bug处理时间从数小时大幅缩短至几分钟。该SDK允许将同一生产级Agent集成到Slack、Jira等日常工具乃至CI流水线中，使用与桌面端相同的运行时和模型。开发者角色正从编写代码转向指挥Agent，Cursor也由此向AI编程时代的操作系统演进，预示着一个新时代的开启。

阿绎 AYi：我等了整整一年的东西，终于来了， Cursor今天正式发布了它的SDK，这回可远不只是又一个编程工具的小更新，可以说是人类历史上第一次，把生产级的编程能力…

智能体产品更新部署/工程

10:09

Elon Musk@elonmusk

61

Grok Grok-4.3 的发布价格低于 Grok-4.2，同时智能体性能大幅跃升：在 @ArtificialAnlys 的 GDPval-AA 基准上 ELO 分数提升 321 分至 1500，尽管价格更低，却超越了其他顶级模型。

xAI推理模型发布

关联讨论 3 条

09:47

ChatGPT@ChatGPTapp

52

ChatGPT 图像 2.0TM️

OpenAI产品更新图像生成

09:46

Sam Altman@sama

18

人工地精智能已实现

OpenAI其他

09:45

Orange AI@oran_ge

19

AI 推荐我读这本书，我就买了昨晚8点开始看，看到9点就困了然后一觉睡到早晨6点，睡了整整9小时好书啊

其他搜索

09:45

Orange AI@oran_ge

52

作者看到他人展示的录屏后感到震撼，因为过去需要工作室耗时月余才能完成的复杂项目，现在借助Codex，一个人仅用一个下午就开发出了一个非常完整的、类似《杀戮尖塔》的卡牌游戏。该游戏的代码和客户端均已开源。此事让作者深切感受到了AGI（通用人工智能）带来的生产力变革。

歸藏(guizang.ai)：本来是想随便玩一下的。没想到 Codex 真的用一下午帮我开发了一个非常完整的类似《杀戮尖塔》的卡牌游戏。代码和客户端都已经开源了，大家可以试试

OpenAI现象/趋势编码

09:45

宝玉@dotey

62

OpenAI为Codex CLI推出Ralph loop目标循环功能

OpenAI在Codex CLI 0.128.0版本中正式推出Ralph loop功能，通过新增的/goal命令实现目标驱动的持续执行。用户只需在配置文件中启用该功能，即可为AI助手设定一个目标，系统将自动保持该目标在多轮对话中的连续性，直至任务完成。此举简化了工作流程，用户无需再手动编写脚本或借助外部工具进行状态维护。该功能目前仅限终端CLI使用，桌面应用程序暂未支持。

智能体OpenAI产品更新编码

09:17

ChatGPT@ChatGPTapp

11

很快【引用 @JoshuaKushner】：让数据中心在美学上变得美丽

OpenAI行业动态

09:16

Ethan Mollick@emollick

18

我觉得大家应该都能接受这一点。

大佬观点现象/趋势

09:16

dax@thdxr

36

我的动态里有一阵没出现普通的编程讨论了这类事情正是编程工作的本质，试图找到更好的方式来表达逻辑你从来都不"必须"这样做，本可以硬着头皮上并获得相同的结果而现在你可以把AI扔给这些难题，它就会用无限的条件语句埋头苦干那个臃肿的组件但我怀疑问题最终仍然会浮现

大佬观点编码

09:15

meng shao@shao__meng

60

Karpathy 在 Sequoia Ascent 2026 的炉边对话，从 Vibe Coding 到 Agentic Engineering

Karpathy指出，LLM的核心价值在于创造新可能性（如取代传统代码的MenuGen、.md技能和知识库），而非仅加速旧流程。模型能力呈现“锯齿状”分布，由任务可验证性和商业利益共同塑造。未来将进入“Agent原生”经济，基础设施需面向智能体设计，强调信息的可读性，Agentic Engineering成为新兴工种，神经计算可能主导任务处理，经典CPU退化为协处理器。

智能体大佬观点编码

关联讨论 2 条

09:15

宝玉@dotey

63

Demis Hassabis谈AGI瓶颈、智能体现状与科学突破

Demis Hassabis认为当前AI范式（预训练+RLHF+思维链）可能是AGI架构的一部分，但仍有50%概率需要一两个关键突破，未解决持续学习、长程推理和记忆等问题。他指出，百万token上下文窗口处理实时视频仅够20分钟，现有方法如同“用胶带糊住”。AlphaGo时代的技术正被重新引入基础模型以推动进步。智能体尚处实验阶段，投入产出比不匹配。完整虚拟细胞等科学突破还需约10年，关键瓶颈是活细胞成像技术。

智能体DeepMind大佬观点推理

09:15

宝玉@dotey

30

这不就是 claude code 的 /btw 吗？为啥要用个新名字叫 /side ！

大佬观点

09:13

Marc Andreessen 🇺🇸@pmarca

36

推文指出，社会在4-5年内从对气候变化的世界末日式恐慌转向几乎无人关注，这种转变揭示了过度炒作风险的危害。虽然围绕气候变化形成的末日论调显得荒谬，但问题并未真正消失。这一教训对当前关于AI风险的讨论具有警示意义：过度渲染AI的 apocalyptic 风险可能导致公众疲劳，反而忽视实际存在的长期挑战。风险沟通需要避免陷入短期恐慌与长期漠视的循环。

大佬观点安全/对齐

09:10

ginobefun@hongming731

61

AI时代软件开发、商业逻辑与工程实践的根本性转变

Andrej Karpathy提出软件3.0时代，编程核心转向上下文工程，并区分了Vibe Coding与Agentic Engineering两种开发姿态。OpenAI总裁Greg Brockman指出，算力套利是商业模式，人类注意力已成为新瓶颈，并估算AGI进程已完成八成。Anthropic的Claude Code团队则将Prompt Caching提升为核心工程纪律，通过优化prompt布局和更新机制，将缓存命中率作为关键SLA监控，以控制成本并保证系统性能。

智能体OpenAI现象/趋势编码

09:10

ginobefun@hongming731

54

软件3.0与AI编程进展摘要

Karpathy提出软件3.0概念，编程核心从写代码转向提供上下文，并区分Vibe Coding与Agentic Engineering两种模式。OpenAI总裁Brockman将AGI瓶颈从算力移至人类注意力，估计已完成80%。Anthropic分享Claude Code实战，以Prompt Caching命中率为SLA监控，将“上下文即新代码”转化为工程纪律。

智能体AnthropicOpenAI大佬观点

09:10

Berryxia.AI@berryxia

63

Geometry成为AI建筑关键层，OpenGeometry打通文本到CAD全流程

推文指出，Geometry（几何）已成为AI在建筑领域缺失的关键层。@Bootsblac开发的OpenGeometry项目，实现了从文本或平面图到最终渲染的完整流程贯通，使得精确控制成为可能。其核心能力包括：直接从文本或平面图生成精确的BREP CAD模型；利用Three.js进行实时渲染，并由Google AI驱动，形成端到端的全流程。该项目已完整开源，可供使用。

多模态开源/仓库开源生态

08:46

Ethan Mollick@emollick

59

一项针对墨西哥女性的随机试验发现，使用基于认知行为疗法训练的AI对话代理的心理健康应用Mindsurf，在六个月内使使用者心理健康水平提升了0.3个标准差，且未增加严重病例。该干预还改善了睡眠质量、健康行为、日常功能及劳动力市场表现（如减少缺勤），其效益远超成本。尽管使用者寻求传统心理治疗的比例有所增加，但这并非心理健康改善的主因。效果具有持续性，短期使用可通过促进行为的持续改变带来长期改善。

论文/研究

08:45

Orange AI@oran_ge

49

结构，是我最近思考最多的词元

作者以“结构”为核心，系统阐释了其在产品、AI Agent、大模型、人际关系及公司组织中的决定性作用。做产品是设计引导用户的“河床”；开发Agent是构建管理上下文的框架；训练大模型实为提取语料中的“结构能”。人与公司的效率同样取决于结构能量。作者指出，当前一些大厂的AI转型仅“加石头”而不变革组织架构，尤其由中层主导改革存在根本矛盾。最终强调，改变命运需从改变底层结构开始。

智能体大佬观点

08:45

Nathan Lambert@natolambert

39

下次蒸馏 OpenAI 模型时，我会特别注意放大妖精。

OpenAI大佬观点

08:44

elvis@omarsar0

58

DeepSeek-V4-Pro 在智能体编码任务中表现惊艳

测试者使用 DeepSeek-V4-Pro 在 Pi 编码智能体上构建了一个 LLM 知识库，对其开箱即用的表现感到震撼。这是首个在推理能力上媲美 Claude 和 Codex 的开源权重模型，且成本效益高，支持 100 万上下文长度。该模型无需复杂配置即可在基础框架中直接运行，擅长智能体编码和知识密集型推理任务，能跨公司文档、论坛、论文和代码库进行多步骤研究、代码生成与上下文推理。其高效运行得益于 Fireworks 的市场最快推理速度及混合注意力设计，将 KV 缓存降至 10%，推理计算量减少近 4 倍，实现了快速且低成本的实践部署。

智能体DeepSeek开源生态推理

08:16

Ethan Mollick@emollick

61

xAI发布Grok 4.3，其在Artificial Analysis智能指数得分53，性能优于Grok 4.20、Muse Spark等模型。核心改进在于"性价比"：输入与输出价格较前代分别降低约40%和60%，且基准测试套件运行成本下降。该版本在GDPval-AA等现实智能体任务上表现显著提升，指令遵循与客服任务强劲。但推文指出，其表现仍落后于最新的中国开源模型，并批评GDPval-AA测试本身价值有限。

大佬观点行业动态评测/基准

08:16

dax@thdxr

19

这怎么已经比 GitHub 网页版更好了【引用 @kitlangton】：一个小小的 ghui 更新

大佬观点编码

08:15

Peter Steinberger 🦞@steipete

52

codex 不会创建随机的 markdown 文件 😉 【引用 @aaronp613】：Apple 在今天的 Apple Support 应用更新（v5.13）中意外留下了 Claude.md 文件

安全/对齐编码行业动态

08:13

Marc Andreessen 🇺🇸@pmarca

38

令人担忧。https：//nypost.com/2026/04/30/business/inside-the-ai-doom-machine-and-who-is-benefiting-from-it/

安全/对齐行业动态

08:13

Marc Andreessen 🇺🇸@pmarca

27

推文指出，社会对气候变化的末日式恐慌在四五年内已近乎消散，但问题并未真正解决。这揭示了过度炒作风险的危害：当公众注意力转移，实质威胁可能被忽视。作者认为这一教训同样适用于当前关于AI风险的讨论，警示人们应避免陷入类似的"末日崇拜"循环，即狂热炒作之后陷入冷漠，反而忽略了对真实风险的持续关注与应对。

大佬观点安全/对齐

08:10

Berryxia.AI@berryxia

62

在这场访谈中，Karpathy 分享了他作为程序员在 AI 时代的亲身经历与深刻洞见

Karpathy指出，2025年12月AI生成代码从需修改变为直接可用，标志进入Vibe Coding状态。软件开发进入Software 3.0大语言模型时代，编程核心转为通过prompt等操纵LLM。LLM能力呈锯齿状智能，在可验证、RL优化领域强，但常识任务上易犯错。他区分Vibe Coding（提高开发下限）与Agentic Engineering（守住质量、安全上限），强调人类理解、品味和判断仍最宝贵。未来可能转向神经计算机，基础设施需Agent-first。

智能体大佬观点现象/趋势编码

08:10

Berryxia.AI@berryxia

25

苹果内部正在使用一款名为 AFM Playground 的应用程序，它看起来与 ChatGPT 非常相似，但使用的是苹果的 Foundation Models。不知道能搞出来个啥？【引用 @MWRevamped】：（ #appleinternal ）

产品更新多模态

08:10

Berryxia.AI@berryxia

54

Gemini Embedding 2 已正式发布！ RAG 知识库的应用又可以支持的更好了。

Google检索增强模型发布

08:10

Berryxia.AI@berryxia

42

这几天使用Cursor 就发现在最后一步会有一个bug检测什么的的执行MCP一直提示我。现在Curosr针对企业和Team版本有专门的针对安全漏洞做了审核的Agent！

智能体产品更新安全/对齐

08:10

Berryxia.AI@berryxia

68

利用AI工具链快速生成360度沉浸式游戏场景

推文介绍了一种利用AI工具链快速创建360度全景沉浸式小游戏体验的方法。核心流程是：首先，向图像生成AI（Agent）提供一个简单提示，例如让其研究AI公司吉祥物并生成一个360度全景动物园图像。然后，将生成的全景图输入Codex，即可获得相应的3D视图，从而构建出游戏场景。这种方法旨在简化沉浸式内容的创作门槛，标志着一种新的内容生成时代的到来。

图像生成多模态教程/实践

08:10

Berryxia.AI@berryxia

53

2026年你必须了解的6个大语言模型（LLM）知识库专业术语！

本文介绍了2026年构建高效团队LLM知识库必须掌握的六个核心术语。LLM知识库是让大语言模型处理原始资料并自主检索回答的系统，难点在于团队适配。持续数据摄取能自动从Slack、CRM等工作工具同步信息。来源可信度分级帮助区分官方决策与聊天观点等不同价值信息。时效性监控可主动发现信息矛盾并降低过时内容权重。自主维护实现文档随工作进展自动更新。这些技术共同对抗知识漂移，即文档与现实间缓慢产生的信息偏差，这是导致AI代理给出错误答案的主要根源。

检索增强教程/实践

08:10

Berryxia.AI@berryxia

中文摘要暂缺，点击查看原文。

08:10

Berryxia.AI@berryxia

60

Pine AI首席科学家李博杰提出新方法，通过模型回答1400道冷知识题的能力来估算其参数量。原理是存储事实需占用参数空间，先利用已知开源模型拟合曲线，再将闭源模型得分投射得出估算。研究评估了92个闭源模型，结果显示GPT-5.5以约9.7T参数断层领先，Claude Opus 4.6约5.3T次之。主流旗舰模型如GPT-5、Claude Opus 4.7参数集中在3-4T量级。分析还推断GPT-5的.x版本及Claude Opus 4.7等可能是全新训练而非微调产物，并指出MoE模型的知识容量取决于总参数量。评测工具与数据已开源。

思维怪怪：有人做了一个很好玩的研究，用冷知识来给大模型称体重，得出结论：GPT-5.5 约 9.7T、Opus 4.7 约 4T、Grok-4 约3.2T。。。 Pin…

AnthropicOpenAI数据/训练论文/研究

08:10

Berryxia.AI@berryxia

58

Claude Security公测启动，代码漏洞检测修复一体化

刚刚看到Claude Security 现已进入公测阶段！可以让Claude 帮你检查漏洞了啊！目前已经内置于网页版的 Claude Code 中。只需将其指向一个代码仓库，即可获得经过验证的漏洞发现结果，并在正在编写代码的同一位置修复它们！这个功能挺实用，什么时候可以直接cc里可以用。地址：https://claude.com/product/claude-security

Anthropic产品更新编码

08:10

Berryxia.AI@berryxia

53

智能体AI架构设计的心智模型与七层逻辑

基于Anthropic关于智能体AI的博客，作者提炼出一个用于理解和设计智能体AI架构的心智模型。该模型以明确任务目标为前提，核心架构包含七个层次：编排层负责全局调度；智能体层由多智能体分工协作；工具层提供搜索、API等能力支持；记忆层存储长短期信息；监控层实时追踪每一步执行；可靠性与故障管理层处理错误、重试与降级；治理与安全层确保合规、审计与数据安全。监控层被视为最关键环节，而故障管理支持自动处理与人工介入。

智能体Anthropic教程/实践

08:10

Berryxia.AI@berryxia

54

Grok Image Agent网页版Beta上线，实现端到端创意制作

Grok Image Agent网页Beta版已向付费用户灰度推送。它是一个全能创意Agent，能在无限开放画布上独立完成从规划、生成、编辑到迭代的全流程创作。用户只需下达指令，即可观看其在同一无缝工作区内自动执行任务，例如生成一分钟电影短片、创作整套漫画或构建UGC产品故事。这标志着从简单提示词到端到端创意生产的真正飞跃，是Grok Imagine迄今为止最重大的升级。

智能体xAI产品更新图像生成