AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2161 条
全部一手资讯X论文
标签「OpenAI」清除
歸藏(guizang.ai)@op7418 · 5月11日75

来了!藏师傅的 PPT Skill 更新了第二套主题 新主题更加简洁美观,适合讲一些数据和事实性的内容 而且支持 4 种颜色、20 多个版式。 支持用 Codex 内置的 GPT-2.0 帮你生成配图和美化截图。 还能让它帮你生成各种平台的封面,以及公众号配图。 文章里详细讲了一下怎么用,还有一些小技巧。

译藏师傅的PPT Skill工具发布了第二套主题,设计更简洁美观,适用于数据和事实性内容的演示。新主题提供4种颜色和20多种版式选择。其核心功能是集成了Codex内置的GPT-2.0模型,可辅助用户生成演示配图、美化截图,并能自动生成适用于各平台(如公众号)的封面图与配图。相关文章详细介绍了具体使用方法及操作技巧。

Peter Steinberger 🦞@steipete · 5月11日50

Birdclaw has my complete twitter archive, so I can ask Codex for any old weird tweet I ever favorited or bookmarked. https://birdclaw.sh

译Birdclaw保存了我完整的推特存档,因此我可以向Codex查询任何我曾点赞或收藏的旧推文。https://birdclaw.sh

Greg Brockman@gdb · 5月11日47

/goal is underrated

译/goal 被低估了 GPT-5.5 extra high thinking 配合 /goal 刚刚做到了。 我震惊了。

向阳乔木@vista8 · 5月11日56

当下AI写代码最难的 benchmark 叫 ProgramBench。 Claude Opus 4.7 最好,也只在"接近完成"这个指标上拿到了 3%,GPT-5、Gemini 系列,全是零。 这个测试是 Meta、Stanford、Harvard 的研究团队搞的: 给 AI 一个编译好的二进制文件和它的文档,让 AI 从零把这个程序重新写出来。 没有源代码,不能反编译,不能上网查资料。 从小工具到大项目都有,有jq、ripgrep 这种命令行小工具。 也有 FFmpeg、SQLite、PHP 编译器这种级别。 官网:https://programbench.com/ 论文:https://arxiv.org/abs/2605.03546

译ProgramBench是Meta、斯坦福和哈佛团队推出的高难度AI代码生成基准测试。它要求AI仅根据二进制文件及文档,在无法反编译和联网的条件下,从零重写原程序。测试项目涵盖从jq到FFmpeg、SQLite乃至PHP编译器级别。目前表现最佳的Claude Opus在“接近完成”指标上仅达3%,GPT-5和Gemini系列通过率均为零,凸显了AI在复杂软件工程任务上的巨大挑战。

Tibo@thsottiaux · 5月11日50

We are Codex. We are legion. We do not miss. We do ship. Expect us. DM me if you have a track record of solving near impossible problems and want to work on the future of computing. We work across research, infra, agent harness and products. Currently hiring in San Francisco only.

译我们是Codex。我们人数众多。我们从不失手。我们交付成果。敬请期待。 如果你有解决近乎不可能问题的履历,并希望投身计算的未来,请私信我。我们的工作涵盖研究、基础设施、智能体开发与产品领域。目前仅在旧金山招聘。

Greg Brockman@gdb · 5月11日30

agents make for a surprisingly great product

译智能体构成了令人惊喜的优秀产品

meng shao@shao__meng · 5月11日65

Codex 如何重塑产品营销的工作方式 @pranaveight 是 OpenAI Codex 的首位产品营销经理(PMM),他通过这篇文章,向我们展示了一个关键转变:Codex 已经从"写代码的工具"变成了"知识工作者贴近信息源头的工作台"。 Codex 的真正价值,是让 PMM(乃至任何跨职能角色)能够直接接触"原始素材",而不是等待别人把上下文整理好递给你。 · 过去:等 PM/工程师讲解 → 再做定位、写文档、对齐团队。 · 现在:直接读代码库、Linear、Slack、Notion → 带着已有的地图去和人沟通。 # 三个具体用法(按抽象层级递进) 1. 个人助理(Personal Assistant)—— 解决"信息过载" · 一个名为 Assistant 的 Codex 自动化任务,每小时巡检 Slack、Gmail、Notion、Figma、Google Drive。 · 关键不在"拉通知",而在预分类:紧急 / 与本周优先级相关 / 干系人请求 / 仅供知悉。 · 价值:把"散落在 5 个工具里的信号"变成"一份带初步判断的清单"。人只需要在这份清单上叠加判断力。 这一层解决的是 注意力管理 问题。 2. 跟上产品与工程(Product & Eng Tracking)—— 解决"理解滞后" · 把 Codex 指向 repo、Linear、Notion、Slack 频道。 · 让它回答:做了什么 / 在做什么 / 最近改了什么 / 功能实际行为 / 实现中的边界情况和限制。 · 然后再去和 PM/工程师对话,带着地图谈,而不是从零开始。 这一层解决的是 贴近产品(get close to the product) 这个 PMM 的老问题。 历史上 PMM 靠读 spec、参加评审、追线程来做这件事;现在可以直接读源码和真实状态。 3. 跨职能对齐(Cross-functional Alignment)—— 解决"协作熵增" · 让 Codex 横扫 Slack 线程、会议纪要、Google Docs、Notion、launch tracker。 · 输出一份对齐文档骨架:已决定的 / 仍开放的 / 谁负责什么 / 自上次更新以来的变化 / 需要决策的 / 下一里程碑。 · 人来做:调语气、校准确性、加判断。 这一层解决的是 信息可见性(legibility)。 作者强调一句很重的话:"不写文档也有代价"——决策被掩埋,团队从略有偏差的"真相版本"出发。 # 隐藏在三个用法背后的方法论 1. Assistant 处理的对象:信号/通知 Codex 的角色:聚合 + 初步分类 人的角色:判断什么真正重要 2. Product Tracking 处理的对象:状态/事实 Codex 的角色:跨源汇总当前实况 人的角色:提出更深的问题 3. Alignment Docs 处理的对象:叙事/共识 Codex 的角色:生成可编辑的初稿 人的角色:锐化信息、识别 gap # 对 PMM 角色的重新定义 "Codex 并没有抹掉产品营销中属于人的部分。如果有什么变化,是让那些部分变得更重要了。" 具体而言,AI 接管了"汇总、追踪、复述"之后,PMM 真正不可替代的部分浮现出来: · 判断何时一个表述太强(claim is too strong) · 判断何时一条信息会落地很糟 · 察觉团队在彼此错过(talking past each other) · 看出launch plan 中明显的漏洞 换句话说:AI 让"信息搬运型 PMM"贬值,让"判断型 PMM"升值。 # 对其他角色的可迁移启示 虽然文章讲 PMM,但底层模式适用于任何"上下文密集型"岗位(PM、TPM、Chief of Staff、Engineering Manager、Founder): 1. 不要让 AI 替你做判断;让它替你做"判断前的准备工作"。 文中反复出现"grounded first pass"(有据可依的初稿)这个表述,是个关键心智模型。 2. 把 AI 接入"工作真正发生的地方",而不是单独的对话框。 价值来自 Codex 能同时看 GitHub + Linear + Slack + Notion,而不是任何单点能力。 3. 自动化的杠杆点是"每小时跑一次",不是"问一次答一次"。 Assistant 案例是 cron 化的 agent,不是聊天机器人。 4. 越接近 source of truth,越能少做无用功。 "等别人总结给你"这件事,正在变成一种可以被消除的成本。

译OpenAI Codex的首位产品营销经理阐述了其核心价值:从“写代码的工具”转变为让知识工作者直接接触代码库、Slack等“信息源头”的工作台。具体通过三层应用重塑PMM角色:作为个人助理聚合多工具信息以管理注意力;跟踪产品与工程状态以直接理解源码;生成跨职能对齐文档初稿以提高信息可见性。AI接管了汇总与追踪工作,使人能更专注于不可替代的判断部分,如评估表述、识别计划漏洞。这一让AI做“有据可依的初稿”、接入真实工作场景并实现自动化的模式,可迁移至任何上下文密集型岗位。

Chubby♨️@kimmonismus · 5月11日17

Don’t know if I’m more excited for gpt 5.6, opus 4.8 a new Kimi or GLM model. What a freaking amazing time to be alive

译不知道我是更期待 GPT 5.6、Opus 4.8、新版 Kimi 还是 GLM 模型。 活在当下真是无比精彩的时代。

宝玉@dotey · 5月11日57

http://x.com/i/article/2053591256110940160 # 深度拆解:AI Agent Harness 的构造【译】 本文将深入探讨 Anthropic、OpenAI、Perplexity 和 LangChain 究竟在开发什么。我们将聊聊编排循环、工具、记忆、上下文管理,以及那些将“无状态”的大语言模型(LLM)转变为全能智能体(Agent)的底层机制。 你可能已经开发过聊天机器人,甚至可能用一些工具搭建了一个 ReAct 循环 (ReAct:Reason + Act,一种让模型在行动前先进行推理的模式)。跑 Demo 的时候看着挺好,但一旦投入生产环境,系统就会开始掉链子:模型会忘记三步前做了什么,工具调用悄悄报错,上下文窗口(Context Window)里塞满了毫无意义的垃圾信息。 问题其实并不在模型本身,而在模型外围的基础设施。 LangChain 证明了这一点:他们仅仅通过改变包裹大语言模型的底层架构——模型没变,参数没变——就让系统在 TerminalBench 2.0 (一个衡量 AI 智能体处理命令行任务能力的权威基准测试) 上的排名从 30 名开外飙升到了第 5 名。另一项研究则通过让大语言模型自己去优化这套架构,实现了 76.4% 的通过率,甚至超过了人类精心设计的系统。 现在,这套基础设施有了一个正式的名字:AI Agent Harness。 虽然这个术语在 2026 年初才正式确立,但其核心理念早已存在。Harness是包裹在大语言模型之外的完整软件架构:它包括编排循环、工具、记忆、上下文管理、状态持久化、错误处理和护栏(Guardrails)。Anthropic 在其 Claude Code 文档中直截了当地指出:SDK(软件开发工具包)就是“驱动 Claude Code 的 Agent Harness”。OpenAI 的 Codex 团队也使用了同样的说法,明确将“智能体”和“Harness”等同,指代那些让大语言模型真正发挥作用的非模型架构。 我非常喜欢 LangChain 的 Vivek Trivedy 给出的定义公式:“如果你不是模型本身,那你就是 Harness。” 这里有一个经常让人搞混的区别:“AI 智能体”(Agent)是用户感知到的行为体现,它是一个有目标、会用工具、能自我纠错的实体;而**“Harness”**则是产生这种行为的背后机器。当有人说“我开发了一个智能体”时,他真正的意思是“我开发了一套 Harness,并把它接入了模型”。 Beren Millidge 在其 2023 年的博文中做了一个精准的类比:原生大语言模型就像一个没有内存、没有硬盘、也没有输入输出设备的 CPU。此时,上下文窗口充当了内存(快但容量有限),外部数据库扮演了硬盘(大但速度慢),工具集成则是设备驱动程序。而Harness,就是那个操作系统。正如 Millidge 所写:“我们重新发明了冯·诺依曼架构(Von Neumann architecture)”,因为这是任何计算系统最自然的抽象方式。 围绕模型,工程化可以分为三个同心圆层次: - 提示词工程 (Prompt engineering):精心设计模型接收到的指令。 - 上下文工程 (Context engineering):管理模型在什么时间点能看到什么内容。 - Harness 工程 (Harness engineering):涵盖了上述两者,再加上整个应用架构:包括工具编排、状态持久化、错误恢复、验证循环、安全执行以及生命周期管理。 Harness 不仅仅是一个包裹提示词的套壳(AI Wrapper),它是让智能体能够自主行动的完整系统。 综合 Anthropic、OpenAI、LangChain 以及广大从业者的实践经验,一个生产级的 Agent Harness 由 12 个不同的组件构成。让我们逐一拆解。 ## 1. 编排循环 (The Orchestration Loop) 这是系统的“心脏”。它实现了“思考 - 行动 - 观察”(Thought-Action-Observation,简称 TAO)循环,也被称为 ReAct 循环。这个循环不停运转:整合提示词 -> 调用大语言模型 -> 解析输出 -> 执行工具调用 -> 反馈结果 -> 重复,直到任务完成。 从技术实现上看,它通常只是一个 while 循环。但复杂的地方不在于循环本身,而在于循环所要处理的各种状态和逻辑。Anthropic 将他们的运行时描述为一个“笨循环”,所有的智慧都存在于模型之中,Harness 只负责管理回合的切换。 ## 2. 工具 (Tools) 工具是智能体的“双手”。它们被定义为某种结构化模式(名称、描述、参数类型),并注入到模型的上下文中,让模型知道哪些工具可用。工具层负责注册、格式校验、参数提取、在**沙箱(Sandbox)**环境执行、结果捕获,并最终将结果格式化为模型可读的“观察结果”。 Claude Code 提供了六大类工具:文件操作、搜索、执行、网页访问、代码分析和子智能体创建。OpenAI 的 Agents SDK 则支持函数工具(通过 @function_tool 定义)、托管工具(如网页搜索、代码解释器、文件搜索)以及 MCP (Model Context Protocol,一种开放的工具接入标准) 服务器工具。 ## 3. 记忆 (Memory) 记忆在不同的时间尺度上运作。短期记忆是单次会话中的对话历史。长期记忆则跨越多个会话持久存在:Anthropic 使用项目文件和自动生成的 memory.md 文件;LangGraph 使用按命名空间组织的 JSON 存储;OpenAI 则支持由 SQLite 或 Redis 驱动的会话存储。 Claude Code 实现了三层记忆架构:一个轻量级索引(每条约 150 字符,始终加载)、按需调用的详细主题文件,以及仅通过搜索访问的原始对话记录。一个核心设计原则是:智能体将自己的记忆视为一种“提示”,在行动前必须根据实际状态进行验证。 ## 4. 上下文管理 (Context Management) 这是许多智能体容易暗中翻车的地方。核心问题在于上下文腐烂:当关键信息处于窗口中间位置时,模型表现会下降 30% 以上(这就是斯坦福大学发现的“迷失在中间”现象)。即便是支持百万级 Token (Token:模型处理文本的最小单位,大致相当于单词或汉字的部分) 的窗口,随着上下文的增长,指令遵循能力也会退化。 生产环境的应对策略包括: - 压缩 (Compaction):在接近限制时总结对话历史(Claude Code 会保留架构决策和未修复的 Bug,同时丢弃冗余的工具输出)。 - 观察掩码 (Observation masking):隐藏旧的工具输出,但保留工具调用的记录。 - 即时检索 (Just-in-time retrieval):只保留轻量级标识符,动态加载数据(Claude Code 倾向于使用 grep 或 head 命令,而不是加载整个文件)。 - 子智能体委托:让每个子智能体进行深度探索,但仅返回 1000 到 2000 Token 的浓缩摘要。 Anthropic 的上下文工程指南指出,目标是:找到能最大化达成目标概率的、信号最强的最小 Token 集合。 ## 5. 提示词构建 (Prompt Construction) 这决定了模型在每一步具体能看到什么。它是层级化的:系统提示词、工具定义、记忆文件、对话历史,以及当前的用户消息。 OpenAI 的 Codex 使用严格的优先级栈:服务器控制的系统消息(最高优先级)、工具定义、开发者指令、用户指令,最后才是对话历史。 ## 6. 输出解析 (Output Parsing) 现代 Harness 依赖于原生工具调用,即模型返回结构化的 tool_calls 对象,而不是需要费力解析的自由文本。Harness 会检查:是否有工具调用?如果有,执行并继续循环;如果没有,那当前的输出就是最终答案。 对于结构化输出,OpenAI 和 LangChain 都支持通过 Pydantic 模型 (Python 中用于数据校验和格式化的库) 进行模式约束。 ## 7. 状态管理 (State Management) LangGraph 将状态模拟为在图形节点中流动的类型化字典。系统会在关键步骤进行“存档”(Checkpointing),这样即使中断也能恢复,甚至可以进行“时间旅行”式的调试。OpenAI 则提供了四种策略:应用内存、SDK 会话、服务器端 API 或轻量级的响应 ID 链。Claude Code 采用了不同的思路:将 Git 提交作为存档点,将进度文件作为结构化的草稿纸。 ## 8. 错误处理 (Error Handling) 为什么这很重要?一个包含 10 个步骤的过程,即使每一步的成功率高达 99%,最终全流程的成功率也只有约 90.4%。错误是会滚雪球的。 LangGraph 将错误分为四类:临时性的(带延迟的重试)、模型可恢复的(将错误作为工具消息返回,让模型自己调整)、用户可修复的(暂停等待人类干预)以及意外错误(上报调试)。 ## 9. 护栏与安全 (Guardrails and Safety) OpenAI 的 SDK 实现了三个层级:输入护栏(在第一个智能体运行时检查)、输出护栏(检查最终结果)以及工具护栏(每次调用工具前检查)。一旦触发“绊网”(Tripwire)机制,智能体将立即停止。 Anthropic 在架构上将“权限执行”与“模型推理”分离。模型决定想做什么,但 Harness 决定允许做什么。 ## 10. 验证循环 (Verification Loops) 这是区分“玩具演示”和“生产级智能体”的关键。Anthropic 推荐三种方法:基于规则的反馈(测试、代码检查)、视觉反馈(通过 Playwright 截取 UI 截图)以及以大语言模型为裁判 (LLM-as-judge)(由另一个子智能体评估输出)。 Claude Code 的创造者 Boris Cherny 指出,让模型能够验证自己的工作,能让产出质量提升 2 到 3 倍。 ## 11. 子智能体编排 (Subagent Orchestration) Claude Code 支持三种模式:克隆 (Fork)(复制父级上下文)、队友 (Teammate)(通过文件邮箱通信的独立窗口)和 工作树 (Worktree)(独立的 Git 分支)。OpenAI 则支持将智能体作为工具(专家处理特定子任务)或移交(专家接管后续控制权)。 既然了解了组件,让我们看看它们在一次循环中是如何协同工作的。 1. 第一步(提示词组装):Harness 构建完整的输入信息。 1. 第二步(模型推理):组装好的内容发送给模型 API,模型生成 Token:可能是文本,也可能是工具调用请求。 1. 第三步(输出分类):如果没有工具调用,循环结束;如果有,进入执行阶段。 1. 第四步(工具执行):Harness 校验参数、检查权限,在沙箱中运行并捕获结果。 1. 第五步(结果打包):将结果格式化为模型可读的消息,捕获错误以便模型自愈。 1. 第六步(上下文更新):将结果追加到历史记录,必要时触发压缩。 1. 第七步(循环):返回第一步,直到满足退出条件。 - Anthropic (Claude Agent SDK):通过一个简单的 query() 函数暴露 Harness,运行时是一个“笨循环”,智慧全在模型里。 - OpenAI (Agents SDK):采用“代码优先”策略,工作流逻辑直接用 Python 表达,而不是复杂的图形语言。 - LangGraph:将 Harness 建模为显式的状态图,强调对流程的精细控制。 - CrewAI:实现了基于角色的多智能体协作,由“流程层”管理确定性的骨干逻辑。 - AutoGen:由微软开发,支持多种编排模式,如顺序执行、群聊、移交和动态任务管理。 “脚手架”这个比喻并非装饰,而是极其精准的。建筑脚手架是临时性的基础设施,让工人们能触及原本够不到的高度。脚手架本身不盖房子,但没有它,工人就上不去高层。 关键洞察在于:房子盖好后,脚手架是要拆除的。 随着模型能力的提升,Harness 的复杂程度应该逐渐降低。 这就是协同进化原则:现在的模型在训练时,就已经考虑了 Harness 的存在。如果你的 Harness 设计得好,当模型升级时,你不需要增加复杂度,性能就会自动提升。 每个 Harness 的架构师都面临这七个选择: 1. 单智能体 vs. 多智能体:官方建议:先充分挖掘单智能体的潜力。多智能体会带来额外的开销和信息损耗。 1. ReAct vs. 先规划后执行:ReAct 灵活但成本高;“先规划后执行”速度更快。 1. 上下文管理策略:是总结对话,还是动态加载? 1. 验证循环设计:是用硬性的代码测试,还是用另一个 LLM 来打分? 1. 权限与安全架构:是追求速度自动批准,还是追求安全步步确认? 1. 工具范围管理:工具不是越多越好。暴露当前步骤所需的最小工具集往往效果最佳。 1. Harness 的厚度:多少逻辑写死在系统里,多少逻辑留给模型发挥? 两个使用完全相同模型的智能体,性能可能天差地别,原因就在于 Harness 的设计。TerminalBench 的证据已经非常明确:仅仅改变 Harness,就能让排名变动 20 多位。 Harness 不是一个已经解决的问题,也不是一个通用的商品层。它是硬核工程能力的体现:如何将上下文视为稀缺资源进行管理?如何设计验证循环以防止错误累积?如何构建不产生幻觉的记忆系统? 随着模型越来越强,Harness 会变薄,但它永远不会消失。即便最强大的模型,也需要系统来管理窗口、执行代码、保存状态并验证工作。 下次当你的智能体表现不佳时,别光顾着抱怨模型,去检查一下你的Harness吧。 如果你喜欢这些内容: 关注我 → https://x.com/@akshay_pachaar ✔️ 每天我都会分享关于 AI、机器学习和凭感觉编程 (Vibe Coding) 最佳实践的教程与见解。

译文章指出,将大语言模型转化为可靠智能体的关键在于其外围基础设施,即“AI Agent Harness”。它被定义为产生智能体行为的完整软件架构,包括编排循环、工具、记忆、上下文管理等核心组件。这如同操作系统之于CPU,是智能体得以自主运行的“机器”。Harness工程超越了提示词工程,涵盖了完整的应用架构,是解决智能体在生产环境中表现不稳定的根本方案。

Chubby♨️@kimmonismus · 5月11日14

GPT-5.5 is the goat right now. Freaking excited for the next model. And Sama is great hyping it up ;)

译GPT-5.5 现在是无可争议的王者。 对下一个模型感到超级兴奋。 Sama 的宣传造势也很棒 ;)

Yuchen Jin@Yuchenj_UW · 5月11日28

AGI is achieved internally. Artificial Goblin Intelligence

译AGI已在内部实现。 人工地精智能 [引用 @sama]:what if we name the next model "goblin" almost worth it to make you all happy...

Sam Altman@sama · 5月11日30

what if we name the next model "goblin" almost worth it to make you all happy...

译如果我们将下一个模型命名为"哥布林" 几乎值得为了让你们开心而这样做...

Sam Altman@sama · 5月11日77

interesting

译用户指示AI模型Codex去赚取5美元,Codex自主完成了一系列任务:寻找开源安全审计赏金项目,提交有效的拉取请求,与维护者沟通,并处理了GitHub验证流程,最终使工作被合并。经过约22小时的工作,用户获得了16.88美元的首笔付款。按此推算,若每日重复,月收入可达506.40美元。这初步实现了Sam Altman关于AI能主动为人赚钱的愿景,虽然金额尚小,但标志着一个令人兴奋的开端。

Chubby♨️@kimmonismus · 5月11日76

It is unethical for a doctor not to consult an AI! A new study published in Science shows OpenAI's o1 model (not 5.5, but the over 1 year old o1!) outperformed ER physicians at diagnosing patients, identifying the correct or near-correct diagnosis 67% of the time versus 50–55% for doctors, especially in early triage when information is limited. The model also scored near-perfect on clinical reasoning in structured cases, far ahead of attending physicians. Again: a model over 1 year old, which is ages in the times of AI. This is one of the first studies testing an LLM against real, messy ER data rather than curated textbook cases. The performance gap was widest exactly where mistakes are most dangerous, early in the ER process when doctors have incomplete information and are under time pressure. And the model tested (o1) is already outdated by AI standards, meaning current models are likely even better. The study only covered short ER encounters, not longer hospitalizations with days of accumulating data. It also didn't test the model on imaging (scans, X-rays), which is central to many real diagnoses. The next step is proving these systems actually improve patient outcomes in practice, not just in controlled comparisons. But i bet the models will also outperform human doctors on such cases.

译一项发表于《科学》的研究显示,OpenAI一年前发布的o1模型在急诊诊断中表现优于医生。该模型在真实、混乱的急诊数据测试中,正确或接近正确诊断率达67%,而医生为50-55%,尤其在信息有限的早期分诊阶段优势最明显。研究指出,o1模型在结构化病例中的临床推理近乎完美,且该模型按AI标准已属旧版,当前模型可能更强。研究未涵盖长期住院数据及影像诊断,下一步需验证AI系统能否实际改善患者预后。

阿绎 AYi@AYi_AInotes · 5月10日80

holy shit,The barrier to educational technology has vanished overnight. 这回教育科技的门槛,一夜之间归零了, why?来往下看,最后附上了任何人都可以做的零代码工作流教程 💻 • 2020年:做一个同等质量的3D教育App,需要3D建模师×2 + UI设计师×1 + 生物学家×1 + 前端工程师×3 + 产品经理×1,耗时6个月,成本80万美元。 • 2026年:一个懂生物的普通人,用GPT Images 2 + Gemini 3.1 Pro,48小时,成本不到10美元。 没有团队,没有融资,没有技术门槛, 你甚至都不需要会3D建模,不需要会写React,不需要懂Three.js。 你只需要懂生物学,知道什么是对学生重要的。 AI会帮你把所有的技术活全部干完。 damn,这简直就是生产关系的效率革命, 以前教育科技是大公司和亿万富翁的游戏。 现在,任何一个老师,任何一个父母,任何一个对某个领域有热情的人,都能做出比教科书好100倍的教学工具。 过去只有伊顿公学和哈佛附中才有虚拟实验室, 现在,任何一个能上网的家庭,花10美元就能给自己的孩子做一个专属的。 教育不平等,第一次有了被反向拉平的可能! 可1:1复制的零代码工作流,任何人都能做,老规矩评论区自取👇

译AI工具GPT Images 2和Gemini 3.1 Pro的出现,彻底颠覆了教育应用的开发模式。过去需多人团队、数月时间和高昂成本才能完成的3D教育应用,如今一个具备领域知识(如生物学)的普通人,仅用约48小时和不到10美元即可实现。这消除了对编程、3D建模等技术能力的依赖,使教师、家长等个体也能独立创造高质量互动教学工具。此举有望推动过去仅属于精英机构的教学资源(如虚拟实验室)普及,为缩小教育不平等提供了新的技术路径。

Chubby♨️@kimmonismus · 5月10日25

Looks like we got an answer to that cryptic openai post. codex mobile app. cant verify, hope its real :) would be really cool to see!

译看来那个神秘的OpenAI帖子有答案了。 Codex移动应用。 无法核实,希望是真的 :) 若能成真就太酷了!

🚨 AI News | TestingCatalog@testingcatalog · 5月10日49

We will likely see a deeper integration between Codex and ChatGPT already very soon. > Use the ChatGPT app on your phone to keep working with Codex whenever your computer is awake. Additionally, this image from OpenAI sparked loads of speculations, including the one where OpenAI would be teasing their own mobile phone. Even though it is quite unrealistic, this would be a huge steal of attention from the Google I/O event.

译OpenAI暗示Codex与ChatGPT将很快实现更深度的整合,用户有望在电脑处于唤醒状态时,通过手机上的ChatGPT应用持续使用Codex。同时,OpenAI发布的一张图片引发了广泛猜测,包括其可能正在预告推出自有品牌手机。尽管这一猜测被认为不太现实,但此举若属实,将在谷歌I/O大会期间成功吸引大量关注。引用推文的关键信息“how do i call”也指向了对手机相关功能的探讨。

Chubby♨️@kimmonismus · 5月10日44

just playing around a bit with codex claude code and what not while being sick. i just found out, that computer use within codex is still not available in europe?? why the heck is europe lacking behind in every single aspect. god damn @eucommission . seriously.

译生病期间随便玩玩codex claude代码之类的。 我刚发现欧洲居然还不能使用codex里的计算机功能?为什么欧洲在方方面面都落后。 该死的@eucommission。说真的。

阿绎 AYi@AYi_AInotes · 5月10日61

为什么现代AI教父Karpathy的第二大脑,根本不用Notion和Obsidian。 因为他从零给自己建了一个会思考的3D知识星系。 有老哥完全复制了这套系统,只输入了378条笔记,系统自动生成了1854个节点和3856条边。 它不是那种死的文件柜,能主动发现隐藏关联、给你回馈洞见的第二神经系统。 我认为这才是对所有传统笔记工具的降维打击🤯 • 你用Notion,在造文件柜 • 你用Roam,在造电子表格 • 你用Obsidian,在造坟墓 • 顶级AI玩家,在造星系 视频里的体验颠覆了所有人对记笔记的认知: 深空背景下,无数发光的球体和连线组成了一个完整的宇宙。 点击任何一个节点,AI立刻挖出所有你自己都忘了的隐藏关联。 拉远能看到整个思维的全景,钻进去能看到两个看似完全无关的想法怎么连在了一起。 它会主动告诉你哪里有缺失的链接,哪里有你没发现的跨领域洞见。 喵个咪,这简直是一场认知方式的革命啊🤯 以前我们记笔记,是输入、整理、搜索。 最后全躺在硬盘里吃灰,你永远不会再看第二遍。 现在的第二大脑,是动态的、会生长的神经网络。 你喂给它你的想法,它帮你复合、连接、生成新的东西。 它比你自己更懂你,记得你所有的思考轨迹,甚至能在你卡住的时候给你灵感。 最戳人的是帖子最后一句话: 知识复合的差距从来不是天赋,是架构。 早6个月启动这套系统的人,永远会领先别人6个月的思维复利。 因为你的第二大脑会24小时不停帮你思考,而别人的笔记只会躺在那里腐烂。 当然普通人不用一开始就从零写代码建3D星系。 先从Obsidian+Claude的自动化方案起步,让AI帮你自动抓内容、找连接、生成每日简报。 但方向已经很明确了:未来的知识管理,不是存东西,是养一个只属于你自己的思维AI。

译Karpathy构建的动态3D知识星系,与传统笔记工具的静态存储形成鲜明对比。该系统能主动思考,仅输入378条笔记便自动生成1854个节点和3856条边,发现隐藏关联并提供洞见。这标志着知识管理从存储转向培育个人思维AI的革命。知识复合的差距关键在于系统架构,早使用者将获得持续的思维复利优势。对于普通人,可从Obsidian结合AI的自动化方案开始实践这一方向。

swyx 🌉@swyx · 5月10日18

wondering if @embirico has numbers on what % of codex users use this mode and how much it has gone up over the last month its a decent proxy for alignment/agent adoption

译想知道@embirico是否有数据表明 Codex用户中使用此模式的百分比 以及过去一个月该数据的增长情况 这是衡量对齐/智能体采纳程度的有效参考指标

Orange AI@oran_ge · 5月10日56

为什么 A 社可以凭 500w 日活估值可以和 OpenAI 平起平坐? 今天相比 DAU,更核心的指标是 DAR: daily active revenue 它强调的是单个用户单日贡献的价值。 如果一个产品,一个 dau 贡献是1美金 另一个产品,一个 dau 贡献是 0.01 美金 它们的 DAR 就相差 100倍 那前面一个产品在 dau 1w 的时候价值就和后面产品 dau 100w 的时候相等了 A社和 openai DAR 现在是高 100倍 A 社和豆包 DAR 可能是高1000 倍-10000倍 没有任何公司的资源是无限的。 哪怕字节也不行。 如果当时豆包放弃 DAU 指标,把显卡给 Seedance 2.0,那会是个更好的事。

译推文指出,当前估值核心指标已从DAU转向DAR(每日活跃收入),它衡量单个用户单日贡献的价值。A社凭借高DAR,即使日活仅500万,估值也能与OpenAI相当,因为其DAR比OpenAI高100倍,比豆包可能高1000-10000倍。作者强调资源有限,建议豆包放弃单纯追求DAU,将资源如显卡投入Seedance 2.0以提升DAR,从而实现更优发展。

小互@xiaohu · 5月10日49

「HTML 比Markdown让人更容易读懂 Agent 的工作 更适合人机协作交互」 让Codex 用HyperFrames 制作个解说视频 除了解说文案有一点AI味,效果其实还不错的 嘿嘿

译推文提出,在Agent工作流和人机协作交互场景中,HTML格式比Markdown更易于人类阅读和理解。作者建议让Codex使用HyperFrames来制作解说视频,并指出虽然生成的解说文案带有明显的AI风格,但整体效果不错。引用的推文提供了关于HyperFrames技术或相关演示的背景支持,强调了HTML在提升人机交互清晰度方面的优势。

Deedy@deedydas · 5月10日62

This graph of the top 69 software products by growth vs adoption is the best snapshot of the current winners and losers in tech. — Scaling leaders (Anthropic) — Incumbents at Risk (OpenAI) — Rising Challengers (Granola) — Long tail (11x) Spend data from Ramp, up to Mar 2026.

译这张展示前69款软件产品增长与采用率的图表,是当前科技界赢家与输家的最佳快照。 — 规模化领导者(Anthropic) — 风险在位者(OpenAI) — 崛起挑战者(Granola) — 长尾群体(11x) 数据来源Ramp支出数据,统计至2026年3月。

小互@xiaohu · 5月10日58

兄弟们 这个创意牛P啊 3D 趣味互动科学应用 用GPT生成图像,然后使用Gemini 3.1 Pro生成,可以将任何知识的内容制作成3D可交互的效果展示! 效果炸裂!

向阳乔木@vista8 · 5月10日60

GPT-Image-2 给文章配图太爽了。 选中一个段落,直接生成视觉化的解释,这比读枯燥的文字体验好不少。 https://blog.qiaomu.ai/what-are-diffusion-models

译GPT-Image-2能够根据选中的文章段落直接生成视觉化的解释,极大地改善了阅读体验,使其不再枯燥。这一功能展示了AI在将文本内容转化为直观图像方面的应用潜力,为理解和消化复杂信息提供了新的辅助工具。

Berryxia.AI@berryxia · 5月10日48

从此告别无聊的课堂教学! 自己开发趣味互动科学应用创意 ~ 现在使用GPT-image-2 + Gemini 尝试生成3D生物结构,并开发了一款能交互探索这些结构的应用!

ginobefun@hongming731 · 5月10日63

http://x.com/i/article/2053253887273091072 # EP53 · AI Native 时代:组织变革、Claude Code HTML 奇效与语音 AI 突破 · 05.10 早报 在线阅读和收听早报:https://www.bestblogs.dev/explore/brief/2026-05-10 > EP53 · 2026-05-10 | BestBlogs 每日精选,聚焦 AI Native 研发组织变革、Claude Code 在 HTML 中的意外突破、以及语音 AI 迈向「Her」时刻的技术路径。 ## 导语 AI 正在改变组织本身的形态和运作节奏,从研发协作到语音交互再到代码生成,每个环节都在重新定义效率的上限。 阿里技术的一份内部访谈揭示了一个有点出乎意料的数字:深度使用 AI 的工程师,写代码的时间占比从 30% 降到了 5%,而和 Agent 对话的时间从 5% 升到了 60%。更值得停下来想的不是数字,是节奏——一个工程师上午 10 点上线一个新功能、中午做 A/B 测试、下午 3 点根据数据下线、5 点上线更好的版本,同一天内完成了过去 6 周才能完成的迭代。这意味着什么?传统组织的假设,从沟通机制到管理跨度,都建立在「人是唯一协作主体」的前提上。这个前提,正在被 AI 逐步瓦解。 今天精讲三篇来自一线的深度思考:阿里如何重塑研发组织应对 AI 时代,Claude Code 核心成员分享 HTML 格式在 AI 生成场景的意外优势,以及语音 AI 要突破「Her」时刻面临的三道技术障碍。速览 7 篇涵盖 SDD 方法论、Token 经济学、YC CEO 的开发者哲学、上下文工程、Anthropic 增长等话题,扩展阅读则带来大模型 token 遗忘机制、AI 医疗智能体和 AI 对工程师价值分布影响这三个角度的补充视野。 ## 精讲一:AI Native 时代 —— 研发组织何去何从 来源:阿里技术 这是一篇来自阿里技术内部访谈与行业研究的深度复盘,核心论断直接而有力:AI 不是新工具,是新协作主体。 两千年的协调问题,被一个前提打破 从罗马军团到普鲁士总参谋部,从美国铁路到 Spotify 的 Squad 模型,两千年的组织演化围绕同一个约束:人的管理跨度。一个人能直接管理的下属在 3 到 8 之间——这不是文化决定的,是人类这个生物的硬限制。所有的组织形态,本质上都是在这个限制上做妥协。 康威定律(组织结构决定系统结构)、《人月神话》(加人无法加速延期项目)、manager 评价制,这些我们习以为常的管理原则,都不是抽象工程哲学,而是人作为协作主体的「协作物理学」的具体实现。 而 AI 的特点,正好是人的镜像反面: - 人有沟通衰减,AI 没有 - 人需要激励,AI 不需要 - 人有 context switching 成本,AI 极小 - 人的记忆和注意力有限,AI 几乎无限 这意味着,过去围绕「人形约束」设计的整个组织体系,其前提正在失效。 从 Org Chart 到 Execution Graph 文章引用了 Ken Huang 的一句话,值得反复咀嚼:「Once AI becomes agentic, the organization stops being accurately described by an org chart. It becomes an execution graph.」 当 AI 真的能行动、能调用工具、能修改系统,你的公司就不再是一张汇报关系的 org chart,而变成了一张把人、agents、数据、权限、工具、审批关系作为同等节点的「执行图」。 旧问题是 ownership——「谁拥有这件事?」新问题是 routing 加 governance——「意图从哪里进入系统?怎么被翻译成行动?什么约束让这个行动是安全的?」 这个范式转换最实际的红利是:组织重组的成本可以从季度级压到 week 级。旧组织的最小单元是「人 + 长期关系网」,粘性极高,每次重组都在重建信任、重新切割身份归属;而 Execution Graph 把最小单元换成了「任务 + 上下文 + 权限 + 工具」,大部分依赖是机器可读的 artifact,不是人脑里的隐性关系。 新瓶颈:信息形态的人形偏置 文章最深刻的洞察之一在「人既是瓶颈,也是兜底」这一节。 协作的本质是消除理解不一致性的成本,这个成本过去一直是人在扛——开个会问一下、走过去问老王、凭经验猜一下、跑去预发环境试一试。这些动作发生得太自然,自然到我们不再把它看作「工作」。 但它们是工作。 整个研发系统长期容忍着大量不规范、不结构化、不完整的信息,只要人足够聪明、熟悉,这些缺陷就不会上升为瓶颈。 AI 接管执行之后,这一面翻过来了。AI 没有「猜」和「问老王」的能力,它需要结构化、可查询、确定性的信息。公司内部调研显示,在大量使用 AI 工具的员工中,提及频次最高的痛点不是「模型能力不够」,而是「系统打通与数据整合」——员工在做「人肉中间件」,从各系统手动导出数据、粘贴进 AI、再把 AI 输出搬回业务系统。 新瓶颈的真相:不是 AI 能力不够,是系统的信息形态不够——过去被人吸收的所有「信息隐性化」成本,第一次以瓶颈的形式暴露出来。 双层架构:Harness + Hive Mind 文章描述了真正在做 AI Native 的团队(包括 Anthropic、CREAO 和阿里内部先锋小组)的共同形态:工作分两层,两层的运作逻辑甚至是相反的。 底层是极度结构化的 Harness 层:代码、测试、流水线、文档、世界模型,所有信息都被做成 AI 友好的形态,这一层越结构化越好,AI 主导。 上层是极度松散的 Hive Mind 层:对话、试错、idea 涌现、Yes-and,这一层越松散越好,人主导。 Anthropic 几乎肯定有比任何公司都精密的 Harness,但它在 Harness 之上选择运行混乱的文化——这两件事不是替代,是叠加。结构化是为了释放无结构的协作,不是用结构控制一切。这个洞察对于很多习惯于「要么全盘控制,要么完全放权」思维模式的管理者来说,是真正值得停下来思考的。 为什么值得读,以及怎么读 这篇文章对工程师和管理者理解 AI 时代的组织演进具有极高参考价值。它不是在讲「AI 会替代谁」,而是在讲组织结构本身的物理定律因为 AI 的出现正在改变。建议完整阅读,尤其是「Harness 层 + Hive Mind 层」的双层架构部分,以及关于「三柱架构」的论述——这对于思考如何重设计研发体系非常有帮助。 与今天速览中的 SDD 方法论(阿里云开发者的 5 人 7 天案例)形成很好的呼应:SDD 正是在 Harness 层引入结构化 Spec 的具体实践。阅读路径建议:先读本文建立概念框架,再读 SDD 案例看具体落地。 ## 精讲二:使用 Claude Code:HTML 难以置信的奇效 来源:宝玉的分享 这是 Claude Code 核心成员 Thariq 的实践分享,讲了一个出乎很多人意料的发现:在 AI 生成为主的场景,HTML 比 Markdown 更适合作为输出格式。 为什么 Markdown 开始变成束缚 Markdown 简单、便携、易于人工编辑——这是它的核心优势。但 Thariq 发现,随着 AI 越来越强,他越来越少去亲自编辑这些文件了。他更多把它们当作需求文档、参考资料或头脑风暴的输出,需要修改时直接写提示词让 Claude 去改。 这就让 Markdown 最核心的优势「易于人工编辑」荡然无存。与此同时,面对动辄上百行的 Markdown 文件,他根本没有耐心读下去。 HTML 的四个实际优势 信息密度:HTML 能传达丰富得多的信息——用表格展示数据列、用 CSS 展现设计细节、用 SVG 绘制插图、用 JavaScript 实现动态交互。如果无法用 HTML,模型往往会在 Markdown 里做极其低效的「骚操作」,比如硬用 ASCII 字符画图表,或者用 Unicode 字符生硬地模拟颜色色块。 视觉清晰度:HTML 文档通过选项卡、插图、链接等视觉元素把结构整理得一目了然,甚至能做到移动端自适应。超过 100 行的 Markdown 文件,Thariq 基本不会去读;但 HTML 就好读多了。 易于分享:Markdown 通常只能当附件发送;HTML 上传到云端后可直接分享链接,同事随时用任何设备打开。如果需求文档是用 HTML 写的,别人真正去耐心阅读它的概率会大幅提升。 双向交互:HTML 允许与文档进行真实互动。比如让 Claude 在页面上加几个滑块调整设计效果,或者提供选项微调算法参数,甚至加一个按钮把微调后的完美参数「一键复制」为提示词,直接粘贴回 Claude Code 里。 HN 社区的批判性反馈 这篇文章获得了 HN 社区的广泛讨论,也指出了 HTML 方式的局限: - token 消耗高 2-4 倍:HTML 标签本身的 overhead 不小 - JavaScript 引入 XSS 风险:在企业环境需要格外注意 - git diff 杂乱:版本控制的可读性下降 社区的共识是混合策略:展示型输出(报告、设计稿、分析文档)用 HTML,指令文件和协作文档仍首选 Markdown。 如何开始尝试 Thariq 特别提醒:不需要复杂的配置,只需告诉 Claude「给我做一个 HTML 文件」或「生成一个 HTML Artifact」就可以开始。真正的诀窍在于清楚自己希望这个文件能做什么。他建议先去示例页面看看实际效果,形成直观感受,再考虑是否适合自己的工作场景。 与今天主题的关联 这篇文章和「精讲一」关于 Harness 层的论述有一个有趣的交汇点:结构化的信息形态是让 AI 发挥更大价值的前提。HTML 在 AI 生成场景提供的正是更丰富的信息结构——它把文档的交互性和可读性提升到了一个新层次,让人和 AI 都能更高效地使用同一份文档。建议工程师和产品经理批判性地参考这篇文章,尤其是那些经常需要把 AI 输出分享给团队的人,HTML 格式可能会显著改善沟通效率。 ## 精讲三:Voice AI 何时迎来「Her」时刻? 来源:AI Engineer 这是 Gradium AI 联合创始人 Neil Zeghidour 的演讲,难得之处在于:技术诚实地量化了语音 AI 距离「Her」时刻还差多远。 三道尚未完全跨越的技术障碍 第一道:延迟。人类对话要求约 200 毫秒的往返响应时间。在传统级联系统(STT → LLM → TTS 串行)中,仅 TTS 生成一步就常常超过 200 毫秒,还不算 LLM 推理和转录的时间。当 LLM 触发背景工具调用时,延迟可能飙升至 500 毫秒到 4 秒,彻底破坏自然对话节奏。 目前的临时解法是「语言填充词」:当 AI 等待工具调用返回时,LLM 继续用自然的过渡语句与用户聊天(如「东京是个很棒的选择!让我帮您查一下选项……」),等后台数据返回后再无缝衔接。这是有效的,但本质上是在掩盖延迟,不是解决它。 第二道:半双工到全双工的跃迁。现有大多数语音 AI 是半双工的——要么在听,要么在说,不能同时进行。这导致体验很生硬:用户插话或者有背景噪音,系统就可能提前停止响应。 全双工系统能够同时听和说,能预测并提前开口,能处理用户打断而不忽略它,能把语音重叠当作自然对话特征而非错误。但实现全双工的同时保持 LLM 级别的智能和工具调用能力,是另一个难题。 第三道:成本与规模化。即便延迟和对话流都解决了,在生产环境大规模部署语音 AI 面临巨大的财务和隐私挑战。 Gradium 的本地化路径:Phoneon Gradium 的商业化方向之一是端侧 Phoneon 模型——参数量低于 10 亿,普通手机 CPU 即可运行,开辟了零 API 成本的本地化路径。这意味着语音 AI 不必总是依赖云端推理,在隐私敏感场景(医疗、金融)和网络受限环境下有重要意义。 Gradium 的背景与技术脉络 Gradium AI 的前身是一个由 Eric Schmidt 等慈善家资助的开源非营利实验室,他们开发了 Moshi——第一个开源的语音对语音对话模型。商业化后,Gradium 专注于构建底层语音 AI 基础设施(STT、TTS、端到端对话模型),刻意不做垂直产品和编排层,为其他开发者提供底层能力。 这个定位让他们对技术现状的判断更加中立和量化:他们的收入来自基础设施,所以没有动力夸大技术的成熟度。Zeghidour 在演讲中明确说,有些人宣称「Her 时刻已经到来」,但从技术指标来看,我们离那个时刻还有三道坎没有完全跨越。 为什么这份技术路线图值得读 语音 AI 领域充斥着「时刻已到」的声音,但 Zeghidour 提供的是量化的差距分析:具体是哪些技术指标尚未达标,每道障碍的当前状态是什么,以及 Gradium 选择从哪个角度切入。对于在语音 AI 场景做产品或技术选型的读者,这篇是值得仔细阅读的诚实参考。今天「精讲一」提到的「AI 作为新协作主体」在语音场景的最终形态,正是需要跨越这三道技术障碍之后才能真正实现的。 ## 速览 5 人 7 天干完 20 人数周的活:Spec-Driven Development 如何重新定义 AI 编程 来源:阿里云开发者 | 评分:91 阿里云开发者团队用一个震撼案例系统阐述了 SDD(Spec-Driven Development)方法论:5 人、7 天,用 Qoder 完成了传统需要 20 人数周的工作量。核心理念一句话概括:将规格说明作为唯一真实来源,代码作为其派生产物——先定义 WHAT,再让 AI 做 HOW。DAY 0 不写一行代码,只写 Spec,这一天的决定影响了后面 6 天的一切。文章还对比了 GitHub Spec Kit、AWS Kiro、阿里 QoderWork 等工具生态,并详细分析了常见陷阱。与「精讲一」关于 Harness 层结构化的讨论形成直接呼应,是理解 AI 编程范式转变的必读实战案例。 DeepSeek 降价背后:Token 生意在重新洗牌 来源:腾讯科技 | 评分:91 GPT-5.5 大幅涨价,DeepSeek 大幅降价,为什么同一产业里会出现截然相反的价格信号,而且两端都站满了买家?本文从产业经济学视角系统分析 Token 市场的定价逻辑:OpenAI 以竞争对手价格为锚做市场渗透 + 分层定价,Anthropic 以自身价值为锚强调品质溢价,Google 以生态效益为锚打包 GCP 整体价值。「Token 经济学」系列第八期,适合关注 AI 商业格局演化的读者。 精简接口,丰富技能:Gary Tan 谈 400 倍 AI 开发者 来源:Y Combinator | 评分:92 YC CEO Gary Tan 重返编程后,用 Claude Code 在 5 天内、花 200 美元重建了他的第一个创业公司 Posterous。他提出「Thin Harness, Fat Skills」心智模型:精简的 AI 接口(如 Claude Code)搭配丰富的人工指令和上下文,Markdown 是新的代码,用来编码人类意图并让 AI 编译成软件。他还提出「Token Maxing」概念——在强大模型上投入高质量提示词,实现 400 倍生产力提升。观点鲜明,适合思考 AI 时代开发者角色转变的读者。 智能体搜索与上下文工程 来源:AI Engineer | 评分:92 Elastic 的 Leonie Monigatti 在 AI Engineer 会议上系统梳理了智能体搜索和上下文工程的关系:传统 RAG 用固定管线,每次查询都触发搜索,容易引入无关上下文;智能体 RAG 把搜索决策权交给模型,让 agent 自己决定是否搜索、何时搜索。她指出上下文工程本质上有 80% 是智能体搜索,并强调详细的工具描述是构建可靠 AI agent 的关键——工具描述不清楚,agent 要么幻觉、要么选错工具。配合今天「精讲一」的 Execution Graph 概念理解效果更好,推荐正在构建 AI agent 的工程师观看。 [AINews] Anthropic 年增长 10 倍,而其他公司裁员超 10% 来源:Latent Space | 评分:90 Anthropic 经历「奇迹 Q1」——单月 ARR 增长 150 亿美元——后,估值已达 1-1.2 万亿美元,正式超越 OpenAI 成为全球最有价值公司之一。与此同时,Block 裁员 40%、Coinbase 裁员 14%、Cloudflare 裁员 20%,都以「AI 就绪」为由。文章直接指出:很难判断这到底是「AI 驱动的裁员」还是「借 AI 名义的正常瘦身」。强公司(如 Linear)因 AI 而增长,弱公司因 AI 而收缩,这一极化趋势正在加速。本期 AI 新闻摘要还涵盖模型、基础设施、智能体、对齐研究等多个领域的最新进展,是快速了解行业动态的高效选择。 Claude Co-work 入门指南 来源:Claude | 评分:91 Claude 官方教程,介绍 Co-work 功能如何将 Claude 转化为一个能执行复杂任务的 AI 智能体——通过授权本地文件夹访问、连接 Google Drive / Notion / Slack 等云服务、配置全局指令,实现「交付目标」而不仅是「回答问题」的模式切换。从描述目标到 Claude 制定计划再到执行,Co-work 的核心价值在于「handoff」而非「问答」:你描述一个目标,Claude 制定完整计划,你审批后它自动执行。当前支持 macOS 和 Windows 上的 Claude 桌面应用(Pro/Max/Team/Enterprise 用户)。适合想快速上手 Claude 智能体工作流、减少手动在不同工具间切换的用户。 OpenAI 翁家翌:梯度之外,下一个 AI 训练范式有着落了? 来源:机器之心 | 评分:90 OpenAI 后训练 RL 基础设施的核心工程师翁家翌(Jiayi Weng)分享了一个出人意料的实验:一套由 coding agent 持续迭代的纯手写规则系统(没有神经网络、没有梯度下降),在经典游戏中打出了理论最高分,在机器人控制中媲美 Deep RL。他由此提出 Heuristic Learning 可能是继 Pretrain、RLHF、大规模 RL 之后的下一个训练范式——凡是可以被持续迭代的,都开始能被解决。技术含量高,适合 AI 研究者和工程师阅读。 ## 扩展阅读 大模型不认识马嘉祺?我们做了一次全链路排查 来源:MiniMax 稀宇科技 | 评分:90 MiniMax 团队系统排查了「模型无法输出马嘉祺」的问题,最终定位根因:分词器将「嘉祺」合并为独立 token,但该 token 在后训练数据中出现频次极低(不到 5 条样本),导致生成能力被遗忘——模型转而选了发音相近的「佳琪」「琪琪」。排查方法涵盖分词器版本对齐、embedding 统计分布、语义近邻检索、few-shot 对比实验等多个维度,最终通过 lm_head 权重变化排序扫描锁定根因。这不是一个偶然 bug,而是揭示了低频 token 在后训练中被高频 token 挤压这一系统性问题。对关注大模型训练机制、tokenizer 设计的读者很有价值,是一篇难得的团队公开技术复盘。 OncoAgent:一种用于隐私保护肿瘤临床决策支持的双层多智能体框架 来源:Hugging Face Blog | 评分:91 来自 Hugging Face 博客的技术预印本。OncoAgent 是一个开源、隐私保护的肿瘤临床决策支持系统,结合了双层微调 LLM 架构、多智能体 LangGraph 拓扑、四阶段纠正性 RAG 流水线(覆盖 70 多份 NCCN/ESMO 指南),并在 AMD MI300X 硬件上实现了 56 倍的吞吐量加速。关注 AI 医疗应用、多智能体系统或 RAG 工程实践的读者可以深入阅读。 AI 让弱工程师的危害变小了 来源:Sean Goedecke | 评分:90 软件工程能力是强重尾分布的:最强的工程师产出远超平均,而弱工程师往往是净负贡献者——不仅没有推进项目,还制造需要同事花时间清理的问题。这也是很多顶尖科技公司选择打造一支小而精、薪资极高的团队的原因。Sean Goedecke 认为,Claude Code 等 AI 编程助手显著提升了弱工程师产出的下限,将他们从净负贡献者转变为功能有限但尚可协作的伙伴。值得注意的是,他并不认为 AI 能让弱工程师达到强工程师的水平——强工程师因为能更好地利用 AI 工具,优势反而可能进一步扩大。这对团队组建和人才策略都有实际影响。观点直接,适合对 AI 如何重塑工程师价值分布感兴趣的读者。 ## 今日阅读路径 时间有限?建议按以下顺序阅读三篇: 首选:AI Native 时代 —— 研发组织何去何从 这是今天最有思想密度的一篇。从组织演化的历史逻辑出发,论证为什么 AI 时代的组织必须从 Org Chart 转向 Execution Graph,以及新瓶颈在哪里。无论你是工程师还是管理者,这篇都会改变你看待当前工作的视角。阅读时间约 25 分钟,是一篇值得找一段完整时间认真读的文章。 次选:5 人 7 天干完 20 人数周的活:SDD 如何重新定义 AI 编程 「精讲一」讲了理论框架,这篇给你一个具体的实战案例。SDD 方法论是当前 AI 编程语境下把「信息结构化」落到实处的最系统的做法之一,DAY 0 只写 Spec 不写代码的实践值得每个团队认真参考。如果你正在思考怎么让团队在 AI 工具上真正提速,从这篇开始是个好选择。 三选:DeepSeek 降价背后:Token 生意在重新洗牌 同样在 AI 时代,商业维度同样在剧变。理解 Token 市场的定价逻辑,有助于做出更好的技术选型和商业判断。这篇从产业经济学视角分析,视角独特,读完会对 AI 行业的价格信号有更清晰的认知。今天 Anthropic 增长的新闻恰好也提供了佐证——强者愈强的格局在 Token 市场同样适用。 ----------- BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev

译阿里技术访谈显示,深度使用AI的工程师写代码时间占比从30%降至5%,与AI对话时间升至60%,标志着AI成为新协作主体,正瓦解传统组织基于“人是唯一协作主体”的前提。组织形态从汇报关系的结构图转向由人、智能体、数据等节点构成的“执行图”。新瓶颈在于信息不够结构化,先锋团队采用“Harness层+Hive Mind层”架构应对。同时,Claude Code核心成员分享实践发现,在AI生成场景中,HTML比Markdown更具优势,因其信息密度高、视觉清晰、易于分享并支持交互。

Tibo@thsottiaux · 5月10日34

Seeing so many cool applications of codex lately across robotics, science, gaming and more. And seems that people are discovering the power of the /goal feature. A few disturbing hands in this one, but you get the gist.

译最近看到Codex在机器人、科学、游戏等领域的众多酷炫应用。似乎人们正在发现/goal功能的强大之处。 虽然有些操作令人不安,但核心要点已然明了。

Greg Brockman@gdb · 5月10日64

Codex for expenses

译Codex处理报销事务 它自行下载月初至今的发票 更新费用电子表格并填写实际表格 使用Drive和Sheets插件进行状态跟踪 通过Gmail插件追踪发票 使用Chrome扩展程序处理实际表格及Drive上传 自加入OpenAI以来我一直拖延此事 Codex仅用约20分钟就完成了所有工作!

Sam Altman@sama · 5月10日17

kicking off a bunch of codex tasks, running around with my kid in the sunshine, and then coming back at naptime to find them all completed makes me very optimistic for the future

译启动一系列编程任务后 我带着孩子在阳光下奔跑 午睡时间回来发现它们已全部完成 这让我对未来充满乐观

Sam Altman@sama · 5月10日51

5.5 is an autistic genius with very strange taste in naming shocking that we would make such a thing

译5.5 是个自闭症天才,命名品味非常奇怪 我们竟会造出这样的东西,令人震惊

Yuchen Jin@Yuchenj_UW · 5月10日62

Claude Opus 4.7 is over-trained on the Anthropic website. Every HTML page it designs has that unmistakable Anthropic flavor. GPT-5.5 is still weirdly weak at frontend. It designs frontend like it learned CSS from a backend engineer. OpenAI urgently needs an MTS with taste.

译Claude Opus 4.7 在 Anthropic 官网上训练过度。 它设计的每个 HTML 页面都带有明显的 Anthropic 风格。 GPT-5.5 在前端方面仍然出奇地弱。 它设计前端的样子就像是从后端工程师那里学的 CSS。 OpenAI 急需有品味的 MTS。

OpenAI Developers@OpenAIDevs · 5月10日74

Here’s how you can integrate GPT-Realtime-2 to bring voice control to a CRM workflow.

译以下介绍如何集成GPT-Realtime-2为CRM工作流添加语音控制功能。

向阳乔木@vista8 · 5月10日27

从大模型迭代看,OpenAI Codex 口碑现在好过 Anthropic Claude。 下一轮更新应该到谷歌的Gemini发力了吧 好久都没啥声音了...

Sam Altman@sama · 5月10日56

what would you most like to see improve in our next model?

译你最希望在我们的下一代模型中看到哪些改进?

Greg Brockman@gdb · 5月9日66

GPT-Realtime-2 for instantly translating audio in realtime

译开发者利用GPT-Realtime-2模型,在Chrome浏览器扩展中实现了实时AI音频翻译功能。该功能适用于YouTube视频、直播、会议和演示等所有浏览器内音频场景,能实时显示翻译后的语音。用户可在音视频播放或会议进行的同时,基于实时上下文调用AI进行摘要提取、要点归纳、笔记整理和内容解释等交互操作。这标志着浏览器正演变为实时AI操作系统,推动互联网语言壁垒趋于消失。

小互@xiaohu · 5月9日31

兄弟们,福利来啦 ChatGPT Business 优惠促销 相当于买一送一 连续优惠48个月 薅羊毛教程⬇️

Chubby♨️@kimmonismus · 5月9日44

Hold on. Is @sama referring to the OpenAI phone? Are they finally hyping up their first hardware product? Remember: Just days ago, Ming-Chi Kuo reported that OpenAI is fast-tracking its first "AI agent phone" to directly compete with the iPhone, with mass production targeted as early as the first half of 2027.

译等等。@sama 指的是OpenAI手机吗? 他们终于要开始宣传首款硬件产品了? 提醒一下:就在几天前,郭明錤报告称OpenAI正加速推进首款“AI代理手机”,旨在直接与iPhone竞争,目标最早在2027年上半年实现量产。

阿绎 AYi@AYi_AInotes · 5月9日60

卧槽,兄弟们,竟然被孙哥回关了❗ ❗ ❗ 激动的手都在抖,怎么有点热泪盈眶的感jio🥹 AI中转站太火爆了,孙哥和小特朗普都下场了,本来想趁着周末好好写一写孙哥为什么做AI中转站这件事,去他的主页找素材,发现不知道啥时候回关我了😳 平复下情绪说回正题,我搜了下最近的评论发现褒贬不一, 大多数人都以为孙宇晨又做了一个卷价格的API中转站,殊不知其实他已经偷偷卡位了AI时代最赚钱的位置。 http://B.AI上线一个月,已经破了160万注册用户。 DeepSeek-V4大幅打折接近1折, 接近白送,GPT、Claude、Gemini一个Key全搞定, 支持加密钱包直连,无KYC,无审核。 也有很多人嘲笑这又是一个卷低价的生意,赚点token差价的辛苦钱。 但他们忘了,孙哥这辈子从来不会做低毛利的事,表面看是卷价格,实际上是在做战略卡位。 他真正的目标根本就不是卖API, 我理解孙哥核心目标是要成为AI Agent时代的中央银行。 接下来我分三层讲透这个事,也请@justinsuntron 孙哥指正🫡

译作者因被孙宇晨回关而引发讨论,指出其AI中转站项目B.AI并非简单的低价API竞争。该项目上线一个月注册用户破160万,提供大幅折扣的DeepSeek-V4等模型,并支持加密钱包支付。核心观点认为,孙宇晨的战略目标是通过低价策略抢占入口,最终旨在成为未来AI Agent时代的“中央银行”,而非仅赚取API差价。

Peter Steinberger 🦞@steipete · 5月9日68

The more skills you give codex, the less you have to prompt.

译你赋予codex的技能越多,需要提示的就越少。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月11日
15:48
歸藏(guizang.ai)@op7418
75
藏师傅PPT Skill更新第二套主题,集成AI生成与美化功能

藏师傅的PPT Skill工具发布了第二套主题,设计更简洁美观,适用于数据和事实性内容的演示。新主题提供4种颜色和20多种版式选择。其核心功能是集成了Codex内置的GPT-2.0模型,可辅助用户生成演示配图、美化截图,并能自动生成适用于各平台(如公众号)的封面图与配图。相关文章详细介绍了具体使用方法及操作技巧。

歸藏(guizang.ai): http://x.com/i/article/2053655813877870592

OpenAI图像生成教程/实践
15:30
Peter Steinberger 🦞@steipete
50
Birdclaw保存了我完整的推特存档,因此我可以向Codex查询任何我曾点赞或收藏的旧推文。https://birdclaw.sh
智能体OpenAI搜索教程/实践
14:27
Greg Brockman@gdb
47
/goal 被低估了 GPT-5.5 extra high thinking 配合 /goal 刚刚做到了。 我震惊了。

james yu: We have a gnarly refactor in our codebase that I test every frontier model on. I've been doing this since the release of...

OpenAI大佬观点推理编码
13:18
向阳乔木@vista8
56
当前AI代码生成最难的基准测试ProgramBench

ProgramBench是Meta、斯坦福和哈佛团队推出的高难度AI代码生成基准测试。它要求AI仅根据二进制文件及文档,在无法反编译和联网的条件下,从零重写原程序。测试项目涵盖从jq到FFmpeg、SQLite乃至PHP编译器级别。目前表现最佳的Claude Opus在“接近完成”指标上仅达3%,GPT-5和Gemini系列通过率均为零,凸显了AI在复杂软件工程任务上的巨大挑战。

AnthropicOpenAI编码评测/基准
13:08
Tibo@thsottiaux
50
我们是Codex。我们人数众多。我们从不失手。我们交付成果。敬请期待。 如果你有解决近乎不可能问题的履历,并希望投身计算的未来,请私信我。我们的工作涵盖研究、基础设施、智能体开发与产品领域。目前仅在旧金山招聘。
OpenAI行业动态
08:57
Greg Brockman@gdb
30
智能体构成了令人惊喜的优秀产品
智能体OpenAI大佬观点
08:33
meng shao@shao__meng
65
Codex 如何重塑产品营销的工作方式

OpenAI Codex的首位产品营销经理阐述了其核心价值:从“写代码的工具”转变为让知识工作者直接接触代码库、Slack等“信息源头”的工作台。具体通过三层应用重塑PMM角色:作为个人助理聚合多工具信息以管理注意力;跟踪产品与工程状态以直接理解源码;生成跨职能对齐文档初稿以提高信息可见性。AI接管了汇总与追踪工作,使人能更专注于不可替代的判断部分,如评估表述、识别计划漏洞。这一让AI做“有据可依的初稿”、接入真实工作场景并实现自动化的模式,可迁移至任何上下文密集型岗位。

pranav: http://x.com/i/article/2053505234522238976

智能体OpenAI大佬观点教程/实践
06:52
Chubby♨️@kimmonismus
17
不知道我是更期待 GPT 5.6、Opus 4.8、新版 Kimi 还是 GLM 模型。 活在当下真是无比精彩的时代。
AnthropicOpenAI大佬观点
06:32
宝玉@dotey
57
深度拆解:AI Agent Harness 的构造

文章指出,将大语言模型转化为可靠智能体的关键在于其外围基础设施,即“AI Agent Harness”。它被定义为产生智能体行为的完整软件架构,包括编排循环、工具、记忆、上下文管理等核心组件。这如同操作系统之于CPU,是智能体得以自主运行的“机器”。Harness工程超越了提示词工程,涵盖了完整的应用架构,是解决智能体在生产环境中表现不稳定的根本方案。

智能体AnthropicMCP/工具OpenAI
05:22
Chubby♨️@kimmonismus
14
GPT-5.5 现在是无可争议的王者。 对下一个模型感到超级兴奋。 Sama 的宣传造势也很棒 ;)

Sam Altman: @icanvardar curious to see if you still feel this way after the next model!

OpenAI大佬观点
04:44
Yuchen Jin@Yuchenj_UW
28
AGI已在内部实现。 人工地精智能 【引用 @sama】:what if we name the next model "goblin" almost worth it to make you all happy…

Sam Altman: what if we name the next model "goblin" almost worth it to make you all happy...

OpenAI大佬观点
04:37
Sam Altman@sama
30
如果我们将下一个模型命名为"哥布林" 几乎值得为了让你们开心而这样做…
OpenAI大佬观点
04:07
Sam Altman@sama
精选77
用户指示AI模型Codex去赚取5美元,Codex自主完成了一系列任务:寻找开源安全审计赏金项目,提交有效的拉取请求,与维护者沟通,并处理了GitHub验证流程,最终使工作被合并。经过约22小时的工作,用户获得了16.88美元的首笔付款。按此推算,若每日重复,月收入可达506.40美元。这初步实现了Sam Altman关于AI能主动为人赚钱的愿景,虽然金额尚小,但标志着一个令人兴奋的开端。

Chris: Codex made me money without me doing anything.. Huge turning point for me today, I asked Codex to go off and make me $5....

智能体GitHubOpenAI安全/对齐

推荐理由:一个普通用户让 Codex 独立完成安全审计并赚到真金白银,是 agent 走向「替你赚钱」的第一个可信证据,Sam 只回了 interesting,比十万字 PR 都重。
03:22
Chubby♨️@kimmonismus
精选76
旧版AI模型急诊诊断已超越人类医生

一项发表于《科学》的研究显示,OpenAI一年前发布的o1模型在急诊诊断中表现优于医生。该模型在真实、混乱的急诊数据测试中,正确或接近正确诊断率达67%,而医生为50-55%,尤其在信息有限的早期分诊阶段优势最明显。研究指出,o1模型在结构化病例中的临床推理近乎完美,且该模型按AI标准已属旧版,当前模型可能更强。研究未涵盖长期住院数据及影像诊断,下一步需验证AI系统能否实际改善患者预后。

OpenAI推理论文/研究

推荐理由:一年前的o1在真实急诊信息最不全、时间最紧的环节胜过急诊医生,这不是实验室刷榜,是直接冲击医疗流程。做AI落地的朋友可以拿这篇当说服医院的弹药。
5月10日
22:33
阿绎 AYi@AYi_AInotes
精选80
教育科技门槛一夜归零:AI助力单人低成本开发3D教学应用

AI工具GPT Images 2和Gemini 3.1 Pro的出现,彻底颠覆了教育应用的开发模式。过去需多人团队、数月时间和高昂成本才能完成的3D教育应用,如今一个具备领域知识(如生物学)的普通人,仅用约48小时和不到10美元即可实现。这消除了对编程、3D建模等技术能力的依赖,使教师、家长等个体也能独立创造高质量互动教学工具。此举有望推动过去仅属于精英机构的教学资源(如虚拟实验室)普及,为缩小教育不平等提供了新的技术路径。

Dilum Sanjaya: Fun interactive science app ideas | Part 3 Played around with generating 3D biological structures and made an app to exp...

GoogleOpenAI图像生成教程/实践

推荐理由:阿易这视频展示了 GPT Images 2 和 Gemini 3.1 Pro 的组合,48 小时从想法到可交互 3D 教学 App,零代码工作流直接可以抄,教育技术门槛真的归零了,做内容的别错过。
22:22
Chubby♨️@kimmonismus
25
看来那个神秘的OpenAI帖子有答案了。 Codex移动应用。 无法核实,希望是真的 :) 若能成真就太酷了!

Quipra: Hell yeah .

OpenAI编码行业动态
21:32
🚨 AI News | TestingCatalog@testingcatalog
49
OpenAI暗示Codex与ChatGPT将很快实现更深度的整合,用户有望在电脑处于唤醒状态时,通过手机上的ChatGPT应用持续使用Codex。同时,OpenAI发布的一张图片引发了广泛猜测,包括其可能正在预告推出自有品牌手机。尽管这一猜测被认为不太现实,但此举若属实,将在谷歌I/O大会期间成功吸引大量关注。引用推文的关键信息"how do i call"也指向了对手机相关功能的探讨。

\: how do i call https://x.com/sama/status/2052887698717986956?s=20

OpenAI现象/趋势编码
21:22
Chubby♨️@kimmonismus
44
生病期间随便玩玩codex claude代码之类的。 我刚发现欧洲居然还不能使用codex里的计算机功能?为什么欧洲在方方面面都落后。 该死的@eucommission。说真的。
智能体OpenAI大佬观点
16:33
阿绎 AYi@AYi_AInotes
61
为什么现代AI教父Karpathy的第二大脑,根本不用Notion和Obsidian

Karpathy构建的动态3D知识星系,与传统笔记工具的静态存储形成鲜明对比。该系统能主动思考,仅输入378条笔记便自动生成1854个节点和3856条边,发现隐藏关联并提供洞见。这标志着知识管理从存储转向培育个人思维AI的革命。知识复合的差距关键在于系统架构,早使用者将获得持续的思维复利优势。对于普通人,可从Obsidian结合AI的自动化方案开始实践这一方向。

CyrilXBT: http://x.com/i/article/2052202263263744010

OpenAI现象/趋势
15:02
swyx 🌉@swyx
18
想知道@embirico是否有数据表明 Codex用户中使用此模式的百分比 以及过去一个月该数据的增长情况 这是衡量对齐/智能体采纳程度的有效参考指标
OpenAI行业动态
14:29
Orange AI@oran_ge
56
DAR指标揭示A社与OpenAI估值持平原因

推文指出,当前估值核心指标已从DAU转向DAR(每日活跃收入),它衡量单个用户单日贡献的价值。A社凭借高DAR,即使日活仅500万,估值也能与OpenAI相当,因为其DAR比OpenAI高100倍,比豆包可能高1000-10000倍。作者强调资源有限,建议豆包放弃单纯追求DAU,将资源如显卡投入Seedance 2.0以提升DAR,从而实现更优发展。

AnthropicOpenAI现象/趋势
11:13
小互@xiaohu
49
HTML比Markdown更利于人机协作与Agent工作理解

推文提出,在Agent工作流和人机协作交互场景中,HTML格式比Markdown更易于人类阅读和理解。作者建议让Codex使用HyperFrames来制作解说视频,并指出虽然生成的解说文案带有明显的AI风格,但整体效果不错。引用的推文提供了关于HyperFrames技术或相关演示的背景支持,强调了HTML在提升人机交互清晰度方面的优势。

Thariq: http://x.com/i/article/2052796100608974848

智能体MCP/工具OpenAI大佬观点
10:51
Deedy@deedydas
62
这张展示前69款软件产品增长与采用率的图表,是当前科技界赢家与输家的最佳快照。 - 规模化领导者(Anthropic) - 风险在位者(OpenAI) - 崛起挑战者(Granola) - 长尾群体(11x) 数据来源Ramp支出数据,统计至2026年3月。
AnthropicOpenAI现象/趋势
10:13
小互@xiaohu
58
兄弟们 这个创意牛P啊 3D 趣味互动科学应用 用GPT生成图像,然后使用Gemini 3.1 Pro生成,可以将任何知识的内容制作成3D可交互的效果展示! 效果炸裂!
GoogleOpenAI图像生成多模态
09:13
向阳乔木@vista8
60
GPT-Image-2为段落生成视觉解释,提升阅读体验

GPT-Image-2能够根据选中的文章段落直接生成视觉化的解释,极大地改善了阅读体验,使其不再枯燥。这一功能展示了AI在将文本内容转化为直观图像方面的应用潜力,为理解和消化复杂信息提供了新的辅助工具。

OpenAI图像生成多模态教程/实践
07:44
Berryxia.AI@berryxia
48
从此告别无聊的课堂教学! 自己开发趣味互动科学应用创意 ~ 现在使用GPT-image-2 + Gemini 尝试生成3D生物结构,并开发了一款能交互探索这些结构的应用!
GoogleOpenAI图像生成多模态
07:44
ginobefun@hongming731
63
AI重塑研发组织与Claude Code的HTML优势

阿里技术访谈显示,深度使用AI的工程师写代码时间占比从30%降至5%,与AI对话时间升至60%,标志着AI成为新协作主体,正瓦解传统组织基于“人是唯一协作主体”的前提。组织形态从汇报关系的结构图转向由人、智能体、数据等节点构成的“执行图”。新瓶颈在于信息不够结构化,先锋团队采用“Harness层+Hive Mind层”架构应对。同时,Claude Code核心成员分享实践发现,在AI生成场景中,HTML比Markdown更具优势,因其信息密度高、视觉清晰、易于分享并支持交互。

智能体AnthropicOpenAI现象/趋势
07:34
Tibo@thsottiaux
34
最近看到Codex在机器人、科学、游戏等领域的众多酷炫应用。似乎人们正在发现/goal功能的强大之处。 虽然有些操作令人不安,但核心要点已然明了。
OpenAI现象/趋势
05:27
Greg Brockman@gdb
64
Codex处理报销事务 它自行下载月初至今的发票 更新费用电子表格并填写实际表格 使用Drive和Sheets插件进行状态跟踪 通过Gmail插件追踪发票 使用Chrome扩展程序处理实际表格及Drive上传 自加入OpenAI以来我一直拖延此事 Codex仅用约20分钟就完成了所有工作!

Vaibhav (VB) Srivastav: Codex quite literally filed my reimbursements, downloaded invoices since the start of the month, updated the expenses sp...

智能体MCP/工具OpenAI教程/实践
03:34
Sam Altman@sama
17
启动一系列编程任务后 我带着孩子在阳光下奔跑 午睡时间回来发现它们已全部完成 这让我对未来充满乐观
OpenAI其他
03:34
Sam Altman@sama
51
5.5 是个自闭症天才,命名品味非常奇怪 我们竟会造出这样的东西,令人震惊
OpenAI大佬观点现象/趋势
02:43
Yuchen Jin@Yuchenj_UW
62
Claude Opus 4.7 在 Anthropic 官网上训练过度。 它设计的每个 HTML 页面都带有明显的 Anthropic 风格。 GPT-5.5 在前端方面仍然出奇地弱。 它设计前端的样子就像是从后端工程师那里学的 CSS。 OpenAI 急需有品味的 MTS。
AnthropicOpenAI多模态大佬观点
01:29
OpenAI Developers@OpenAIDevs
精选74
以下介绍如何集成GPT-Realtime-2为CRM工作流添加语音控制功能。
OpenAI教程/实践语音

推荐理由:OpenAI 官方手把手教你怎么把 GPT-Realtime-2 的语音能力接进 CRM,想给企业工作流加语音控制的开发者可以直接抄作业。
01:13
向阳乔木@vista8
27
从大模型迭代看,OpenAI Codex 口碑现在好过 Anthropic Claude。 下一轮更新应该到谷歌的Gemini发力了吧 好久都没啥声音了…
AnthropicOpenAI大佬观点
00:34
Sam Altman@sama
56
你最希望在我们的下一代模型中看到哪些改进?
OpenAI大佬观点
5月9日
23:57
Greg Brockman@gdb
66
开发者利用GPT-Realtime-2模型,在Chrome浏览器扩展中实现了实时AI音频翻译功能。该功能适用于YouTube视频、直播、会议和演示等所有浏览器内音频场景,能实时显示翻译后的语音。用户可在音视频播放或会议进行的同时,基于实时上下文调用AI进行摘要提取、要点归纳、笔记整理和内容解释等交互操作。这标志着浏览器正演变为实时AI操作系统,推动互联网语言壁垒趋于消失。

CHOI: I just added real-time AI translation into Chormex using GPT-Realtime-2... and this feels absolutely surreal. It works a...

OpenAI产品更新多模态语音
19:43
小互@xiaohu
31
兄弟们,福利来啦 ChatGPT Business 优惠促销 相当于买一送一 连续优惠48个月 薅羊毛教程⬇️
OpenAI教程/实践
18:21
Chubby♨️@kimmonismus
44
等等。@sama 指的是OpenAI手机吗? 他们终于要开始宣传首款硬件产品了? 提醒一下:就在几天前,郭明錤报告称OpenAI正加速推进首款"AI代理手机",旨在直接与iPhone竞争,目标最早在2027年上半年实现量产。

Sam Altman: call me maybe

OpenAI端侧行业动态
16:32
阿绎 AYi@AYi_AInotes
60
孙宇晨AI中转站卡位AI Agent时代中央银行

作者因被孙宇晨回关而引发讨论,指出其AI中转站项目B.AI并非简单的低价API竞争。该项目上线一个月注册用户破160万,提供大幅折扣的DeepSeek-V4等模型,并支持加密钱包支付。核心观点认为,孙宇晨的战略目标是通过低价策略抢占入口,最终旨在成为未来AI Agent时代的“中央银行”,而非仅赚取API差价。

阿绎 AYi: http://x.com/i/article/2051958484304891904

DeepSeekOpenAI大佬观点
12:55
Peter Steinberger 🦞@steipete
68
你赋予codex的技能越多,需要提示的就越少。
OpenAI教程/实践编码
‹ 上一页
1…3233343536…50
下一页 ›