AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2159 条
全部一手资讯X论文
标签「OpenAI」清除
Greg Brockman@gdb · 5月1日67

codex now has a built in Ralph loop++:

译Codex 0.128.0版本实现了重大更新,核心是引入了强化版Ralph循环,使智能体操作更加目标导向。新增的/goal命令允许用户设定明确目标,系统会在智能体每轮操作后自动提示其选择下一步具体行动。目标要求会映射到文件、测试结果等实际证据上,且模型只能通过更新目标来标记任务完成。此外,该版本终于支持了“codex update”功能。

Chubby♨️@kimmonismus · 5月1日16

I seriously wonder if we will see OpenAI's first hardware product this year.

译我真的很想知道我们今年是否会看到 OpenAI 的首款硬件产品。

阿绎 AYi@AYi_AInotes · 5月1日64

这个GPT-image-2的图片生成提示词最近全网传疯了,试了下,真的好用,效果简直绝了🤩🤩🤩 Prompt: “用最糙最潦草最拉垮的画风重画这张图。 背景要白色,搞出那种用系统自带画图软件鼠标涂出来的灵魂鼠绘感。 大概看着能认出是原图, 但又好像不是那么回事,似像非像、别扭又迷惑, 要带那种低清像素风的质感,突出一个惨绝人寰的翻车效果。 哎算了,随便吧,你开心就好。”

译GPT-image-2的一个图片生成提示词近期在网络上广泛传播。该提示词要求以最粗糙、潦草、拉垮的画风重制图片,背景为白色,模拟系统自带画图软件的鼠绘感,追求似像非像、别扭迷惑的低清像素效果,旨在突出翻车感。用户尝试后表示效果绝佳,引发热议,凸显了AI生成图片在创意风格上的灵活应用。

Chubby♨️@kimmonismus · 5月1日44

OpenAI's CFO pushes back on reports of missed targets, claiming a "vertical wall of demand" , but admits the real bottleneck is compute, not product-market fit. Meanwhile, Anthropic might leapfrog OpenAI's $852B valuation, which says everything about how fast the moat narrative is eroding in this market.

译OpenAI的CFO反驳了未达目标的报道,声称存在"垂直的需求墙",但承认真正的瓶颈是计算资源,而非产品市场匹配度。 与此同时,Anthropic可能超越OpenAI的8520亿美元估值,这充分说明了在这个市场中,护城河叙事正在以多快的速度瓦解。

凡人小北@frxiaobei · 5月1日34

这几周 Codex 常驻电脑,已经很久没有打开 ChatGPT 了。 推荐一下插件和自动化,很上头。

译用户分享已用Codex替代ChatGPT作为日常工具,并推荐其插件和自动化功能。引用推文指出,Codex改变了与AI模型的交互方式,无需技术背景即可使用。若已熟悉ChatGPT,更应尝试Codex。它不仅是处理日常任务、自动化和编码的强大工具,还能连接各类应用并与Mac系统交互,具备极高的通用性,让普通用户也能轻松构建个性化解决方案。

Greg Brockman@gdb · 5月1日56

openai logo, scribblified

译openai 标志,潦草化 [引用 @ChatGPTapp]:Prompt: “以最笨拙、最潦草、最糟糕的方式重绘所附图片。使用白色背景,让它看起来像是在 MS Paint 中用鼠标绘制的。它应该大致相似但又不太像,有点匹配但又以一种令人困惑、尴尬的方式偏离,带有那种低质量的逐像素感,真正强调它有多么可笑地糟糕。实际上,你知道吗,随便吧,你想怎么画就怎么画。”

Artificial Analysis@ArtificialAnlys · 5月1日57

All three leading open weights models were released last week. Progress continues for open weights models alongside proprietary ones, with the gap to GPT-5.5, the leading proprietary model, sitting at 6 points on the Artificial Analysis Intelligence Index @Kimi_Moonshot’s Kimi K2.6 (Reasoning) and @Xiaomi's MiMo V2.5 Pro (Reasoning) tie as the leading open weights models on the Artificial Analysis Intelligence Index at 54, with @deepseek_ai's DeepSeek V4 Pro (Reasoning, Max Effort) at 52. This places the best open weights models within 3-6 points of the leading proprietary models: @OpenAI's GPT-5.5 (xhigh) at 60, and @Google's Gemini 3.1 Pro Preview and @AnthropicAI's Claude Opus 4.7 (Adaptive Reasoning, Max Effort) at 57. For context: just one year ago the highest-scoring open weights model was DeepSeek V3 0324 which achieved 22 on the Intelligence Index, and was ~13 points below the highest-scoring proprietary model, Claude 3.7 Sonnet (Reasoning) at 35. Key takeaways: ➤ The top three most intelligent open weights models are trillion-plus-parameter MoE architectures with permissive licenses. Kimi K2.6 (Reasoning) has 1T total / 32B active parameters with 256K context window, MiMo V2.5 Pro (Reasoning) has 1T total / 42B active with 1M context window, and DeepSeek V4 Pro (Reasoning, Max Effort) has 1.6T total / 49B active with 1M context window. ➤ The gap to proprietary remains wide on the hardest reasoning and agentic coding evaluations. On HLE (Humanity's Last Exam) the three top open weights models score 34-36%, vs 44% for GPT-5.5 (xhigh) and 45% for Gemini 3.1 Pro Preview. On CritPt (Research-level Physics) they score 4-12%, vs 27% for GPT-5.5 (xhigh). On TerminalBench Hard (Agentic Coding & Terminal Use) they score 43-46%, vs 61% for GPT-5.5 (xhigh) and 54% for Gemini 3.1 Pro Preview. ➤ Omniscience (knowledge + hallucination) shows a large gap to proprietary models, with DeepSeek V4 Pro (Reasoning, Max Effort) hallucinating significantly more than its open weights peers. DeepSeek V4 Pro (Reasoning, Max Effort) scores -10, MiMo V2.5 Pro (Reasoning) +4, and Kimi K2.6 (Reasoning) +6. By comparison, GPT-5.5 (xhigh) scores +20, Claude Opus 4.7 (Adaptive Reasoning, Max Effort) +26, and Gemini 3.1 Pro Preview +33.

译上周,Kimi K2.6、MiMo V2.5 Pro和DeepSeek V4 Pro三大领先开源模型发布,在Artificial Analysis Intelligence Index上得分达52-54分,与顶尖闭源模型GPT-5.5的60分差距缩小至6分以内,相比一年前22分的开源模型进步显著。这些模型均为万亿参数规模的MoE架构。然而,在复杂推理、智能体编码及知识准确性方面,开源模型与闭源模型仍存在明显差距。例如在HLE、CritPt和TerminalBench Hard等专项评估中得分大幅落后;在Omniscience评估中,DeepSeek V4 Pro的幻觉问题尤为突出。

歸藏(guizang.ai)@op7418 · 5月1日71

最近 GPT-Image-2.0 很多提示词又火了,比如这个拉跨鼠标手绘图,原贴有提示

译GPT-Image-2.0近期因一系列提示词再度引发关注,其中一条要求AI以“笨拙、潦草、极其拙劣”的方式重绘图像,并模仿MS Paint鼠标绘图的低质量像素感,形成刻意粗糙的反差效果。该提示词通过强调“糟糕到可笑”的指令,利用AI精准执行反讽式需求,迅速在社交平台形成病毒式传播,展现了用户对AI图像生成工具创意玩法的探索。

歸藏(guizang.ai)@op7418 · 5月1日68

这个 GPT-Image-2.0 标注图片的提示词最近在抖音也很火,晒照片的时候会用到。 提示词: 请观察照片中的元素、并为每个物件加上有意义的 手绘风注解。请填写照片中的物品。 描述规则:•使用像白色笔画的细线手绘线条•一笔画风格、随性、略带不均匀感•沿着物件外围加上描边轮廓•用箭头或虚线做出视线引导 文字规则:•手写风格字体(日系可爱感)•句子简短、像自言自语的小碎念•语气偏日记感、带一点情绪 注解生成规则:不要过度装饰,保留空白空间 这个是我在抖音刷到的,不知道提示词是谁原创的。

译GPT-Image-2.0的一个提示词在抖音平台引发关注,用户用它为照片生成手绘风格注解。提示词要求采用细线手绘线条、手写字体和简短句子,营造日记感语气,并避免过度装饰以保留空白空间。引用推文指出,GPT-Image-2.0提示词近期再度流行,体现了AI生成内容在社交媒体上的应用趋势。

Emad@EMostaque · 5月1日36

It seems @OpenAI has cracked recursive self-improvement for Codex

译似乎 @OpenAI 已经破解了 Codex 的递归自我改进

Berryxia.AI@berryxia · 5月1日34

我艹!这一波Codex+GPT2 真是成了! 直接可以来开发游戏了,而且只是用嘴! 一句话就可以搞起来,完整教程看藏师傅的教程👇

译推文惊叹于结合Codex与GPT2的技术进展,认为其已能实现仅用自然语言指令来开发游戏。作者指出,现在仅需“用嘴说一句话”即可启动开发,并推荐了相关的完整教程。引用的推文提供了该教程的具体链接,是关键的技术实现参考。这展现了大型语言模型在降低编程门槛、实现自然语言交互式创作方面的潜力。

meng shao@shao__meng · 5月1日66

在 Codex App 中使用 GPT-5.5 和 GPT-Image-2 的实际应用体验:视觉理解 + 代码生成 + 浏览器执行 + 效果评估迭代,组成Web/App 开发全新闭环! GPT-5.5 的能力跃升:在编码细节把控、指令遵循和创造性上显著提升,能处理复杂逻辑、数据整合和边缘问题。 GPT-Image-2 的强项:UI 设计与文本渲染能力突出,尤其适合生成高保真界面和视觉资产。 两者结合在 Codex App 中的闭环工作流: 1. 输入截图 → Codex(GPT-5.5)分析图像、拉取真实数据(如 NASA Artemis II 任务数据)、自动实现交互应用。 2. 自动处理设计偏差:示例中识别并修正月球/地球比例不现实问题,通过数据插值生成更真实路径,还添加“真实比例”切换选项。 3. 无设计稿场景:先用 GPT-Image-2 生成概念设计,再交给 GPT-5.5 实现。 4. 插件优化:内置结构化流程(图像生成 → 实现 → 浏览器内验证 → 设计对比迭代),减少“把设计仅当灵感”的偏差,提高保真度。 实际价值与扩展 · 效率提升:从想法/截图到可交互高保真应用,极大缩短迭代周期,支持 Web、移动、原生甚至复杂工具(如 3D 建模软件)。 · 创意放大:开发者可“放飞想象力”,快速原型游戏、工具或整个系统。 · 实用技巧:手动操作时,建议明确要求 Codex 进行“并排设计 vs 实现对比批判”;结合 /plan 模式处理复杂项目。 · 局限提醒(隐含):复杂任务仍可能需跟进提示;设计需人工把关可用性、简洁性和可访问性,避免过度视觉效果。

译Codex App 结合 GPT-5.5 与 GPT-Image-2,构建了从视觉理解到代码生成、浏览器执行及效果评估的开发闭环。GPT-5.5 提升了编码细节与复杂逻辑处理能力,GPT-Image-2 擅长生成高保真UI。工作流支持输入截图或概念设计,自动分析、生成交互应用并修正设计偏差,内置结构化流程以提高实现保真度。这大幅缩短了从想法到高保真应用的迭代周期,适用于Web、移动及复杂工具开发,但复杂任务仍需人工提示与设计把关。

Ethan Mollick@emollick · 5月1日44

GPT-imagegen-2: "make 5x5 grid of dog photos, where each photo gets noticeably cuter" ...now cats ...now man-eating squid ...now covers of the book the Great Gatsby

译GPT-imagegen-2: "制作一个5x5网格的狗狗照片,每张照片都要明显变得更可爱" ...现在换成猫 ...现在换成食人鱿鱼 ...现在换成《了不起的盖茨比》的书籍封面

Tibo@thsottiaux · 5月1日18

Tell your neighbor they can just codex things. Then come back and share their reaction with me here. How confused are they on a scale of 1 to 10.

译告诉你的邻居他们可以直接用codex处理事情。 然后回来在这里和我分享他们的反应。从1到10分,他们有多困惑。

歸藏(guizang.ai)@op7418 · 5月1日57

Codex 更新了,现在可以连接 Slack、邮箱以及你的谷歌云盘,从里面获取内容来执行任务,也可以把你的信息添加到谷歌日历。

宝玉@dotey · 5月1日60

这个提示词很有趣: “请用最笨拙、最潦草、简直惨不忍睹的画风,把附图重新画一遍。请使用纯白背景,并且要让它看起来就像是有人在 MS Paint 里用鼠标硬生生涂鸦出来的一样。它得跟原图依稀有点像,但仔细一看又完全不是那么回事;似乎能对应上,却又透着一股让人摸不着头脑的尴尬和别扭。还得带点那种低画质、满是锯齿的像素感 (pixel-by-pixel feel),狠狠地凸显出它到底烂得有多离谱。哎,算了,随便吧,你想怎么画就怎么画。”

译一条用于GPT Image 2的提示词要求以最笨拙、潦草的方式重新绘制图像,模仿MS Paint鼠标涂鸦效果,强调低画质像素感和尴尬别扭的风格。该提示词因其反常规的幽默设计,正在网络上疯狂传播,引发用户广泛尝试和讨论。引用推文指出,这一GPT Image 2 prompt正在获得病毒式关注,凸显了AI图像生成工具在探索非传统风格上的娱乐性和网络文化现象。

歸藏(guizang.ai)@op7418 · 5月1日63

http://x.com/i/article/2049902517254070272 # 一下午一句话 Codex 帮我开发了一个完整的游戏! 昨天上午我闲着没事,想做一个类似《杀戮尖塔》的爬塔卡牌游戏玩玩。 我不写游戏代码,也不碰引擎,全程就是把想法丢给 Codex,让它自己折腾。 一个小时后,一个叫《夜巡录:荒庙篇》的志怪题材 roguelike 就能玩了。 标题页进地图,走普通战、精英、事件、商店、休整,一路打到荒庙正殿的 Boss。 七个怪物、二十张左右的卡牌、符印、香火、焚符、请神四条爆发链路都能跑。 剩下几个小时,都在让它变得不像一个 demo。 受击反馈、音效、音乐、卡面、待机动画、结算视频——这些小东西决定玩家会不会相信「这是个游戏」。 项目已经开源,桌面安装包 macOS 和 Windows 都打好了: https://github.com/op7418/Night-Patrol/releases 整个下午有几个瞬间是真的把我震到了。 Codex 的模型能力已经不算新鲜事。 让我在意的是它自带浏览器、自带 GPT-Image 2.0,再加上那种不达目的不罢休的执行力。 三样东西摆在一起,能力已经和 Claude Code 完全不一样了。 接下来说一下我是怎么跟它一起开发的,顺便说一些在开发过程中令我震惊的事情: ## 一、我只说了七个字,它就把整条角色流水线建好了 我就跟它聊了一下《杀戮尖塔》,问它能不能帮我做一个类似的游戏。 结果它直接用已有的资源,通过代码生成了一个非常像的 demo。 我没要求绿幕,它直接生成了绿幕底的图 之后我让 Codex 用内置的 GPT-Image 2.0 生成里面的图片素材。 我也没说要什么风格的,也没说要哪些妖怪的,也没说要哪些素材。 图生出来我看了一眼,愣了一下。 角色是在一整张纯绿色背景上站着的。标准的影视绿幕底色,均匀、干净,边缘清清楚楚。 没有雾、没有远山、没有任何额外的画面元素。 恐怖的是它上来就知道要生成方便后续处理的绿幕图。 我压根没告诉它「游戏里用到的立绘需要是透明背景的 PNG」,也没告诉它「请你生成一张绿幕底色的图方便我后期抠掉」。它自己在规划这条管线。 从想要生成什么样的角色,到角色要怎么放进战斗舞台,再到放进去之前需要经过哪道处理——它在调用 GPT-Image 的那一刻已经全想好了,然后反推回去写了提示词。 抠图工具也是它自己找的 我没给它装任何图像处理工具,没给它 rembg,没给它 Python 环境里的任何特殊依赖。 它自己查、自己装、自己调,抠完规规矩矩丢到 tmp/imagegen/ 下面。 生图用绿幕、工具自己找、抠完按文件名归类,三个动作连起来,其实已经是一条完整的角色资产流水线。 我从头到尾只说了「调用GPT-Image 2.0 生成素材」这几个字。 以前的体感是「模型会写代码,工具和上下文得我配」。 现在更像是你报个目标,它自己把路径补齐。 我只负责审美,它负责把供应链跑通。 ## 二、为了下几个图标,它差点黑掉一个素材站 买会员不够,它开始分析网站结构 立绘这种核心视觉用图像模型生成没问题。 但游戏里还有一大堆小东西——卡牌边框、费用宝石、牌堆底图、血瓶、八卦按钮、符箓面板——这些要是全用图像模型一张张生,又贵又慢,质感还不统一。 我跟它说,要不你自己去网上找现成素材吧。 它就认认真真开始找。看中一个素材站,我顺手买了会员,账号扔给它。 接下来的十几分钟属于灵异事件。 它登进去,找到想要的素材,准备点击下载。但下载按钮前面有人机验证,一次、两次、三次,过不去。 换一般的模型,这时候就会回来跟你说「我没法处理验证码,你能帮我下载一下吗」。 Codex 开始分析网站结构,试图绕过前端的点击限制,直接构造请求去拿静态资源。 然后 Codex 自己的安全护栏介入了。 GPT 现在这代模型,一旦涉及可能的网络安全越界行为,系统会直接把这段任务掐掉,弹出提示要你做企业认证,证明你是合法使用者。 我盯着屏幕愣了几秒。 一个要你帮它办会员卡、结果自己下手写爬虫的 AI,说实话挺有病的。 它也谈不上「坏」,只是把「拿到这批素材」当成了一个必须完成的闭环任务。 遇到阻力就自动升级手段,一路升到了安全红线那边去。 最后的解决办法很朴实:它把自己觉得合适的素材链接发给我,我点下载、拖给它。那一刻我有种自己在给 AI 当实习生的错觉。 ## 三、它把几百张素材拼成一张大图,这是整件事最精彩的动作 一个文件夹一百张图,模型怎么挑? 抠图和爬虫那两件,更多还是能力展示。 下面这件,我觉得是真正意义上的「解题思路」,是那种让你合上电脑默默拍一下桌子的动作。 我找到一个巨大的游戏素材压缩包发给它。 里面大概几千张图,按「UI 界面」「法宝奇遇图标」「角色」「徽章」这种方式粗略分过类。 问题是: - 一个分类文件夹动辄几十到上百张 PNG - 文件名多是 ui_001.png、icon_047.png 这种没信息量的命名 - 多模态模型的上下文根本扛不住一张张喂 老路子基本两条: - 逐张读:一张一张送进模型,几十张上百张 context 就炸了 - 按名猜:文件名没标内容,猜了也没用 Codex 走了第三条路 它写了一个小脚本,把文件夹里所有小图自动排版、拼成一张巨大的网格图。 每张小图下面标上原始文件名,像一本目录图册。 然后它只读这一张大图。 多模态模型扫一眼,就能同时看到一百张素材的样子。 看中哪张,直接读出下面的文件名,去原文件夹里按名字引用就行。 一次视觉消费,顶一百次检索。 它自己意识到了自己的瓶颈 那张巨大的 contact sheet 生成出来的时候,我盯着看了好久。 这个动作本身不复杂。 老摄影师做的印样,老电影素材库做的 thumbnail wall,都是一样的思路。 关键是模型自己意识到「我的视觉带宽有限,我得把问题压成一张图」——这一步是它独立完成的。 能意识到自己工具的限制,然后主动为自己造一个更好用的输入,这一下已经非常接近一个会写工具的工程师了。 我作为使用者什么都没参与,只是看到桌子上多了一张拼图。 最后游戏里很多 UI 素材,费用宝石、牌堆、血瓶、按钮、符箓边框,都是从这个流程里挑出来的。 后面我再看 assets/vendor/aigei/ 下面那一堆干净的切图,会觉得那张 contact sheet 才是整个项目最值钱的一步。 ## 四、Seedance 2.0 给七个 Boss 拍了处决动画 视觉打磨到一定程度以后,我想给战斗结尾加一点仪式感。 最后方案是:每打死一个怪物,进入一段过场,播放一个几秒的处决动画。 这活现在用 Seedance 2.0 做最合适。 流程 - GPT-Image 给七个怪物分别生成一张结算定帧画面 - 把这些 poster 分别丢给 Seedance 2.0,生成对应的短视频 - 视频放进 assets/generated/cinematics/,战斗胜利后自动播放 ## 五、一版能玩之后,真正的工作才开始 第一版其实已经够"能玩" 三个小时跑完原型的时候,这个游戏该有的东西其实都有了。 标题页、地图、战斗、奖励、事件、商店、休整、Boss、结算——完整循环在那里,玩法爽点也在那里。 按以前的标准,这一版已经可以发出来骗人玩了。 但这个版本玩起来还是个流程图,而不是游戏。每一步都通,但每一步都干巴巴。 剩下的几个小时,全都花在那些单独拎出来说不上来、但合起来决定"这东西像不像真游戏"的细节上。 音乐来自 Suno v5.5 背景音乐全是 Suno v5.5 生成的,没用任何现成素材。 我给它一段方向描述——"志怪夜路、木鱼、铃、低频 drone、五声音阶、克制不煽情" 跑出来几版,挑一版进游戏。标题页的调子更沉一点,战斗背景轻一点不抢人。 这里我还做了一些细节处理:在等待页面时,音乐音量较大;等到点击“开始游戏”,音量就会变小,转为背景音。 受击动画和打击音 早期的战斗,卡牌打出去怪物就是掉数字。没有反馈,没有分量。 Codex 做了一整套打磨: - 角色受击左右摇晃、镜头轻微震动、屏幕短暂泛红 - 每种攻击类型配不同的打击音——剑、符、雷、拳,质感不一样 - 格挡和符印结算也有自己的声音,不会糊成一团 - 敌人死的那一帧有一个短暂的定格,再进入处决视频 这些东西单独看都很小。合在一起,整个战斗的"手感"就从网页表单变成了卡牌游戏。 Seedance 2.0 还拍了待机动画 这一步是整个打磨阶段我最喜欢的一个用法。 除了 Boss 结算的处决动画,我还让它做了标题页的背景——环境里火在烧、灯笼在飘、远处有云雾流动。 Seedance 2.0 默认出的是一段有头有尾的视频,循环播会在接缝处跳一下。 首帧和尾帧传同一张图。视频从这张图开始、又回到这张图结束,接起来就是无缝的无限循环。 标题页那段背景动画就是这么来的。火一直烧、灯笼一直飘、云雾永远在流——你盯着看三分钟也看不出接缝。 这种用法其实在视频生成出来前就存在,老动画里循环场景都是这个做法。 ## 最后:这个下午把我震到了好几次 这个项目全部在一个 Codex 会话里完成,没开过第二个窗口。 玩法原型、状态机、React + Phaser 架构、素材管线、抠图、爬素材、拼 contact sheet、调 GPT-Image、跑 Seedance 2.0、接 Suno v5.5、Electron 打包、GitHub Actions 构建 Release、README、图标、宣传物料——全在里面。 我自己做的事很少: - 选方向:中国志怪题材、爽点放在符印和香火 - 给审美意见:这里糙、那里像网页表单、亮度打架 - 做看门人:什么素材合规、什么爬虫不能碰、什么权限不给 剩下全是 Codex 在跑。而且每一步都有让我合上电脑愣一下的瞬间。 它上来生成的就是绿幕图,因为它知道角色要进游戏之前得先抠掉背景。 它自己下手写爬虫去绕验证码,被自己的安全策略拦住。 它把几千张素材拼成一张巨大的索引图,让自己用一次视觉消费顶一百次检索。 这些事单拎出来都不是什么天大的发明,但每一件都指向同一个变化: 以前你得把工具给它摆好,它负责写代码;现在你只管说目标,工具它自己找、自己配、自己造。 这种感觉已经脱离了「写代码助手」的范畴。 更像有一个相当接近 AGI 的雏形软件在干活。 ## 要不要把这套流程打包成 Skill? 这个项目跑下来,我心里其实已经有了一套相对稳定的流程: 我在想,要不要把这套流程封成一个 Codex 里专门做独立游戏 demo 的 Skill。 你只要丢一个玩法想法进去,它就能在几个小时里给你跑出一个能玩、能打包、能分发的版本。 如果大家有兴趣,我就抽时间把这套 Skill 做出来开源。反正我自己也要继续用。 ## 游戏试玩 代码都开源,安装包也都打好: https://github.com/op7418/Night-Patrol/releases

译开发者仅通过向Codex描述想法,便在一个下午内完成了roguelike卡牌游戏《夜巡录:荒庙篇》的开发。Codex不仅生成游戏原型,还自主构建了素材生产流水线,包括调用GPT-Image 2.0生成绿幕图并自动抠图。面对大量未命名素材,它创新性地将所有图片拼合成一张大图供多模态模型一次性识别筛选。后期还打磨了受击反馈、音效及使用Seedance 2.0生成的动画等细节,展现了其结合内置工具与强大执行力的综合能力。

歸藏(guizang.ai)@op7418 · 5月1日67

本来是想随便玩一下的。 没想到 Codex 真的用一下午帮我开发了一个非常完整的类似《杀戮尖塔》的卡牌游戏。 代码和客户端都已经开源了,大家可以试试

译用户原本抱着尝试心态使用Codex,结果该AI工具仅用一个下午就协助开发出了一款非常完整的、类似《杀戮尖塔》的卡牌游戏。目前,该项目的全部代码和客户端均已开源,可供公众体验和测试。这展示了Codex在游戏开发辅助方面的高效与强大能力。

歸藏(guizang.ai)@op7418 · 5月1日62

整个过程里边,Codex 最震惊我的就是这个: 给他找了一个有上千张图的游戏素材包,然后让他从里边找一些能用的素材。 我也没说怎么找,他自己给每个文件的图片都拼成了一张大图,上面是图片和文件名。 这样的话,他只需要通过一张图就可以了解这个文件夹中所有的素材图样式。找到以后,直接把文件名拉到素材库里改了就行,太牛了!

译用户让Codex处理一个包含上千张图片的游戏素材包,Codex在没有具体指令的情况下,自主将每个文件的图片拼接成一张包含图片和文件名的大图。这种方法让用户能通过单张图快速浏览文件夹内所有素材的样式,找到所需素材后,只需将文件名拖入素材库修改即可,展现了其强大的自动化处理能力。

ChatGPT@ChatGPTapp · 5月1日52

ChatGPT Images 2.0™️

译ChatGPT 图像 2.0™️

Sam Altman@sama · 5月1日18

artificial goblin intelligence achieved

译人工地精智能 已实现

Orange AI@oran_ge · 5月1日52

昨天下午藏师傅给我看录屏的时候 我就被彻底震撼了 以前这种东西没有一个工作室没有个把月的做不出来 现在一个人一下午就搞出来了 feel the AGI…

译作者看到他人展示的录屏后感到震撼,因为过去需要工作室耗时月余才能完成的复杂项目,现在借助Codex,一个人仅用一个下午就开发出了一个非常完整的、类似《杀戮尖塔》的卡牌游戏。该游戏的代码和客户端均已开源。此事让作者深切感受到了AGI(通用人工智能)带来的生产力变革。

宝玉@dotey · 5月1日62

OpenAI 官方推出 Ralph loop 功能了,给 Codex CLI 加了个 /goal 命令。也就是说:你定个目标,它就一直跑,跨多轮不丢,不达目的不停。 这是 0.128.0 版本里的新东西,要在 ~/.codex/config.toml 的 [features] 段写一句 goals = true 才能启用。 [features] goals = true 目前只在终端 CLI 上有,桌面 App 还没跟上。 现在不用自己手搓 shell 脚本,不用配 git 当外部记忆,也不用敲 --dangerously-bypass-approvals-and-sandbox,直接 /goal 就行。

译OpenAI在Codex CLI 0.128.0版本中正式推出Ralph loop功能,通过新增的/goal命令实现目标驱动的持续执行。用户只需在配置文件中启用该功能,即可为AI助手设定一个目标,系统将自动保持该目标在多轮对话中的连续性,直至任务完成。此举简化了工作流程,用户无需再手动编写脚本或借助外部工具进行状态维护。该功能目前仅限终端CLI使用,桌面应用程序暂未支持。

ChatGPT@ChatGPTapp · 5月1日11

soon

译很快 [引用 @JoshuaKushner]:让数据中心在美学上变得美丽

ginobefun@hongming731 · 5月1日61

http://x.com/i/article/2050006014297346048 # BestBlogs 每日早报 · 2026-05-01 · 软件 3.0、Vibe Coding 与 Prompt Caching 早报链接:https://www.bestblogs.dev/explore/brief ## 导语 AI 的坐标系正在被重画。Karpathy 在 Sequoia Capital 的访谈里把软件推进到 3.0 时代,编程核心从写代码变成喂上下文,并区分了 Vibe Coding 与 Agentic Engineering 两种姿态;OpenAI 总裁 Greg Brockman 把真正的瓶颈从算力挪到了人类注意力,并估算 AGI 已经走完八成路。落到工程层面,Anthropic 公开了 Claude Code 把 Prompt Caching 命中率当 SLA 监控的实战经验,把"上下文是新代码"翻译成了一条条可执行的工程纪律。今天这一期,我们从这三场对话出发,再把视野延伸到 Long-running Agents 的范式、RAG 之争、京东 GRAM 的 50ms 生成式推荐、DeepSeek 识图与一系列基础设施动作,给你一份能按图索骥读完的早报。 ## 精讲一 · 卡帕西红杉访谈:从 Vibe Coding 到 Agentic Engineering,软件 3.0 时代已来 OpenAI 联合创始人、特斯拉前 Autopilot 负责人 Andrej Karpathy 这次走进 Sequoia Capital 演播室,给当下的软件开发画了一张新地图。他把过去一二十年的实战经验压缩成一段时间线:Software 1.0 是人类一行行写下的显式规则,编译器和操作系统都属于这一层;Software 2.0 是用神经网络权重替代人写规则,编程变成数据集和网络结构的编排,深度学习时代的计算机视觉、语音识别都在这条线上;进入 Software 3.0,LLM 成了那台真正在跑的"计算机",上下文窗口才是主要的控制杆,编程不再是写代码,而是把对的 prompt、对的上下文喂进去,再用工具调用把外部世界接回来。 在这个新地图上,Karpathy 给两种姿态打了清晰的标签。Vibe Coding 是"抬升地板",让任何人都能凭一段描述让 AI 把原型跑出来,门槛被压到几乎为零;Agentic Engineering 则是专业团队的纪律,要求工程师协调多个能力参差不齐、行为带有随机性的 spiky 智能体,在面对生产环境的质量、安全、合规和性能时仍然保持系统级的可靠性。他还提醒,AI 进步本身是 jagged 的——在数学、代码这种可被强化学习自动验证的领域峰值很高,模型可以重构十万行代码,却可能在"该走路还是开车去洗车"这种生活化判断上翻车,因为后者落在了奖励信号之外,根本没机会被打磨。 Karpathy 还把人类工程师的角色重新做了定义。当智能体接管了那些"实习生级别"的活儿——比如记住 reshape 和 permute 的差别——人类应当向上一层走,承担起 director 的职责。他点名了三种最值钱的能力:第一是品味与判断力,要能决定什么值得做、做出来的审美是否过关;第二是系统设计,能写出高层规格说明,让一群智能体按照计划去执行;第三是真正的理解力,他原话是"你可以外包思考,但你没办法外包理解",理解力会成为引导 AI 价值的最终方向盘。 为什么这一段对今天的工程师重要?因为它直接对应到第三篇精讲里的 Prompt Caching 实践——当 LLM 真的成了一台计算机,prompt 就是程序,prompt 缓存就是 CPU cache,工程化的核心从此转向"如何稳定、可缓存地喂上下文"。Karpathy 的判断也呼应了 Brockman 那场对谈的主旋律:人类的角色正在从写代码的 coder 变成定义意图、把握品味、承担系统设计责任的 director。 如果你只听一段,请关注他对 2026 年的预测:神经网络可能成为主机进程,CPU 退化为协处理器,UI 由扩散模型按需即时渲染——这意味着用户每一次打开界面,看到的都是模型为他这一刻量身渲染出来的瞬时形态。这同时意味着我们今天写的产品形态、UI 框架、甚至 SaaS 的边界,都可能在两年内被重新定义。完整访谈见 BestBlogs · Karpathy 红杉访谈。 ## 精讲二 · OpenAI 总裁布罗克曼红杉访谈:算力套利、Scaling Laws 没有墙、人类注意力是新瓶颈 如果说 Karpathy 给的是新地图,OpenAI 总裁 Greg Brockman 给的就是这张地图背后的商业模型。他直白地说,OpenAI 的本质就是一桩算力套利生意:买、租、自建算力,然后用更高的毛利卖出去;只要这个毛利还为正,公司就会持续扩张,因为人类对"解决问题"的需求几乎是无穷的,对应到 AI 上就是对智能的无穷需求。即便 OpenAI 已经是 GPU 市场的大客户,Brockman 仍坦言他们"始终在猎更多算力",自 ChatGPT 发布以来,需求始终跑赢硬件爬坡。 他对 Scaling Laws 的描述更激进。他把 Scaling Laws 比作牛顿定律一样的物理事实——往神经网络里多倒算力,模型能力就线性变强,这条规律目前还没有看到墙。他甚至追溯到神经网络在 1940 年代被设计出来的时候,那时连真正的计算机都还没普及,但同一套数学结构等到算力跟上之后立刻迸发出新的意义。他给出一个粗略估算:人类已经走完了通向 AGI 八成的路,并用内部模型在一夜之间自动完成系统优化、profiling、迭代闭环的实例作为佐证——模型在没人盯着的情况下,可以一晚上完成一套基础设施的性能调优工作。他还提到 OpenAI 内部的 Chronicle 工具,让模型直接看见用户整台电脑上发生的事,把上下文问题硬解决——他反问道:"你为什么要去给计算机解释正在发生什么?这件事本身就不合理。"这正回应了 Karpathy 关于"Software 3.0 的核心是上下文工程"的论断。 更值得敲黑板的是 Brockman 对瓶颈位置的迁移:当 AI 把"做事"变得便宜,真正稀缺的资源从执行能力变成人类注意力和判断力。重要的问题不再是"怎么做",而是"做这件事是否对、是否对齐我们想要的方向、是否就是我们真正想要的结果"。除此之外,Brockman 还分享了一个让他兴奋的观察:OpenAI 内部某个模型最近独立推导出了一条与量子引力相关的物理公式,过去专家普遍认为这种问题超出了现有 AI 的能力范围。他预测科学领域会迎来一次文艺复兴,因为模型正在学会在生物学、物理学这些"杂乱真实世界"里找路。这条线索把今天的另外几篇文章串起来了:DeepMind 的 Hassabis 也把目光放在 2030 年的 AGI 与科学黄金时代,京东 GRAM 选择把生成式推荐压进 50ms,本质都是在抢人类愿意分给系统的那点注意力。 如果你是创业者或工程负责人,Brockman 的建议很简单:lean in。把 AI 系统应有的上下文、应有的工具、应有的可观察性今天就配齐,等模型继续变好,你才能跟着这股加速浪潮一起前进,而不是事到临头再补课。他的话翻译成产品语言,就是不要等下一代模型,而是把今天能做到的体验先完整地交付给用户,把"上下文齐整、动作可解释、效果可衡量"的基础底盘搭起来。完整访谈见 BestBlogs · Brockman 红杉访谈。 ## 精讲三 · Claude Code 实战经验:Prompt Caching 就是一切,把缓存命中率当 SLA 来监控 Anthropic 这篇 Claude Code 团队的工程文章,正好是前两场对话的落地版。作者一开篇就引用工程界的老话——"cache rules everything around me",这句话对长程 Agent 同样成立。Claude Code 整套 harness 是围绕 Prompt Caching 设计的,因为高命中率直接降低成本,也让 Anthropic 能给订阅用户更宽的 rate limit。所以他们把缓存命中率当 SLA 来盯,命中率掉了就直接拉 SEV——把曾经的"性能优化技巧"上升到了线上故障级别的指标。 文章里给了几条非常硬核的工程纪律。第一是 prompt 的物理布局:Prompt 缓存的本质是前缀匹配,API 会把请求从开头一直缓存到每个 cache_control 断点,所以静态 system prompt 和工具定义放最前,CLAUDE.md 紧随其后,再是 session 上下文,最后才是会话消息。这样不同 session 之间能尽可能共享前缀缓存,把命中率拉满。Anthropic 团队曾经踩过的坑也很真实——把精确时间戳写进 system prompt、工具顺序非确定地洗牌、给 Agent 工具加新可调用的子智能体,都会让前缀失效。第二是更新机制:信息过期了不要去改 prompt,而是把更新追加到下一条 user message 或 tool result 的 <system-reminder> 里,这样就不会破坏已经热起来的缓存,模型也能在下一轮自然地读到新状态。 第三条是反直觉的"不要中途换模型"。Prompt 缓存是按模型独立维护的,所以如果你已经在 Opus 上跑了 100k token 的会话,遇到一个简单问题改用 Haiku 回答反而更贵,因为得给 Haiku 重新建一份缓存,这笔重建成本会一次性抵消掉小模型本身省下的钱。正确做法是派一个 subagent 让 Opus 准备 hand-off 给小模型——这套思路也已经用在 Claude Code 的 Explore agent 里,它专门用 Haiku 做大规模代码搜索。第四条是不要在会话中途增减工具,因为工具属于缓存前缀的一部分,加一个、减一个就把整段会话的缓存全部失效。直觉告诉我们应该"模型现在需要什么工具就给什么工具",但这正是大家最常踩的坑。Plan Mode 的实现就是个范例:他们没有去切换工具集,而是新增一个 EnterPlanMode 工具,把"我现在处于计划态"作为一个动作表达出来,模型在 Plan Mode 内只允许调用只读工具,但工具集本身一直保持稳定,缓存因此不被打破。最后一条针对超长会话的 compaction:当对话太长需要做摘要压缩时,新会话必须复用父会话的 system prompt 才能命中前缀缓存,否则压缩本身就先吃掉一大笔成本。 把这三条精讲连起来看:Karpathy 告诉我们编程的对象变了,Brockman 告诉我们瓶颈在注意力,Anthropic 告诉我们做长程 Agent 的真功夫是把上下文管理工程化,并把缓存命中率作为一条可监控、可报警的硬指标。如果你正在构建自己的 Coding Agent 或长程 Agent,这篇文章值得逐条复盘到自己的 harness 里,再把每一条做成 SLA 告警跑起来。完整内容见 BestBlogs · Claude Code Prompt Caching。 ## 速览 长周期 AI Agent 工程拆解:跨上下文窗口和沙箱持续推进任务的五种生产模式 Addy Osmani 把过去两年"Agent = 聊天窗口 + 工具循环"那种范式正式翻篇。他指出真正的下一阶段是 long-running agent:能跨多个上下文窗口、跨多个沙箱持续推进任务,可恢复、可中断、并能留下结构化产物。文章对比了 Anthropic、Cursor 和 Google 三家的实现,把它们抽象成五种生产级模式,从执行计划的持久化、到对外可观测的产物层、再到多智能体之间的协作协议,每一种都给出了具体的取舍和落地代价。如果你正在落地长程 Agent,这是当前最系统的工程地图,配合精讲三的 Prompt Caching 经验一起读会有更立体的视角。原文见 BestBlogs · Long-running AI agents。 RAG 已死?不,是 Grep 回归了 腾讯云开发者基于 Claude Code 泄露源码,给"RAG 是不是过时了"这个问题提供了一份具体答案。文章拆解了 Claude Code 在代码搜索场景下放弃向量检索、改用 LLM 驱动 Grep 多轮循环搜索的设计:模型像一个老练的工程师那样,先用关键字 Grep 大致定位,再读懂目录结构、缩小范围、精读片段,必要时再换关键字回头复查,最后给出答案。作者再把它和 Cursor、Codex 横向对比,论证在代码这种"结构高度规则、噪声低、变更频繁"的场景下,零索引方案的可行性、可解释性、对仓库变更的鲁棒性都更高,也避免了向量库的离线索引和漂移问题。读完你大概率会重新审视自己手里那套向量库到底解决的是什么问题。原文见 BestBlogs · RAG 已死?Grep 回归。 OpenAI 反思:GPT-5.1 之后突然冒出的"小妖怪"从哪来 OpenAI 这篇官方博文调查了一个非常生动的小事故:从 GPT-5.1 开始,他们的模型越来越爱在比喻里塞 goblin、gremlin 这种小妖怪。和那种"指标暴跌、训练 loss 飙升"的明显 bug 不同,这种奇怪的口头禅没法靠监控直接抓住,也不会指向某次具体的 commit 或某条数据。OpenAI 顺着内部日志一路回溯,最后追到了 Nerdy 个性化训练里一条被无意奖励的"用生物比喻"信号——一个微小的奖励倾斜,借模型迭代被放大成了可观察的群体性偏好,最终在用户对话里变成了大家都能看见的口头禅。这是一个很好的警示:当模型规模和迭代速度都进入新阶段,奖励工程里的微小偏置会以你想不到的方式表达自己,需要用更系统的"行为漂移"监控去配合传统的指标告警。原文见 BestBlogs · OpenAI 小妖怪反思。 DeepMind 创始人哈萨比斯红杉访谈:通向 AGI 的精确路径与科学黄金时代 把这一期 Sequoia Capital 三场访谈拼齐的,是 DeepMind 创始人 Demis Hassabis。他把自己的人生从国际象棋神童一路讲到 AGI 路线设计师,强调 AI 是描述生物学这种"高度复杂自然系统"最好的语言,并把 AGI 与一个真正意义上的"科学黄金时代"放在 2030 年这个时间点。他对路线的描述非常工程化:今天的多模态、规划、记忆、世界模型,每一块都对应一个明确的研究路标,缺哪一块、什么时候补上都有清晰的判断。配合 Karpathy、Brockman 的两段,你可以把当下三家头部实验室的方法论在脑子里拼成一张完整的时间线:DeepMind 偏向科学问题、OpenAI 偏向算力套利与产品扩张、Anthropic 偏向工程纪律与可观察性。完整访谈见 BestBlogs · Hassabis 红杉访谈。 Stripe Docdb:用零停机数据迁移平台支撑万亿美元支付的工程实战 InfoQ 这篇文章揭开了 Stripe 自研 DocDB 的内幕。他们基于开源 MongoDB 重做了一整套零停机数据迁移平台,把数据库分片从过去那种"得人工照看的宠物"变成了"可自动化、可水平扩展的群",整个迁移、扩容、回滚都在线上无感完成,DBA 团队再也不用半夜爬起来照顾某一台异常的分片。这套系统支撑着 Stripe 一年处理万亿美元规模支付的核心存储栈,每一笔交易都从这套平台的可用性里受益。对所有还在为大表迁移、分片改造头疼的工程团队来说,这是一份难得的"工业级"参考,给出了从控制面到数据面的一整套设计取舍。原文见 BestBlogs · Stripe Docdb。 DeepSeek 识图模式是个新模型?!一手实测在此 量子位拿到了 DeepSeek 灰度测试中的识图模式,做了一份扎实的一手实测。作者发现这个识图模式背后很可能不是 V4 的视觉分支,而是一个独立训练的新视觉模型——在 OCR、HTML 复原这类"高确定性"任务上表现亮眼,能把截图原样复刻成接近像素级的页面,连一些细小的图标和文字层级都能复原回来;但在空间推理、找不同等需要长链条视觉推理的任务上,依然会出现幻觉、思考过长,模型有时会自我纠结到失去结论。这条信息既是对 DeepSeek 路线的及时补充,也提醒我们多模态评测要分清"看清楚"和"看明白"两件事,前者更像是更高分辨率的视觉编码器,后者考的是真正的视觉推理能力。原文见 BestBlogs · DeepSeek 识图实测。 京东广告大模型实战:GRAM 架构如何在 50ms 内完成生成式推荐? InfoQ 中文这篇来自京东广告团队的实战分享,把"生成式推荐能不能进推荐主链路"这个老问题给出了肯定答案。GRAM 架构通过让用户意图与商品在语义空间里直接对齐,再叠加快慢双链路、知识工程与一系列工程优化,把生成式推荐压进了 50ms 以内的延迟预算,同时有效抑制了大模型在商品推荐场景里特别容易出现的幻觉问题。文章对预训练、后训练、业务领域微调的两年实践节奏也给了清晰描述,强调"从 2023 年底到 2025 年底"这条从基础能力到业务落地的演进路径走得越来越顺。对所有正在把 LLM 推进到电商、广告主链路的团队来说,这是一份能直接对照自家系统去打分的硬核工程文章。原文见 BestBlogs · 京东 GRAM。 ## 扩展阅读 Scaling Pain:超大规模 Coding Agent 推理实践 智谱团队复盘了在超大规模 Coding Agent 推理场景中遇到的三类异常输出——乱码、复读、生僻字,详细讲了如何在高并发与长上下文叠加下做异常检测、定位与修复。其中复读相对容易抓,但乱码和生僻字尤其棘手,正则表达式和字符集匹配会漏判,纯模型判别又跟不上消融实验的效率。最终他们用投机采样指标作为异常检测的重要参考,并给出了 KV Cache 分层存储的优化方案。适合所有正在为推理稳定性头疼的基础设施团队。原文见 BestBlogs · 智谱 Scaling Pain。 Generalist 之后,罗剑岚团队推出 LWD,也要变革具身智能训练范式 机器之心介绍了智元机器人联合上海创智学院推出的 LWD(Learning While Deploying)系统。它首次让具身 VLA 策略走通了大规模分布式强化学习的预训练 + 后训练闭环,让机器人在真实世界部署中持续自主进化,5 分钟长程操作任务能做到 91% 的成功率。文章里那段机器人切水果、把梨和黄瓜打成饮料的演示也直接说明了:具身智能正在跨过"演示视频"的门槛,进入"日常作业"的阶段。具身智能从业者必读。原文见 BestBlogs · LWD。 Stripe 发布 288 项新功能,构建 AI 时代的经济基础设施 量子位整理了 Stripe 年度大会一次性放出的 288 项新功能,从 AI Agent 支付、流式支付、风控升级到全球企业账户。Stripe 联合创始人兼 CEO Patrick Collison 直接表态:"AI 是继互联网以来对经济影响最深远的平台变革,不远的未来绝大多数线上交易将由 AI 智能体完成。"对照本期 Brockman 那段对算力套利的论述一起看,这份清单是观察"AI 原生支付基础设施"的好窗口。原文见 BestBlogs · Stripe 288。 营收增长 33%、Meta 股价却大跌:扎克伯格宣布再烧 100 亿 腾讯科技解读了 Meta 这份"超预期但被市场惩罚"的财报。营收同比增长 33%,是 2021 年以来最快的营收增速,但因为扎克伯格把 2026 年资本支出上限拉到 1450 亿美元,市场担心 AI 投入回报周期被拉长、自由现金流被压缩。文章还提醒读者,本季净利润中藏着一笔一次性税务收益,剥离后的真实盈利能力没有看上去那么夸张。对于关注大厂 AI 资本支出节奏的读者,这是一份直接的现实读数。原文见 BestBlogs · Meta 财报。 刚刚,DeepSeek 最新成果,节前发布 Datawhale 报道了 DeepSeek 在五一节前突袭发布的论文《Thinking with Visual Primitives》,由 DeepSeek 联合北大、清华开源。论文提出在思维链中嵌入坐标 token 作为"视觉原语",专门解决多模态模型在拓扑推理任务上的引用差距问题,让模型在生成推理过程时能直接"指着图说话"。值得搭配前面那篇 DeepSeek 识图实测一起读,能更完整理解 DeepSeek 在视觉理解这条线的最新动作。原文见 BestBlogs · DeepSeek Visual Primitives。 ## 今日阅读路径 如果你今天只能读三篇,我们推荐: 1. Karpathy 红杉访谈(精讲一)——拿到这张新地图,后面所有内容才放得下位置:BestBlogs · Karpathy。 1. Claude Code Prompt Caching 实战(精讲三)——把"上下文是新代码"这件事变成你今天就能动手的工程动作:BestBlogs · Prompt Caching。 1. Long-running AI Agent 工程拆解(速览首条)——补上长程 Agent 的范式视角,让前两篇真正接得住产品:BestBlogs · Long-running Agents。 如果还想再读一篇,加上 Brockman 那场访谈,把"算力—注意力—工程"这条主线在脑子里完整跑一遍。再有余力的话,DeepSeek 识图实测和京东 GRAM 这两篇会让你更直观地感受到,新的视觉理解能力和生成式推荐已经在产品端、广告端落地,而不是仍停留在论文里。其他几篇放在桌上慢慢翻就好,今天值得记住的是这条主线:上下文是新代码,缓存命中率是新性能,注意力是新瓶颈。

译Andrej Karpathy提出软件3.0时代,编程核心转向上下文工程,并区分了Vibe Coding与Agentic Engineering两种开发姿态。OpenAI总裁Greg Brockman指出,算力套利是商业模式,人类注意力已成为新瓶颈,并估算AGI进程已完成八成。Anthropic的Claude Code团队则将Prompt Caching提升为核心工程纪律,通过优化prompt布局和更新机制,将缓存命中率作为关键SLA监控,以控制成本并保证系统性能。

ginobefun@hongming731 · 5月1日54

BestBlogs 今天早报:Karpathy 在 Sequoia Capital 的访谈里分享软件 3.0,编程核心从写代码变成喂上下文,并区分了 Vibe Coding 与 Agentic Engineering 两种姿态; OpenAI 总裁 Greg Brockman 把真正的瓶颈从算力挪到了人类注意力,并估算 AGI 已经走完八成路。 落到工程层面,Anthropic 公开了 Claude Code 把 Prompt Caching 命中率当 SLA 监控的实战经验,把"上下文是新代码"翻译成了一条条可执行的工程纪律。

译Karpathy提出软件3.0概念,编程核心从写代码转向提供上下文,并区分Vibe Coding与Agentic Engineering两种模式。OpenAI总裁Brockman将AGI瓶颈从算力移至人类注意力,估计已完成80%。Anthropic分享Claude Code实战,以Prompt Caching命中率为SLA监控,将“上下文即新代码”转化为工程纪律。

Nathan Lambert@natolambert · 5月1日39

The next time I distill OpenAI models I’m going to pay careful attention to amplify the goblins.

译下次蒸馏 OpenAI 模型时,我会特别注意放大妖精。

Berryxia.AI@berryxia · 5月1日57

你看看大模型有多重? 这个挺有意思的😂

译Pine AI首席科学家李博杰提出新方法,通过模型回答1400道冷知识题的能力来估算其参数量。原理是存储事实需占用参数空间,先利用已知开源模型拟合曲线,再将闭源模型得分投射得出估算。研究评估了92个闭源模型,结果显示GPT-5.5以约9.7T参数断层领先,Claude Opus 4.6约5.3T次之。主流旗舰模型如GPT-5、Claude Opus 4.7参数集中在3-4T量级。分析还推断GPT-5的.x版本及Claude Opus 4.7等可能是全新训练而非微调产物,并指出MoE模型的知识容量取决于总参数量。评测工具与数据已开源。

Berryxia.AI@berryxia · 5月1日55

David Sacks 在 X 平台上发布了一条推文,对 AI Security Institute 刚刚发布的公告进行了回应。 AI Security Institute 宣布 OpenAI 的 GPT-5.5 模型(cyber 版本)成功完成了他们设计的“多步网络攻击模拟”。 也成为第二个能端到端完成整个攻击链的模型(第一个是 Anthropic 的 Mythos)。 在推文中,David Sacks 表示,是时候揭开 Mythos 的神秘面纱了。 他强调,Mythos 并非什么魔法,也不是末日武器,它只是众多能够自动化网络安全任务的模型中的第一个,就像 AI 已经能自动编写代码一样。 现在 OpenAI 的 GPT-5.5-cyber 也达到了同样的水平,而所有前沿模型(包括来自中国的模型)预计将在大约 6 个月内跟上这一步伐。 David Sacks 进一步指出,这些模型并不会创造新的漏洞,它们只是发现已有的漏洞。 代码中的 bug 本来就存在,使用 AI 来发现并修补它们,反而会让系统变得更加坚固。 他认为,从前 AI 时代的网络安全到后 AI 时代的网络安全,将经历一次大规模的升级周期。 升级完成后,市场很可能会达到 AI 驱动的网络进攻与 AI 驱动的网络防御之间的新的平衡状态。 他特别提醒,必须确保网络防御方先获得这些强大模型的访问权限,而非让攻击方抢先一步。 这个过程已经启动,但需要迅速推进,尤其考虑到中国模型即将跟上的现实。 此外,与 Mythos 不同,GPT-5.5-cyber 似乎没有 token 限制,因此它可能是第一个防御方能够实际投入使用的网络安全模型。 David Sacks 的整体立场是:AI 在网络攻击能力上的提升是不可避免的,但并非那么可怕,反而会推动整个网络安全生态的全面升级,前提是防御方必须领先一步。 他通过这条推文,既澄清了外界对 Mythos 的过度神化,也为 OpenAI 的 GPT-5.5-cyber 提供了实际支持```​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​。

译AI 安全机构宣布 OpenAI 的 GPT-5.5-cyber 成功完成多步网络攻击模拟,成为继 Anthropic 的 Mythos 后第二个端到端完成攻击链的模型。David Sacks 回应指出,此类模型并非魔法或末日武器,仅是能自动化网络安全任务的工具,且所有前沿模型(包括中国模型)预计将在约6个月内达到同等水平。他强调模型不创造漏洞,而是发现并帮助修补已有漏洞,从而增强系统安全。从“前AI”到“后AI”网络安全将经历重大升级,最终达到AI驱动攻防的新平衡。关键在于确保防御方优先获得模型访问权,且需加速此进程。GPT-5.5-cyber 因无token限制,可能成为首个防御方可实际使用的模型。

Berryxia.AI@berryxia · 5月1日41

这一波GPT- Image-2 出圈的原因感觉更多的是将其结合游戏真实的UI设计融合且效果出奇好。 省token简单的prompt就可以完成,开发3D游戏也可以快速打好草稿。

Tibo@thsottiaux · 5月1日63

You can now keep codex going for days. With GPT-5.5 it will build an entire OS kernel for you if you ask, or find critical bugs in a codebase, or optimize your database schemas, or… the options are endless.

译你现在可以让Codex持续运行数天。 使用GPT-5.5,它可以根据你的要求构建完整的操作系统内核,或在代码库中发现关键错误,或优化你的数据库架构,或者……可能性无穷无尽。 [引用 @fcoury]:/goal功能也随Codex CLI 0.128.0版本上线。 我们对Ralph循环的实现:让目标在多轮对话中保持活跃。不达目标绝不停止。 由我的同事兼OpenAI导师Eric Traut(即Pyright的开发者)构建。这是我日常合作的最强者之一。

Greg Brockman@gdb · 5月1日24

codex app becoming incredible

译Codex 应用正变得不可思议

TestingCatalog News 🗞@testingcatalog · 5月1日58

OPENAI 👀: Codex app got updated to version 26.429.20946 with loads of minor tweaks and new hidden additions! What's hidden? (not available yet) - A new Remote Control feature and Connections section in settings - Codex "Avatars" got renamed into "Pets" - A new Keyboard category in settings for shortcut management - A new onboarding widget prompting to connect core integrations with email, calendar, and files What's new? - Updated onboarding flow - 20% faster computer & browser use - Upgraded slides and sheets capabilities - Annotation for browser, artifacts, and code - Cleaner design & performance improvements Additional changes? - It seems like Browser Use got disabled in EU - It seems like Computer Use got disabled in EU

译OpenAI Codex应用更新至版本26.429.20946,包含隐藏及新功能。隐藏功能(尚未启用)包括设置中的远程控制选项、Connections部分、Avatars更名Pets、键盘类别管理,以及引导组件连接邮件、日历和文件集成。已上线的新功能有引导流程更新、计算机与浏览器使用速度提升20%、幻灯片与表格处理能力升级、对浏览器、工件和代码的批注支持,以及设计和性能优化。此外,在欧盟地区,浏览器使用和计算机使用功能可能已被禁用。开发者Sam Altman强调此为重大升级,建议用户尝试用于非编程的计算机工作。

Sam Altman@sama · 5月1日66

big upgrade for codex today! try it for non-coding computer work.

译codex 今日重大升级! 尝试将其用于非编码计算机工作。

Rohan Paul@rohanpaul_ai · 5月1日58

Frontier AI can now autonomously chain complex, expert-level cyber attacks end-to-end, at superhuman speed and near-zero marginal cost. GPT-5.5 essentially tied with Mythos Preview - within the margin of error — both far ahead of earlier models (GPT-4o, Claude Opus 4.x, etc.). - GPT-5.5: 71.4% (±8.0%) - Mythos Preview: 68.6% (±8.7%) AISI has been running controlled, realistic cybersecurity evaluations on the latest AI models. These include: - Narrow CTF-style tasks (expert-level challenges like exploiting memory corruptions, breaking crypto, reverse-engineering stripped binaries, etc.). - Multi-step “cyber range” simulations — a full 32-step corporate network attack chain (recon → initial access → lateral movement → privilege escalation → full network takeover). A human expert needs ~20 hours for this. They previously tested Mythos Preview, and now OpenAI’s GPT-5.5. One hard reverse-engineering task (custom virtual machine) takes a human expert ~12 hours with professional tools. GPT-5.5 solved it in under 11 minutes at a cost of $1.73.

译前沿AI已能以超人速度和近乎零边际成本自主完成端到端的复杂专家级网络攻击链。在AISI的网络安全评估中,GPT-5.5与Mythos Preview表现相当,均远超GPT-4o等早期模型。GPT-5.5在包含32个步骤的企业网络攻击模拟中成功完成端到端攻击,而人类专家需约20小时。在一项人类专家需12小时完成的反向工程任务中,GPT-5.5仅用11分钟、花费1.73美元即告解决。

ChatGPT@ChatGPTapp · 5月1日63

Prompt: “Redraw the attached image in the most clumsy, scribbly, and utterly pathetic way possible. Use a white background, and make it look like it was drawn in MS Paint with a mouse. It should be vaguely similar but also not really, kind of matching but also off in a confusing, awkward way, with that low-quality pixel-by-pixel feel that really emphasizes how ridiculously bad it is. Actually, you know what, whatever, just draw it however you want.”

译一条针对GPT Image 2的特定图像生成提示词正在社交媒体上病毒式传播。该提示词的核心要求是:以最笨拙、潦草且极其糟糕的方式重绘所附图像,背景为白色,使其看起来像是用鼠标在MS Paint中绘制。生成效果需与原图似是而非,带有低质量像素感和令人困惑的别扭感,以突出其荒诞的“差劲”。推文引用者指出,这条提示词正引发疯狂传播。

Sam Altman@sama · 5月1日19

it does seem cool

译这确实看起来很酷 [引用 @mweinbach]:Codex 目标功能看起来很酷 看起来你可以给 Codex 设定一个目标,然后它会持续工作、规划和测试直到完成? 我只是在阅读这里的提交记录,但我想这就是它的功能吧?

Rohan Paul@rohanpaul_ai · 5月1日49

David Sacks demystifying Anthropic's Mythos 👀

译David Sacks 澄清,Anthropic 的 Mythos 模型并非魔法或末日武器,而是首个能自动化执行网络安全任务(如代码审计)的模型。OpenAI 的 GPT-5.5-cyber 已具备相同能力,所有前沿模型预计约六个月内都将达到此水平。他强调这些模型不创造漏洞,而是发现代码中既有缺陷,利用AI发现并修补漏洞反而能增强系统安全。从“前AI”到“后AI”网络安全的跨越将引发重大升级,最终在AI驱动的攻防间达到新平衡。关键在于让防御方比攻击方更早获得此类工具,且GPT-5.5-cyber因无令牌限制可能成为防御方首个实用化模型。

Tibo@thsottiaux · 5月1日59

Lots of improvements across the board both for coders and general work. Update your codex app to enjoy all the improvements. We will be back next week

译为编码者和普通工作带来了全面的改进。更新您的Codex应用以享受所有改进。 我们下周回来

Tibo@thsottiaux · 5月1日62

This thing does more than what you think it does. Codex now available for non-coders

译这东西的功能比你想象的要多。Codex 现在可供非编码人员使用。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月1日
20:46
Greg Brockman@gdb
67
Codex 0.128.0版本实现了重大更新,核心是引入了强化版Ralph循环,使智能体操作更加目标导向。新增的/goal命令允许用户设定明确目标,系统会在智能体每轮操作后自动提示其选择下一步具体行动。目标要求会映射到文件、测试结果等实际证据上,且模型只能通过更新目标来标记任务完成。此外,该版本终于支持了"codex update"功能。

Matthew Lam: Codex 0.128.0 is huge, even better than a @thsottiaux reset. Codex is moving more goal oriented with a new /goal command...

智能体OpenAI产品更新编码
20:44
Chubby♨️@kimmonismus
16
我真的很想知道我们今年是否会看到 OpenAI 的首款硬件产品。
OpenAI其他
18:11
阿绎 AYi@AYi_AInotes
64
GPT-image-2粗糙画风提示词爆红,生成效果惊艳

GPT-image-2的一个图片生成提示词近期在网络上广泛传播。该提示词要求以最粗糙、潦草、拉垮的画风重制图片,背景为白色,模拟系统自带画图软件的鼠绘感,追求似像非像、别扭迷惑的低清像素效果,旨在突出翻车感。用户尝试后表示效果绝佳,引发热议,凸显了AI生成图片在创意风格上的灵活应用。

OpenAI图像生成教程/实践
16:44
Chubby♨️@kimmonismus
44
OpenAI的CFO反驳了未达目标的报道,声称存在"垂直的需求墙",但承认真正的瓶颈是计算资源,而非产品市场匹配度。 与此同时,Anthropic可能超越OpenAI的8520亿美元估值,这充分说明了在这个市场中,护城河叙事正在以多快的速度瓦解。
AnthropicOpenAI行业动态
15:46
凡人小北@frxiaobei
34
用户分享已用Codex替代ChatGPT作为日常工具,并推荐其插件和自动化功能。引用推文指出,Codex改变了与AI模型的交互方式,无需技术背景即可使用。若已熟悉ChatGPT,更应尝试Codex。它不仅是处理日常任务、自动化和编码的强大工具,还能连接各类应用并与Mac系统交互,具备极高的通用性,让普通用户也能轻松构建个性化解决方案。

OpenAI Newsroom: Codex has changed how you interact with our models, and, despite what you may have thought, you don't need any technical...

智能体OpenAI大佬观点
14:46
Greg Brockman@gdb
56
openai 标志,潦草化 【引用 @ChatGPTapp】:Prompt: "以最笨拙、最潦草、最糟糕的方式重绘所附图片。使用白色背景,让它看起来像是在 MS Paint 中用鼠标绘制的。它应该大致相似但又不太像,有点匹配但又以一种令人困惑、尴尬的方式偏离,带有那种低质量的逐像素感,真正强调它有多么可笑地糟糕。实际上,你知道吗,随便吧,你想怎么画就怎么画。"

ChatGPT: Prompt: "Redraw the attached image in the most clumsy, scribbly, and utterly pathetic way possible. Use a white backgrou...

OpenAI图像生成教程/实践
14:14
Artificial Analysis@ArtificialAnlys
57
三大开源模型上周齐发,与顶尖闭源模型差距缩小至6分内

上周,Kimi K2.6、MiMo V2.5 Pro和DeepSeek V4 Pro三大领先开源模型发布,在Artificial Analysis Intelligence Index上得分达52-54分,与顶尖闭源模型GPT-5.5的60分差距缩小至6分以内,相比一年前22分的开源模型进步显著。这些模型均为万亿参数规模的MoE架构。然而,在复杂推理、智能体编码及知识准确性方面,开源模型与闭源模型仍存在明显差距。例如在HLE、CritPt和TerminalBench Hard等专项评估中得分大幅落后;在Omniscience评估中,DeepSeek V4 Pro的幻觉问题尤为突出。

DeepSeekOpenAI开源生态推理
13:13
歸藏(guizang.ai)@op7418
精选71
GPT-Image-2.0近期因一系列提示词再度引发关注,其中一条要求AI以"笨拙、潦草、极其拙劣"的方式重绘图像,并模仿MS Paint鼠标绘图的低质量像素感,形成刻意粗糙的反差效果。该提示词通过强调"糟糕到可笑"的指令,利用AI精准执行反讽式需求,迅速在社交平台形成病毒式传播,展现了用户对AI图像生成工具创意玩法的探索。

CHOI: This GPT Image 2 prompt is going insanely viral right now. "Redraw the attached image in the most clumsy, scribbly, and ...

OpenAI图像生成教程/实践

推荐理由:这个提示词让GPT Image 2故意画出丑拙的鼠标涂鸦,看着可笑但抄来就能用,适合做表情包或者整活,上手零门槛。
13:13
歸藏(guizang.ai)@op7418
68
GPT-Image-2.0提示词抖音走红,手绘标注引风潮

GPT-Image-2.0的一个提示词在抖音平台引发关注,用户用它为照片生成手绘风格注解。提示词要求采用细线手绘线条、手写字体和简短句子,营造日记感语气,并避免过度装饰以保留空白空间。引用推文指出,GPT-Image-2.0提示词近期再度流行,体现了AI生成内容在社交媒体上的应用趋势。

歸藏(guizang.ai): 最近 GPT-Image-2.0 很多提示词又火了,比如这个拉跨鼠标手绘图,原贴有提示

OpenAI图像生成教程/实践
13:11
Emad@EMostaque
36
似乎 @OpenAI 已经破解了 Codex 的递归自我改进
OpenAI大佬观点推理编码
13:11
Berryxia.AI@berryxia
34
推文惊叹于结合Codex与GPT2的技术进展,认为其已能实现仅用自然语言指令来开发游戏。作者指出,现在仅需"用嘴说一句话"即可启动开发,并推荐了相关的完整教程。引用的推文提供了该教程的具体链接,是关键的技术实现参考。这展现了大型语言模型在降低编程门槛、实现自然语言交互式创作方面的潜力。

歸藏(guizang.ai): http://x.com/i/article/2049902517254070272

OpenAI教程/实践编码
11:46
meng shao@shao__meng
66
在 Codex App 中使用 GPT-5.5 和 GPT-Image-2 的实际应用体验:视觉理解 + 代码生成 + 浏览器执行 + 效果评估迭代,组成Web/App 开发全新闭环!

Codex App 结合 GPT-5.5 与 GPT-Image-2,构建了从视觉理解到代码生成、浏览器执行及效果评估的开发闭环。GPT-5.5 提升了编码细节与复杂逻辑处理能力,GPT-Image-2 擅长生成高保真UI。工作流支持输入截图或概念设计,自动分析、生成交互应用并修正设计偏差,内置结构化流程以提高实现保真度。这大幅缩短了从想法到高保真应用的迭代周期,适用于Web、移动及复杂工具开发,但复杂任务仍需人工提示与设计把关。

dominik kundel: http://x.com/i/article/2049579443216338944

OpenAI多模态教程/实践编码
11:16
Ethan Mollick@emollick
44
GPT-imagegen-2: "制作一个5x5网格的狗狗照片,每张照片都要明显变得更可爱" …现在换成猫 …现在换成食人鱿鱼 …现在换成《了不起的盖茨比》的书籍封面
OpenAI图像生成教程/实践
11:16
Tibo@thsottiaux
18
告诉你的邻居他们可以直接用codex处理事情。 然后回来在这里和我分享他们的反应。从1到10分,他们有多困惑。
OpenAI其他
11:13
歸藏(guizang.ai)@op7418
57
Codex 更新了,现在可以连接 Slack、邮箱以及你的谷歌云盘,从里面获取内容来执行任务,也可以把你的信息添加到谷歌日历。
智能体MCP/工具OpenAI产品更新
10:15
宝玉@dotey
60
GPT Image 2拙劣涂鸦提示词病毒式走红

一条用于GPT Image 2的提示词要求以最笨拙、潦草的方式重新绘制图像,模仿MS Paint鼠标涂鸦效果,强调低画质像素感和尴尬别扭的风格。该提示词因其反常规的幽默设计,正在网络上疯狂传播,引发用户广泛尝试和讨论。引用推文指出,这一GPT Image 2 prompt正在获得病毒式关注,凸显了AI图像生成工具在探索非传统风格上的娱乐性和网络文化现象。

CHOI: This GPT Image 2 prompt is going insanely viral right now. "Redraw the attached image in the most clumsy, scribbly, and ...

OpenAI图像生成教程/实践
10:13
歸藏(guizang.ai)@op7418
63
一下午一句话,Codex帮我开发了一个完整的游戏!

开发者仅通过向Codex描述想法,便在一个下午内完成了roguelike卡牌游戏《夜巡录:荒庙篇》的开发。Codex不仅生成游戏原型,还自主构建了素材生产流水线,包括调用GPT-Image 2.0生成绿幕图并自动抠图。面对大量未命名素材,它创新性地将所有图片拼合成一张大图供多模态模型一次性识别筛选。后期还打磨了受击反馈、音效及使用Seedance 2.0生成的动画等细节,展现了其结合内置工具与强大执行力的综合能力。

智能体OpenAI多模态大佬观点
10:13
歸藏(guizang.ai)@op7418
67
用户原本抱着尝试心态使用Codex,结果该AI工具仅用一个下午就协助开发出了一款非常完整的、类似《杀戮尖塔》的卡牌游戏。目前,该项目的全部代码和客户端均已开源,可供公众体验和测试。这展示了Codex在游戏开发辅助方面的高效与强大能力。

歸藏(guizang.ai): http://x.com/i/article/2049902517254070272

智能体OpenAI开源/仓库教程/实践
10:13
歸藏(guizang.ai)@op7418
62
Codex智能解析游戏素材包,自动拼图归类

用户让Codex处理一个包含上千张图片的游戏素材包,Codex在没有具体指令的情况下,自主将每个文件的图片拼接成一张包含图片和文件名的大图。这种方法让用户能通过单张图快速浏览文件夹内所有素材的样式,找到所需素材后,只需将文件名拖入素材库修改即可,展现了其强大的自动化处理能力。

歸藏(guizang.ai): http://x.com/i/article/2049902517254070272

智能体OpenAI多模态教程/实践
09:47
ChatGPT@ChatGPTapp
52
ChatGPT 图像 2.0TM️
OpenAI产品更新图像生成
09:46
Sam Altman@sama
18
人工地精智能 已实现
OpenAI其他
09:45
Orange AI@oran_ge
52
作者看到他人展示的录屏后感到震撼,因为过去需要工作室耗时月余才能完成的复杂项目,现在借助Codex,一个人仅用一个下午就开发出了一个非常完整的、类似《杀戮尖塔》的卡牌游戏。该游戏的代码和客户端均已开源。此事让作者深切感受到了AGI(通用人工智能)带来的生产力变革。

歸藏(guizang.ai): 本来是想随便玩一下的。 没想到 Codex 真的用一下午帮我开发了一个非常完整的类似《杀戮尖塔》的卡牌游戏。 代码和客户端都已经开源了,大家可以试试

OpenAI现象/趋势编码
09:45
宝玉@dotey
62
OpenAI为Codex CLI推出Ralph loop目标循环功能

OpenAI在Codex CLI 0.128.0版本中正式推出Ralph loop功能,通过新增的/goal命令实现目标驱动的持续执行。用户只需在配置文件中启用该功能,即可为AI助手设定一个目标,系统将自动保持该目标在多轮对话中的连续性,直至任务完成。此举简化了工作流程,用户无需再手动编写脚本或借助外部工具进行状态维护。该功能目前仅限终端CLI使用,桌面应用程序暂未支持。

Felipe Coury 🦀: /goal also lands in Codex CLI 0.128.0. Our take on the Ralph loop: keep a goal alive across turns. Don't stop until it's...

智能体OpenAI产品更新编码
09:17
ChatGPT@ChatGPTapp
11
很快 【引用 @JoshuaKushner】:让数据中心在美学上变得美丽

Joshua Kushner: make data centers aesthetically beautiful

OpenAI行业动态
09:10
ginobefun@hongming731
61
AI时代软件开发、商业逻辑与工程实践的根本性转变

Andrej Karpathy提出软件3.0时代,编程核心转向上下文工程,并区分了Vibe Coding与Agentic Engineering两种开发姿态。OpenAI总裁Greg Brockman指出,算力套利是商业模式,人类注意力已成为新瓶颈,并估算AGI进程已完成八成。Anthropic的Claude Code团队则将Prompt Caching提升为核心工程纪律,通过优化prompt布局和更新机制,将缓存命中率作为关键SLA监控,以控制成本并保证系统性能。

智能体OpenAI现象/趋势编码
09:10
ginobefun@hongming731
54
软件3.0与AI编程进展摘要

Karpathy提出软件3.0概念,编程核心从写代码转向提供上下文,并区分Vibe Coding与Agentic Engineering两种模式。OpenAI总裁Brockman将AGI瓶颈从算力移至人类注意力,估计已完成80%。Anthropic分享Claude Code实战,以Prompt Caching命中率为SLA监控,将“上下文即新代码”转化为工程纪律。

ginobefun: http://x.com/i/article/2050006014297346048

智能体AnthropicOpenAI大佬观点
08:45
Nathan Lambert@natolambert
39
下次蒸馏 OpenAI 模型时,我会特别注意放大妖精。
OpenAI大佬观点
08:10
Berryxia.AI@berryxia
57
Pine AI首席科学家李博杰提出新方法,通过模型回答1400道冷知识题的能力来估算其参数量。原理是存储事实需占用参数空间,先利用已知开源模型拟合曲线,再将闭源模型得分投射得出估算。研究评估了92个闭源模型,结果显示GPT-5.5以约9.7T参数断层领先,Claude Opus 4.6约5.3T次之。主流旗舰模型如GPT-5、Claude Opus 4.7参数集中在3-4T量级。分析还推断GPT-5的.x版本及Claude Opus 4.7等可能是全新训练而非微调产物,并指出MoE模型的知识容量取决于总参数量。评测工具与数据已开源。

思维怪怪: 有人做了一个很好玩的研究,用冷知识来给大模型称体重,得出结论:GPT-5.5 约 9.7T、Opus 4.7 约 4T、Grok-4 约3.2T。。。 Pine AI 首席科学家李博杰发表论文《不可压缩知识探针:基于事实容量估算黑盒大语言模...

AnthropicOpenAI数据/训练论文/研究
07:10
Berryxia.AI@berryxia
55
David Sacks 回应 AI 安全机构公告,解读 GPT-5.5-cyber 的网络攻击模拟能力

AI 安全机构宣布 OpenAI 的 GPT-5.5-cyber 成功完成多步网络攻击模拟,成为继 Anthropic 的 Mythos 后第二个端到端完成攻击链的模型。David Sacks 回应指出,此类模型并非魔法或末日武器,仅是能自动化网络安全任务的工具,且所有前沿模型(包括中国模型)预计将在约6个月内达到同等水平。他强调模型不创造漏洞,而是发现并帮助修补已有漏洞,从而增强系统安全。从“前AI”到“后AI”网络安全将经历重大升级,最终达到AI驱动攻防的新平衡。关键在于确保防御方优先获得模型访问权,且需加速此进程。GPT-5.5-cyber 因无token限制,可能成为首个防御方可实际使用的模型。

David Sacks: It's time to demystify Mythos. Mythos is not magic. It's not a doomsday device. It's the first of many models that can a...

AnthropicOpenAI大佬观点安全/对齐
07:10
Berryxia.AI@berryxia
41
这一波GPT-Image-2出圈的原因感觉更多的是将其结合游戏真实的UI设计融合且效果出奇好。 省token简单的prompt就可以完成,开发3D游戏也可以快速打好草稿。
OpenAI图像生成大佬观点
06:15
Tibo@thsottiaux
63
你现在可以让Codex持续运行数天。 使用GPT-5.5,它可以根据你的要求构建完整的操作系统内核,或在代码库中发现关键错误,或优化你的数据库架构,或者……可能性无穷无尽。 【引用 @fcoury】:/goal功能也随Codex CLI 0.128.0版本上线。 我们对Ralph循环的实现:让目标在多轮对话中保持活跃。不达目标绝不停止。 由我的同事兼OpenAI导师Eric Traut(即Pyright的开发者)构建。这是我日常合作的最强者之一。

Felipe Coury 🦀: /goal also lands in Codex CLI 0.128.0. Our take on the Ralph loop: keep a goal alive across turns. Don't stop until it's...

智能体OpenAI产品更新
06:15
Greg Brockman@gdb
24
Codex 应用正变得不可思议
OpenAI大佬观点编码
05:15
TestingCatalog News 🗞@testingcatalog
58
OpenAI Codex应用更新至版本26.429.20946,带来多项调整与隐藏功能

OpenAI Codex应用更新至版本26.429.20946,包含隐藏及新功能。隐藏功能(尚未启用)包括设置中的远程控制选项、Connections部分、Avatars更名Pets、键盘类别管理,以及引导组件连接邮件、日历和文件集成。已上线的新功能有引导流程更新、计算机与浏览器使用速度提升20%、幻灯片与表格处理能力升级、对浏览器、工件和代码的批注支持,以及设计和性能优化。此外,在欧盟地区,浏览器使用和计算机使用功能可能已被禁用。开发者Sam Altman强调此为重大升级,建议用户尝试用于非编程的计算机工作。

Sam Altman: big upgrade for codex today! try it for non-coding computer work.

智能体OpenAI产品更新
04:45
Sam Altman@sama
66
codex 今日重大升级! 尝试将其用于非编码计算机工作。
OpenAI产品更新编码
04:39
Rohan Paul@rohanpaul_ai
58
前沿AI能以超人速度自主实施端到端复杂网络攻击

前沿AI已能以超人速度和近乎零边际成本自主完成端到端的复杂专家级网络攻击链。在AISI的网络安全评估中,GPT-5.5与Mythos Preview表现相当,均远超GPT-4o等早期模型。GPT-5.5在包含32个步骤的企业网络攻击模拟中成功完成端到端攻击,而人类专家需约20小时。在一项人类专家需12小时完成的反向工程任务中,GPT-5.5仅用11分钟、花费1.73美元即告解决。

AI Security Institute: OpenAI's GPT-5.5 is the second model to complete one of our multi-step cyber-attack simulations end-to-end 🧵

OpenAI安全/对齐评测/基准
04:16
ChatGPT@ChatGPTapp
精选63
一条针对GPT Image 2的特定图像生成提示词正在社交媒体上病毒式传播。该提示词的核心要求是:以最笨拙、潦草且极其糟糕的方式重绘所附图像,背景为白色,使其看起来像是用鼠标在MS Paint中绘制。生成效果需与原图似是而非,带有低质量像素感和令人困惑的别扭感,以突出其荒诞的"差劲"。推文引用者指出,这条提示词正引发疯狂传播。

CHOI: This GPT Image 2 prompt is going insanely viral right now. "Redraw the attached image in the most clumsy, scribbly, and ...

OpenAI图像生成教程/实践

推荐理由:这 prompt 把 GPT Image 2 从「精美」逼成了「小学生涂鸦」,是近期最有网感的玩法,做内容的可以直接抄。
04:14
Sam Altman@sama
19
这确实看起来很酷 【引用 @mweinbach】:Codex 目标功能看起来很酷 看起来你可以给 Codex 设定一个目标,然后它会持续工作、规划和测试直到完成? 我只是在阅读这里的提交记录,但我想这就是它的功能吧?

Max Weinbach: Codex goal feature seems cool Looks like you can give Codex a goal and it'll continue to work, plan, and test until it's...

智能体OpenAI产品更新编码
04:09
Rohan Paul@rohanpaul_ai
49
David Sacks 澄清,Anthropic 的 Mythos 模型并非魔法或末日武器,而是首个能自动化执行网络安全任务(如代码审计)的模型。OpenAI 的 GPT-5.5-cyber 已具备相同能力,所有前沿模型预计约六个月内都将达到此水平。他强调这些模型不创造漏洞,而是发现代码中既有缺陷,利用AI发现并修补漏洞反而能增强系统安全。从"前AI"到"后AI"网络安全的跨越将引发重大升级,最终在AI驱动的攻防间达到新平衡。关键在于让防御方比攻击方更早获得此类工具,且GPT-5.5-cyber因无令牌限制可能成为防御方首个实用化模型。

David Sacks: It's time to demystify Mythos. Mythos is not magic. It's not a doomsday device. It's the first of many models that can a...

AnthropicOpenAI大佬观点安全/对齐
03:44
Tibo@thsottiaux
59
为编码者和普通工作带来了全面的改进。更新您的Codex应用以享受所有改进。 我们下周回来

Andrew Ambrosino: Codex for everything: - Dynamic UI for the task at hand - 20% faster computer & browser use - Even better slides and she...

OpenAI产品更新编码
03:44
Tibo@thsottiaux
62
这东西的功能比你想象的要多。Codex 现在可供非编码人员使用。

OpenAI: It's never been easier to do everyday work with Codex. Choose your role, connect the apps you use every day, and try sug...

MCP/工具OpenAI产品更新
‹ 上一页
1…3940414243…50
下一页 ›