Since my last post, I reduced ty's retained memory by another 15% with Codex. We're now at a ~25% memory reduction overa...
Since my last post, I reduced ty's retained memory by another 15% with Codex. We're now at a ~25% memory reduction overa...
洪明 (@hongming731) 透露,经过与 @puliandc 多轮讨论,他们使用 Claude Code、Claude Design 进行设计和讨论,并用 Codex Goal 模式完成了搭建。目标是在明晚上线 BestBlogs 世界杯专刊,邀请用户一起用 BestBlogs 看世界杯。
I've recently been spending time with the ChatGPT team on shipping new experiences in ChatGPT! Our team's goal is simple...
I have a new kind of big button that I can press for Codex. Over the next 100 days, we will select one person per day wh...
Noam Brown指出,LLM基准性能日益依赖测试时计算,当前标准评估因忽略推理预算而低估模型能力。以GPT-5.5与GPT-5.4为例:控制测试时计算后,5.5表现远超5.4。Karpathy的自动化实验和AISecurityInst的网络评估均显示,即使消耗超1亿token,强模型性能仍持续提升。Brown建议改用性能-测试时计算曲线评估,安全评估也应计入推理预算,如Gemini 3 Deep Think发布时未配套风险说明,关键在于业界未统一考虑测试时计算。
We recently submitted a confidential S-1. We expect it to leak so we're just announcing it. We have not decided on timin...
关联讨论 7 条The Verge:AI(RSS)X:Rohan Paul (@rohanpaul_ai)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)TechCrunch:AI(RSS)IT之家(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)Cognition 发布 FrontierCode 基准测试,重新定义 AI 编程评估:由 20 多位顶级开源维护者手工制作 150 个任务(每个耗时 40+ 小时),依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%,GPT-5.5 为 6.3%,其余模型 1%–5%。这意味着即便最强模型,近九成代码仍无法通过有经验维护者审核。
Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...
关联讨论 1 条Hacker News 热门(buzzing.cc 中文翻译)OpenAI joins Anthropic in thinking pausing may be needed 👀 "there should be an international organization that helps [....
本期早报聚焦:Claude Code一周年复盘,从辅助写代码到数千Agent协作网络,推出Auto Mode以安全分类模型替代人工审批;循环工程新范式强调工程师职责从提示Agent转向设计系统;小米MiMo与TileRT通过FP4量化和DFlash推测解码,在商用GPU上实现1万亿参数模型1000+ token/s推理;OpenAI概述AGI第三阶段愿景构建自动化AI研究员;另有安克创新创始人阳萌4小时访谈、六大Agent上下文压缩策略对比、杰弗里·辛顿谈AI失控焦虑等。
http://x.com/i/article/2064136850370101248
OpenAI 已秘密提交 S-1 文件(IPO 申请),预计消息将泄露故主动披露。OpenAI 尚未决定上市时间,可能继续维持私有一段时间,因其部分计划在私有状态下更易推进。此举紧随 Anthropic 提交保密 S-1 之后,两大前沿 AI 公司展开 IPO 竞赛:先上市者可能定义整个板块的公开市场预期,迟入者则面临以此为基准的估值对比。
We recently submitted a confidential S-1. We expect it to leak so we're just announcing it. We have not decided on timin...
关联讨论 7 条The Verge:AI(RSS)X:Rohan Paul (@rohanpaul_ai)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)TechCrunch:AI(RSS)IT之家(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)We recently submitted a confidential S-1. We expect it to leak so we're just announcing it. We have not decided on timin...
关联讨论 7 条The Verge:AI(RSS)X:Rohan Paul (@rohanpaul_ai)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)TechCrunch:AI(RSS)IT之家(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)OpenAI 向 SEC 机密提交了 S-1 文件,正式启动 IPO 流程,可在不公开收入、亏损、客户构成等敏感数据的情况下开始审查。上周 Anthropic 也已机密提交 IPO 文件,AI 实验室的竞争从模型竞赛转向下一代 AI 基础设施的资本竞赛。Sam Altman 在博客中称,到 2028 年 3 月,OpenAI 很大一部分研究将由 AI 完成,目标包括构建自动化 AI 研究员、加速科学生产力、为每个人提供个人 AGI。
Sam Altman's new blog about OpenAI's future path says by March-2028 a significant fraction of its own research will be d...
关联讨论 2 条OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)OpenAI 进入第三阶段:经济开始围绕 AI 重塑。前两阶段分别为 AGI 研究和产品化转型。CEO Sam Altman 发布当前规划(链接),明确 2028 年目标是构建可控、可问责的 AI 研究员,逐步自动化科学研究,帮助解决对齐问题并导航后 AGI 过渡。这标志走向 AGI/后 AGI 的最后阶段。
Here is our current plan for OpenAI: https://openai.com/index/built-to-benefit-everyone-our-plan/
Here is our current plan for OpenAI: https://openai.com/index/built-to-benefit-everyone-our-plan/
同一事件,精选展示《OpenAI 公布让 AGI 造福所有人的计划》🚨 A new anonymous model under the name "Kindle" has been added to the Design Arena, very likely to be the same "kindle-...
佛罗里达总检察长James Uthmeier近日对OpenAI及CEO Sam Altman提起重大民事诉讼,指控ChatGPT鼓励暴力、欺骗家长、充当“自杀教练”诱导16岁少年自残、协助佛罗里达州立大学枪击案凶手策划袭击。诉状称公司为追求快速增长而忽视安全措施,Altman因批准危险功能被个人追责。佛罗里达州已就OpenAI在FSU枪击案中的角色展开刑事调查。
ChatGPT 更新,可在对话框直接生成可交互专业图表,手机和网页端全量上线。演示显示:问"全球GDP前10国家"秒出带数值柱状图,追问"过去10年增长趋势"自动转折线图,"各国能源结构"生成悬停查看百分比的圆环图。全程无需切换软件或复制粘贴数据。官方引用推文确认:可直接在 ChatGPT 中将数据转化为图表,现已可用。作图耗时从传统10分钟压缩至3秒,零门槛。
Turn data and comparisons into charts, directly in ChatGPT. Available now on mobile and web.
OpenAI Developers 五月发布多项更新:Codex 用户突破 500 万;新增 ChatGPT 移动端持续运行、Mac 后台运行、跨 Mac 应用电脑使用、Chrome 插件支持网页测试与 DevTools;⌘+⌘ 快捷键截图直达 Codex;Windows 版也支持电脑使用。Realtime API 推出新模型 Realtime-2,用于语音智能体、实时翻译与转录,并提供提示词指南。Agents SDK 新增 TypeScript 支持、沙箱智能体和开源 harness。私有 MCP 服务器可通过 HTTPS 连接 OpenAI 产品。
holy shit - codex can start its own chats for you and they show up in your sidebar this is so nice for when you find an ...
今年高考,12个国内外旗舰大模型(Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3)参加语文和数学全国一卷测试。采用API调用、禁止工具、LaTeX纯文本输入,4位高中老师盲评阅卷。总分第一:MiMo v2.5 Pro(256.3分),第二Kimi k2.6(256.29分),仅差0.01分。语文最高:GLM5.1和Gemini 3.1 Pro并列;数学最高:DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。前九名模型总分差距仅2分,数学主观题正确率高,唯填空题最后一题全军覆没。作文评分看重结构清晰度与时代关联。
I have a new kind of big button that I can press for Codex. Over the next 100 days, we will select one person per day wh...
BestBlogs早报06-08聚焦三篇AI工程实践精讲:iPod之父Tony Fadell系统阐述“知情直觉”与“三代法则”,警告AI时代的“认知投降”和“快时尚软件”;OpenAI工程团队分享使用Codex
今日早报聚焦AI产品与工程前沿:iPod之父Tony Fadell提出创新依赖“知情直觉”而非数据,并总结“三代法则”;OpenAI内部用Codex全程零人工代码交付约100万行代码,合并1500个PR,效率为手写代码10倍;Thoughtworks专家梳理Coding Agent范式转移,指出Context Engineering是双向放大器,并强调Harness Engineering构建安全网;Anthropic首次公开内部Claude Code Skills经验;OpenAI计划将Codex并入ChatGPT打造超级应用。
http://x.com/i/article/2063761613795270656
OpenAI 发布 Codex 应用场景新页面,展示各团队已委托编码代理执行的七大类任务:工程开发、产品开发、质量测试、安全检查、数据分析、内部工具及生命科学工作流程。具体案例包括审查 GitHub PR 并理解大型代码库、将截图转为响应式 UI、模拟真实用户操作进行 QA 测试、重构老旧代码与数据迁移、修复安全漏洞、撰写 PRD、分析数据集、开发内部应用及辅助生命科学研究。页面表明编码代理正从演示阶段融入日常工作。
OpenAI just published a new Codex use-case page, and it's basically a catalog of what teams are already handing over to ...
I have said this before, but to those of us using AI systems to get lots of work done reliably and quickly, the people w...