Nextdoor 工程师利用 Codex 搭配 GPT-5.5 调查难以复现的问题、实现跨平台构建,并集中精力于产品成果。
Nextdoor 工程师利用 Codex 搭配 GPT-5.5 调查难以复现的问题、实现跨平台构建,并集中精力于产品成果。
Mythos正式上线FrontierCode基准测试,旨在衡量AI生成可维护代码的能力。该基准包含超1000小时维护者验证的任务,并引入3000+评分标准防奖励攻击。最高难度FC Diamond上,Opus 4.8得分仅13.8%,且Opus 4.8与GPT 5.5均未随effort扩展提升。Mythos/Fable后训练将test time compute用于数小时级长任务。基准已在Devin上线,ACU成本仅1.4倍。FC Extended中最易的1/3任务在2025年末被快速攻克——Opus从41%升至74%,标志着AI编码进入“维护可读代码”新时代。
It's finally out!!! @METR_Evals found that more than half of SWEBench results is unmergeable slop. FrontierCode represen...
SpaceX、Anthropic 和 OpenAI 均筹备大规模公开上市,科技行业或将诞生新的企业巨头缩写。告别 FAANG,迎来 MANGOS。
http://x.com/i/article/2057694226981257216
http://x.com/i/article/2059815427484655622
BREAKING: WSJ reports OpenAI just made its first formal move toward IPO. it has confidentially filed draft paperwork for...
关联讨论 4 条Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)IT之家(RSS)X:Rohan Paul (@rohanpaul_ai)Since my last post, I reduced ty's retained memory by another 15% with Codex. We're now at a ~25% memory reduction overa...
OpenAI 放弃 2028 年实现完全自主 AI 研究的目标,转而强调人机“协同”。CEO Sam Altman 与研究员 Jakub Pachocki 呼吁建立国际机构,以便在必要时减缓前沿 AI 发展。
Perplexity CEO Aravind Srinivas向CNBC表示,公司计划2028年进行IPO,该计划不受Anthropic和OpenAI影响。Anthropic已秘密提交IPO申请,估值接近1万亿美元;OpenAI也在周一秘密递交了IPO文件。Srinivas认为竞争对手上市表现不佳会引发连锁反应,并强调SpaceX本周IPO将成为衡量Anthropic和OpenAI上市前景的重要指标。
OpenAI 已向美国证券交易委员会(SEC)秘密提交 S-1 注册表,迈出首次公开募股(IPO)的正式一步,但未设定时间表,公司称这是“一系列复杂的权衡”。竞争对手 Anthropic 近期也提交了 IPO 文件,可能给 OpenAI 带来了额外压力。
洪明 (@hongming731) 透露,经过与 @puliandc 多轮讨论,他们使用 Claude Code、Claude Design 进行设计和讨论,并用 Codex Goal 模式完成了搭建。目标是在明晚上线 BestBlogs 世界杯专刊,邀请用户一起用 BestBlogs 看世界杯。
I've recently been spending time with the ChatGPT team on shipping new experiences in ChatGPT! Our team's goal is simple...
I have a new kind of big button that I can press for Codex. Over the next 100 days, we will select one person per day wh...
Noam Brown指出,LLM基准性能日益依赖测试时计算,当前标准评估因忽略推理预算而低估模型能力。以GPT-5.5与GPT-5.4为例:控制测试时计算后,5.5表现远超5.4。Karpathy的自动化实验和AISecurityInst的网络评估均显示,即使消耗超1亿token,强模型性能仍持续提升。Brown建议改用性能-测试时计算曲线评估,安全评估也应计入推理预算,如Gemini 3 Deep Think发布时未配套风险说明,关键在于业界未统一考虑测试时计算。
We recently submitted a confidential S-1. We expect it to leak so we're just announcing it. We have not decided on timin...
关联讨论 4 条Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)IT之家(RSS)X:Rohan Paul (@rohanpaul_ai)OpenAI 近日秘密提交 IPO 申请。其 CEO 山姆·奥特曼旗下的 Tools for Humanity 公司正裁员,该公司因虹膜扫描项目 World 及加密货币 Worldcoin 知名,投后估值 25 亿美元,获 Andreessen Horowitz 等投资。因营收困境,公司缩减规模。海外监管方面,肯尼亚以隐私和金融风险为由叫停运营,韩国因违反隐私法规罚款 83 万美元。
同一事件,精选展示《OpenAI 向 SEC 机密提交 S-1 草案,上市时间未定》Cognition 发布 FrontierCode 基准测试,重新定义 AI 编程评估:由 20 多位顶级开源维护者手工制作 150 个任务(每个耗时 40+ 小时),依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%,GPT-5.5 为 6.3%,其余模型 1%–5%。这意味着即便最强模型,近九成代码仍无法通过有经验维护者审核。
Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...
关联讨论 1 条Hacker News 热门(buzzing.cc 中文翻译)OpenAI joins Anthropic in thinking pausing may be needed 👀 "there should be an international organization that helps [....
本期早报聚焦:Claude Code一周年复盘,从辅助写代码到数千Agent协作网络,推出Auto Mode以安全分类模型替代人工审批;循环工程新范式强调工程师职责从提示Agent转向设计系统;小米MiMo与TileRT通过FP4量化和DFlash推测解码,在商用GPU上实现1万亿参数模型1000+ token/s推理;OpenAI概述AGI第三阶段愿景构建自动化AI研究员;另有安克创新创始人阳萌4小时访谈、六大Agent上下文压缩策略对比、杰弗里·辛顿谈AI失控焦虑等。
http://x.com/i/article/2064136850370101248
OpenAI 已秘密提交 S-1 文件(IPO 申请),预计消息将泄露故主动披露。OpenAI 尚未决定上市时间,可能继续维持私有一段时间,因其部分计划在私有状态下更易推进。此举紧随 Anthropic 提交保密 S-1 之后,两大前沿 AI 公司展开 IPO 竞赛:先上市者可能定义整个板块的公开市场预期,迟入者则面临以此为基准的估值对比。
We recently submitted a confidential S-1. We expect it to leak so we're just announcing it. We have not decided on timin...
关联讨论 4 条Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)IT之家(RSS)X:Rohan Paul (@rohanpaul_ai)本周一,OpenAI CEO 奥尔特曼与首席科学家帕霍茨基联合发文,宣布公司进入第三发展阶段,目标让 AI 普及、易用且安全。此前第一阶段聚焦通用人工智能技术研发,第二阶段面向全球推出产品。第三阶段三大核心目标是打造自动化人工智能研究员、推动经济提速、为每人配备专属通用人工智能。二人强调智能系统须坚守安全底线,呼吁成立国际机构应对 AI 风险,必要时可暂缓前沿模型研发。同日,OpenAI 秘密提交 IPO 申请,但上市仍需较长时间。上周 Anthropic 研究人员也建议适当放缓前沿 AI 研发。
同一事件,精选展示《OpenAI 公布让 AGI 造福所有人的计划》OpenAI 向美国证券交易委员会(SEC)秘密提交了 S-1 草案,相关消息已在 OpenAI 官网公布。
同一事件,精选展示《OpenAI 向 SEC 机密提交 S-1 草案,上市时间未定》OpenAI 在 6 月 9 日发布博文,宣布已向美国证券交易委员会递交保密版 S-1 注册草案,为未来上市预留通道。S-1 文件通常包含公司业务、风险、财务与发行信息,提交不代表立即上市,但表明企业已为进入公开资本市场做准备。OpenAI 坦言文件可能泄露,因此主动公布,同时强调尚未作出上市决定,“可能还要一段时间”。其竞争对手 Anthropic 已于 6 月 2 日秘密递交 IPO 申请。
关联讨论 4 条Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)IT之家(RSS)X:Rohan Paul (@rohanpaul_ai)We recently submitted a confidential S-1. We expect it to leak so we're just announcing it. We have not decided on timin...
关联讨论 4 条Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)IT之家(RSS)X:Rohan Paul (@rohanpaul_ai)OpenAI 向 SEC 机密提交了 S-1 文件,正式启动 IPO 流程,可在不公开收入、亏损、客户构成等敏感数据的情况下开始审查。上周 Anthropic 也已机密提交 IPO 文件,AI 实验室的竞争从模型竞赛转向下一代 AI 基础设施的资本竞赛。Sam Altman 在博客中称,到 2028 年 3 月,OpenAI 很大一部分研究将由 AI 完成,目标包括构建自动化 AI 研究员、加速科学生产力、为每个人提供个人 AGI。
Sam Altman's new blog about OpenAI's future path says by March-2028 a significant fraction of its own research will be d...
关联讨论 2 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:Sam Altman (@sama)OpenAI 本周一向美国证券交易委员会(SEC)秘密提交 S-1 表格,启动 IPO 流程,紧随 Anthropic 于 6 月 1 日采取的相同动作。机密提交意味着高管薪酬、业务风险等细节目前尚未公开。Anthropic 在最近一轮融资后被称作全球估值最高的初创公司。
关联讨论 4 条Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)IT之家(RSS)X:Rohan Paul (@rohanpaul_ai)OpenAI 进入第三阶段:经济开始围绕 AI 重塑。前两阶段分别为 AGI 研究和产品化转型。CEO Sam Altman 发布当前规划(链接),明确 2028 年目标是构建可控、可问责的 AI 研究员,逐步自动化科学研究,帮助解决对齐问题并导航后 AGI 过渡。这标志走向 AGI/后 AGI 的最后阶段。
Here is our current plan for OpenAI: https://openai.com/index/built-to-benefit-everyone-our-plan/
Here is our current plan for OpenAI: https://openai.com/index/built-to-benefit-everyone-our-plan/
同一事件,精选展示《OpenAI 公布让 AGI 造福所有人的计划》OpenAI周一在一篇博客中宣布已秘密提交首次公开募股申请,距其主要竞争对手Anthropic递交类似文件仅一周多时间,两家AI公司的上市竞赛随之升温。OpenAI在最新一轮融资中投后估值达8520亿美元。
关联讨论 4 条Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)IT之家(RSS)X:Rohan Paul (@rohanpaul_ai)🚨 A new anonymous model under the name "Kindle" has been added to the Design Arena, very likely to be the same "kindle-...
OpenAI 近日向 SEC 机密提交了 S-1 草案(即首次公开募股注册声明),目前尚未决定上市时间。
关联讨论 4 条Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)IT之家(RSS)X:Rohan Paul (@rohanpaul_ai)