http://x.com/i/article/2066964446086676480
OpenAI利用WildChat公开数据集(2023年4月至2024年5月收集的100万条对话)模拟模型部署,预测GPT-5.1、GPT-5.2、GPT-5.4在真实生产环境中的不良行为率。与私有生产数据对比发现,WildChat模拟的平均预测误差约3倍;但对技术性和智能体型失调的预测精度下降。研究验证了公开数据集作为外部审计工具的可行性。
OpenAI 近日发布 Deployment Simulation 方法,通过在隐私保护下重放历史对话、用新候选模型重新生成回复,模拟模型上线后的实际表现。在多个 GPT‑5‑series Thinking 部署中,该方法比传统评估更准确地估计了不良行为频率,发现新型对齐问题,并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限,而 Deployment Simulation 使用真实对话分布缓解了这些问题,但无法测量频率低于每 20 万条消息 1 次的行为。
关联讨论 1 条MarkTechPost(RSS)Oy. We are aware that some Codex users are experiencing high error rates with "model at capacity" and are working to bri...
2026 年 5 月底,ChatGPT 市场份额降至 46.4%,为发布以来首次低于 50%。Gemini 以 27.7% 紧随其后,Claude 占 10.3%。ChatGPT 仍以超 11 亿月活跃用户领先,Gemini 和 Claude 分别拥有 6.62 亿和 2.45 亿用户。用户在不同助手间切换意愿增强,OpenAI 与美国国防部的合作曾引发卸载高峰。Claude 订阅转化率达 13%,领先行业。OpenAI 已在 ChatGPT 中试验广告,5 月日均 17% 用户看到广告,软件与购物为主要广告类别。ChatGPT 正向 Target、Walmart 等零售商导流,Amazon 因封锁爬虫错失流量。
🚨 OpenAI is planning to release GPT-Bidi-1 very soon Their next-generation voice model for more natural conversations [...
OpenAI提交SEC文件准备IPO,泄露的审计财报显示其2025年收入130.7亿美元,但研发费用高达191.8亿美元(含向微软支付的105.9亿),营收成本75亿美元,销售与营销支出57.3亿美元。2025年运营亏损209.2亿美元,净亏损近390亿美元,其中包含约300亿美元因公司向营利制转型产生的一次性会计费用,剔除后净亏损约80亿美元。ChatGPT周活用户超9亿,仅约5000万付费。公司计划2030年实现盈利,正削减“副线项目”并聚焦核心编码与商业用户。
关联讨论 3 条Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)Gary Marcus:The Road to AI We Can Trust(RSS)ChatGPT全球市场份额降至46.4%首次跌破50%,仍以超11亿月活用户居首;Gemini月活6.62亿(份额27.7%),Claude月活2.45亿(10.3%)。2026上半年AI应用下载量近23亿次,用户支出超42亿美元。Claude付费转化率13%居行业第一。亚洲Q1下载量首次下降3.3%。全行业使用时长预计达360亿小时,前三大AI助手占总时长89%。
据Hacker News热门文章,OpenAI在2025年亏损额激增近8倍,年度总支出达到340亿美元。原文来自wheresyoured.at的独家财务分析报道,该信息在Hacker News上获得超过100个点赞。
同一事件,精选展示《OpenAI 的领先优势正在快速缩小》🚀 Codex CLI 0.140.0 is out! 📊 /usage: daily, weekly & cumulative token stats 📥 /import from Claude Code: setup, confi...
OpenAI Codex 2026版以统一执行层+编排中枢架构覆盖App、CLI、IDE、Cloud、Web五入口,模型迭代至GPT-5.4 for Codex,Spark版快15倍。平台层由MCP、Skills(开放标准)、Plugins(可分发)构成。SWE-Bench Pro Public上56.8%微弱领先,OSWorld-Verified 64.7%接近人类;Claude Code在百万token重构占优,Codex强在异步执行与并行调度。最佳实践:Prompt含Goal/Context/Constraints/Done-when,用AGENTS.md固化持久指令,MCP按高频痛点优先配置。
OpenAI 去年总支出达 340 亿美元,其中研发支出约 190 亿美元,销售与市场营销费用约 60 亿美元,基础设施、运营成本等约 90 亿美元。同期营收为 130 亿美元,净亏损 390 亿美元。持续亏损主要源于算力芯片采购、数据中心建设和人才挖角。OpenAI 正通过提高运营效率、控制研发支出增速、精简非核心项目,为今年 IPO 做准备。
OpenAI 过去一年支出 340 亿美元,其中约 190 亿投入研发,近 60 亿用于销售和营销。收入约 130 亿美元,年底月收入达 20 亿美元。净亏损从 50 亿跃升至约 390 亿美元,但《金融时报》指出其中约 300 亿为一次性非现金会计费用,剔除后实际亏损约 80 亿美元。OpenAI 正筹备 IPO,估值可能超 1 万亿美元。
关联讨论 3 条Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)Gary Marcus:The Road to AI We Can Trust(RSS)AI 模型 API 聚合平台 OpenRouter 于 6 月 14 日推出 Fusion API,将用户请求并行发送至多个模型,经审查模型分析后由调用模型生成统一回答。官方测试显示,Claude Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro 组合得分 68.3%,超过单独 Claude Fable 5 的 65.3%;双 Claude Opus 4.8 组合得 65.5% 同样高于 Fable 5。低成本组合 Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro 得分 64.7%,以约 Claude Fable 5 一半的成本将分数差距控制在 1% 以内。
We just shipped a faster, more fluid photo attach experience in ChatGPT! The attach menu now transitions smoothly into t...
http://x.com/i/article/2063237792746831872
高频使用 Codex 的用户应让其自行挑选 OpenAI 官方插件,效率翻倍。官方插件覆盖表格处理、PPT 制作、服务器部署、本地文件操作、自动化流程等日常需求。具体三步:打开项目对话窗口进入 Plugins 页面;让 Codex 结合项目目标筛选适配插件并说明用途;评估确认后直接让 Codex 完成安装。核心逻辑是让 AI 帮你用好 AI,避免盲目试错。
http://x.com/i/article/2063237792746831872
Cua 与 Snorkel AI 联合发布 Cua-Bench,首个公开数据集聚焦电子设计工具 KiCad,含 25 道由执业电气工程师编写并复核的任务。测试中,GPT-5.5 完全通过 6/25(24%),Claude Sonnet 4.5 和 Haiku 4.5 各通过 5/25(20%)。所有成功任务均为局部修改,16 道从零搭建任务全部失败。瓶颈在执行层:导航开销大(~84%)、操作粒度过细(~84%)、视图控制混乱(~76%)、布线未完成(~72%)、自我验证不可靠。步数上限并非主因。根因分布:规划 ~40%、感知 ~22%、导航低效 ~19%、领域知识 ~11%、工具/API ~8%,全程零 API 错误。
1/ Today we're launching Cua-Bench with @SnorkelAI: a benchmark for computer-use agents on professional software, open f...
so close to 90k followers... what codex articles do i need to write to get there...
五角大楼宣布已将超2/3日常AI工作流从Anthropic转移,目标9月前清零。起因是年初五角大楼要求Anthropic签署协议允许Claude用于大规模监控和全自动武器,CEO Dario Amodei以模型不可靠为由拒绝。五角大楼将其列为“供应链风险”,起诉未果。OpenAI调整立场获得订单。Polymarket预测6月底前和解概率仅9%。此事件凸显AI公司需在原则与政府合作间抉择。
JUST IN: Pentagon announces it has transitioned over two-thirds of its daily AI workflows off Anthropic to rival AI vend...
网友用AI制作78秒水果动画,向女友解释Anthropic近况。红苹果代表Sam Altman,绿梨子代表Dario Amodei,菠萝将军代表美国政府。剧情:梨子曾从OpenAI出走创办Anthropic,专注安全AI;最近梨子公开呼吁政府像管飞机一样严格监管AI,结果菠萝直接下架Anthropic两个新模型。结尾梨子震惊。视频讽刺了“谁先喊危险,谁先尝苦头”的行业困境——Dario本想控制节奏,没想到权力先切了自己。
I used AI to explain the Anthropic drama to my girlfriend, with fruit.
美国一名联邦法官驳回了 xAI 对 OpenAI 提起的诉讼。xAI 指控 OpenAI 诱使其前高级工程师李雪辰泄露与 Grok 4 相关的商业机密。法官丽塔·林认为 xAI 未能提供证据证明 OpenAI 怂恿泄密,且招聘中询问过往工作属行业常规,裁定不可再诉。这是马斯克四周内第二次在与 OpenAI 的法律交锋中败诉。
Financial Times, quoting a person close to OpenAI: "In recent days, the [AI] industry has been working [with the USG] on...