Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...
Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...
Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...
Codex usage at OpenAI gives us a preview of what agentic work may look like in the future. In a new paper, the OpenAI Ec...
DeepSeek V4 定价极低,仅基于 token 费用就比 Anthropic 和 OpenAI 的前沿模型便宜近 50 倍,未计入思考类模型额外 token 消耗。文章指出对方陷入高成本困境,难以降价 20–50 倍竞争。开放权重模型低成本源于硬件压力测试还是亏本引流,尚存争议。担忧美国可能借“中国恐惧”推动限制开放权重模型。Google 于 2026 年 4 月发布 Gemma 4,Meta Llama 无新版本,OpenAI 最后开放权重停留在 2025 年 GTP,Anthropic 从未发布。真正开源(含训练数据管道)模型正流行,但数据截止 2024 年 12 月。美国 NSF 与 Nvidia 合作支持 Allen AI 开发完全开源 AI。
微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜上位列文本到图像生成第2名、图像编辑第3名,仅次于 OpenAI 的图像模型。该模型支持文本到图像生成与图像编辑,最大输出分辨率约 1MP,支持灵活宽高比,上下文窗口 32K token。更快、更低成本的 MAI-Image-2.5-Flash 变体在文本到图像和图像编辑中分别排名第8和第6。API 定价:MAI-Image-2.5 为 $48/千图,Flash 版 $20/千图。模型已上线 Foundry API 和 MAI Playground,其中 MAI-Image-2.5 还可在 PowerPoint 和 OneDrive 中使用。
🚨 New research alert! For the past few months, I've been a part-time visiting economics researcher at OpenAI. Excited t...
gpt-5.6-preview has been spotted in an internal model-access route
华盛顿邮报调查显示,多数主流AI聊天机器人在政治问题上明显偏左。OpenAI GPT-5.5在80%回答中仅呈现左派论据;DeepSeek V4 Pro为70%;Anthropic Claude Opus 4.8有43%纯左、57%给出双方观点。xAI的Grok 4.3左倾回答仍多于右倾。右翼平台Gab的Arya左倾回答是右倾的12倍。Google Gemini 3.1 Pro是例外,93%回答同时呈现双方立场。特朗普推动的“反觉醒”AI未能改变这一格局。
Google将数月前成立的AI编码突击队扩展为更正式的“midtraining”小组,位于预训练与后训练之间,旨在提升Gemini编码能力,并延伸至创建演示文稿等商业任务。此前,Noam Shazeer因计算资源变动转投OpenAI,Nobel奖得主John Jumper调至该团队后也加入Anthropic。Google承认,仅靠强大基座模型不够,编码已成为AI最明确的变现层,Anthropic借此获得收入增长。Google需专用训练、计算和更清晰的产品闭环来追赶。
AI算力需求激增推动数据中心扩张,但真正的瓶颈可能并非芯片或能源生产,而是电网接入。OpenAI与SoftBank在德州的Stargate园区耗资超400亿美元,峰值负载约1.2吉瓦。然而美国电网并网等待时间中位数从2005年的不到20个月增至2023年的55个月。现行先到先得的审批机制导致严肃项目被投机项目阻塞。未来赢家可能不是拥有最佳模型或最多芯片的国家,而是能快速接入电网的国家。
gpt-5.6-preview has been spotted in an internal model-access route
OpenAI 在2025年8月至2026年6月间观察到,智能体产品 Codex 取代 ChatGPT 成为主要工作工具,各部门输出 token 中 Codex 占比从不足10%升至99.8%。80.6%个体用户曾发起预计等效人类工作时间超30分钟的请求,70.2%超1小时,25.6%超8小时;99百分位用户每日生成超60小时 agent turns。非开发者用户增长迅猛:个体用户增长137倍,组织用户增长189倍。Legal、Finance、Recruiting 部门在2026年4月前后跨过 Codex 使用过半拐点,平均每位律师或招聘人员超85%输出 token 来自 Codex。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)X:Jason Liu (@jxnlco)We have a new version of GPT-5.5 Instant for you, and it's much more fun to talk to. Our most-used model is now better a...
胡润《2026全球独角兽榜》今日发布,全球独角兽企业达1603家,较去年增长5.3%,总价值54万亿元。美国以806家居首,中国381家第二。前三名Anthropic(6.6万亿元)、OpenAI(5.8万亿元)、字节跳动(3.3万亿元)均布局大模型。新晋独角兽中DeepSeek以3400亿元价值跻身全球前15名。
OpenAI与Broadcom合作开发的ASIC芯片Jalapeño专为大语言模型推理设计,旨在降低对Nvidia硬件的依赖。OpenAI提供架构,Broadcom负责硅工程,TSMC制造,Celestica构建板卡系统。早期样品已运行未发布的GPT-5.3-Codex-Spark模型,达到目标频率和功耗。芯片集成Broadcom Tomahawk网络硅,通过最小化数据移动提高实际利用率。去年ChatGPT成本84亿美元,今年预计达140亿美元,周用户9亿。公司未来八年承诺约1.4万亿美元计算投入,年收入250亿美元。
iOS 27 引入独立 Siri 应用,采用聊天机器人风格,用户可在文本框输入发起 AI 聊天,支持上传图片和文件附件、查看历史对话。该应用默认调用 Siri AI,用户需长按输入框并点击“Ask…”按钮,在弹出的选择窗口中手动切换至 ChatGPT。目前仅支持 Siri AI 和 ChatGPT 两个选项,且关闭并重新打开应用后选择会回到 Siri,设置中暂不支持永久将 ChatGPT 设为默认模型。
OpenAI 6 月 25 日升级 GPT-5.5 Instant 模型,新版本更能洞察用户表达意图,理解问题背后的引申含义,并优化输出表达。处理复杂约束条件时更可靠,能更稳定地满足多条件任务。购物推荐和本地推荐方面表现更实用、更连贯,结果更贴近实际使用场景。付费用户即日起获得新版,免费用户明天接入。
OpenAI与Broadcom发布首款定制LLM推理芯片Jalapeño,九个月流片,工程样片已跑GPT‑5.3‑Codex‑Spark,能效比显著领先,计划2026年吉瓦级部署。Anthropic公开多智能体协作经验,提出需持久记忆、独立凭证、广泛信息访问,总结信息公开、角色分工、人类定目标、按可验证程度放权四条规范。阿里开源内部代码评审CLI——Open Code Review,一周5k星,采用“确定性工程+Agent”混合架构解决覆盖不全、位置漂移、效果不稳定问题。
OpenAI 与 Broadcom 发布首款定制 LLM 推理芯片 Jalapeño,设计到流片仅九个月,过程由自家模型加速。Anthropic 公开内部实践:Claude Tag 让多智能体进驻协作空间,梳理信息公开、角色清晰、北极星目标、逐步放权四条经验。阿里开源代码评审工具 Open Code Review,采用“确定性工程+Agent”混合架构,准确率 25%-38%,远超 Claude Code 的 7%-16%,召回率略逊。
http://x.com/i/article/2069928325951401985
基于LLM的代码智能体依赖关键词搜索导航仓库,但缺失调用图、继承关系等结构信息,导致导航随机且难以复现。研究以OpenAI Codex为基线,向提示词注入不同粒度的轻量级静态结构注释,发现确定性锚定效应:函数级定位Func@5提升2.2个百分点,交互轮次减少1.6轮;链接跟随率从0.15–0.18升至0.21–0.24,单次运行Pass@1提升3.4个百分点,但输入token增加约10%。建议中等规模仓库默认使用轻量级拓扑,大型仓库剪枝前向边,密度高的语义注释仅用于隐式依赖场景。
OpenAI与Broadcom宣布推出名为Jalapeño的定制ASIC芯片,专为数据中心大规模大语言模型推理设计。该芯片基于OpenAI研究人员提供的洞察及未来模型路线图,研发耗时9个月。早期测试显示其能效显著优于当前最先进方案,但完整性能数据尚未公布,详细技术报告将在未来数月内发布。该项目旨在通过垂直整合降低对Nvidia等外部供应商的依赖,首批芯片计划于今年年底部署到数据中心。
Artificial Analysis 发布 AA-Briefcase 基准测试,测试模型在多周项目语境下生成财务模型、董事会演示等交付物。关键结果:Claude Opus 4.8 平均每任务 23 分钟,得分最高但最慢;GPT-5.5 (xhigh) 仅 11 分钟,效率最高且 Elo 前五;GLM-5.2 得 1261 分耗时 16.3 分钟,为开源模型最佳;MiniMax-M3 得 1113 分。已下架的 Claude Fable 5 约需 28.5 分钟。工具调用仅占耗时 12%,其余由输出冗余、回合数和推理速度决定。
OpenAI 更新了 ChatGPT 中广泛使用的 GPT-5.5 Instant 模型,目标提升对话质量,尤其在用户做决策、寻求建议或比较选项时。模型能更准确识别问题背后的根本目标,在多轮对话中保持上下文,对包含多个条件的复杂提示给出更完整回答。当用户提出异议或澄清时,模型调整得更有效,不再重复原有回答。本地商业和购物查询也有改进,模型更好利用位置数据,将推荐、商家信息和图片更连贯整合。整体响应感觉“更少模板化,更多精心设计”。
Post your best codex billboard
GLM-5.2 from @Zai_org on ARC-AGI (Verified) - ARC-AGI-2: 22.8%, $0.25 - ARC-AGI-1: 77.0%, $0.19 Performance is comparabl...
OpenAI 本周三发布首款定制推理处理器 Jalapeño,由博通制造,OpenAI 自有 AI 模型参与了芯片开发。该芯片专为推理系统设计,早期测试显示单位功耗性能显著优于当前业界替代方案,运行实时编码模型时运营成本低。此举旨在降低对 NVIDIA GPU 的依赖,并优化 Codex 等 Agent 产品及底层基础设施。OpenAI 正从芯片架构、内核、内存系统到部署体验进行全栈协同优化,以使模型更快、更可靠、更经济。
We have a new version of GPT-5.5 Instant for you, and it's much more fun to talk to. Our most-used model is now better a...
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
Anthropic与OpenAI围绕纽约州议员Alex Bores的政治代理战争以平局告终。Bores在NY-12选区民主党初选中以35%对39.1%输给Micah Lasher。选举总耗资2741万美元:支持Bores的四个超级PAC(Jobs and Democracy PAC、Dream NYC、You Can Push Back、Guardrails Alliance)合计花费1926万美元,而由OpenAI等资助的Leading the Future花费815万美元。Bores曾推动RAISE Act对前沿AI公司实施安全监管。尽管失利,Bores称其表现证明“AI寡头”未能吓阻公众反抗。
Snowflake 内部基准测试显示,在每项任务三次尝试下,GLM-5.2 解决 66% 的编程问题,Anthropic 的 Opus 4.7 解决 67%,两者几乎持平。首次尝试准确率 Opus 为 53.7%,GLM 为 47.6%;GLM 每任务平均迭代 99 次、消耗 8.6 亿 token,Opus 则为 80 次、4.39 亿 token。成本方面,GLM-5.2 输出 token 价格为 $4.40/百万,远低于 Opus 的 $25 和 GPT-5.5 的 $30;输入 token 仅 $1.40/百万。GLM 存在过早放弃和过度检查等弱点,但其定价优势可能对西方 AI 公司的高估值构成压力。
OpenAI 与博通(Broadcom)联合发布一款专为大语言模型(LLM)推理优化的芯片。该消息发布于 2026 年 6 月 24 日,在 Hacker News 上获得 105 个点赞。