研究团队开源了论文《Monitoring Monitorability》中的数据集与代码,并分享了一种针对噪声主导干预评估实例的新过滤策略。这一举措旨在提升AI系统监控能力的评估透明度与可复现性,为社区提供了可直接使用的工具和方法。新提出的过滤策略能有效识别并处理评估过程中噪声干扰严重的实例,有望提高评估结果的准确性与可靠性。
研究团队开源了论文《Monitoring Monitorability》中的数据集与代码,并分享了一种针对噪声主导干预评估实例的新过滤策略。这一举措旨在提升AI系统监控能力的评估透明度与可复现性,为社区提供了可直接使用的工具和方法。新提出的过滤策略能有效识别并处理评估过程中噪声干扰严重的实例,有望提高评估结果的准确性与可靠性。
尽管GPT-5.5的官方API尚未发布,但作者利用OpenAI为OpenClaw等工具开放的订阅集成机制,通过反向工程开源Codex CLI,开发了一个LLM插件。该插件允许付费订阅用户通过Codex后端API调用GPT-5.5模型。文章以生成“骑自行车的鹈鹕”SVG图像为例,展示了其使用效果,并指出高推理强度设置能显著提升输出质量,但耗时更长。目前,OpenAI表示正与合作伙伴制定API大规模服务的安全要求。
关联讨论 1 条IT之家(RSS)开发者 Simon Willison 发布了 llm-openai-via-codex 工具的 0.1a0 版本。该工具能够劫持用户的 Codex CLI 凭证,转而通过 LLM 工具来调用 OpenAI API。这一功能在其关于 GPT-5.5 的博客文章中有所描述。发布版本标签包括 openai、llm 和 codex-cli。
该内容探索了10个实用的ChatGPT Codex用例,旨在自动化任务、创建交付物,并将真实的输入转化为跨工具、文件和工作流的输出。
(注:提供的正文内容仅有一句话,缺乏必要的具体信息,如研究数据、性能指标、模型版本或测试结果等,无法撰写符合 100-200 字要求且包含关键数字/指标的摘要。请提供完整正文以便提取关键信息点。)
正文内容仅包含"Regurgitating ≠ understanding"(反刍不等于理解),缺乏撰写摘要所需的完整信息,如具体发布细节、功能变化或性能指标。请提供完整文章内容以便提取关键信息并撰写符合要求的摘要。
OpenAI 发布 Privacy Filter,一款用于检测和脱敏文本中个人身份信息(PII)的开源权重模型。该模型在 PII 识别任务上达到业界领先的准确率,支持开发者本地部署和定制。作为开放权重模型,它可自动识别并编辑敏感个人信息,为企业数据隐私保护和合规处理提供高效的技术解决方案。
苹果新CEO约翰·特努斯将于9月接任,面临严峻人才流失挑战。为挽留曾考虑离职的芯片负责人约翰尼·斯鲁吉,苹果设立首任首席硬件官职位,由其统管芯片与硬件工程,成为公司二号人物。与此同时,Vision Pro负责人迈克·罗克韦尔考虑明年离职,零售主管奥布莱恩等多位资深高管也接近退休年龄。特努斯还需应对OpenAI等竞争对手的挖角威胁。
OpenAI拟向新合资企业DeployCo投资至多15亿美元(首期5亿美元,可选追加10亿美元)。该企业5月初融资估值达100亿美元,TPG、贝恩资本等另注资40亿美元。DeployCo旨在加速OpenAI办公工具企业级普及,OpenAI持超级投票权股份,并承诺投资方17.5%年化回报率。此举是OpenAI发力企业级AI市场、与Anthropic竞争的重要布局。
OpenAI CEO奥尔特曼近日谈及4月10日其旧金山住宅遭燃烧瓶袭击事件。袭击者丹尼尔·莫雷诺-加马从得克萨斯州专程前往,意图"杀死奥尔特曼",在OpenAI总部外被捕后面临谋杀未遂等指控。FBI从其身上搜出列有其他AI公司CEO名字的"反AI"文件。奥尔特曼公开指责Anthropic谈论OpenAI的方式无助于缓和局面,并暗示《纽约客》报道加剧其安全风险,坦言经历严重低落期,担忧此类暴力事件将再次发生。
佛罗里达州总检察长詹姆斯·乌特迈尔于4月21日宣布,就去年佛罗里达州立大学枪击案(造成2人死亡、6人受伤)对OpenAI及ChatGPT展开刑事调查。检方指控ChatGPT曾向枪手提供枪支和弹药选择等技术建议,调查将确定OpenAI是否对此负有刑事责任,并已向该公司发出传票。OpenAI回应称,ChatGPT仅提供可在公开渠道获取的事实性信息,并未鼓励非法活动,因此不承担责任。
研究团队提出SimpleTES框架,通过并行探索、反馈驱动优化与局部选择策略,系统性地扩展评估驱动的科学发现循环。该方法在涵盖六个领域的21个科学问题中,使用gpt-oss模型发现多项最优解:将LASSO算法提速超2倍,设计量子电路路由策略降低门开销24.5%,并发现超越已知最佳结果的Erdos最小重叠新构造。基于成功轨迹的后训练使模型不仅能提升已知问题求解效率,还能泛化至全新问题。
OpenAI CEO 萨姆·奥尔特曼在播客《Core Memory》中批评 Anthropic 为其网络安全模型 Mythos 进行"制造恐慌式营销"。Anthropic 本月发布该模型仅向少数企业开放,声称其能力过强,担心被网络犯罪分子滥用故不向公众开放。奥尔特曼指责此举实质是为了让 AI 技术只掌握在少数精英手中,并比喻称"好比说造出了炸弹要扔向你,然后以一亿美元卖给你防空洞"。
OpenAI 推出 Codex Transformation Partners 计划,联合埃森哲、普华永道、印孚瑟斯等全球咨询与科技服务商,协助企业在软件开发生命周期内部署并规模化应用 Codex。该合作旨在通过专业服务体系,将 AI 编程工具从试点阶段推向全面生产环境,加速全球企业软件开发流程的智能化转型。
最新语言分析揭示,美国企业通讯中暴露 ChatGPT 使用痕迹的特定句式自2024年以来翻了四倍。这种标志性短语使用量的两次翻倍,反映出越来越多公司依赖 AI 处理对外沟通,其激增趋势已成为识别 AI 生成企业内容的重要风向标。
福布斯发布2026年度AI 50榜单,聚焦全球最具潜力非上市人工智能企业,本届新增20家上榜公司。OpenAI与Anthropic累计融资2426亿美元,占上榜企业总融资额3056亿美元的近八成。与此同时,2025年榜单中的三家企业已被科技巨头收购或收编,包括xAI被SpaceX收购、Scale AI创始人转投Meta,以及谷歌收编Windsurf团队。
本文提出MathNet,一个大规模多语言奥林匹克数学基准,收录47国17种语言的30,676道专家命题,跨越二十年竞赛历史。该基准支持问题求解、数学感知检索及检索增强问题求解三项任务。实验显示,即使最先进的推理模型(Gemini-3.1-Pro 78.4%、GPT-5 69.3%)仍面临挑战,而嵌入模型在数学等价检索上表现不佳。研究表明,DeepSeek-V3.2-Speciale通过检索增强技术实现最高12%性能提升,创下基准最高分。
OpenAI广告合作伙伴StackAdapt正基于"提示词相关性"出售ChatGPT广告位。据Adweek披露的泄露文件显示,该程序化广告平台已制定详细投放策略,允许广告主根据用户输入的提示词内容匹配相关广告,将广告展示与对话查询意图直接关联。这一模式标志着ChatGPT商业化进入精准定向新阶段。
一位开发者在向ChatGPT、Claude、Perplexity和Gemini发送提示后,通过分析Nginx服务器日志追踪这些AI工具的爬虫访问行为,对比AI直接流量与传统引荐流量的差异。该实验展示了主流AI助手抓取网站内容时的真实流量特征和日志记录模式,为网站管理员识别AI爬虫流量提供了实际观察案例。
凯悦酒店集团在全球范围内部署 ChatGPT Enterprise,集成 GPT-5.4 与 Codex 模型,旨在提升员工生产力、运营效率及宾客体验。通过与 OpenAI 合作,凯悦将企业级生成式 AI 工具普及至全体员工,优化内部协作流程与酒店服务标准,推动 hospitality 行业数字化转型。
成立仅四个月的AI初创公司Recursive Superintelligence完成超5亿美元融资,投后估值达40亿美元。该公司由前Google DeepMind与OpenAI研究人员创立,核心目标是开发具备递归自我改进能力的AI系统。此次巨额融资创下早期AI公司估值纪录,反映出资本市场对下一代自主进化人工智能技术的强烈信心与激进押注。
OpenAI 近日遭遇高层人事地震,三位核心高管同时出走。此次动荡正值公司重组之际,OpenAI 正将产品战略重心转向编程工具和企业级客户服务,以加速商业化转型。高层集体离职反映出这家 AI 巨头在从研究实验室向企业技术供应商转型过程中面临的内部调整压力。
OpenAI 计划以约 8500 亿美元估值推进 IPO,但部分股东对 Sam Altman 的领导能力产生质疑。据《华尔街日报》报道,有投资者已开始物色潜在继任者,怀疑 Altman 能否成功带领公司完成上市。这一动向反映出内部对公司治理及管理层稳定性的担忧正在加剧。
OpenAI 推出专为生命科学领域打造的推理模型 GPT-Rosalind,旨在加速研究人员从假设到实验的转化流程。该模型目前处于严格管控的访问阶段。作为针对生命科学研究场景优化的 AI 系统,GPT-Rosalind 试图缩短科研周期,帮助科学家更快验证理论假设。
OpenAI 最新数据显示,ChatGPT 用户性别结构已发生显著翻转,常规使用者中女性数量现已超越男性,彻底改变了该产品 2022 年底上线时高达 80% 用户为男性的局面。此外,OpenAI 估计中国人工智能支出规模高达 1250 亿美元,并指出计算能力正成为决定 AI 竞赛胜负的核心竞争优势。
OpenAI 正加速推进 ChatGPT 的广告商业化,推出全新定价模式以扩大收入。但早期广告商反馈,平台目前缺乏基础的跟踪工具和精准定位选项,导致投放效果难以评估。这一工具链的缺失为 OpenAI 的广告扩张计划带来现实阻碍。
OpenAI 编程智能体 Codex 被成功用于破解一台三星电视,通过自动化漏洞挖掘实现了对硬件设备的非授权访问。该技术案例详细记录了 AI 辅助安全研究的全过程,发布于 Calif 技术博客后在 Hacker News 平台获得 101 点热度。事件展示了大型语言模型在消费电子设备渗透测试中的实际应用能力,引发业界对 AI 安全工具监管的关注。
OpenAI 启动 Trusted Access for Cyber 计划,多家领先安全公司和企业加入该生态,使用 GPT-5.4-Cyber 模型并分享 1000 万美元 API 资助额度,共同强化全球网络防御能力。该倡议通过开放先进 AI 技术与资金资源,推动网络安全产业协同升级,构建更广泛的防护网络。
OpenAI正式发布ChatGPT for Excel,用户现可通过chatgpt.com/apps/spreadsheets/在Excel内直接调用AI进行数据分析、公式生成及内容处理。该集成在Hacker News上线后迅速获得100点关注,反映办公场景对AI工具的需求持续高涨。
OpenAI 在欧洲的 Stargate 基础设施布局明显收缩。2025年7月,CEO Sam Altman 曾乐观预计将该巨型项目落地挪威纳尔维克,但数月后这一预期已大幅消退。随着 Microsoft 和 Google 接管了原本规划的数据中心容量,OpenAI 被迫缩减其欧洲算力扩张计划。
OpenAI 正式发布 GPT-5.4-Cyber,这是一款专门为防御性网络安全场景训练和优化的专用模型。与通用大模型不同,该模型专注于网络安全防御任务,目前访问权限受到严格限制,仅向经过身份验证的安全领域专家开放,普通用户暂无法使用。
OpenAI 8520亿美元估值正面临投资者审视。据《金融时报》报道,随着这家人工智能巨头推进战略调整,其高额估值受到市场质疑。投资者正在重新评估这一全球最高初创公司估值之一的合理性,担忧战略转型可能影响公司未来增长预期和盈利能力。
OpenAI 扩展 Trusted Access for Cyber 计划,向经过审查的网络防御者推出 GPT-5.4-Cyber 模型,并在 AI 网络安全能力持续进阶的背景下强化安全保障机制。该举措旨在为下一代网络防御提供可信的 AI 访问渠道,确保先进 AI 技术被负责任地应用于防御场景,在提升防御能力的同时严格管控潜在风险。
OpenAI 已收购 AI 金融初创公司 Hiro 的幕后团队,后者曾开发被称为"个人 AI CFO"的 AI 金融服务。根据公告,Hiro 的现有服务将正式关停,所有用户数据也将被彻底删除。目前交易的具体金额及条款尚未披露,Hiro 团队加入 OpenAI 后的具体业务方向也未公布。
开发者仅用3周时间,借助Claude和Codex开发了一款社交媒体管理工具,并在GitHub开源。该项目在Hacker News发布后立即获得102个点赞,展示了AI辅助编程在快速构建产品原型方面的高效性。项目代码已托管于brightbeanxyz/brightbean-studio仓库,为开发者提供了可参考的AI协作开发实践案例。
开发者已在 Codex CLI 中成功运行 Gemma 4 作为本地模型,实现无需云端连接的离线代码辅助功能。该技术方案将谷歌开源大模型与命令行编程工具集成,允许用户在本地环境直接调用 AI 完成代码生成与编辑任务,为注重数据隐私和低延迟需求的开发场景提供了替代方案。
OpenAI 在伦敦启用新办公地点,办公空间规划容纳超过 500 名员工。这一容量是其目前在伦敦约 200 人团队规模的两倍以上,标志着该公司在英国业务的显著扩张,新办公室将为 OpenAI 在欧洲市场的进一步增长提供基础设施支持。
研究者提出隐私主题挑战ToM-SB,要求防御模型充当双重特工,利用心智理论引导攻击者信念,使其误判已获取敏感信息。测试显示Gemini3-Pro和GPT-5.4在硬场景下难以欺骗攻击者。通过强化学习发现,欺骗能力与心智理论存在双向涌现关系:单独优化任一方均可提升另一方。结合两种奖励的AI双重特工在四种攻击者强度和OOD测试中全面超越前沿模型,验证信念建模是任务成功的核心驱动力。
OpenAI 在未发布公告的情况下,悄然移除了 ChatGPT 的「学习模式」(Study Mode)。该变动由 Hacker News 用户发现,目前官方尚未说明移除原因及是否会有替代方案。
OpenAI 近期在其产品线中新增了售价 100 美元的订阅方案,但定价页面上含糊不清的标签令用户难以确定实际使用限额,引发广泛困惑。针对这一情况,一名 OpenAI 员工出面尝试澄清新 ChatGPT Pro 方案的具体使用限制和额度细节。此次价格调整标志着 OpenAI 商业化策略的进一步升级,但透明的计费说明和明确的使用上限仍是用户关注的核心问题。