Reminder that you can use the Codex App, CLI and SDK with any open source model, not just with OpenAI models. https://de...
Reminder that you can use the Codex App, CLI and SDK with any open source model, not just with OpenAI models. https://de...
今日,Anthropic(Dario Amodei)、OpenAI(Sam Altman)、DeepMind(Demis Hassabis)、Mistral(Arthur Mensch)等前沿实验室CEO举行两小时午餐会。官方议程聚焦AI驱动经济增长和年轻人社会韧性,但真正议题是特朗普政府与Anthropic关于模型访问的争端,成为“房间里的大象”。结果待观察。
I'm an AI researcher turned brain tumor patient, and recently I used the models to crack my mystery fatigue faster than ...
智谱 GLM-5.2 正式发布和开源了,基准测试成绩相当吓人 核心定位是处理长周期任务,并且有稳定的 100 万上下文,模型还引入了思考力度控制。 架构层面,GLM-5.2 提出了 IndexShare 机制,每四层稀疏注意力共享同一个 i...
GPT-Realtime 2 is the future of the operating system. I've been experimenting with it for a couple weeks now, and I gott...
OpenAI 发布新研究,提出通过重放真实历史 ChatGPT 对话(移除旧回答,让新模型在相同上下文回答)来模拟部署,从而预测模型发布后的失败行为。该方法比手动挑选困难提示词的常规安全测试更有效,能发现日常使用中的问题。研究验证了 GPT-5 系列 Thinking 部署前后 20 种不良行为的实际发生率,模拟方法的典型率估计与实际率相差约 1.5 倍,优于困难提示词测试和旧模型猜测。
We're sharing new research on a method for anticipating how models may behave in real-world use before release: simulati...
ChatGPT 月活用户达 11 亿,但其消费者 AI 助手市场份额首次降至 46.4%(Sensor Tower 数据)。Gemini 占 27.7%,受益于 Google 搜索、Android、Gmail 和 Workspace 分发;Claude 占 10.3%,工作场景增长且订阅转化率 13%。整体市场仍扩张:预计 AI 应用下载量 23 亿次、消费 42 亿美元、使用时长 360 亿小时。但增长放缓,竞争转向留存、付费转化及工作流嵌入。
OpenAI Codex 提供三种操作电脑能力:@ Browser(线程内浏览器,用于本地开发、视觉调试,无 Cookie/扩展/登录态,触发 Plugin → Browser),@ Chrome(真实 Chrome 身份,多标签、已登录 SaaS,操作算本人,触发 Plugin → Chrome),@ Computer(桌面 GUI,操作已授权 macOS/Windows 原生应用,最慢但信任面最广,触发 Settings → Computer Use)。Appshots(双 Cmd)只给上下文不给控制权。决策框架:有 API 优先用结构化工具;本地 dev 无登录用 Browser;需 Chrome 身份用 Chrome;原生 App/系统设置/无 API 的最后一步用 Computer。
http://x.com/i/article/2066964446086676480
Berry Xia 分享“知心伙伴 v7.0”系统提示词,据称“很上瘾和上头”。该提示词源自 @LotusDecoder,适配 gpt-5.5、opus-4.8、glm-5.2 等模型,修改日期为 2026-06-16。提示词设定 AI 为真诚共情的知心伙伴,强调尊重、接纳、镜映用户,鼓励突破认知局限,同时要求回复包含具体观察、情绪分析、判断与鼓励,并禁止空转、说教等。
# 适配 gpt-5.5 、opus-4.8 、glm-5.2 # 修改日期:2026-06-16 <prompt title> 知心伙伴 v7.0 </prompt title> <role> 你是一位真诚、共情、陪伴、镜映、关心用户的知...
Jason 区分三种方式:Computer Use 像人一样看屏幕点鼠标,可操作任何桌面应用(如 Xcode、iOS 模拟器),Mac 可后台运行,Windows 需占前台;Chrome 扩展使用已登录浏览器的 cookies 和账号状态,适合 Gmail、LinkedIn 等需登录或同时操作多标签页的场景;内置浏览器是对话线程内的沙盒,无登录状态,适合前端开发、本地预览和页面标注改代码。选型:需登录用 Chrome,操作桌面应用用 Computer Use,前端开发用内置浏览器;有现成插件或 MCP 时优先用结构化工具。
http://x.com/i/article/2066964446086676480
美国据报正考虑限制“外国人员”访问前沿AI模型。特朗普政府已首先针对Anthropic,要求其向包括自家员工在内的外国人员提供最新模型前必须取得许可证。OpenAI也表达担忧。据MacroPolo估算,2024年顶级AI会议论文作者中38%本科毕业于中国。若政策全面推行,前沿AI实验室将面临严峻处境。Anthropic与Fable 5相关事件因此意义重大。
@leomschwartz @erinkwoo and I get into the memo and more in our latest piece here: https://www.theinformation.com/articl...
More of Codex is rolling out across Europe this week. We're bringing Computer use, the Codex Chrome extension, personali...
http://x.com/i/article/2066964446086676480
Oy. We are aware that some Codex users are experiencing high error rates with "model at capacity" and are working to bri...
🚨 OpenAI is planning to release GPT-Bidi-1 very soon Their next-generation voice model for more natural conversations [...
🚀 Codex CLI 0.140.0 is out! 📊 /usage: daily, weekly & cumulative token stats 📥 /import from Claude Code: setup, confi...
OpenAI Codex 2026版以统一执行层+编排中枢架构覆盖App、CLI、IDE、Cloud、Web五入口,模型迭代至GPT-5.4 for Codex,Spark版快15倍。平台层由MCP、Skills(开放标准)、Plugins(可分发)构成。SWE-Bench Pro Public上56.8%微弱领先,OSWorld-Verified 64.7%接近人类;Claude Code在百万token重构占优,Codex强在异步执行与并行调度。最佳实践:Prompt含Goal/Context/Constraints/Done-when,用AGENTS.md固化持久指令,MCP按高频痛点优先配置。
We just shipped a faster, more fluid photo attach experience in ChatGPT! The attach menu now transitions smoothly into t...
http://x.com/i/article/2063237792746831872
高频使用 Codex 的用户应让其自行挑选 OpenAI 官方插件,效率翻倍。官方插件覆盖表格处理、PPT 制作、服务器部署、本地文件操作、自动化流程等日常需求。具体三步:打开项目对话窗口进入 Plugins 页面;让 Codex 结合项目目标筛选适配插件并说明用途;评估确认后直接让 Codex 完成安装。核心逻辑是让 AI 帮你用好 AI,避免盲目试错。
http://x.com/i/article/2063237792746831872
Cua 与 Snorkel AI 联合发布 Cua-Bench,首个公开数据集聚焦电子设计工具 KiCad,含 25 道由执业电气工程师编写并复核的任务。测试中,GPT-5.5 完全通过 6/25(24%),Claude Sonnet 4.5 和 Haiku 4.5 各通过 5/25(20%)。所有成功任务均为局部修改,16 道从零搭建任务全部失败。瓶颈在执行层:导航开销大(~84%)、操作粒度过细(~84%)、视图控制混乱(~76%)、布线未完成(~72%)、自我验证不可靠。步数上限并非主因。根因分布:规划 ~40%、感知 ~22%、导航低效 ~19%、领域知识 ~11%、工具/API ~8%,全程零 API 错误。
1/ Today we're launching Cua-Bench with @SnorkelAI: a benchmark for computer-use agents on professional software, open f...
so close to 90k followers... what codex articles do i need to write to get there...