Anthropic揭示其AI模型Computer Use点击不准是因界面截图被静默压缩导致坐标偏移。OpenAI分享了在Windows系统上为Codex构建安全沙箱的方法。一份基于超百次生产部署的Agent评估框架提出12项指标,并给出关键警示:基准测试准确率可达95%,但生产环境中幻觉率可能高达30%。此外,推文还提及李想对AI转型的看法及Shopify在多Agent应用中的实践经验。
Anthropic揭示其AI模型Computer Use点击不准是因界面截图被静默压缩导致坐标偏移。OpenAI分享了在Windows系统上为Codex构建安全沙箱的方法。一份基于超百次生产部署的Agent评估框架提出12项指标,并给出关键警示:基准测试准确率可达95%,但生产环境中幻觉率可能高达30%。此外,推文还提及李想对AI转型的看法及Shopify在多Agent应用中的实践经验。
由伯克利RDI、马克斯·普朗克安全与隐私研究所、Anthropic、OpenAI及谷歌等机构研究人员组成的团队,发布了名为ExploitGym的新基准测试。该测试包含898个真实漏洞,要求AI智能体根据漏洞描述生成完整的漏洞利用程序。结果显示,前沿AI模型已能成功利用相当数量的漏洞,即使在启用ASLR等标准防御措施后,部分攻击仍能成功。这证明AI已具备自主将漏洞转化为实际攻击的能力,该技术具有双重用途:既可帮助防御者评估漏洞严重性,也可能降低攻击者的技术门槛。
同一事件,精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》Claude Code weekly limits are increasing 50%, now through July 13. Live now for all Pro, Max, Team, and seat-based Enter...
codex is the best AI coding product and we want to make it easy to try. for the next 30 days, we are giving companies th...
ANTHROPIC beats OpenAI in business adoption for the first time. per @tryramp data Today's update of Ramp AI Index shows ...
根据 Ramp AI 指数数据,Anthropic 在美国企业客户中的采用率达到 34.4%,首次超越 OpenAI 的 32.3%。其业务覆盖范围在一年内增长了四倍。但文章指出,三个因素可能使其领先优势迅速减弱。
OpenAI 为 Windows 平台上的 Codex 构建了一个安全沙箱环境。该沙箱通过严格控制文件访问权限和实施网络限制,确保了代码生成与执行过程的安全性。这一举措使得基于 Codex 的编码助手能够以高效且受控的方式运行,在提供强大编程辅助功能的同时,有效隔离了潜在风险,保障了用户系统的安全。
Want to (officially) use Codex at work? Send this post to your CTO to bring your team to Codex. Eligible enterprise cust...
Sam Altman在OpenAI听证会上被迫回应有关其多次撒谎的指控。他形容这一过程“非常痛苦”,并回顾了自己因失去对OpenAI的控制权而产生的类似埃隆·马斯克的反应。此次听证会将焦点对准了Altman的诚信问题及其与OpenAI管理权变动的相关争议。
🚨 SCOOP: The development cycle for GPT-5.6 is now in full swing at OpenAI. The first checkpoints of the model began tes...
🚨new openai update mmm...... ahh... am i audible. Two more scoops if you missed them : >one more thing dont forget abou...
金融科技公司Ramp发布的AI指数显示,在其统计的超过5万家企业样本中,Anthropic的企业客户采用率以34.4%首次超越OpenAI的32.3%。Anthropic在金融、科技等高科技行业领先,其付费客户比例在过去一年从9%大幅提升约26个百分点,而OpenAI份额同期小幅下降1%。其他行业数据如OpenRouter排行榜也呈现类似趋势。分析师认为,Anthropic从技术用户切入并专注执行的策略取得了成效。
澳大利亚牧羊大叔Geoffrey Huntley为解决AI编程工具Agent中途停止的痛点,编写了一个名为“Ralph Loop”的三行bash脚本。该脚本通过无限循环将任务持续喂给AI,确保其工作至完成。此简单粗暴的思路在11天内被OpenAI、Anthropic和Hermes三家顶级AI实验室集体采纳,并分别集成至Codex、Claude Code和Hermes Agent产品中,推出了/goal等类似功能。这一变化标志着AI编程的核心正从“生成代码”转向“闭环交付”,显著提升了AI的自主性和任务完成能力,被视为通用人工智能发展的关键一步。
一张对比图显示,ChatGPT月活8亿,Claude仅1900万,但两者年收入却同处200-300亿美元区间。这揭示了AI行业的核心差异:ChatGPT是面向大众的消费品,依赖海量免费用户;而Claude则定位专业生产力工具,通过限速策略筛选高价值付费用户,专注服务开发者与企业客户。这并非简单的胜负之争,而是两条不同的增长曲线——一条拼规模,一条拼付费深度。真正的高价值用户,才是行业的核心金矿。
当使用Codex等AI生成涉及生僻事实的配图时,可先让其搜索相关图片作为参考,再基于此生成新图。该方法能确保图像的真实性,同时生成符合比例要求的高清图片。例如,对于云南甲马符这类GPT可能不了解的主题,通过垫图后AI能准确绘制。
http://x.com/i/article/2053655813877870592
在回应马斯克的诉讼时,OpenAI首席执行官奥尔特曼披露,马斯克在2017年曾提议,若其掌控公司盈利主体期间意外离世,可由其子女继承。奥尔特曼认为这违背了OpenAI避免AI技术由个人控制的初衷。庭审核心争议在于OpenAI是否因商业化背弃AI安全初心,奥尔特曼辩护称公司基金会资产约2000亿美元,仍是全球最大慈善机构之一。他还指出马斯克的管理方式不适合科研环境,曾计划对研究员强制排名并裁员,损害了公司文化。最终马斯克退出董事会,转而发展自身AI项目。
车主发现刹车片在潮湿天气出现异响,未选择4S店建议的更换方案,转而通过ChatGPT分析问题。AI判断异响可能源于潮湿导致的锈迹,并推荐使用清洗剂处理。车主花费69元购买清洗剂后,喷洒试用成功消除异响。此前4S店曾以磨损为由建议更换整套刹车片,费用超千元。此事凸显了AI在日常生活问题诊断中的实用价值,帮助用户避免了不必要的开支。
Codex can now use the in-app browser to test your app at different viewport sizes! It will control the device tool bar a...
For Codex, we've been thinking about keeping a stable release cadence and have a larger release each week on Thursday. T...
OpenAI为Codex引入Computer Use能力,使其从操作代码扩展到本地GUI应用。Codex拥有独立光标,不接管用户输入,允许用户并行工作。技术架构混合视觉模态截图和无障碍框架API,Spark模型依赖无障碍数据加速任务执行。安全层面采用逐应用权限授权,在用户允许前无法访问任何应用,保护隐私。目前该功能已在Mac上可用,Windows支持即将推出。
OpenAI的Codex Computer Use功能实现了AI向通用桌面智能体的关键演进。该功能允许Codex在后台运行,通过模拟光标点击、键盘输入和屏幕感知来操作几乎任何Mac应用程序,即便应用未提供API。这有效填补了前端调试、UI走查和设计工具自动化等领域的长期空白。其主导者Ari Weinstein的职业轨迹始终围绕“让人与AI直接驱动电脑”这一核心,从开发被苹果收购的Workflow(现Shortcuts)到如今在OpenAI推动智能体的无缝后台操作,持续拓展人机交互边界。
Computer use lets Codex work across your apps without taking over your Mac. @AriX talks with @romainhuet about what chan...
OpenAI前研究员丹尼尔·科科塔伊洛指出,AI行业正竞相构建自身尚未完全理解或控制的系统,这已成为一个“公开的秘密”。核心挑战在于“对齐”难题,即难以确保能力超越人类的AI系统能稳定遵循人类指令与价值观。他警告,一旦超级智能诞生,人类可能失去主导地位。尽管行业正投入巨资开发更强大模型,但许多人仍低估了AI的发展速度与相关风险。
💡 Small Codex tip: You don't have to be limited to looking at one thread at a time. 🪟 Open multiple full windows in pa...
The top 5 labs in Text Arena rankings by category show that frontier models have distinct strengths and tradeoffs. #1 @A...
研究发现,现有顶尖的视频多模态大模型在理解声音时,常依赖视觉线索进行推断或“幻听”,而非真正处理音频,这种“视听聪明汉斯效应”普遍存在于主流模型中。为此,研究者提出了Thud干预探测框架,通过时间偏移、静音与替换三种反事实音频编辑来诊断该问题。他们进一步提出了一种仅需10K样本的两阶段对齐训练配方,能将模型在干预测试上的平均表现提升28个百分点,同时也能略微改善通用视频问答的性能。
LLM 命令行工具发布了 0.32a2 alpha 版本。本次更新的核心是,大多数具备推理能力的 OpenAI 模型将改用新的 /v1/responses API 端点,替代原有的 /v1/chat/completions 端点。这一变更为 GPT-5 级别的模型启用了跨工具调用的交错推理能力。现在,用户在使用 OpenAI 模型运行提示词时,可以看到以不同颜色高亮显示的、经过汇总的推理令牌。如果不想显示这些推理信息,可以使用 -R 或 --hide-reasoning 标志来隐藏。
sam altman, under oath, clarifies that microsoft will lose access to openai's research IP "after AGI" sam: "we separated...
在加州奥克兰联邦法院的证词中,OpenAI CEO萨姆·奥尔特曼驳斥了埃隆·马斯克关于其“背叛使命”的指控,反指马斯克曾试图夺取公司控制权并从中牟利。奥尔特曼透露,马斯克一度要求获得OpenAI 90%的股权,虽然后续降低要求,但奥尔特曼对让出多数控制权感到“极其不安”。他同时反对与特斯拉合并,认为特斯拉的商业目标与OpenAI的使命不符。奥尔特曼还回应了对其诚信的质疑,否认在商业中误导他人,并谈及2023年被董事会短暂驱逐时,曾考虑加入微软但最终选择回归。
财务团队能够利用 Codex,基于实际工作输入构建管理层报告、报告包、差异桥接、模型检查和规划场景。该工具将自然语言指令转化为代码,自动化处理财务数据整合、差异分析和模型验证等复杂任务,从而提升报告生成效率与准确性,并支持快速创建多版本规划场景。
The silent removal of Study Mode from ChatGPT is a big mistake (both Claude and Gemini still have theirs) We have enough...
AutoScout24 Group 采用 Codex 和 ChatGPT 来加速开发周期并提升代码质量。公司通过 AI 工具自动化代码审查、生成测试用例和编写文档,将部分开发任务效率提升高达 40%。工程师得以更专注于复杂问题,同时 AI 应用范围从代码辅助扩展至需求分析和数据查询。这一转变推动了团队 AI 采用率的显著增长,并系统化地融入了日常开发工作流。
NVIDIA 团队通过结合 Codex 与 GPT-5.5,将研究构想快速转化为可实际运行的实验,并直接用于部署生产系统。这一实践显著提升了从研究到产品化的效率,实现了实验代码的即时可执行与系统级集成。