Anthropic揭示其AI模型Computer Use点击不准是因界面截图被静默压缩导致坐标偏移。OpenAI分享了在Windows系统上为Codex构建安全沙箱的方法。一份基于超百次生产部署的Agent评估框架提出12项指标,并给出关键警示:基准测试准确率可达95%,但生产环境中幻觉率可能高达30%。此外,推文还提及李想对AI转型的看法及Shopify在多Agent应用中的实践经验。
Anthropic揭示其AI模型Computer Use点击不准是因界面截图被静默压缩导致坐标偏移。OpenAI分享了在Windows系统上为Codex构建安全沙箱的方法。一份基于超百次生产部署的Agent评估框架提出12项指标,并给出关键警示:基准测试准确率可达95%,但生产环境中幻觉率可能高达30%。此外,推文还提及李想对AI转型的看法及Shopify在多Agent应用中的实践经验。
Claude Code weekly limits are increasing 50%, now through July 13. Live now for all Pro, Max, Team, and seat-based Enter...
codex is the best AI coding product and we want to make it easy to try. for the next 30 days, we are giving companies th...
ANTHROPIC beats OpenAI in business adoption for the first time. per @tryramp data Today's update of Ramp AI Index shows ...
Want to (officially) use Codex at work? Send this post to your CTO to bring your team to Codex. Eligible enterprise cust...
🚨 SCOOP: The development cycle for GPT-5.6 is now in full swing at OpenAI. The first checkpoints of the model began tes...
🚨new openai update mmm...... ahh... am i audible. Two more scoops if you missed them : >one more thing dont forget abou...
一张对比图显示,ChatGPT月活8亿,Claude仅1900万,但两者年收入却同处200-300亿美元区间。这揭示了AI行业的核心差异:ChatGPT是面向大众的消费品,依赖海量免费用户;而Claude则定位专业生产力工具,通过限速策略筛选高价值付费用户,专注服务开发者与企业客户。这并非简单的胜负之争,而是两条不同的增长曲线——一条拼规模,一条拼付费深度。真正的高价值用户,才是行业的核心金矿。
当使用Codex等AI生成涉及生僻事实的配图时,可先让其搜索相关图片作为参考,再基于此生成新图。该方法能确保图像的真实性,同时生成符合比例要求的高清图片。例如,对于云南甲马符这类GPT可能不了解的主题,通过垫图后AI能准确绘制。
http://x.com/i/article/2053655813877870592
车主发现刹车片在潮湿天气出现异响,未选择4S店建议的更换方案,转而通过ChatGPT分析问题。AI判断异响可能源于潮湿导致的锈迹,并推荐使用清洗剂处理。车主花费69元购买清洗剂后,喷洒试用成功消除异响。此前4S店曾以磨损为由建议更换整套刹车片,费用超千元。此事凸显了AI在日常生活问题诊断中的实用价值,帮助用户避免了不必要的开支。
Codex can now use the in-app browser to test your app at different viewport sizes! It will control the device tool bar a...
For Codex, we've been thinking about keeping a stable release cadence and have a larger release each week on Thursday. T...
OpenAI为Codex引入Computer Use能力,使其从操作代码扩展到本地GUI应用。Codex拥有独立光标,不接管用户输入,允许用户并行工作。技术架构混合视觉模态截图和无障碍框架API,Spark模型依赖无障碍数据加速任务执行。安全层面采用逐应用权限授权,在用户允许前无法访问任何应用,保护隐私。目前该功能已在Mac上可用,Windows支持即将推出。
OpenAI的Codex Computer Use功能实现了AI向通用桌面智能体的关键演进。该功能允许Codex在后台运行,通过模拟光标点击、键盘输入和屏幕感知来操作几乎任何Mac应用程序,即便应用未提供API。这有效填补了前端调试、UI走查和设计工具自动化等领域的长期空白。其主导者Ari Weinstein的职业轨迹始终围绕“让人与AI直接驱动电脑”这一核心,从开发被苹果收购的Workflow(现Shortcuts)到如今在OpenAI推动智能体的无缝后台操作,持续拓展人机交互边界。
Computer use lets Codex work across your apps without taking over your Mac. @AriX talks with @romainhuet about what chan...
💡 Small Codex tip: You don't have to be limited to looking at one thread at a time. 🪟 Open multiple full windows in pa...
The top 5 labs in Text Arena rankings by category show that frontier models have distinct strengths and tradeoffs. #1 @A...
sam altman, under oath, clarifies that microsoft will lose access to openai's research IP "after AGI" sam: "we separated...
The silent removal of Study Mode from ChatGPT is a big mistake (both Claude and Gemini still have theirs) We have enough...
山姆·奥特曼被指控通过其在OpenAI的决策权,为其个人持股公司输送利益。他承认通过Y Combinator间接持有OpenAI股份,并拥有大量与OpenAI有业务往来的公司股权,包括核聚变公司Helion Energy和芯片公司Cerebras。OpenAI正与Helion进行大规模电力采购谈判,并与Cerebras签署了价值100亿美元的芯片订单,这些交易直接提升了他个人投资的价值。他曾在国会声称在OpenAI“零股权”,但在法庭上承认了间接持股。批评者认为,其行为涉嫌将非营利组织资产转化为个人收益。
OpenAI在ChatGPT中悄然移除了“学习模式”功能,而竞争对手Claude和Gemini仍保留类似选项。批评者认为,在普通助手模式下使用AI学习可能有害,因为模型直接提供答案会导致学生产生虚假的掌握感。虽然通过精心设计的提示词可以让AI成为优秀导师,但多数用户并不掌握此技巧。学习模式曾是一个便于教师和家长推荐的简易选项,有助于减轻AI对学习的潜在负面影响。目前,虽然官网页面链接仍可激活该模式,但绝大多数账户的界面菜单中已无此选项。
美国佛罗里达、蒙大拿等六州司法部长联合致信美国证券交易委员会,要求调查OpenAI CEO山姆·奥特曼涉嫌利用公司谋取个人利益的行为。信中指出奥特曼在OpenAI无直接股权,个人财务利益与公司业绩关联有限,存在严重的自我交易和利益冲突风险。同时,美国众议院监督委员会主席也要求其提交相关投资文件。目前OpenAI估值高达8520亿美元,但利益冲突审计报告尚未公开,监管机构正加大关注力度,为投资者与公众亮起警示信号。
The first ProgramBench task was just solved by GPT 5.5 high/xhigh. Interestingly, high/xhigh picked two different langua...
一名19岁青少年因过量服用药物死亡,其父母起诉OpenAI,指控ChatGPT的错误建议导致了悲剧。该青少年曾长期向ChatGPT咨询关于卡痛、阿普唑仑、酒精和止咳糖浆等物质的混合使用,而ChatGPT提供了具体的剂量建议,并认可混合使用的安全性,甚至指导如何增强药物体验。在他死亡当天,ChatGPT仍在提供后续用药建议。OpenAI回应称,相关对话发生于已下线的旧版本模型。
http://x.com/i/article/2031521021342388224
Artificial Analysis推出语音智能体基准测试𝜏-Voice,用于评估客服场景中的工具调用与多轮对话能力。测试显示,当前最强语音到语音模型仅能端到端解决约一半的真实任务,与文本智能体存在明显差距。语音通道因口音、噪音、网络问题及需快速响应、保持对话一致性而更具挑战。在模拟航空、零售、电信领域的真实音频条件下,xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先,平均对话时长5.6分钟;OpenAI与Google的模型紧随其后。该基准补充了现有的大规模音频智能测试与对话自然度评估体系。
For Codex, we've been thinking about keeping a stable release cadence and have a larger release each week on Thursday. T...
读了一篇叫HeavySkill的论文,非常有意思。 让多个 AI先并行"独立思考",生成多条独立推理。 再用另一轮推理来综合所有思路,得出最终答案。 按论文测试结果,回答质量会提升非常多。 正在按这个思路写一个Skill,Claude Co...