Sakana Fugu Ultra 是一个多智能体协调层,通过 OpenAI 兼容端点将子任务路由给不同模型。在 @atomic_chat_hq 的实时交易桌面编码测试中(要求构建完整前后端、实时 API 数据、暗色主题 UI),Fugu Ultra 生成了最丰富的多面板界面(含图表、状态标签等),效果接近 GLM 5.2,但成本达后者的 17 倍:Fugu Ultra 耗 22,225 tokens / $0.51,GLM 5.2 耗 13,677 tokens / $0.03。对比模型 Opus 4.8(15,802 t / $0.31)和 GPT-5.5(11,474 t / $0.26)在质量与成本平衡上表现更佳。
Sakana Fugu surprisingly performed near GLM 5.2 level but 17× more expensive! We gave the same prompt to 4 models: build...
We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...
OpenAI 新模型 GPT-5.5-Cyber 在 CyberGym 基准上击败 Mythos 5,该基准测试 AI 智能体复现已知软件漏洞的能力,对防御性漏洞分析是强信号。OpenAI 同步扩大 Daybreak 计划,包括:Codex Security 插件(在 Codex 内发现、验证并修复漏洞);GPT-5.5-Cyber 完整版(供受信任防御者使用);Cyber Partner Program(赋能安全公司构建基于 OpenAI 能力的安防产品);Patch the Planet(与维护者合作保护关键开源项目)。本轮模型和计划属于“Trusted Access for Cyber”项目,不公开发布。OpenAI 旨在用 GPT-5.5-Cyber 作为 Codex 内的防御性安全工人,自动扫描代码、确认漏洞真实可达、编写补丁并测试,
We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...
关联讨论 2 条IT之家(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)OpenAI 宣布扩展 Daybreak 项目,以机器速度民主化修补易受攻击的软件。具体包括:推出 Codex Security 插件,可在 Codex 内查找、验证和修复漏洞;发布完整版 GPT-5.5-Cyber 模型,专为可信防御者设计;启动 Cyber Partner Program,支持领先安全公司基于 OpenAI 最佳网络能力构建产品;以及 Patch the Planet,与维护者合作保护关键开源项目。
DeepSeek V4 Flash 登陆 OpenModel 平台,开启限时免费活动。该模型为 284B MoE 架构,支持 1M 超长上下文,编码与智能体能力突出。活动期间输入输出均为 $0.00/M,无任何调用门槛。平台其他模型同步享受 20%–80% 折扣。免费窗口期至 6 月 28 日截止。
DeepSeek-V4-Flash is FREE until June 28! OpenModel Limited-Time Event: → Input: $0.00 / M → Output: $0.00 / M Powerful 2...
知情人士称,ByteDance 正以豆包 Doubao 2.1 Pro 进军 AI 编程,定价极为激进。每百万 token 价格预计比 Claude Opus 4.8 低约 80%,比 GLM-5.2 低约 30%,比 Qwen 3.7 Max 低约 50%。Doubao 2.1 Turbo 价格仅为 Pro 版一半。豆包月活用户超 3 亿,但字节内部商业化焦虑严重:视频生成 ARR 已达约 21 亿美元(较易变现),而 Doubao Pro 收费则遭遇用户强烈抵制。
用户 Kim 期待 Sonnet 5 发布,指出 Sonnet 系列常在发布时强于老一代 Opus,如 Claude 3.5 Sonnet 在编程、速度和性价比上超越 Claude 3 Opus。Sonnet 的核心价值是将前沿智能转化为实用工作模型:足够快、足够便宜、足够可靠,支撑实际产品、智能体工作流和日常大规模编码。引用推文暗示本周可能迎来繁忙发布,包括 GPT-5.6 和 Sonnet 5。
So we get Claude-Sonnet-5 instead of Fable 5 soon. Looks like a busy week: probably GPT-5.6 and Sonnet 5. But hey, keep ...
I tried this so you don't have to. I know this is going to absolutely shock you but no this does not match the performan...
DeepSWE 基准测试发布榜单,GLM-5.2 为国产编程大模型 SOTA,Kimi-K2.7-Code 为性价比 SOTA。该榜单与 SWE-Bench-verified 不同:问题由人工针对开源项目制造,可避免数据泄露;每个问题需修改上百行代码,考验模型规划能力,且不提供工具指引,更贴近真实工程场景。覆盖 TypeScript、Go、Python、JavaScript、Rust 等多种语言,而非仅 Python。榜单于 5 月发布。
Tom Osman用Codex的/goal功能,一条指令让AI自动将App所有功能拆解为用户故事,覆盖105个页面路由和67个API,生成183个用户故事。AI循环执行扫描、写测试、运行、自动修复、回归测试、补漏,持续4.5小时完成质量闭环。@gdb称这是“用Codex测试App中的每一个功能”。该流程从AI辅助写代码升级为AI自主负责质量,但局限是仅基于现有代码测试,可能固化错误或产生幻觉,大项目成本高,最终需人类把关。
codex for testing every single feature in your app:
The other open source models are clawing market share back from DeepSeek
作者在端午节假期用Claude Opus 4.8重构AI新闻聚合站AIHOT的聚簇机制,消耗2000多万token,耗时一天屡次改阈值(0.72→0.71)、补多语言等边界情况仍问题百出。对比怀念已被下架的Claude Fable 5——后者只需给模糊目标就能自动跑完并填坑。由此总结:管理AI与管理人本质相同——越强的模型(如Fable 5)给方向即可(愿景/策略层),越弱的模型(如Opus 4.8、GPT-5.5、GLM-5.2)则需更细执行层指引,错配层级正是痛苦根源。
http://x.com/i/article/2067849694232080384
spotted in the west village: the carrie bradshaw-ification of codex
Anthropic Claude Code 负责人 Fiona Fung 称工程师每季度交付代码量是 AI 普及前的 8 倍,采用常驻远程会话和定时 agent 自动生成 PR,以 bad/sad 质量框架守住质量。苹果 WWDC26 上库克卸任,John Ternus 接任;AI 权力重构:John Giannandrea 离开,Mike Rockwell 接手 Siri 并向 Craig Federighi 汇报,从谷歌挖来 Amar Subramanya 主导自研模型。新一代 Apple Foundation Models 包括端侧 30B 参数 AFM 3 Core 和 200B MoE AFM 3 Core Advanced,云端 AFM Cloud Pro,端侧需 iPhone 17 Pro 等设备。GitHub 公开内部数据分析智能体 Qubot,采用三层架构,返回正确答案速度提升 3 倍。
What should we improve in the Codex app. What's not delightful?
kunchenguid发布45分钟视频,讲解每天交付40-50个生产级PR的工作流。四层:1)终端中心(WezTerm+tmux+Neovim);2)船员入职:全局memory精简27行,项目级memory由agent自写;3)协作:语音输入OpenSuperWhisper,AXI标准(MCP比CLI多耗3倍token+2倍延迟),Lavish交互式HTML工件;4)验证:no-mistakes流水线在隔离worktree中对抗式review+E2E测试。并行用treehouse管理worktree,First Mate元agent调度。
many people asked me to make a video about my complete agentic engineering workflow excited to share it's finally here!!...
Netflix 工程师开源 Headroom,在 Codex、Cursor 等 AI 编码工具外包围本地 Agent,自动压缩日志、JSON 和代码,保留逻辑准确性,减少 95% token 消耗。数据本地化,无需改代码,已获 35k GitHub 星标。核心将降本从改提示词、换模型转向输入前置处理。
This "loop" automation is nuts inside of Codex. "/goal go over every single feature in this app create a user story with...
GLM 5.2 is now on DeepSWE as the top open-source model on our leaderboard. With a pass@1 score of 44% at max effort, GLM...
Ethan Mollick指出,Codex/Cowork/Code等Agentic工具本质上是“软件脑”设计,只重最终代码,而多数知识工作的过程(研究、探索、原型分支等)与结果同样重要。长时运行模型Fable也因专注交付最终产品而难以用于深度知识工作,用户需费力用提示词绕过限制。这种工具与管理者/分析师思考方式的脱节,是突破编程领域、扩展到其他知识工作的关键障碍。
不求设计师!Codex一句话生成App图标,加快项目开发速度。 开源乔木icon设计Skill,支持两种方案: 1. Codex内调用Imagen生图能力,参考小耳@xiaoerzhan收集的几百个图标参考生成。 2. 支持搜索 2w SV...
Nah kalau lo pakai Devin, bisa akses GLM 5.2 gratis dan unlimited🤯 cuma konteksnya maksimal 200 ribu, kalau pakai yg ve...
开发者整理出一套Agentic Engineering Workflow,覆盖任务拆解、工具调用、记忆管理到错误恢复全流程,让AI像工程师一样自主规划、写代码、调试和交付,而非仅聊天写文案。该工作流包含tmux、agent记忆、skills、语音输入、长任务执行、并行worktree管理、多agent调度,以及可视化HTML编辑器Lavish和代码变更校验流水线no-mistakes。所有步骤均已在真实项目中跑通,强调工程方法比模型能力更重要。
目前看到关于 "Agentic Engineering Workflow"的最完整的介绍👇 花了一个小时完整看完了,完全可以做成一个付费教程。 内容涵盖了tmux,agent记忆,skills,语音输入,长任务执行,并行worktree管...
一位开发者花几个周末用AI辅助编程制作了一款类似Pokemon Go的App,但抓的是真实世界的猫。用户打开摄像头拍路边猫,App会检测照片中是否有真实的猫(防止截屏),然后将猫转化为复古卡通风格插画(奶油色调、粗轮廓),并添加到玩家的图鉴中。每只猫拥有名字、稀有度、等级、状态页和收藏卡,世界地图还能显示附近其他玩家抓到的猫。该App无融资、无团队、无市场预算,利用“全球六亿只流浪猫”这一普遍事实,让玩家不再错过路边的猫。
SOMEONE VIBE CODED POKEMON GO BUT FOR CATS YOU MEET IN REAL LIFE see a cat, open the camera, snap it, and it gets added ...