CodexPotter 是一个命令行工具,通过后台启动 Codex CLI 并采用“Ralph Loop”机制执行任务。它先将用户目标写入 MAIN.md 文件,随后在全新上下文中反复启动 Codex 会话,对照该文件检查并修正代码,直至输出与目标一致,默认最多进行 6 轮迭代。该工具适用于目标明确的任务(如按文档实现功能),而非交互式讨论。其名称灵感来源于《辛普森一家》中爱重复说话的 Ralph Wiggum。作者推荐此工具,以回应寻找类似 Claude Code 中 Ralph 插件的需求,并指出其不会像某些插件那样修改用户配置。
请问有没有好用的 Ralph Loop for Codex? 类似于 Claude Code 的 Ralph Wiggum Plugin https://git…
近期用户感觉GPT和Claude“变笨”,实因模型能力进化导致提示工程要求改变。官方指南揭示,两大模型进化方向相反:Claude Opus 4.7趋向字面执行指令,而GPT-5.5则更自主,能根据目标自行选择路径。因此,旧提示失效原因也相反——模糊提示在Claude上输出变窄,详细步骤在GPT上反成噪声。提示工程的核心已从“教模型做事”转变为“先结构化人类思考”,未来优势将属于思考最清晰、最明确自身需求的人。
DeepSeek团队提出全新多模态推理框架“Thinking with Visual Primitives”,核心是让模型在推理过程中像人类一样,使用“点”和“边界框”这类视觉原语来指代图像中的具体位置,以此作为思维的最小单位,旨在解决语言在精确描述空间位置时的“指代鸿沟”问题。模型采用DeepSeek-V4-Flash作为语言骨干,并设计了极致的视觉Token压缩流水线,将视觉Token用量压缩至其他前沿模型的十分之一。尽管视觉信息被大幅压缩,模型在空间推理、计数等任务上仍达到或超越了GPT-5.4、Claude-Sonnet-4.6等模型的性能。
关联讨论 2 条X:歸藏 (@op7418)DeepSeek:GitHub 新仓库作者完成DeepSeek最新论文的AI解读,指出论文在独立思考方面表现突出,闪耀创新光辉。数据清洗过程细致严谨,通过多条件过滤将数据规模从近10万缩减至3万条。训练数据构建设计巧妙,例如大量迷宫题等趣味方法,体现了研究团队的创意。整体而言,论文在AI领域具有重要价值,获得高度评价。
DeepSeek-VL旨在解决开源视觉模型在真实场景中应用效果不佳的问题。其核心方案是系统性地从数据、架构与训练三方面进行设计:数据构建强调从真实用户需求出发,并包含70%的纯文本以保留语言能力;模型架构创新性地采用SigLIP与SAM-B混合视觉编码器,兼顾高层语义与低层细节;训练策略则通过三阶段渐进式训练与模态平衡技术,有效缓解了视觉训练对语言能力的侵蚀,最终在同等规模下达到开源模型的顶尖水平。
当前AI Agent产品的交互主要分为两类:一是以Agent为中心,如Cursor的Agent模式和Codex,界面以对话列表指挥AI为主,手动修改为辅;二是以人操作为主、Agent为辅助,如GitHub Copilot,在传统软件界面旁增设侧边栏。设计者需首先明确软件是以Agent为核心还是辅助,否则易导致交互混乱。有观点指出,交互形式三年多来革新缓慢,关键在于缺乏对Agent从“无状态”到“有状态”处理的基础设施支持,状态机抽象有望推动交互设计丰富化。
为什么从gpt到现在已经三年多了 还是这种交互 侧边栏会话记录+对话详情+artifact 再多一点儿可能再分一个层级出四栏 或者上下再分层级tab 之所以没…
阿里巴巴开源了Qwen3.6系列两款模型:27B密集模型和35B A3B混合专家模型。其中,Qwen3.6 27B在Artificial Analysis智能指数上得分46,成为150B参数以下最智能的开源模型,领先于Gemma 4 31B等。但其运行完整测试消耗的输出token约为后者的3.7倍,成本高出约21倍。两款模型均采用Apache 2.0许可,支持262K上下文,具备多模态能力。值得注意的是,其幻觉率较前代大幅下降,但准确率基本持平。更大的Plus和Max Preview版本未开源。
Stripe在年度大会上宣布一系列战略更新,以迎接AI Agent主导交易的新经济时代。CEO指出,经济正经历“平台重构”,未来多数交易将由Agent完成,这使得“开发者优先”战略至关重要。核心发布包括Link AI钱包,允许Agent使用安全令牌代用户购物,并新增Pix、UPI及稳定币支持。同时,Machine Payments协议增加了微支付和循环支付功能。此外,Checkout Studio、Adaptive Pricing订阅版、新款终端硬件T600以及Treasury的多币种扩展等产品,共同标志着Stripe正从支付基础设施向Agent时代的经济层全面演进。
关联讨论 1 条X:Berry Xia (@berryxia)SenseNova U1 Lite Series是新一代原生统一的多模态模型,在紧凑的8B/A3B规模下提供商业级性能。其核心能力包括复杂信息图生成,具备强语义完整性和像素级精度;高布局一致性,实现准确可靠的文本渲染;以及行业首创的连续图像-文本生成,支持统一推理和一致视觉风格。该模型现已完全开源,相关代码和资源可通过GitHub、Hugging Face等平台获取。
开发者Theo实验发现,Anthropic的官方工具Claude Code会主动扫描用户Git仓库的近期提交记录。一旦检测到包含“openclaw”字符串(无论出现在JSON、文件名或注释中),便会触发“out of extra usage”错误,导致请求被拒绝或强制额外收费。这证实了Anthropic有意通过字符串匹配规则,打压第三方工具OpenClaw,旨在将用户锁定在其自家产品中。此举与其此前宣称的“不做监控”形象相悖,被社区批评为反竞争行为,并引发了用户转向开源替代方案的强烈呼声。
用户惊叹于GPT在效果空间理解方面的强大能力,尝试使用其文生图功能复现经典游戏《纪念碑谷》的风格场景,仅一次尝试便成功生成兼具静谧感与孤独美的图像。推文强调GPT能够准确捕捉并传递特定的美学氛围,同时作者已将生成所用的提示词公开分享供他人尝试。
Qwen开源了Qwen-Scope,这是一个为Qwen模型家族设计的稀疏自编码器完整套件,旨在将SAE特征转化为实用工具。该套件提供四大核心功能:在推理方面,可直接操纵模型内部特征以控制输出,无需依赖提示工程;在数据方面,能用极少样本对目标数据进行分类和合成,增强模型的长尾能力;在训练方面,能精准追溯代码切换和重复生成等问题的根源并进行修复;在评估方面,可通过分析特征激活模式来智能筛选基准测试,减少冗余。Qwen希望社区能利用此工具深入探索模型内部机制并开发更多应用。
Unitree正式推出双臂人形机器人,售价为4290美元,标志着人形机器人进入“平民化”新阶段。该机器人高123厘米,具备15-31个自由度,集成了双目立体视觉、阵列麦克风和扬声器,支持自然语言交互。其双臂灵活,末端执行器可快速更换,并支持拖拽示教和底层全开放SDK,便于开发。设计轻量紧凑,目标应用场景涵盖工业装配、实验室操作乃至未来家务,旨在为科研、教育及创业等领域提供可及的人形机器人平台。
Qwen团队推出开源稀疏自编码器套件Qwen-Scope,将SAE特征转化为实用工具。该套件支持四大应用方向:无需提示工程即可通过直接操控内部特征引导模型输出;用极少样本对目标数据进行分类与合成,提升长尾能力;追踪代码切换和重复生成问题的根源并进行修复;通过分析特征激活模式优化评测基准并减少冗余。团队希望社区利用Qwen-Scope深入探索Qwen模型内部机制,并开发出超越现有研究范围的应用。相关资源已开放。
DeepSeek团队开源视觉语言模型DeepSeek-VL,包含1.3B和7B两个版本,旨在缩小开源模型与GPT-4V在真实场景中的差距。模型从数据、架构、训练三方面优化:数据构建上,采用从真实用户需求倒推的分类体系,并包含70%纯文本以保持语言能力;架构上创新采用SigLIP与SAM-B的混合视觉编码器,分别处理语义与细节特征;训练采用三阶段策略及模态平衡技术,缓解多模态训练对语言能力的侵蚀。
DeepSeek-VL论文指出,多模态训练会损害语言模型的语言能力,使用100%视觉数据训练将导致语言benchmark性能断崖式崩塌。研究确定最佳训练配方为70%纯文本数据与30%多模态数据结合,并强调视觉与语言模态之间存在固有竞争关系,这种竞争无法通过参数调整来规避。论文结论突显了平衡多模态数据比例对维持模型语言性能的关键作用。
Glean推出自研的智能搜索专用模型Waldo,旨在将企业AI任务中的“检索规划”与“深度推理”分离。Waldo基于NVIDIA Nemotron 3 Nano构建,作为前置环节运行,专门负责调用Glean Search、员工搜索和Web搜索等工具进行检索规划,并将检索到的上下文直接交给前沿大模型进行综合作答。这种架构避免了让昂贵的前沿模型处理机械的搜索任务,使单次调用延迟降低至约250毫秒,比默认推理模型快10倍以上。集成后,系统端到端延迟降低约50%,Token消耗减少约25%,且约一半查询可走“快路径”无需调用完整前沿模型。该设计印证了专用小模型在处理重复性任务上的效率优势,是智能体AI架构的重要演进。