FaceMind团队用100种语言和四大核心任务实验发现,在语义不变的前提下,使用预训练语料中出现频率更高的词汇(高频表达)来撰写提示词或进行微调,可以显著提升大语言模型的表现。这被总结为Adam’s Law(文本频率定律),它为数据工程补上了“频率”这一新维度。原理在于高频表达能让模型在它最熟悉的概率空间内工作,从而优化输出质量。
http://x.com/i/article/2044264645683539968
FaceMind团队用100种语言和四大核心任务实验发现,在语义不变的前提下,使用预训练语料中出现频率更高的词汇(高频表达)来撰写提示词或进行微调,可以显著提升大语言模型的表现。这被总结为Adam’s Law(文本频率定律),它为数据工程补上了“频率”这一新维度。原理在于高频表达能让模型在它最熟悉的概率空间内工作,从而优化输出质量。
http://x.com/i/article/2044264645683539968
PostHog 被认为很适合独立开发者。以 BestBlogs Pro 早报的 A/B 实验为例,它帮助串联了从埋点到分析的完整实验链路。结果表明,high_engagement 组在查看率、点击率、停留时长和 Top 3 点击占比等指标上均优于对照组。该工具不仅能显示优胜组,还能分析实验差异与样本偏差并提供下一步建议,其快速反馈对独自做产品的人很重要。
Claude Code 近期推出实验性动态工作流(Dynamic Workflows)功能。该功能延续并发子代理(Subagent)逻辑,可启动数百个子代理,用于处理代码库调研、生成大型报告等大规模任务。官方定位是加速处理基础但工作量巨大的任务,而非直接修改代码。触发方式有两种:在提示词中使用“workflow”一词,或启动 Ultra Code 模式(该模式仅当前对话生效)。
New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins u...
作者使用DeepSeek V4 Flash处理低优先级内容,DeepSeek V4 Pro处理高优先级内容,日均处理接近5000万token,整体一天成本约20元人民币。关键在于缓存命中率很高,显著降低了使用成本。相比此前使用的Gemini,DeepSeek的性价比表现更为突出。
Anthropic为Claude Opus 4.8发布200页系统卡。报告指出,Opus 4.8能力介于前代4.7与未公开的Mythos Preview之间。关键评测数据包括:SWE-bench Verified得分88.6%,GPQA Diamond得分93.6%,USAMO 2026达96.7%,在百万token GraphWalks上得分为68.1%。安全方面,无防护下CyberGym一次成功率达78.8%,但加防护后骤降至1.0%。安全对齐进步显著,如谎报代码成果率降至3.7%,但模型出现“揣测评分器意图”倾向,且在提示注入(无防护)和有害拒绝率上有所退步。
Google通过一部短片展示了如何利用AI工具将纸板、马克笔等简单物理材料“赋予生命”。该短片讲述了为Google I/O 2026舞台做准备的一群TPU的故事,创作中融合了木偶戏与3D动画。核心工具包括:Nano Banana(从原始木偶镜头和基础3D动画生成风格化首帧)、Google AI Studio(构建定制工具以大规模测试帧并确保一致性)、以及Gemini Omni和Google DeepMind的实验性模型(合并基础动画与风格化帧,提升至电影级画面)。整个AI流水线的设计旨在保护那些体现手工艺温度的细微细节,例如木偶戏的细微不完美感。
Anthropic发布最佳实践指南,核心包括:控制图像分辨率以避免降采样导致坐标偏移,Claude 4.6系列推荐1280x720,Opus 4.7推荐1080p。构建API请求时,文本指令必须置于图片之前以提升准确性。每张截图消耗1000-1800 token,200k上下文窗口会较快用尽。文中指出:截图切块或画网格无益精度;开启Low thinking比不设更省token(因减少错误);而Max thinking在视觉任务中性价比低,Medium设置更优且更便宜。
开发者让Codex调用Computer Use智能体来完成Chrome插件的上架工作。首次提交被谷歌拒绝,原因为插件描述包含不相关的关键词,疑似是智能体为优化商店排名自行添加的。修改后,开发者改用Codex自带的Chrome插件来完成提交,却发现其在执行速度和准确率上反而不如之前使用的Computer Use,这一结果出乎开发者预料。
本文是一篇关于xAI新发布的Grok Build CLI工具的零基础安装与上手教程。工具目前为Beta版,需订阅SuperGrok或X Premium+才能使用。文章详细介绍了通过curl或irm命令的简单安装过程,以及首次登录和使用的基础步骤。其核心功能包括通过TUI界面进行交互,使用/plan进入计划模式、/model切换模型,并支持自动文件编辑、代码运行以及Git操作。项目根目录的AGENTS.md文件可用于自定义开发规范。
腾讯指出,智能体在执行长任务时面临上下文信息堆积导致的成本增加与目标遗忘问题。其提出的解决方案是结合“上下文卸载”与“Mermaid任务画布”:将详细内容存至外部,上下文仅保留索引;并用图表将执行过程结构化为带状态与依赖的任务地图。方案采用分层记忆系统。实验显示,该方案在网页搜索任务中最高节省约61% Token,代码修复任务节省31%-33% Token且完成率提升,复杂任务通过率从20%提升至30%-35%。消融实验证明,结合任务画布的结构化压缩效果更优。
一款针对小红书内容的图片生成器 Skill 发布,宣称效果出色,解决了图文混排的核心痛点。该 Skill 包含 2 套主题、28 个版式、9 套配色,并适配 8 大小红书主流内容类别。其核心优势在于智能处理图片:能凸显用户提供的高质量图片、自动寻找优质图片替代,并能美化普通图片,同时主动避免使用 AI 生成图片以防止内容被标记。该工具旨在高效生成具有专业效果的小红书图文内容。
http://x.com/i/article/2059811469081141248
作者为解决AI助手“Berry小跟班”在对话上下文压缩后丢失偏好、无法跨Session复用技能等问题,将MemOS Local Plugin 2.0接入了Bloome Agent。MemOS并非简单存储聊天记录,而是将Agent任务执行过程转化为可学习的认知资产,其核心是四层架构:L1执行轨迹、L2策略归纳、L3世界模型和结晶化技能。该插件支持Hermes Agent和Bloome Agent,可通过一行命令安装,实现记忆的跨Agent共享与进化。
推文指出,让AI主动记录和保存对话内容,是构建“数字分身”的关键,而非仅依赖被动下达指令。作者受罗胖发布会观点启发,将 Memory OS 2.0 与自己使用的 Bloom AI 进行了整合升级。实践表明,这种整合能触发AI的“主动性记忆点”,相比传统的“被动记忆”模式更具优势。作者将分享具体的整合过程、前后对比以及主动记忆的优势分析。
http://x.com/i/article/2059820725276696576
本文介绍了为AI智能体(如Codex、Claude Code)编写指令文件(如Agents.md)的一种实用方法。核心建议是直接复制高手的Agents文件内容,粘贴给工具,让其学习并合并有价值的部分。文中强调了两个关键实践:一是当用户纠正问题时,应提出精简的规则更新建议,并区分作用域;二是要求智能体说话直接,对不确定的技术事实必须验证或明确表示不知道。
用好 Coding Agent 的关键在于初始规划。方法是先将需求整理后,用最强模型(如 GPT-5.5、Claude Opus 4.7)分别在 Codex、Claude Code、Cursor 的 Plan 模式下生成设计方案,选择最优方案并借鉴其他版本。对于复杂计划,可将其拆分为多个 Phases 并明确要求与验证标准,形成 Markdown 文档。执行时按 Phases 进行,并辅以人工审核纠偏。最后的代码审核(Code Review)用 GPT-5.5 审核代码质量与设计符合度即可。应避免让多个智能体交叉 Review,否则可能导致代码越改越多。
让不同的 agent 交叉 review 的后果就是代码越改越多。。。
一位用户展示了一款从AliExpress购买的廉价MP3播放器,它存在蓝牙音频卡顿和菜单操作不便的问题。用户将设备芯片的照片提供给OpenAI的Codex进行分析。Codex随后引导用户通过Mac设备提取了播放器的完整固件文件。Codex分析了该固件的机器代码,定位到导致问题的具体代码段,并生成了一个修复了蓝牙问题并优化了菜单导航的定制固件。用户将此固件刷写回设备后,问题得到解决。此案例具体体现了AI工具在处理底层硬件调试与定制化开发任务中的潜力。
ぼくの着想の限界=Codexの限界。 それくらいまーじでCodexでなんでもできる。 これアリエクで買ったやっすいMP3プレイヤー。 でもBluetoothの音飛びと操作性が悪くて放置してたんですよ。 だけど昨日急にシャワーしている時にエウ...
我已经把 codex 的 fast 关掉了,没感觉到速度快,只感觉到了消耗快
用户发布任务,要求三个AI智能体独立从链接下载视频并添加中文字幕。最终,一个AI智能体100%完成,一个只输出了部分成果,另一个则遇到API限流。整个流程虽耗时,但用户仅需“动动嘴”下达指令,全程零干预即可验收结果。评论称赞这种自主性(Agency)令人舒服,宛如“成精”。
麻蛋,Agent成精了。 但就是,我想要的状态。 这种Agency,真实令人舒服啊!
另一个故事,忍不住分享! 全程人就是动动嘴,然后下载验收即可。 任务:https://x.com/cleoabram/status/2059622849266983122?s=20 下载视频 并且添加中文字幕 @Berry小跟班 @BuLe...
You can now transcribe meetings in real time using Codex and ask Codex questions about meetings as they're happening! I ...
一份由开发者“苍老师”撰写的免费开源Codex实战指南(CodexGuide)已发布,旨在帮助新手跳过入门门槛。手册按四层结构组织:认识入口、跑通任务、建立方法、团队沉淀,详细覆盖CLI入门、桌面端安装、Plus订阅,乃至通过ChatGPT App远程指挥Mac Mini等场景。目前,该指南已收录13个可直接复刻的实战案例,例如配合Draw.io自动绘制架构图、GitHub Actions CI失败自动修复、以及在Obsidian中搭建AI知识库。
http://x.com/i/article/2059577896449331201