基于 Dify 异常分支的省钱小妙招 增加一个 openrouter/free 节点处理,异常时使用 flash 模型兜底,每天可以调用 1000 次
🚨 You can already use fable 5 by selecting the model after resuming it with /remote control on ios
HappyHorse 1.1 guides are live on our docs: - Multi-character casting: lock real reference images into every cut https:/...
通过飞书Cli工具与Codex结合,实现自然语言记账:终端执行npx @larksuite/cli@latest install安装飞书Cli,再在Codex中创建“日常开销记录”项目,用对话指令生成多维表格,之后可直接在手机端查看和修改,无需额外记账软件。
推主分享基于Readwise推荐书籍的个人工作流,包含两个Skill:1)通过Telegram绑定zlib机器人(z-lib),使用telethon库自动与机器人对话下载电子书;2)将epub文件上传至Google NotebookLM,利用其递归提问功能快速解读内容,实现高效学习。
PostHog工程师使用多个并行的长时Claude Code会话重写了公司的SQL解析器,将解析速度提升约70倍。新解析器包含16K行解析器代码和5K行工具代码。原始解析器基于ANTLR生成,采用图遍历解释器,性能受限;新解析器采用手动编写的递归下降解析器配合Pratt表达式循环,仅在必要时引入前瞻与回溯。开发过程中通过属性测试(Hypothesis)确保与原始C++解析器在真实查询上的等价性。
针对长达3小时播客访谈用AI生成文章时容易遗漏细节的问题,常见做法是连续追问“还有什么细节需要补充?”三次左右(甚至可做成Agent Skill)。但作者采用不同策略:同时让AI生成2-3份稿子,挑选最佳一份作为底稿,再将其它稿子的内容手动合并进来。这样既能避免细节遗漏,也能防止单次生成质量差导致后续追问难以提升质量。
长达3个小时的播客访谈,如果原文提供给AI生成文章。 经常会漏掉一些细节,所以我会连续追问几次: "还有什么细节需要补充吗?" 一般三次左右就差不多,感觉应该做成一个Agent Skill。 哪怕同一个模型,连续追问也能改善质量。 当然,目...
NVIDIA 推出的 45C 冷却设计将数据中心用水量降至接近零,大幅降低水资源消耗。该方案源自 NVIDIA 官方博客。
GLM-5.2 自带 MTP(推测性解码)头因采用 DSA(动态稀疏注意力),导致 vLLM、llama.cpp、mlx 等推理引擎难以支持。原始 bf16 精度需 1.5TB,4bit 量化仅 430GB。社区作者 dnhkng 制作了 GLM-5.2-AWQ-INT4-FP8-MTP-delta 魔改版:底座用 INT4(Marlin 算子)+ MTP 用 FP8,使 vLLM 支持 MTP,速度从 2 token/s 提升至 43.39 token/s(绑定 NUMA+MTP-3)。SGLang 因支持混合精度可直接使用 GLM-5.2-W4AFP8;llama.cpp 和 mlx 用户仍需等待社区适配。
OpenRouter 的零数据留存(ZDR)保证用户提示词和模型响应不被存储,元数据一般安全。自 1 月以来新增 97 款支持 ZDR 的模型,月度 token 量增长 4.3 倍,约占全部路由流量一半。ZDR 在三个层面执行:账户级(整个供应商开启)、护栏级(按 API Key 或组织成员限定)、单次请求级(传参数仅路由至 ZDR 端点)。企业用户可灵活选择控制粒度,避免锁定单一供应商。
本教程从零构建OpenHarness,一个可运行的Agent运行时,展示完整控制流:接收用户任务、模型决策、验证并执行工具调用、返回观察结果、循环直至任务完成。覆盖核心模块:工具使用与类型化工具架构、权限控制、生命周期钩子、记忆管理、技能、上下文压缩、重试逻辑、Token成本跟踪及多智能体协调。实现采用纯Python,无需API密钥或复杂基础设施即可实验,包含Token成本估算。
Anthropic 推出 Claude Tag,支持多用户与同一 AI 智能体在同一工作空间协作。智能体具备持久记忆、独立于人类的凭证及广泛信息访问权限。经验:工作公开化并给予智能体广泛上下文,通过工作区级安全边界让信息对人和 AI 均可用;为每位成员(含 AI)分配明确角色与相应工具。用户可通过 @Claude 私信进行敏感交互,对话保持私密。该方法已在 Slack 等团队协作工具中实践,旨在使人类与智能体高效协作完成共享目标。
同一事件,精选展示《Anthropic 推出 Claude Tag:在 Slack 中通过 @Claude 协作》Matt Pocock 推出 /loop-me 技能,旨在帮你梳理日常工作中的重复“循环”。它采用“严苛面试法”逐一追问直到模糊点消除,最终输出清晰的 workflows/.md 规范文件,任何实施者(人类或AI)看完即可执行。核心包括定义 Trigger、Checkpoint、输出等要素,确保达到“完成的定义”。技能目前仍处于进行中状态,但已可直接使用。它强调先打磨工作流程,使之能被 AI 精确理解,从而降低认知负荷,将重复劳动真正委托出去。
New in-progress skill: /loop-me Interviews you about your work and finds opportunities for delegating your day-to-day wo...
NVIDIA NeMo AutoModel 是基于 Transformers v5 的开源库,添加 Expert Parallelism、DeepEP 融合 all-to-all 调度和 TransformerEngine 内核。在 MoE 模型微调中,相比原生 v5,训练吞吐量提升 3.4–3.7 倍,GPU 内存减少 29–32%,仅需改动一行 import。在 16 节点 128 张 H100 上全微调 Nemotron 3 Ultra 550B A55B 时,v5 因内存不足无法运行,而 AutoModel 凭借 EP=64 专家并行使训练可行。单节点 30B MoE 模型(如 Qwen3-30B-A3B)同样获得可量化的性能优势。
Vista分享经验:将3小时播客访谈交由AI生成文章时,通过连续追问“还有什么细节需要补充?”(约三次)能有效补全遗漏细节,显著改善输出质量,使文章更具故事性。她建议将这一追问流程封装为Agent Skill,以便复用。
Nathan Lambert 发布了一期 AI 基础讲座视频,使用 GLM 5.2 模型生成。内容涵盖语言模型概述、LM Head、Softmax 与对数概率、训练样本结构、概率计算、后训练中的三种掩码、解码、交叉熵损失、优化与微调、预训练到 SFT 流程、KL 散度与熵、Sigmoid 与成对似然、强化学习 MDP 框架等。视频包含时间戳目录,并持续收集观众问题用于后续 Q&A。
ぜんざいのアトリエ開発迷走中😅 海エリアはやっぱり釣りでしょう、とかなんとか言うことで、釣りミニゲームを組み込み。 AI開発らしく、Pixverseで作ったAI動画を差し込んで作ってみたよ。 やってみると、こういうバリエーション動画を作る...
快手新发布KroWork,能将多个AI Skill串成的工作流直接打包为本地桌面应用。用户安装后可在Launchpad中一键下载到本机,双击即可按预设流程运行,无需反复打开对话框或重新配置参数。KroWork支持定时任务(如每天9点自动执行),并允许从Kro Workshop复制他人工作流二次开发。作者用其复刻了Prompt Organizer提示词生成器和Daily Trend Brief(每日AI趋势简报)等日常工具。KroWork定位与Claude Cowork、Codex Site、Claude Code Artifacts相似,旨在将重复工作流沉淀为可分享的本地应用。
小红书质效研发团队在 AICon 上海 2026 公布两项 Agent 基础设施实践。Self-GC 系统通过 ContextObject 对象化建模与三阶段提交机制(Async Plan、Rehearsal、Delayed Commit),将上下文转为可索引的生命周期管理,生产环境实现 10%-20% 输入 Token 下降且保持 90%+ 无影响率。Seal 企业级 AI 个人助理依托 NEX 沙箱实现运行时隔离,结合 Self-GC 与 SealRouter(Auto 模型路由)达成成本减半,并采用 L0-L2 分层记忆体系构建可溯源知识闭环,从 3 天内测到两周完成全员覆盖。
蚂蚁 ASystem Core 与 SGLang-JAX 团队在 TPU v7x 上优化了 1T 参数稀疏 MoE 模型 Ling-2.6-1T 的推理性能。核心是 Fused MoE V2 Pallas kernel,将 scatter、expert FFN 和 gather 合并,通过计算与数据搬运重叠降低延迟。相比 V1,MoE prefill latency 从 5.16 ms 降至 2.42 ms(降 53%),decode kernel latency 从 0.249 ms 降至 0.211 ms。仅替换 MoE kernel 即可使 prefill throughput 提升 24.8%,decode throughput 提升 18.5%–35.3%。在 SGLang decode benchmark 下,16 颗 TPU v7x 的 output throughput 达到 16 张 H200 的 1.29x–1.77x。该工作还完整支持 hybrid backbone,包括 hybrid KV/recurrent memory pools、GLA linear attention 及 single-controller data parallelism。
I wanted to learn about humanoid robots 🤖, then decided the most reasonable thing to do was build myself a humanoid cat...
用户将截图丢给 StepFun 的 step-3.7-flash 模型(运行在 Codex 中),2 分多钟生成可用的网页版文章头图生成器,支持修改文案和导出 PNG,总成本仅 $0.06。模型能自行理解参考图并实现完整功能逻辑,但视觉还原度仅六七分,手绘涂鸦风需手动调整。StepFun 同步推出 Startup Program,早期团队可获 API 额度、生态支持及资源对接。
为解决多 Agent 下 Skills 存放混乱问题,宝玉提出:Skills 只装在项目内以节省 LLM 上下文窗口;所有原件统一存放于 ~/GitHub,每个项目通过软链接指向原件,再为 Claude Code 创建 .claude/skills → .agents/skills 入口。更新只需拉取一次源码,所有项目自动同步;修复 bug 可直接反哺开源项目。用户可用自然语言让 Agent 自动创建软链接,无需记忆命令。
我快疯了。日常同时用 4个 coding agent,skills 各写各的: /.agents/skills、/.codex/skills、~/.claude/skills 已经一团浆糊,CC 里找不到 Codex 的 skill,反过来...
Codex新功能Record & Replay可将浏览器操作录制成可复用的Skill。实测解决两个痛点:定向信息搜索时自动打开X搜热点、统计高赞帖子、提取关键词重新查询,输出带互动指标的表格和短关键词库,满足60%-70%图文素材需求;视频剪辑上传能完成静音检测、加速、导出GIF等固定流程,但上传可能被网站安全策略拦截,建议先让Codex出Plan判断可行性。Codex能理解意图,例如自动在输入Grok前增加中文关键词组合。目前依赖Computer Use和图片理解,操作慢且偶有误判,但已能将人的操作转化为Agent下次可执行的上下文,替代传统RPA和Replay。
微信近日内测AI智能体“小微”,常驻左上角,支持语音或文本输入,调用WeLM-V4-80B(MoE激活3B)与DeepSeek模型。可向个人/群聊发消息、发起视频通话、发红包或转账,需用户逐项确认;可查询朋友圈(限最近2天)、公众号、视频号,支持创建提醒、笔记、小工具,并能操作奶茶咖啡、打车、电影票等小程序至最后一步后交给用户。小微具备记忆功能,可记录地址等。聊天记录上下文仅在特定入口可用且限最近2天。整体策略“只读不动”,禁止批量发送、定时、删除联系人等操作。微信以谨慎节奏接入AI,是国民级应用全面拥抱AI的重要信号。
同一事件,精选展示《微信Agent小微灰度内测:主入口发消息红包,子入口可读聊天记录》OpenAI 发布 Codex Remote 工程实践官方博客。核心心智模型:手机是“控制面”而非终端——开发机跑代码,手机负责启动、指挥、审批、审查。十大高杠杆能力包括 Queue vs Steer、Side Chat、Plan vs Goal、对话内 Code Review、细粒度权限管理等。另有 /status /compact /fork 命令与五个典型工作流(Release Captain、中断修复、移动端审查等)。对 AI coding agent 的启示:异步协作、注意力与状态机管理、目标约束、生产级权限粒度。
If you missed last week, Mastering Codex Remote for Engineering is now available as a blog post on our developer platfor...
苹果在 macOS 27 Beta 2 中封堵了一条终端命令,该命令此前可绕过候补名单直接启用新版 Siri AI。Beta 1 中用户输入 sudo defaults write ... 即可跳过等待,但 Beta 2 已禁止。网友发现另一种方式:升级最新 Beta 后,用“图乐园”生成图片,多次点击“更多”菜单中的“图像有问题”发送反馈,可能解锁 Siri AI,该方法也适用于 iOS 27。
Run Cline on Local AI models with Atomic Chat! @cline is a coding agent trusted by 8M+ developers. Write, refactor, ship...
Simon Willison 使用 Claude Code for web 构建了一个 OPFS + Pyodide 测试 UI,用于验证 Datasette Lite(基于 Pyodide 和 WebAssembly 在浏览器中运行的 Python Datasette 应用)能否通过 Origin Private File System(OPFS)编辑用户计算机上的持久 SQLite 文件,并在不同浏览器中测试其可行性。
该教程通过Python使用NVIDIA Canary-1B-v2构建语音识别与翻译管线:先安装NeMo ASR工具包和音频依赖,在GPU上加载模型;将音频处理为16 kHz单声道格式后,执行英语ASR,将语音翻译为25种语言,生成词级和时间段时间戳,导出SRT字幕文件,并支持长文本转录、批处理与推理速度基准测试。