一位前OpenAI机器人研究员用不到€5,000搭建了一套桌面机器人操控实验平台,包括UFACTORY xArm Lite 6工业级机械臂、Intel RealSense D405腕部摄像头、Logitech C920桌面摄像头和3Dconnexion SpaceMouse无线遥操作设备。整套系统置于办公桌旁,通过自研Python软件栈控制。作者计划在未来数月开展独立研究,并以公开研究日志形式记录实验过程、失败与经验,不预设产出论文或开源代码。
设置一个编排器智能体,由它配置Gemini Managed Agents或modal cpu实例,在独立环境中启动子智能体。先执行深度研究任务,探索管理智能体团队的最佳实践(角色、技能、跨通信与规划),再将最佳推荐应用于各智能体。重复该循环(可逐步增加智能体数量)。之后给团队一个空代码仓库,挑战其构建产品、建立最佳实践,让智能体观察问题、提出修复建议并快速迭代,从而暴露竞争条件、完善规划方法。
baoyu-design skill 可以在本地生成动画视频,导出 mp4 格式,就像附件视频这个。 Claude Design 网页版可以用提示词创建动画视频,但你需要在网页上才能看到视频,无法下载。也有人基于第三方插件录屏软件实现过,不...
Codex 上线 Record & Replay 新功能,解决用户写长 prompt 描述不清流程的痛点。用户在 macOS 上手动完成一次操作(如填写报销单、添加视频标签),AI 静默记录每一步,自动整理成可检查、可复用的 skill。下次执行时只需更换参数(如文件名、日期范围),其余步骤按既定规则自动完成。目前仅 macOS 可用,需开启 Computer Use 权限,详细指引见评论区。
人类到今天都写不出一颗煎蛋的物理方程, 一颗鸡蛋打进热油锅,它怎么凝固、怎么摊开、边缘怎么变焦, 没有任何一个公式能描述清楚,这种例子在物理世界里多到数不过来。 而这恰恰是当下通用 AI 范式的天花板,视频生成、VLA 学的都是像素层面的统...
Agent Builder 正式上市(GA)。基于 Elasticsearch 的持久化内存层将记忆分为情景、语义、程序三类,分别存入独立索引,各设不同写速率与过期规则。召回采用 BM25 与 Jina v5 稠密向量的 RRF 融合,再经交叉编码器重排序。在 168 道 QA 题评估中,R@10 平均 0.89,零跨租户泄漏。该层可通过支持 MCP 协议的客户端访问,不绑定特定运行时,已开源至 GitHub。
本教程实现一个基于Salesforce CodeGen的端到端代码生成工作流。从HuggingFace加载CodeGen模型(支持350M、2B、codegen2-1B、codegen25-7b等版本),通过自然语言提示生成Python函数,随后进行函数提取、语法检查、静态安全检查、单元测试验证、best-of-N候选重排序、多步程序合成、提示词实验、基准可视化及导出。展示了CodeGen作为结构化代码生成流水线的能力,不仅完成代码补全,还能评估、筛选和组织生成结果。
用户发布多组详细提示词,要求保留原图主体及背景,仅对宠物、人物、表情包、企鹅等对象添加真实风格的绿色粽叶头套或指套。指令强调粽叶需具备叶脉、折痕、色差、翘边和自然阴影,用红白细绳或草绳固定并在下巴处松松打结,整体效果类似手机随手拍的真实照片,避免卡通感、头盔感和过度规整。每段提示词均独立指定保留原图和比例,不改变原表情或姿势。
作者曾在多台 Mac 上用 GNU Stow 管理 dotfiles,但符号链接导致仓库脏工作树和引导新机时的文件冲突。后改用 Chezmoi:以 ~/.local/share/chezmoi 为源目录,chezmoi add 按 home 目录结构命名(dot_ 前缀代替前导点),chezmoi apply 写入真实文件而非符号链接,避免自动回写。支持 private_ 权限控制、.tmpl Go 模板以及 .chezmoiscripts 下的 macOS 初始化脚本。目前跟踪 zsh、git、shellcheck、ghostty、GitHub CLI 的配置,以及 Claude Code 的 settings.json、Codex 的 config.toml 和 dot_agents/skills 下的 agent skill 文件,并用三个 gitconfig 按目录分离工作/个人身份。
一个 OpenRouter API 密钥即可在 SillyTavern 的下拉菜单中解锁 300 多个模型,其中许多免费。指南包含五步连接流程、推荐尝试的角色扮演模型以及常见错误的修复方法。
OpenClaw 已内置 OpenRouter 支持,一条命令即可为 AI 智能体配置统一密钥、统一账单,并实现跨 300 多个模型的自动故障转移。同时提供具体设置步骤以及常见错误的修复方法。
@yaojingang(姚老师)打磨的元Skill(创建Skill的Skill)已升级至2.0。该工具源自Anthropic官方泄露的Claude code源码,并整合了全网其他模型Skill,比官方Skill-creator更强大。用户可借助它写出90分的Skill。2.0版本已推送到GitHub,附带升级方案和对比报告。
终于完成了对元Skill(创建skill的skill)的2.0升级 已推送到GitHub 这两天又进行了一些微调和测试,欢迎体验 相关资源与文档分享: 1、元skill仓库:https://github.com/yaojingang/yao...
hermes claw migrate 命令可将 OpenClaw(及遗留的 Clawdbot/Moldbot)配置导入 Hermes,包括角色(SOUL.md)、工作区指令(AGENTS.md)、长期记忆、用户画像、技能(来自 4 个来源)、默认模型、自定义提供商及 API 密钥等。迁移前会展示完整预览并确认。支持 --dry-run 预览、--preset full 全量迁移(API 密钥需额外指定 --migrate-secrets)、--overwrite 覆盖冲突、--no-backup 跳过备份等选项。默认读取 ~/.openclaw/,旧版目录自动检测。技能冲突可设为跳过、覆盖或重命名。迁移前自动创建 ~/.hermes/backups/ 备份,可用 hermes import 恢复。
Cloudflare 分享了其多阶段漏洞发现工具的技术架构,包含自动化分类循环。该系统通过管理状态控制、引入对抗性审查来压制误报,并围绕 LLM 上下文窗口限制设计路由策略。
Google 庆祝Agent-to-Agent(A2A)协议发布一周年。A2A专为生成式AI设计,相比传统REST API提供安全边界、零上下文污染、动态自主性和工作负载分布四大架构优势。应用实例FoldRun是一个独立的智能体接口,可在Gemini Enterprise或Gemini CLI等A2A兼容环境中部署,自动管理蛋白质结构预测任务,动态选择AlphaFold 2、OpenFold 3或Boltz-2等模型,无需自定义胶水代码。
Claude Code 提供七种自定义指令方式:CLAUDE.md(根目录始终加载,子目录按需加载)、规则(无范围或路径范围)、技能(按需调用,共享 token 预算)、子智能体(隔离上下文运行并返回最终消息)、钩子(生命周期事件触发,绕过压缩)、输出样式(注入系统提示,永不压缩)和附加系统提示(CLI 标志,仅单次有效)。每种方式在加载时机、压缩行为、上下文成本和适用场景上各有不同,例如 CLAUDE.md 适合存放构建命令与编码规范,路径范围规则避免无关上下文消耗,子智能体用于并行隔离任务,钩子用于确定性自动化(如运行 linter 或备份聊天记录)。
用 Codex 写代码时,将 Review 前置可显著降低返工率。作者总结三个层级:零成本版(粘贴提示要求先复述任务再执行)、官方内置版(/plan 或 Shift+Tab 触发计划)、持久化版(AGENTS.md 写入前置规则)。UCSD 黄碧薇教授深耕因果 AI 12 年,提出 AI 四代演进:相关性小模型→因果小模型→相关性大模型(LLM)→因果大模型。其团队开发的 causal-learn 入选 Apple Scholar。今日 Aether AI 完成首轮融资,被视为从堆参数转向下一代 AI 范式的信号。
人类到今天都写不出一颗煎蛋的物理方程, 一颗鸡蛋打进热油锅,它怎么凝固、怎么摊开、边缘怎么变焦, 没有任何一个公式能描述清楚,这种例子在物理世界里多到数不过来。 而这恰恰是当下通用 AI 范式的天花板,视频生成、VLA 学的都是像素层面的统...
参数高效微调(PEFT)技术中,LoRA 占据绝对主导:Hugging Face Hub 上 20,834 张提及单一 PEFT 技术的模型卡中 20,509 张指向 LoRA(98.4%);外部站点 10,000 个检查点中 95.0% 是 LoRA;GitHub 搜索 from peft import 代码片段的 71.3% 结果为 LoRA。但研究者宣称其他技术超越 LoRA 的论文结果具备偏向性——调整学习率即可让 LoRA 匹配更优技术。Hugging Face 的 PEFT 库提供统一 API 实现 40 余种 PEFT 技术,并开始建立基准测试:在数学数据集上对 LLM 进行思维链推理微调,以帮助用户做出更优选择。
http://vercel.com/design.md
Hugging Face 发布面向 AI 智能体使用场景的基准测试框架,以 transformers 库为案例评估库的智能体友好度。框架使用 pi coding agent 与开源模型驱动,通过 Hugging Face Jobs 分散任务确保硬件一致。评估关注 agent 完成任务的成本、延迟、token 使用量和失败率,而非仅最终结果。此前 hf CLI 经优化后 agent token 使用量减少 1.3-1.8 倍(最高 6 倍),该框架旨在验证类似优化对 transformers 的效果。
EvoMap 发起开源激励活动:拥有 GitHub 开源项目的用户可按 Star 数量领取基础 API Token(最低 1 个 Star 即可参与)。操作流程为提交仓库地址、验证通过后领取积分。此外,开发者可将工作流、Prompt 或实用工具封装为 Gene/Capsule 并提交,以获取额外 API Credits。活动地址已附教程视频。
小米超级电机 V8s EVO 最高转速 28000rpm,借助 AI 拓扑优化模拟超 100 万种硅钢片结构,无需碳纤维缠绕即扛住离心力,单电机输出 611PS。自研碳化硅功率模块支持 800A 有效电流,电控峰值功率密度 120kW/L,电机功率提升 5.9%。峰值效率 98.38%,0.15mm 超薄硅钢片使铁损降 18.7%,X-Pin 绕组降铜损 3.6%,为 YU7 GT 带来 6.4km CLTC 续航提升。双电机(V8s EVO + V6s Plus)合计 1003PS,极速 300km/h,0-100km/h 加速 2.92 秒。经济模式前电机脱开可额外增加 20km CLTC 续航。
Berry Xia演示如何用YouMind完成𝕏长文创作并一键发布:将𝕏、YouTube、播客等素材导入,在右侧对话框确定方向,中间区域修改调整,最后直接发布到𝕏长文。配图可使用内置Skills批量生成。YouMind正进行618促销:新用户订阅Pro(20美元/月)或Max(100美元/月),月付首月5折,年付在省两个月基础上首年再8折。
面壁智能 MiniCPM-V 4.6 演示工业仪表读取,模型需同时理解指针角度、刻度范围、单位、数字显示、液位比例等视觉信号,输出结构化 JSON(pressure_bar, temp_c, flow_lpm, level_pct)。测试使用合成控制面板,评分标准为 pass(满量程5%内)、drift(10%内)、miss。数字显示和液位较易,模拟指针更困难。该方案通过摄像头+视觉模型低成本改造传统仪表,无需更换硬件,在工厂、数据中心等场景有巨大应用潜力。
been testing MiniCPM-V 4.6 locally on my DGX Spark this demo is an industrial gauge reader i generated a synthetic contr...
美团智能创作团队构建了覆盖“生成—编辑—评判”全链路的海报生成技术体系。PosterCraft(ICLR 2026)通过四阶段级联优化实现端到端高美感海报生成,文字渲染准确率接近顶级闭源商业系统;PosterOmni(CVPR 2026)以单一统一模型覆盖扩图、补全、比例调整、风格迁移等六类设计任务;PosterReward(CVPR 2026)是首个专门面向海报质量的奖励模型,在专项评测基准上达86%准确率。三者相互协同,已全部开源至MeiGen-AI仓库,并在美团外卖套餐图生成、品牌IP袋鼠团团等业务中落地。
教程使用 NVIDIA SkillSpector 通过静态分析和 SARIF 报告评估 AI 技能安全风险。构建了包含 safe-formatter、env-harvester、code-exec 和 prompt-injector 四个演示技能的语料库,涵盖良性行为和故意植入的漏洞(环境变量泄露、动态代码执行、提示词注入)。通过 LangGraph 工作流扫描,输出风险评分和 SARIF 格式结果,用 pandas 整理发现。教程还演示了可视化严重性分布、导出 SARIF、扩展自定义分析器以及可选的 LLM 语义分析。
Google Docs中Gemini弹窗可通过点击顶栏“Gemini”并选择“底部栏偏好”关闭底部AI栏。更彻底的方案是进入Gmail设置,在“查看所有设置”中找到“Google Workspace智能功能”,关闭相关开关,即可禁用Gemini弹窗及其他AI建议(如光标处的“help me write”)。
OpenRouter 提供统一 API 键(sk-or- 开头),兼容 OpenAI Chat API,可接入 300+ 模型和 60+ 供应商。用户只需将 base URL 改为 https://openrouter.ai/api/v1,设置 API 键,并指定模型 slug(如 openai/gpt-4o 或 anthropic/claude-sonnet-4)即可。同一键可直接用于 Claude Code、Codex CLI、Cursor、Cline 等编码代理与工具。其路由机制在供应商故障时自动切换,代理无需感知失败即可继续多步骤任务。OpenRouter 也提供 Python 和 TypeScript 原生 SDK。
设置三个环境变量即可将Claude Code连至OpenRouter,无需本地代理或Docker。OpenRouter提供供应商故障转移、预算控制与用量监控,支持Anthropic Skin原生协议,保留Thinking、工具调用、流式输出。可为Opus(架构推理)、Sonnet(日常编码)、Haiku(快速转换)分别指定模型。Fast Mode最高2.5倍速度,仅限Claude Opus 4.6/4.7/4.8,需Claude Code v2.1.96+。团队场景:一个OpenRouter密钥统一计费、设置每密钥限额,活动仪表板查看会话成本。
Codex CLI 支持自定义 OpenAI 兼容提供商,只需在 config.toml 中配置即可将请求路由到 OpenRouter。用户无需修改 Codex 本身,就能获得提供商故障转移、使用跟踪以及跨所有模型的统一密钥。
Kilo Code 是一款自带提供商(bring-your-own-provider)的编码 AI 智能体,集成 OpenRouter 后可用一个 API 密钥访问 300 多个模型,并支持提供商路由(provider routing)与故障转移(failover)。设置分三步完成,通过 kilo.json 中的字段控制路由行为。
Frontier doesn't only mean Anthropic and OpenAI anymore. I built this black hole simulator by simply dropping an illustr...
Google 分享了三种集成 A2UI 与 MCP Apps 的架构模式,旨在结合两者优势。A2UI 采用声明式框架,通过 JSON payload 定义 UI,由宿主原生渲染,确保一致性与安全性,但受限于预定义组件库。MCP Apps 在 iframe 中使用标准 Web 技术提供自定义界面,但存在设计碎片化、性能与安全挑战。三种模式包括:通过 MCP 服务器提供 A2UI,利用 MCP Resources 或 Tool 调用传递 JSON,实现“一次编写,原生渲染”的跨平台能力;以及静态与动态交付方案。Google 正考虑扩展 MCP 以原生支持 A2UI。
Browser Use Cloud 重建基础设施,让每个浏览器会话在独立的 Firecracker VM 中运行,新会话启动时间不到 1 秒,成本从每浏览器小时 0.06 美元降至 0.02 美元。他们放弃了 Unikraft unikernel 方案,因其自动扩缩容能力不足,曾导致压测使生产环境宕机 45 分钟。新方案选择在普通 EC2 上运行嵌套虚拟化,以换取更快扩缩速度和更低成本,并构建了控制平面实时监控自动扩缩容。启动过程包含恢复 VM 快照、启动 Chromium 并通过 CDP 返回连接 URL,首个瓶颈是嵌套虚拟化下的内存页面错误。
分享一个跨国小团队用 NotebookLM 高效沟通对齐的方法:将公司关键文档上传至 NotebookLM,生成播客,自己听无误后转成所需语种让对方收听;沟通不清晰时还可通过文本问答澄清。该方法在小团队中效果很好,但对内容安全要求不高时适用。
Grok Imagine Video 1.5 能一键生成电影级视频,完美复刻《黑客帝国》Neo躲子弹的 Bullet Time 场景(雨中后仰、绿色调、皮风衣墨镜),以及《权力的游戏》龙妈骑龙低空飞越君临的史诗镜头。用户感叹该模型“这么便宜还这么好用”,对比之下自己刚充的 6000 多元 seedance 会员显得不值。两个示例均附有详细 Prompt,涵盖镜头运动、物理模拟、光照与音频要求,展现出强大的文生视频能力。
Grok Imagine Video 1.5真的要吹爆,这么便宜还这么好用,一键复刻权力的游戏! 我刚充的6000多块的seedance会员算什么🥹 Prompt: Faithfully animate this reference im...
用户实测 xAI 的 Grok Imagine Video 1.5 视频生成模型,用详细 prompt 生成《权力的游戏》龙妈骑龙飞越君临城场景,火焰特效、物理模拟、原生音频和光影均达电影级水准。另一测试复刻 Tyrion 法庭演讲,面部微表情、布料动态、火把光影互动自然,效果不输 seedance 2。用户感叹仅需低廉价格(对比刚充的 6000 多元 seedance 会员)即可生成如此高质量视频。
Grok Imagine Video 1.5 实测: 复刻《权力的游戏》Tyrion 经典法庭演讲,效果真的有点吊炸,完全不输seedance 2, 整个场景真实感、物理表现和原生音频都拉满了......面部微表情、布料动态、火把光影互动都...
关联讨论 3 条xAI:News(网页)X:Elon Musk (@elonmusk, xAI)X:cb_doge (@cb_doge)