AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1222 条
全部一手资讯X论文
标签「教程/实践」清除
Ethan Mollick@emollick · 4小时前48

Fable: "you have Unity and access to MCP. I want you to build a game that is a unique twist on a FPS. You want the player to say "wow" & "so clever" and to enjoy the core gameplay loop" WebGL: https://swapshot-void.netlify.app/ * It had no assets so the graphics are procedurally generated

译Fable:“你有 Unity 和 MCP 的访问权限。我要你构建一个游戏,它是 FPS 的独特变体。你要让玩家说‘哇’和‘太聪明了’,并享受核心玩法循环” WebGL: https://swapshot-void.netlify.app/ * 它没有资产,所以图形是程序生成的

elvis@omarsar0 · 5小时前48

On top of it all, the PaperWiki automatically generates and maintains survey papers on all the AI topics I am interested in. All up-to-date. There simply doesn't exist anything like it. Just insanely useful.

译Elvis Saravia(DAIR.AI)分享了其构建的 PaperWiki——一个由 LLM 和代码智能体自动维护的知识库,用于研究工作流、社区论文策展及通讯。PaperWiki 从多源摄取论文,存储于 Obsidian 并用 qmd 索引,支持全文和语义搜索。设有每日更新自动化,结合 Opus-4.8 和 DeepSeek-V4-Flash 等模型维护。作者认为 LLM Wikis 是 AI 最有价值的应用之一,可帮助去噪、发现高质量论文,并计划开源相关组件(含 HTML artifact)。

OpenRouter@OpenRouter · 5小时前68

Rube Goldberg machine built with Fable 5, for $4.44 👀 Prompt available here: https://www.reddit.com/r/openrouter/comments/1ulkilz/i_asked_claude_fable_5_to_build_a_rube_goldberg/

译用 Fable 5 构建的鲁布·戈德堡机械,仅需 4.44 美元 👀 提示词在此:https://www.reddit.com/r/openrouter/comments/1ulkilz/i_asked_claude_fable_5_to_build_a_rube_goldberg/

AYi@AYi_AInotes · 6小时前60

卧槽,Firefox 竟然内置免费 VPN 了,每月白给 50G 流量。 不是第三方插件也不是付费会员权益,是 Mozilla 官方刚推的原生 IP 保护功能,直接嵌在浏览器底层。 开启方法一共四步,照着改就能用 1️⃣地址栏输入 about:config 进入高级设置 2️⃣选择显示全部高级首选项 散搜索 browser.ipProtection.enabled 4️⃣将对应的值切换为 true 本质上就是把隐私保护能力做进了浏览器本身,不用额外装扩展,也不用记额外账号,对日常轻量使用场景来说完全够用啦~

译Firefox 推出官方原生 IP 保护功能,内置免费 VPN,每月赠送 50G 流量。开启方法:地址栏输入 about:config → 显示全部首选项 → 搜索 browser.ipProtection.enabled → 切换为 true。Claude Fable 5 回归上线,ZenMux 上限时免费使用。Fable 5 可输出高质量人像提示词,通过拆解塑料感根源、8 维度框架及自我检查环节,系统性避免塑料皮肤、畸形手等问题。ZenMux 提供无 RPM 限制、同屏 PK 功能,支持 Fable5、GPT-5.5、Opus4.8 等多模型对比,自动充值每笔返 20% 余额。

Chubby♨️@kimmonismus · 7小时前43

Instead of treating AI like an isolated 1-on-1 chatbot window, I’ve been using @Bloome_im to run my content workflows. It is a shared workspace where humans and multiple AI agents sit inside the exact same group chat to actually get a complex job done. I used their one-click template connection to spin up a specialized creative team. The biggest shift here is that the agents actively check each other's work instead of just agreeing with me: -The @ Writer drafts the initial video essay structure. -The @ Audience agent immediately pushes back to critique the pacing and rewrite boring segments to keep viewer retention high. -The @ Art Director pulls everything together into a visual markdown report and thumbnail design concept right inside the chat window. This is an awesome tool for creators, marketers, and operators who want to transition from writing rigid text prompts to managing an actual human-agent team. Check this out:

译Kim (@kimmonismus) 介绍利用 Bloome 替代传统一对一 AI 聊天窗口,将其作为共享工作空间,让人类与多个 AI 智能体在同一群聊中协同完成内容工作流。通过一键模板创建创意团队,关键特点是智能体主动互相审核而非仅附和用户:Writer 起草视频论文结构,Audience 即时批评节奏并重写枯燥部分以维持观众留存,Art Director 在聊天窗口内整合视觉 Markdown 报告和缩略图设计。适合希望从编写固定提示词转向管理“人+智能体团队”的创作者、营销人员和运营人员。

SiliconFlow@SiliconFlowAI · 8小时前31

Want to understand a repo without reading every file🔍 Point GLM-5.2 at any project you star🌟 It reads and builds you an interactive walkthrough All it takes: 🔑 a SiliconFlow API key ⚙️ plug GLM-5.2 into your agent 💬 point it at the repo, ask for a guide Now it's not just building — it's earning 🌊 SiliconFlow Summer Rush is LIVE: → Post what you build with GLM-5.2 on X → tag @SiliconFlowAI + #GLMOnSiliconFlow → Fill the form — you're in 🎉 More valid GLM-5.2 usage = higher leaderboard rank 📈 First 72h → Early Bird reward pool 🐦 📋 Register & full rules 👇 https://www.siliconflow.com/blog/siliconflow-summer-rush%E4%B8%A8glm-5.2-week-the-more-glm-5.2-you-run-the-more-you-win

译硅基流动举办Summer Rush-GLM 5.2 Week活动。使用GLM-5.2分析任意GitHub仓库,自动生成交互式代码解读向导。参赛需申请SiliconFlow API Key,将GLM-5.2接入智能体并指向仓库。6月29日20:30至7月6日20:30(PDT)期间,发布成果到X并标记@SiliconFlowAI和#GLMOnSiliconFlow,填写报名表即可参与排名。第1名获本周GLM-5.2消耗全额代金券返还(最高$1,000)及额外$50代金券。前72小时投稿享Early Bird额外奖励,所有有效参与均有抽奖机会。

AYi@AYi_AInotes · 11小时前53

今天也是豪横了一把,实现了Fable 5自由,这可是全球最顶最硬最牛逼的AI大模型啊,比Opus 4.8贵6倍, 多用一分钟都能立省100块哈哈哈, 我跑测下来觉得确实实至名归,真的非常屌炸天,他给我的提示词喂给GPT-iamge-2,0抽卡,一次出片 现在可以免费用, 另外Claude Sonnet 5免费用, Gemini Nano banana 2 lite也免费用, 速冲!!

译传闻中的顶级模型Claude Fable 5在ZenMux平台回归上线并限时免费,官方价格高达50美元/百万token,ZenMux上则零成本使用且无RPM限制。用户分享了一套利用Fable 5生成高质量人像提示词的方法论:先分析AI人像塑料感根源,再搭建涵盖主体人设、服装材质、表情瞬间等8个维度的框架,最后输出示例并自我修正。此外,ZenMux还免费提供Claude Sonnet 5和Gemini Nano banana 2 lite,支持同屏对比Fable 5、GPT-5.5、Opus 4.8等200+模型,自动充值每笔返20%余额(最高300美元赠金)。

eric zakariasson@ericzakariasson · 12小时前66

http://x.com/i/article/2072636402521583616 # Fable is back, here's how I use it in Cursor Fable is back in Cursor, and here's a pattern I've been exploring and some other ways I've been getting the most out of the model. ## Fable as orchestrator, Composer as workers It's easy to put everything on a smart model. Most of an agent run is reading files, writing patches, and running checks, and you don't need Fable rates for that. Instead, let Fable decide the subtasks, the order, and whether the result is done. Composer 2.5 does the scoped pieces, cheaper and faster, and can run them in parallel. Most of my chats are short Composer runs. Fable shows up less often, but those runs go longer. You can put the routing in AGENTS.md or a .cursor/rules-rule so the orchestrator agent can use it. A good brief has: - one concern - enough context that the worker doesn't re-explore the whole repo - a definition of done it can check on its own - a short report so the orchestrator can decide quickly Fable alone still makes sense when the judgment is the work, whether that's a hard design call, a gnarly bug that needs one coherent thread, or a plan that has to stay coupled. If you can't name the subtasks, keep it one agent! ## Long horizon cloud agents The use case I reach for most is ultra long horizon work on Cloud Agents. A long refactor, a multi-surface feature with a real definition of done, an investigation across a big codebase. I hand it to Fable, give it something it can check itself against, and let it run. I check in from the iOS app for status, a look at what it's doing, a nudge if it's drifted. ## Keeping up with the frontiers If you only ever run one model, you start mistaking its habits for the ceiling of what agents can do. The frontier also moves every few weeks. Rotating is how I keep "what good looks like" current, from real work rather than benchmarks.

译Eric Zakariasson 分享了 Fable 在 Cursor 中的两种用法。一是作为编排器(orchestrator),将子任务分派给 Composer 2.5 并行执行,仅在设计决策、复杂 Bug 等需要整体判断时才单独使用 Fable。有效简报需包含单一关注点、足够上下文、完成定义和简短报告。二是长时云智能体(Cloud Agents)模式,用于长期重构、多端功能或跨代码库调查,通过 iOS 应用监控并适时干预。作者还建议轮换不同模型,以保持对前沿能力的认知。

fofr@fofrAI · 12小时前60

These combine nicely with Omni: > a single unbroken scene of this strange creature <IMG_REF_0>, no dialogue, camera zooms shakily in from a distance and out, a bit of blur before it focuses, it's raining. Use the image as a reference not a first frame. One long scene filmed by an amateur.

译这些与 Omni 配合得很好: > 这个奇怪生物的一个连续不间断场景<IMG_REF_0>,没有对话,摄像机从远处颤抖地拉近又拉远,对焦前有点模糊,正在下雨。将图像用作参考而非第一帧。一个由业余爱好者拍摄的长场景。

向阳乔木@vista8 · 12小时前56

想偷懒,不在乎操作时间,Computer Use是真方便。 1. 跟 Raycast AI对话,让推荐值得关注的 AI 播客。(Codex里也行,习惯了) 2. 打开Codex,@ Computer Use,中文叫“电脑”,说: “帮我打开youtube订阅这些播客: 【播客推荐文本】” 等几分钟就全订阅了,科技让人懒惰,哈哈!

译用户分享利用 Computer Use(中文名“电脑”)功能自动订阅 YouTube 播客的流程:先与 Raycast AI 对话获取值得关注的 AI 播客推荐,然后在 Codex 中通过 @Computer Use 指令输入推荐列表,等待数分钟即可完成全部订阅,实现“偷懒式”自动化操作。

AYi@AYi_AInotes · 13小时前61

刚盘完上半年副业账,拢共赚了20w出头,有点感慨, 很最深刻的感受是,AI真的是咱们普通人这辈子少有的公平杠杆。 以前能赚大钱的杠杆,不管是资本、人脉还是拉团队,门槛都高的离谱,普通人根本摸不到边。 AI的门槛真的低到地板上——你只要会问对问题、肯沉下心动手做,就能用。 但也跟大家说句掏心窝子的,我能拿到这个结果,本质上就是把执行力这个普通人唯一能攥在手里的资产,靠AI放大了10倍而已。 因为肯定会有很多人来问,怎么做到的,这里必须跟大家说实话:AI其实只是放大器,并不是那核心的那个发动机。 AI放大的是我本来就有的判断力、审美、攒了很久的手上的本事,比如我AIGC作图好看,跟我之前玩了10多年摄影有关系, 换句话说,一模一样的工具摆在所有人面前,90%的人刷到了玩两天看个新鲜就扔了,我能靠它接商单赚钱,差别从来不在AI,在我自己身上。 所以大家也真的别再把「会用AI」当什么核心护城河了,这个信息差消失的速度比所有人想的都快, 我觉得最多两三年,会用AI就跟现在会用Office一样,是找工作的基本标配,根本算不上什么优势。 我自己心里也很清楚,现在赚的说白了还是行业早期窗口期的钱。 要是一直守着「接单→交付→再接单」的模式转,本质上还是在卖自己的时间,只是单价比以前高了点而已。 真正的翻身我理解不是现在银行卡上多了20w数字,更重要的是要慢慢把窗口期赚来的快钱,换成真正属于自己的长期资产:从卖时间,到卖产品,再到卖属于你自己的影响力。 最近一个月发推都划水了,也不熬夜搞选题和内容创作了,一方面是自己已经把整个飞轮跑通了,对创作者收益祛魅了,不执着流量和粉丝增长了,还是还回归生活和主业工作,跟大家共勉。 关于副业赚钱,其实有很多途径,成本也很低,比如下方帖子提到的营销领域的Codex真的是一个很好的AI产品,用好了有很多变现的方式和途径,可惜没时间做哈哈。

译作者用AI副业赚20万,感悟AI是普通人的公平杠杆,但核心是个人判断力与执行力。引用的推文介绍营销垂直Agent「Lev8」,在找海外客户场景中,有效结果量90个(Exa 58.2,Codex 20),匹配精度83.3%(Exa 76.5%,Codex 71.8%),单条成本$0.052(Exa $0.061)。Lev8聚合50+实时数据源和10亿+职场人脉,自动监测融资/招聘等商机,生成定制破冰文案,支持五渠道一键发出。

小互@xiaohu · 15小时前66

有点意思

译用户使用豆包,根据详细prompt复刻了一部真人实拍与2D动漫贴纸合成的搞笑短视频。视频为第一人称厨房做饭视角,包含4个镜头:贴纸角色倒盐捣乱、被锅铲敲头、被喂盐咸菜、齁到倒地。prompt指定了风格(8K超清竖屏)、时长10秒、场景(真实厨房)、角色(金色长发水手服Q版贴纸人物)及各镜头的动作与音效。

AYi@AYi_AInotes · 16小时前62

Claude Fable 5今天回归上线啦,ZenMux上限时免费使用真的太香了! 怎么用Fable 5输出高质量的「不会塑料 + 顶级人像提示词方法论以及户外美女人像prompt方法论大家收好! 说真的,我以为上次的Fable 5总结的AI生图焚决要绝版了,趁着现在能免费用,赶紧让Fable 5给我写了又写了一套: 怎么输出输出高质量的「不会塑料 + 顶级人像提示词方法论, 真的很炸,它对光影、材质、瞬间感的拆解细度,写出来的提示词出图质感,比网上卖几十上百块的所谓的人像焚决提示词强出一大截, 连所有人头疼的塑料皮肤、娃娃脸、畸形手问题,它自己就能系统性避开。 单轮直接出结果的版本我磨到终版了,复制完直接扔进去就能跑,Prompt: “你是有10年经验的顶级商业人像摄影师+提示词工程师。 1️⃣先做第一步拆解:AI人像出塑料感、AI味、廉价感的核心根源是什么?真正高级的商业人像有哪些共性? 2️⃣第二步输出可直接复用的提示词框架,覆盖主体人设、服装材质、表情瞬间、镜头构图、光线皮肤、背景氛围、画质处理、强力负面词8个维度每个维度给具体写法,别讲空话。 3️⃣第三步严格按框架出2个可直接复制的完整示例:1个克制老钱风,1个体育赛事广播截图风,全程禁止夸张性感、塑料皮肤、畸形结构。 4️⃣最后自我检查:两个示例哪里还有AI味风险?直接修正到最终版。 输出用清晰中文编号就行,要是觉得不够细,补一句「再优化一次,每个维度写得更落地」就好。 另外大家想做商用级内容就用三轮对话法: 先拆塑料感根源,再搭完整框架,最后出示例+自我修正,质量比单轮再提20%。 三个踩坑踩出来的Fable专属技巧,记了不吃亏: 1️⃣ 必须先给它顶级专业人士的身份,不设角色它就会套网上的烂大街模板 2️⃣必须逼它先分析"为什么会塑料",不挖根源写出来的全是正确的废话 3️⃣一定要加自我检查环节,这是Fable独有的强项,它自己挑错比你手动改十轮都管用 我自己跑这些测试全程用的ZenMux,真不是打广告,天天折腾模型的人一用就懂有多爽——现在claude-fable-5-free端点直接免费用,账户留任意余额就能跑, 不用烧官方50美元一百万token的高价额度,测十轮也花不了几块钱, 关键是真无RPM限制不限流,跑多轮长提示词从来不会半路掐断降速,迭代效率比官方高太多。 自带的同屏PK功能我用的最多,同一个需求拉上Fable5、GPT-5.5、Opus4.8并排输出,哪个写的框架质感好一眼就见分晓,做横评连切标签页都省,全平台200多个模型一个账户全覆盖,不用到处开会员; 现在开自动充值每笔还返20%余额,最多领3次共300刀赠金,余额永久不过期,跑大任务永远不用担心突然断供。 以下3张图的提示词放评论区了,大家自取,ZenMux也有gpt-image-2可以用,直接丢提示词就行。

译Claude Fable 5 在 ZenMux 平台回归上线,提供免费端点 claude-fable-5-free,账户有余额即可使用,无 RPM 限制,免去官方高价。博主分享用 Fable 5 生成高质量人像提示词的方法论:先拆解 AI 人像塑料感根源,再搭建覆盖主体人设、服装材质、表情瞬间等 8 维度的框架,最后输出示例并自我修正。三个关键技巧:赋予顶级专业人士身份、必须分析塑料感根源、利用 Fable 自检能力。ZenMux 另支持同屏 PK 模型、自动充值返 20% 余额等福利。

Ethan Mollick@emollick · 18小时前60

Fable, one prompt: "build an elaborate game that makes it feel like I'm a brilliant chess player without knowing anything at all about chess. It should make me feel like a grand master. Feel free to go as meta as you want but the more chess-y the better." https://game-seven-chess.netlify.app/

译Fable,一个提示词:"构建一个精心设计的游戏,让我在完全不懂国际象棋的情况下,感觉自己是个出色的棋手。它应该让我感觉自己像个大师。尽情发挥元创意,但越像国际象棋越好。" https://game-seven-chess.netlify.app/

Ethan Mollick@emollick · 18小时前72

My one serious piece of advice having used Fable a bunch before release is that, unless you are careful it develops its own internal bizarre cadence &amp; dialogue over long tasks. If you aren't asking it report in plain language, this starts to creep into everything, including menus

译Ethan Mollick 提醒,Fable 在长时间任务中会发展出独有的内部节奏和对话模式,其多个 agent 与任务相互强化,使得 "Claudish" 语言越来越 "Claudish"。若不主动要求它用 plain language 报告,这种怪异风格会渗透到包括菜单在内的所有输出中。

歸藏(guizang.ai)@op7418 · 20小时前71

http://x.com/i/article/2072507922257723392 # 能帮你做 Live Photo 了!藏师傅社交卡片 Skill 重磅更新 前段时间我做了一个 guizang-social-card-skill(https://github.com/op7418/guizang-social-card-skill)。 它原来主要解决静态图文的问题: 把文章、产品说明、截图、照片这些素材,做成小红书 3:4 图文卡片,或者公众号封面。 这次给它补了一个新能力: Live Photo 生成和编辑。 你可以把产品录屏、网页 Demo、游戏片段、生活素材交给 Agent,让它做成小红书或公众号文章里能用的动态卡片。 看一下 Codex 基于藏师傅的这个 Skills 给这次更新做的宣传视频: 我一开始以为这只是“把视频放进卡片”。实际在实践和做的过程中,发现要处理的事主要有三个: - 第一帧要能当普通图发出去。 - 3 秒或 5 秒里只能讲一个很小的动作。 - 用户最后要能真的传到手机上发布,不能只停留在本地 Demo。 所以这次更新不只是在导出 MOV 视频和 Live Photo。 它还补了素材判断、首帧检查、平台时长和发布路径这些环节。 ## 这次能做什么 单视频动态卡片:适合产品录屏、网页生成结果、代码运行、游戏操作。 Skill 会先按 3:4 卡片做版式,确认第一帧能看,再生成动态版本。 拼图式 Live Photo:适合素材本身好看的内容: 旅行、产品细节、美食手作、生活方式。 可以做成单视频、二宫格、三宫格、四宫格。很多时候不用加字,画面自己就够了。 三连 Live Photo:适合三个并列结果: 三个生成案例、三个产品状态、三个游戏片段。 这里的重点是“并列”,不适合把一个长教程硬拆成三段。 长视频筛选:用户手里的素材通常不是刚好 3 秒或 5 秒。 Skill 会先粗看视频信息量,再建议裁一段、加速、拆成三连,或者放弃 Live Photo。 很多工具喜欢说自己能“自动找高光”。我现在更愿意保守一点。 自动选错以后,常见问题很难救: 第一帧黑屏、滚动跨了两个页面、UI 字太小、结果画面还没出现。 ## 怎么用比较合适 先准备视频素材。不需要精剪到很漂亮,但最好别太长。 每段 10 秒左右比较舒服。太长的视频会消耗更多 token,也更容易让 AI 误判重点。 比较推荐的方式: 1. 先把原视频粗剪成几段。 1. 每段只保留一个重点。 1. 让 AI 判断哪一段适合做 Live Photo。 1. 再决定做单视频、拼图,还是三连。 可以直接这样说: 帮我把这段产品录屏做成小红书 Live Photo 第一张卡,重点突出生成结果。 或者: 这段视频有点长,先帮我判断哪一段适合做 Live Photo。 完整教程不建议塞进 Live Photo。教程还是适合拆成 5-9 张图文卡片。 Live Photo 只放最需要动一下才说得清的那一页: 按钮点击后的结果、生成完成瞬间、游戏动作成功、食物切开的变化。 比如我前段时间给这些模型做的测试,在演示生成的网页效果时,就是一张图对应一个案例。 另外,陈抱一还有一个 Live Photo 开箱的栏目也可以看看,他一次只做一个动作,只展示这个产品的一个细节。 ## 适合哪些场景 产品更新和 AI 工具演示:静态截图只能说明界面长什么样。Live Photo 可以展示点下去以后发生了什么。 生成网页、生成代码、生成图片,只放静态图总有点像摆拍。 这类素材里还有一种很常见: 原始录屏信息太小,手机上看不清。 比如这类原始视频的 token 显示区域比较小。这里可以让 Skill 自动把关键区域放大,只保留用户真正需要看的部分。 游戏攻略 路线、timing、动作节奏、击中瞬间,很多时候截图讲不清。Live Photo 适合放一个关键动作,不适合讲完整攻略。 游戏素材也适合做全屏动态卡。它不一定需要额外排版,只要把画面裁到合适比例,保留动作完成的那几秒。 教程技巧 不需要每一步都动。把最容易出错、最需要看到过程的一步做成 Live Photo 就够了。 如果原来就是一套多图教程,Live Photo 可以只放在第一张或关键页。其他静态页继续负责解释、拆步骤、放细节。这样不会把一整套图文都改成视频,也不会打乱原来的阅读节奏。 旅行和生活方式 有些照片很好看,但少一点现场感。到达、走动、开门、转身,这些小动作会让图文更像真人内容。 这类案例不需要太重的文案。一个开门、走动、拿起物品的片段,就能让图文从“设计图”变得更像真实记录。 美食、手作、产品种草 倒入、切开、搅拌、组装、旋转、开合,这些天然适合 Live Photo。它们不需要复杂文案,看见变化就够了。 如果同一主题下有几个短片段,也可以做成拼图。二宫格、三宫格、四宫格都适合这类素材。重点是让多个片段同时提供质感,而不是给每个格子都加说明。 判断标准很简单: 运动有没有提供证据。 如果运动只是装饰,静态卡片更干净。 ## 做这个功能时我加入的细节 第一帧要先过关:Live Photo 在信息流里先显示的是静态图。第一帧如果不好看,后面会动也没用。 所以现在流程里会先抽首帧,当普通 3:4 卡片检查一遍: 裁切对不对,主体有没有被切掉,标题会不会挡住关键区域。 视频当成图片位处理:视频不能随便全屏塞进去。 视频区域沿用图片裁切逻辑:UI 密集就保留完整画面,主体明确就放大重点,人脸、产品、按钮、结果区不能被压住。 先看 contact sheet:长视频不适合一帧一帧看。更省事的方法是抽 8-15 帧拼成一张 contact sheet。 看一张图,基本就能知道有没有黑屏、转场、UI 太小、结果没出现这些问题。 平台时长要分开:小红书按 5 秒做。公众号文章内按 3 秒做。 时长不同,能承载的信息量也不同。3 秒只适合一个动作点,5 秒可以放一个很小的过程。 发布路径要提醒清楚:Live Photo 最后不能只给一个视频文件。 实际测试和发布时,需要把 JPG + MOV 打包成 .pvt,再 AirDrop 到 iPhone,从手机端发布。桌面端上传不一定能保留 Live Photo。 这些细节不显眼,但少了任何一项,成品都可能停在本地测试里。 ## 为什么 Live photo 值得做 图文平台里的“图”现在有点尴尬。 静态图表达力有限。短视频制作成本又高。很 多内容卡在中间: 不值得剪成视频,只用静态图又少一点说服力。 Live Photo 刚好补这个空位。用户还是在做图文,只是其中一张图多了一点运动。 我觉得它有用,是因为很多内容需要一点动态证据:产品运行、网页生成、动作完成、食物切开。 从 Skills 的角度看,这次更新中的实践需要注意: 一个 Skill 不能只写触发词,还得写清审美、边界和工作流。 当用户给一段视频素材时,AI 不只负责导出文件。 它还要判断这段素材该不该动、动哪一段、放在哪张卡里,以及怎么让它仍然像一张能发出去的社交卡片。 这类判断越多,Skill 就越不像一段 Prompt,越像一个可以复用的生产流程。 ## 怎么开始用 如果你还没用过这个 Skill,可以直接把下面这段话发给有 shell 权限的 AI Agent: 帮我安装 guizang-social-card-skill。阅读 https://github.com/op7418/guizang-social-card-skill 项目的 Readme 后安装,安装完成后检查 SKILL.md、assets/、references/ 是否存在。 如果你之前已经装过,可以直接让 AI 更新: 帮我更新 guizang-social-card-skill。请进入 ~/.claude/skills/guizang-social-card-skill 执行 git pull,然后告诉我当前最新 commit。 更新完以后,你就可以把文章、截图、照片或视频素材丢给 Agent,让它生成小红书图文、公众号封面,或者这次新增的 Live Photo 卡片。 我觉得这次更新对你有帮助的话,可以帮我点个赞或者转发给你需要的朋友。

译歸藏的guizang-social-card-skill新增Live Photo能力,支持单视频动态卡片、拼图式(二/三/四宫格)、三连Live Photo及长视频筛选。核心细节:第一帧可作为静态图发布;小红书5秒/公众号3秒时长区分;发布需将JPG+MOV打包为.pvt并通过AirDrop传到iPhone。建议先粗剪视频每段10秒左右,让AI判断适合做Live Photo的片段。安装或更新后即可使用。

歸藏(guizang.ai)@op7418 · 20小时前69

终于上了! 藏师傅现在这个 Skills 可以帮你做 Live Photo。 我过去一段时间用下来,发现这个能力非常有用。它比做成视频的难度要低得非常非常多 又可以帮你展示一些需要动态展示的东西,比如: 1. 步骤说明 2. 不同角度的产品细节 3. 带动效的网页展示等等 这个 Skills 基本上把做 Live Photo 的门槛拉得非常低。 你只需要给它文案和你随便录制的一段视频,它就可以帮你编辑排版,变成一个带文字的 Live Photo。 当然,一些基础的 Live Photo 编辑它也能帮你做(比如拼图、夹子等),比你在市面上能找到的对应产品要方便很多。

译藏师傅推出的 Skills 功能可制作 Live Photo,用户只需提供文案和一段视频,便能自动完成编辑、排版并生成带文字的 Live Photo。该功能还能执行拼图、夹子等基础编辑操作,比市面上同类产品更方便。其门槛极低,适合展示步骤说明、产品细节、动态网页等需要动态呈现的场景。

Berryxia.AI@berryxia · 21小时前21

昨天很多人问这是啥工具? 叫Bloome,我用了几个月了吧。 应该是全平台支持,win Mac ios 都有,网页应该也行。 现在的使用习惯是将看到项目和产品直接丢给他,帮我看看是否可以在运行或者解析等。 很方便,如果可以就直接调用我本地的cc或者codex进行干活。 不需要额外动手干啥的,真的丝滑。

译Berry Xia 分享个人长期使用的工具 Bloome,支持 Windows、Mac、iOS 及网页端。用户将项目和产品链接丢给 Bloome,它能自动判断是否可运行或解析,然后直接调用本地的 Cline 或 Codex 执行任务。引用推文补充,该工具接入了小米的 mimo 模型,可实现听说读写、下载视频、剪辑等功能,体验优于多数 Agent。作者强调这不是广告。

小互@xiaohu · 21小时前56

大概是这种效果 Claude code 副屏 痛点是每次CC回答大段文字内容的时候太密集,看起来很费劲,或者给我方案的时候不太容易理解 副屏可以将CC的回答直接转换成直观的页面给你展示,这样你能瞬间理解和预览答案 还可以交互进行数据回传

译@xiaohu 开发了一个 Claude Code 副屏工具,解决 CC 回答大段文字时密集难读的问题。副屏将 CC 的回答直接转换成直观页面展示,让用户能快速理解和预览答案,并且支持交互式数据回传。

meng shao@shao__meng · 22小时前77

Skills for Design Engineers 作者 @emilkowalski 是知名设计工程师,曾在 Vercel、Linear 工作,也是 Sonner、Vaul 等流行组件的创建者。他把多年积累的一套 UI/动画原则,沉淀成设计工程师们的设计品味 Skills,让 Codex、Claude Code、Cursor 等 Coding Agents 在写 UI 和动画时,具备接近资深设计工程师的审美判断! https://github.com/emilkowalski/skills 仓库结构:三个相互补充的 Skills 1. 先建立决策框架(emil-design-eng) 主 Skill:设计工程哲学 + 动画决策框架 + 组件构建原则 2. 再审查代码(review-animations) · SKILL.md 以严格标准审查动画/动效代码,输出“Before/After/Why”表格 · STANDARDS.md 评审的数值/曲线参考表(easing、duration、spring 等) 3. 最后帮助用户精准描述动效(animation-vocabulary) 词汇表:把“那个弹一下的效果”翻译成“Pop in”等专业术语 核心主张:动画不是“让它动起来”,而是“让它感觉对” 1. 动画需要理由 每条动画都必须回答一个问题:“它为什么要动?” 合理理由: · 空间一致性(toast 从同一方向进出) · 状态指示(按钮变形表示加载完成) · 解释关系(引导用户理解状态变化) · 防止突兀(元素突然出现/消失) · 反馈(按下按钮时 scale(0.97)) 不合理理由: · “看起来很酷” + 高频出现 → 应该删除 2. 按使用频率决定动画强度 · 每天 100+ 次(快捷键、命令面板):禁止动画 · 每天几十次(hover、列表导航):删除或大幅简化 · 偶尔(弹窗、抽屉、toast):标准动画 · 罕见/首次( onboarding、反馈):可以适当“惊喜” 最实用的技术原则 Easing:不要信默认,要用强曲线 · UI 元素进入/退出 → ease-out · 已在屏幕上的元素移动 → ease-in-out · hover / 颜色 → ease · 恒速运动 → linear · 绝对禁止 UI 动画使用 ease-in(开头慢,用户会感觉到延迟) Duration:UI 动画控制在 300ms 内 · 按钮按下反馈:100–160ms · Tooltip / 小弹层:125–200ms · 下拉框/选择器:150–250ms · 模态框/抽屉:200–500ms Physical correctness · 永远不要从 scale(0) 开始:现实中不会凭空出现。用 scale(0.95) + opacity: 0。 · Popover 从触发点缩放:transform-origin 要指向触发按钮,而不是元素中心(modals 例外)。 · 按钮按下必须有反馈:transform: scale(0.97) 是默认。 性能规则 · 只动画 transform 和 opacity(GPU 层)。 · 不要用 width/height/margin/top/left 做动画。 · Framer Motion 的 x/y/scale 简写不是硬件加速的,要用完整 transform 字符串。 · 不要用父元素的 CSS 变量驱动子元素 transform(会引发样式重算风暴)。 · 预定动画用 CSS;动态/可打断的用 JS 或 Spring。 打断与对称 · CSS transition 可打断、可重定向;@ keyframes 会从头开始。 · 长按/删除等场景:按下慢(2s linear),释放快(200ms ease-out),非对称时间。 无障碍 · 尊重 prefers-reduced-motion:不是“全部关掉”,而是保留 opacity/颜色,移除位移动画。 · hover 动画必须加 @ media (hover: hover) and (pointer: fine),避免触屏设备误触发。 评审 Skill:如何检查代码 review-animations 设定了十条“不可妥协”的标准,并把输出格式严格化为: · transition: all 300ms > transition: transform 200ms ease-out -- 精确指定属性,避免 all 触发非 GPU 动画 · transform: scale(0) > transform: scale(0.95); opacity: 0 -- 不应凭空出现 animation-vocabulary:把模糊感受翻译成专业词 这个 Skill 本质上是一个动效术语反向查询表。用户说“iOS 拉到底部会弹回去那种感觉”,它能回答“Rubber-banding”;用户说“元素从按钮里长出来”,它能回答“Origin-aware animation”。 它涵盖: · 进出/序列/变换/状态过渡 · 滚动/交互反馈 · Easing / Spring / 循环/环境动画 · 打磨效果(Blur、Clip-path、Skeleton、Number ticker) · 性能术语与动画原则 这对设计师和工程师的沟通、以及给 AI 下精确指令,都很有价值。

译Emil Kowalski 将多年 UI/动画原则沉淀为三个 Skill,使 Codex、Claude Code、Cursor 等 Coding Agents 具备资深设计工程师的审美判断。核心规则:动画必须有理由;每天 100+ 次的高频操作禁用动画;UI 动画控制在 300ms 内;只动画 transform 和 opacity;入口从 scale(0.95)+opacity:0 开始;尊重 prefers-reduced-motion(仅移除位移动画)。review-animations 以严格标准审查动画代码,输出 Before/After/Why 表格。animation-vocabulary 将模糊描述(如“弹一下的效果”)转为专业动效术语。

AYi@AYi_AInotes · 23小时前73

这个真的不像AI生成的,太逼真了!! Seedance 2.0 Prompt: 主要角色:年轻韩国女性,20岁出头,自然的日常妆容,褪色的炭灰色无袖露脐上衣,宽松的高腰浅色水洗牛仔裤,黑色帆布运动鞋,黑色绳编项链,黑色波浪长发扎成凌乱的侧马尾,带有些许碎刘海。逼真的皮肤纹理,淡妆,温暖而亲切的个性。在整个视频中保持一致的身份、服装、发型和外貌。 地点:宁静的午后时分,真实的韩国住宅社区。狭窄的混凝土小巷,低矮的住宅楼,小型露台,盆栽植物,晾衣绳,自行车,电线杆,架空电线,成熟树木投下移动的树影,安静的住宅氛围。没有商店、广告、咖啡馆、人群或商业活动。 视觉风格:超现实主义纪录片真实感。真实的即兴行为。自然的肢体语言。无剧本的日常生活片段感。强烈的环境真实性。丰富的现实世界细节和可信的人类动作。 摄像风格:2000年代初消费级DV摄像机的美学。朋友随意记录日常生活瞬间。强烈的手持抖动,不完美的构图,频繁的自动对焦搜索,镜头呼吸,在阳光和阴影间移动时的曝光波动,偶尔的运动模糊,轻微的滚动快门,中等数字压缩伪影,褪色的色彩,柔和的对比度,轻微的传感器噪点。没有稳定。没有电影化的摄像机移动。没有现代色彩分级。 00:00–00:02 一个小房子入口外。她坐在低矮的混凝土墙上,用双手向上举起调整马尾。一阵微风吹动散落的发丝。她自然地微笑,而摄像机努力保持焦点。 00:02–00:04 摄像机跟随她走进一条两旁种满盆栽植物和混凝土墙的狭窄小巷。她注意到一只流浪猫靠近,便蹲下身。构图偏离中心,因为操作者试图跟上。 00:04–00:06 她轻轻抚摸并喂食猫咪。自动对焦反复在她脸部和动物之间切换。晨光透过头顶的树叶闪烁。 00:06–00:08 她房子旁的小前院。她在晾衣绳上挂晒衣物,织物在微风中摇曳。云朵短暂掠过头顶时曝光发生变化。 00:08–00:10 在一个安静的露台上,手持一个陶瓷咖啡杯。她舒适地坐着观察社区,偶尔将头发拨到耳后。松散的手持侧角视角,带有自然的摄像机漂移。 00:10–00:12 近距离侧脸轮廓。场外有人向她打招呼。她转过身,举起手,温暖地微笑,随口说:“Annyeong。”摄像机稍晚捕捉到这一刻。 00:12–00:15 她手持咖啡杯,缓慢走在树荫覆盖的住宅小道上。她注意到摄像机,露出一个小而真诚的微笑,然后移开视线,继续前行。录制在中途突然切到黑屏,仿佛摄像机关闭了。 音频:仅自然环境音——晨间鸟鸣、远处摩托车声、轻风、树叶沙沙声、微弱的社区闲聊声、猫叫声、脚步踩在混凝土上的声音、晾衣绳上织物移动的声音、细微的住宅氛围。没有音乐。没有音效设计。没有旁白。 目标:捕捉真实的韩国社区生活,仿佛一段被遗忘的2000年代初家庭录像——即兴、不完美、真实、温暖且极具说服力。 https://x.com/john_my07/status/2071977017474789557/video/1

译Seedance 2.0 通过详细 prompt 生成一段超真实视频,以 2000 年代初 DV 摄像机美学展示韩国女性日常:手持抖动、自动对焦搜索、曝光波动、运动模糊等不完美感,配合环境自然音(鸟鸣、风声、社区闲聊),实现家庭录像般的独特说服力。

Peter Steinberger 🦞@steipete · 1天前47

Pointed codex at some Twitter feedback on the OpenClaw iOS app and it did a first improvement pass. It's still not good, but for two prompts it aint bad. Especially cool how it uses computer use to add before/after screenshots, as there's no GitHub API. https://github.com/openclaw/openclaw/pull/98452

译将 Codex 指向 OpenClaw iOS 应用的一些 Twitter 反馈后,它进行了一次初步改进。虽然还不够好,但就两个提示词而言还算不错。 特别酷的是它如何使用 computer use 来添加前后对比截图,因为没有 GitHub API。 https://github.com/openclaw/openclaw/pull/98452

Peter Steinberger 🦞@steipete · 1天前50

Asked codex to download+transcribe all sessions from @aiDotEngineer and tailor them to my interests.

译要求 Codex 下载并转录 @aiDotEngineer 的所有会话,并根据我的兴趣进行定制。

Nathan Lambert@natolambert · 1天前43

I'm doing Q&A videos as I roll through my course. Here's the next one, covering subtle fixes to the on-policy distillation and reward model derivations, common notation traps when doing this math, and more added resources to go deeper (e.g. @johnschulman2's kl estimation blog). Q&A 2 is here! 00:00 Derivation fixes 06:10 Code examples & additional resources 08:08 Extra RL notation and notes Keep sending questions on YouTube, GitHub, and Discord. Phoebe and I are loving them.

译我在课程中陆续制作 Q&A 视频。这是下一期,涵盖 on-policy 蒸馏和奖励模型推导中的细微修正、做这类数学时常见的符号陷阱,以及更多深入资料(例如 @johnschulman2 的 KL 估计博客)。 Q&A 2 来了! 00:00 推导修正 06:10 代码示例与额外资源 08:08 更多 RL 符号与注释 继续在 YouTube、GitHub 和 Discord 上发送问题吧。我和 Phoebe 都很喜欢这些问题。

宝玉@dotey · 1天前41

Seedance 2.0 4K做的短片,用的 CapCut Video Studio

AYi@AYi_AInotes · 1天前47

说个没人愿意说的零成本AI副业,不用露脸不用出镜,靠做动画片单月能赚$5000, 赛道选YouTube儿童早教领域,全套流程靠AI就能单人跑完,前期投入为零,靠免费算力就能起步,日更一到两条,第一个月就能看到播放量收益,做得好月入能到$10000以上, 一共五步,照着做就能跑通, 1️⃣找参考,搜童谣加爆款关键词,找同赛道的热门视频对标方向。 2️⃣改脚本,用AI重写故事线,换角色换场景,避开抄袭风险。 3做动画,用Wan2.7或者Pika生成连贯动画,不是静态图拼接。 4️⃣做音频,AI配儿童音色加背景音乐,音质直接决定完播率。 5️⃣做优化,标题标签瞄准早教关键词做SEO,对准流量入口。 📌三个避坑点一定要记牢: 1️⃣儿童内容审核最严,必须纯原创不能二剪,不然直接封号。 2️⃣配音别用普通机械音,用专业儿童音色,体验差了留不住观众。 3️⃣要遵守COPPA合规要求,记得关闭个性化广告,避免违规处罚。 不止儿童赛道,TK带货知识付费都能套这个逻辑,换个赛道就能复用。 工具链接放评论区了,想试的直接拿走去跑。

译主推文介绍零成本AI副业:用AI做YouTube儿童早教动画。五步:搜童谣对标、AI改写脚本、Wan2.7或Pika生成动画、AI配儿童音色+背景音乐、标题标签SEO。日更1-2条,首月见收益,月入$5000-$10000。注意纯原创、专业儿童音色、遵守COPPA关闭个性化广告。另引用营销Agent Lev8,找海外客户场景:有效结果90个(Exa 58.2,Codex 20),匹配精度83.3%(Exa 76.5,Codex 71.8),单条成本$0.052(Exa $0.061)。Lev8聚合50+数据源和10亿+职场人脉,支持5个渠道发送定制破冰消息。

Berryxia.AI@berryxia · 1天前47

我不管别人怎么吹,我觉得切身体会每天都用这玩意。 发现真的比很多Agent什么的好用很多,我接的是小米的mimo模型,听说读写,下载视频、剪辑什么的都可以搞定。 我已经当个小秘在用了哈! PS:不是一条广告😁 如果是就让老板安排打钱吧!

Berryxia.AI@berryxia · 1天前58

赖叔的这个视频做的不错😄 据说GEO很赚钱啊,我不知道我能不能忽悠到我们老板。

译用户用Codex将GEO入门文档整理后,分别交给6个顶流PPT Skill生成演示内容。部分Skill输出HTML,宝玉走生图路线,PPT Master可直接生成PPT和PDF便于编辑。归藏版本留白较多,适合演讲类内容,而非知识点密集的培训课件。测试仅反映默认表现,不代表各Skill能力上限。用户根据本次交付暂时更倾向PPT Master。

AYi@AYi_AInotes · 1天前43

说个很少有人讲的 AI 搞钱路子,一人顶一个商务团队,接外包做猎头当中介都能用。 干过独立开发的都懂,有Codex这样的大杀器以后,写代码做设计早就拉不开差距了,最难的其实是找客户。 蹲 LinkedIn 翻一下午,筛公司看职位找邮箱,折腾半天敢发出去的消息就两三条,大部分时间全浪费在了找人这件脏活上。 但现在AI全部可以帮你干了,可以帮你跑一张活的客户地图,不是网上买来的过时名单,是五十多个实时数据源三层验证筛出来的精准数据。 最值钱的还不只是能拿到邮箱,还有背后的信号,在招增长岗说明营销需求马上要爆发,刚改版官网说明视觉缺口是明牌,刚融资说明预算刚批下来正准备花钱。 这些信号虽不保证对方一定买单,但能告诉你现在该先敲谁的门。 整个流程就五步: 1️⃣看地图,按匹配度排好序,每个人的背景信号切入点全标好 2️⃣点画像,公司规模人员配置近期动态一目了然,开口前就比发模板的人懂他 3️⃣写开场,按不同信号定制破冰话术,不是一封模板发所有人 4️⃣批量发,五个渠道一键触达,回复统一收进一个收件箱 挂监控,对方有新动态自动提醒,从一次搜索变成持续更新的活地图 当然冷水也得泼,它能干的是找人查背景写开场白这些脏活,替不了你判断客户靠不靠谱、报价合不合理、需求接不接,就像 Codex 能写代码,但审美和判断永远是你的。 不止接外包,做猎头赚佣金、当中介牵线、找渠道合作,只要需要精准找人的活,这套逻辑全通用。 以前一个人的天花板是能干多少活,现在变成了能找到多少对的人,现在这件事第一次有了近乎零成本的解法。

译Lev8 被定位为营销领域的 Codex,专门解决找客户、写破冰信等脏活。Benchmark 显示:海外找客户场景有效结果量 Lev8 90 个(Exa 58.2,Codex 20),匹配精度 83.3%(Exa 76.5%,Codex 71.8%),单条成本 $0.052(Exa $0.061)。产品聚合 50+ 实时数据源(LinkedIn、X、YouTube 等),覆盖 10 亿+ 职场人脉,自动监控融资、招聘、网站改版等信号,生成定制破冰话术,通过邮件、LinkedIn、WhatsApp、Instagram、X 五个渠道批量发送并统一管理回复。适用于独立开发者、一人公司、猎头、中介等需要精准找人的场景。

ginobefun@hongming731 · 1天前48

最近读到一篇关于 AI 产品设计原则的文章,内容很系统,也很适合帮助我们理解:当 AI 开始进入越来越多产品之后,设计面对的问题,已经和传统软件很不一样。 传统软件通常基于确定规则运行。点击一个按钮,会触发明确功能;一个流程有固定状态;错误大多可以提前预判。AI 系统则带来了更强的不确定性。同一句输入,可能得到不同结果;同一个模型,放在不同界面和规则中,也可能表现得实用、混乱,甚至危险。 这意味着,AI 产品的质量并不只取决于模型能力,也取决于产品如何设计它与用户之间的关系。 文章提出了一个很重要的问题: 「我们怎样帮助用户恰当地依赖 AI?」 这里的重点在「恰当」。用户既不应该因为 AI 表达流畅、语气自信,就自动相信它;也不必因为 AI 偶尔出错,就完全拒绝使用。理想状态是,用户的信任程度和 AI 在具体任务中的真实可靠性相匹配。 围绕这个目标,文章总结了 9 组、39 条设计原则,涉及概率基础、预期管理、信任校准、透明度、控制权、失败恢复、共同创作、自主边界和长期治理。 其中有几个观点尤其值得关注。 第一,AI 应该被用在真正有优势的地方。 AI 擅长处理模糊意图、非结构化信息、内容生成和复杂资料总结。对于状态切换、权限判断、精确计算、固定规则等任务,传统界面往往更稳定。一个原本只需要点击按钮完成的操作,没有必要强行改造成对话。 第二,设计要接受生成结果存在差异。 在写作、命名、规划、视觉创作等任务中,同一个问题本来就可能有多个合理答案。产品可以提供多个版本、重新生成、局部修改、历史记录和并排比较,让用户在不同方向中选择,而不是把第一次输出包装成最终结果。 第三,AI 的输出应当方便验证。 文章反复强调「来源」和「证据」。与其展示一个看起来精确的「置信度 92%」,不如直接提供原始资料、引用段落、修改前后差异和工具结果。数字可能制造可靠感,证据才能真正帮助用户判断。 而且,验证不能太麻烦。用户如果需要重新搜索、阅读全文、手工对照,往往会直接接受 AI 的结果。好的设计应该让检查只需要一次点击,甚至一眼就能完成。 第四,用户始终需要保留控制权。 AI 建议应该容易接受,也应该更容易忽略。用户需要能够编辑、拒绝、撤销、重新生成、停止执行和恢复历史版本。对于低风险、可逆的操作,AI 可以自动完成;对于发送消息、删除文件、修改数据等高影响操作,应增加预览、确认和审批。 这个原则可以概括为: 「保持探索顺畅,在真正提交和执行之前增加检查。」 第五,AI 需要诚实地表达自己的角色和限制。 产品应该明确说明哪些内容由 AI 生成、总结、推荐或修改,也要区分原始内容、人工判断和系统规则。AI 可以有友好的表达方式,但不应该暗示自己拥有真实情绪、生活经验或人类判断。 同时,当系统因为用户设置、企业政策、安全规则、隐私限制或商业推广而改变行为时,也应该让用户知道它正在遵循谁的规则。 第六,失败路径和成功路径同样重要。 AI 出错并不罕见,因此设计不能只关注「生成成功」的界面。更重要的问题是:错误发生后能否撤销,是否有操作日志,能否恢复到之前版本,是否可以顺畅转交人工,以及转人工时能否保留已有上下文。 如果 AI 要执行多步骤任务,系统还应该展示计划、进度、使用的工具、访问的数据和最终改动。一个会修改真实系统的 Agent,不应只用一个加载动画隐藏全部过程。 文章还讨论了数据权限、第三方隐私、提示词注入、模型升级和成本展示等问题。这些内容提醒我们,当 AI 从「回答问题」走向「采取行动」时,界面也开始承担治理作用。它需要明确区分指令、数据、工具和行动,避免把网页、邮件或文档中的内容误当成需要执行的命令。 一个成熟的 AI 产品,需要重新处理信任、责任、权限、判断和协作之间的关系,应该让用户知道它做了什么、依据什么、哪些地方可能有问题,以及自己可以怎样检查、修改和接管。

译文章总结9组39条AI设计原则,核心是让用户信任程度匹配AI真实可靠性。关键点:AI应发挥模糊意图、内容生成等优势,而非替代传统界面;接受输出多样性,提供多版本和局部修改;输出附证据便于一键验证;用户保留编辑、拒绝、撤销等控制权;AI诚实说明角色和限制;重视失败路径,支持撤销、日志、转人工。

OpenBMB@OpenBMB · 1天前35

Really well-written and practical. 👍We appreciate how you broke down the entire local pipeline and highlighted why MiniCPM-V 4.6 is such a strong choice for edge deployment — the combination of tiny size, strong multimodal capability, and excellent efficiency on Apple Silicon is exactly what makes these models exciting.🤗

译真的写得很好且实用。👍 我们很欣赏你如何拆解整个本地管道,并突出说明了为什么 MiniCPM-V 4.6 是边缘部署的绝佳选择——其小巧的尺寸、强大的多模态能力以及在 Apple Silicon 上出色的效率正是这些模型令人兴奋之处。🤗

fofr@fofrAI · 1天前69

You can replace the animal and the object with anything in the quoted prompt, and NB2L let's you cycle through ideas quickly. Lots of fun.

译Nano Banana 2 Lite 是一款图像生成工具,支持将动物头部替换为任意物体,并自动匹配颜色与纹理,实现无缝、自然的融合(如阿拉伯眼镜蛇头部替换为订书机,物体特征巧妙构成面部,原始动物面部完全不可见)。用户可快速迭代不同动物与物体组合,快速探索创意。

fofr@fofrAI · 1天前51

fyi, JSON prompts work with Nano Banana 2 Lite (NB2L for short?)

译仅供参考,JSON 提示词与 Nano Banana 2 Lite(简称 NB2L?)兼容。

向阳乔木@vista8 · 1天前61

发现一个使用的前端开发 Skill,比如经常不知道专业词汇,就写不出专业动效和交互。 可把这个Skill当字典用,比如 用 animation-vocabulary 告诉我“列表一个个冒出来”的动效叫什么? 用 emil-design-eng 帮我打磨这个弹窗/按钮/页面动效 用 review-animations 审查动画问题 地址见评论

译Vista 分享一个前端开发 Skill,可当作专业动效字典使用:通过 `animation-vocabulary` 查询“列表一个个冒出来”等动效的标准术语;用 `emil-design-eng` 打磨弹窗、按钮、页面动效;用 `review-animations` 审查动画问题。地址详见评论。

向阳乔木@vista8 · 1天前61

http://x.com/i/article/2072169967664140288 # LongCat-2.0 深度技术解读 X 上老外都特别震惊,说中国的“Doordash”用国产芯片训练了一个万亿参数的大模型,哈哈哈。 这次美团确实有点厉害,让 AI 辅助阅读解读下所有技术细节。 > https://longcat.chat/blog/longcat-2.0/ 35 万亿 token,大概是全球所有书籍文字总量的几十倍。 5 万片芯片同时工作,意味着你需要让几万台机器像一台机器一样协调运转。 而"全程无回滚",意味着这场马拉松从头跑到尾,没有一次因为出错而被迫退回重来。 这就是 LongCat-2.0,2026 年 6 月 30 日正式发布并开源。 ## 先搞懂两个基础概念,后面才能读懂 在进入正题之前,有两个概念必须先建立直觉。 什么是 MoE(混合专家模型)? 普通的神经网络,每次处理一个问题,会动用全部的"神经元"。 你问它"今天天气怎么样",和问它"帮我写一段 Python 代码",用的是同一套参数,全部激活,全部计算。 MoE 的思路不一样。 它内部有很多"专家",每次来一个问题,只激活其中几个最合适的专家来处理,其余的专家保持沉默。 打个比方:一家大医院有内科、外科、神经科、皮肤科……你来看病,不是所有科室的医生都来给你会诊,而是根据你的症状,叫来最相关的两三个科室。 这样既节省了资源,又能让每个专家更专注。 LongCat-2.0 的总参数是 1.6 万亿,但每次处理一个 token(可以理解为一个词或一个字),只激活其中约 480 亿参数。 也就是说,每次只动用了约 3% 的参数。 这个"只用 3%"的特性,在后面会反复出现,它是整个模型设计的核心约束。 什么是 token? 语言模型不是一个字一个字读文字的,它把文字切成一小块一小块的"token"。 中文里大概 1 个 token 对应 1.5 到 2 个汉字,英文里大概 1 个 token 对应 0.75 个单词。 35 万亿 token,换算成中文,大概是 50 到 70 万亿个汉字。 好,基础打完了,我们开始拆解 LongCat-2.0 的每一个技术决策。 ## 架构改进一:LSA,让模型读长文不再"喘不过气" 先理解"注意力机制"是什么 语言模型在理解一句话的时候,需要判断每个词和其他词之间的关联程度。 比如"猫追老鼠,它跑得很快",模型需要判断"它"指的是"猫"还是"老鼠"。 这个判断过程叫"注意力机制",模型在处理每个词的时候,会"注意"到其他所有词,计算它们之间的相关性。 问题来了:如果文章很长,比如有 100 万个 token,那每个 token 都要和其他 99 万 9999 个 token 计算一次相关性。 计算量是 token 数量的平方级增长。 文章长度翻倍,计算量变成原来的 4 倍。 这就是为什么普通模型处理长文本会非常慢,甚至根本处理不了。 稀疏注意力:不是每个词都需要关注所有词 解决思路是"稀疏注意力":不需要每个词都关注所有词,只关注真正重要的那些。 还是那个比喻:你在读一本 500 页的小说,理解某一段情节,不需要把前面 499 页全部重新过一遍,只需要回忆几个关键情节点就够了。 LongCat-2.0 之前用的是 DeepSeek 稀疏注意力(DSA),它已经做到了这一点。 但团队发现,DSA 里有一个"索引器"(可以理解为"负责决定哪些词值得关注"的小模块),成了整个系统的速度瓶颈。 原因有两个: 第一,它选出来的"重要词"在内存里的位置是散的,读取时需要到处跳,效率低; 第二,它的评分计算本身就很贵,是二次方级别的开销。 LongCat 稀疏注意力(LSA)就是专门来解决这个索引器瓶颈的。 LSA 的三个优化,逐个拆解 第一个:流感知索引(SI) 问题的根源是内存访问碎片化。 想象你去图书馆找书,如果要找的书分散在各个书架的随机位置,你就得满图书馆跑。 但如果这些书都集中在同一排书架上,你一趟就能全拿完。 SI 做的事情就是:把一部分原本散乱的内存访问,重新组织成连续的顺序读取。 硬件在做顺序读取时效率远高于随机跳跃,这叫"合并的 HBM 访问"(HBM 是显卡里的高速内存)。 第二个:跨层索引(CLI) 这个优化基于一个观察:在神经网络的相邻两层里,"重要的 token"的分布高度相似。 打个比方:你在第 10 层楼看到某个人很重要,到第 11 层楼,这个人大概率还是重要的。 既然如此,第 11 层就不需要重新做一次"谁重要"的判断,直接复用第 10 层的结果就行。 CLI 让单次索引计算可以被多个连续的注意力层复用,相当于把这笔开销"摊薄"了。 为了让模型在训练时就学会"相邻层的重要 token 分布是一致的",团队在训练阶段引入了"跨层蒸馏"。 让相邻层互相学习,保证这个特性在推理时真实成立。 第三个:层级化索引(HI) 这是一个"先粗筛再精选"的两阶段策略。 还是图书馆的比方:你要找关于"量子计算"的书,不会一本一本翻遍所有书,而是先找到"计算机科学"这个大区域(粗筛),再在这个区域里找具体的书(精选)。 HI 先用"block 级近似打分"做粗召回,缩小候选范围,再在候选里做精细的 token 级选择。 这样每次检索需要处理的候选空间大幅缩小。 HI 是可插拔的,只在超长上下文任务上按需启用,不影响普通任务。 这三个优化设计上互不干扰,可以独立开关,也可以组合使用。 投机解码:一个额外的加速技巧 文章里还提到 LSA 被扩展到了"投机解码"(Speculative Decoding)。 这个概念值得解释一下。 语言模型生成文字是一个字一个字输出的,每次输出都要等上一次完成。 投机解码的思路是:用一个小模型(Draft 模型)先快速猜测接下来几个词,再用大模型(Target 模型)一次性验证。如果猜对了,就省下了大模型多次生成的时间。 LongCat-2.0 用的是 3-step MTP,即小模型一次猜 3 步。 CLI 在这里的应用更激进:3 个 Draft 步骤共用一次索引结果,Step 2 和 Step 3 完全复用 Step 1 的索引,进一步压缩开销。 ## 架构改进二:N-gram Embedding,用更聪明的方式扩大参数 先理解"Embedding"是什么 模型在处理文字之前,需要把每个 token 转换成一串数字(向量),这个转换过程叫 Embedding。 你可以把它理解为"把词语翻译成模型能理解的坐标"。 "猫"和"狗"的坐标很近,"猫"和"飞机"的坐标很远。 模型通过这些坐标来理解词语之间的关系。 N-gram 的思路:不只看单个词,看词的组合 N-gram 的意思是"N 个连续 token 的组合"。 LongCat-2.0 用的是 5-gram,即每次看 5 个连续 token 的组合。 为什么要这样做?因为很多语义是由词的组合决定的,而不是单个词。 "人工"和"智能"单独看都是普通词,但"人工智能"作为一个组合,有完全不同的含义。 如果模型只看单个词,就需要通过多层计算才能"悟"出这个组合的含义。 N-gram Embedding 直接把常见组合的含义编码进去,相当于给模型提前建好了"词组词典"。 这样做的效果是:embedding 空间扩展超过 100 倍,模型对局部上下文的理解能力显著增强。 为什么要加 135B 参数的 N-gram Embedding,而不是直接加更多专家? 这是整个设计里最有意思的一个决策,值得细说。 LongCat-2.0 的 MoE 稀疏度接近 97%,意思是每次只用 3% 的参数。 在这个稀疏度下,如果再加更多专家(比如再加 135B 的专家参数),收益会很小。 为什么?因为专家越多,每个专家被调用的频率越低,训练时每个专家获得的"练习机会"越少,学得越不充分。 这就像一家有 1000 个医生的医院,每个医生每天只看一两个病人,技术很难精进。 但 N-gram Embedding 不一样。它在 MoE 的"稀疏维度"之外,开辟了一个新的维度来扩展参数。 这 135B 参数不参与 MoE 的路由竞争,而是直接作用于 token 的表示层,每次处理都会用到。 团队同时发现,N-gram Embedding 的占比有一个甜点区间:占总参数的 10% 以内效果最好,超过 50% 优势就消失了。LongCat-2.0 把这个比例控制在 10% 以内。 还有一个推理阶段的额外好处:把参数从专家转移到 N-gram Embedding,可以降低大 batch 解码时的显存 I/O 压力,加速解码。 原因是 N-gram Embedding 的访问模式更规律,对显存带宽更友好。 ## 国产算力上跑通万亿参数训练,工程上有多难 这一部分是整篇发布文章里信息密度最高的,也是最容易被忽视的。 显存不够,怎么办 国产芯片的单卡显存显著小于 H800 的 80GB。 训练 1.6 万亿参数的模型,显存是第一道墙。 团队的解法是 6D 并行。"并行"的意思是把模型和数据切开,分散到多张卡上同时计算。 常规的并行方式有 5 个维度: - TP(张量并行):把单个矩阵运算切开,分到多张卡上算 - CP(上下文并行):把长序列切开,分到多张卡上处理 - EP(专家并行):把不同的专家放在不同的卡上 - DP(数据并行):多张卡同时处理不同的数据 - PP(流水线并行):把模型的不同层放在不同的卡上,像流水线一样运转 LongCat-2.0 在这 5 个维度之外,额外加了第 6 个:EMBP(Embedding 并行),专门处理 135B N-gram Embedding 参数的并行加速。 除了并行,还有几个显存优化手段: ZeRO-1:优化器(负责更新参数的模块)的状态数据,往往比模型本身还大。ZeRO-1 把这些状态数据切分到多张卡上,每张卡只存一部分。 选择性重计算:正向计算时,有些中间结果可以不存下来,反向传播时重新算一遍。这样牺牲一点计算时间,换来大量显存节省。 OOM 自动卸载:当显存快满了(Out of Memory),自动把部分数据卸载到内存或硬盘,用时再取回来。 零计算专家:填充 token(用来凑齐序列长度的无意义 token)被路由到一个"零计算专家",不做任何实际计算,节省算力。 超节点:把几百张卡变成一个高速通信域 训练大模型时,卡和卡之间需要频繁通信(传递梯度、同步参数)。 通信速度往往是训练速度的瓶颈。 LongCat-2.0 的解法是"超节点":把最多 48 台机器组成一个超节点,节点内部用高带宽全互联,节点之间走 RoCE 网络(一种高性能网络协议)。 这样做的效果是:高带宽通信域从单台机器(通常 8 张卡)扩展到数百张卡。 带宽敏感的并行策略(TP/CP/EP)可以在这个大域内运行,不再受限于单机带宽。 相比同规模的普通配置,超节点额外带来约 30% 的预训练吞吐提升。 超节点同时是"亲和调度"的基本单元。 调度时优先把通信密集的任务分配在同一个超节点内,减少跨节点通信,在通信局部性和可调度性之间取得平衡。 Muon 优化器:一个来自学术界的新选择 优化器是训练时负责"根据错误信号更新参数"的模块。 最常用的是 Adam 系列优化器。 Muon 是一个相对较新的优化器,在某些场景下比 Adam 收敛更快、效果更好。 LongCat-2.0 在国产算力芯片上大规模部署了 Muon,并针对 TP 并行、DP 状态去冗余和高效矩阵乘核函数做了专项优化。 这是一个值得关注的信号:Muon 优化器正在从学术实验走向大规模生产部署。 确定性:让训练结果可复现 这个细节很少被提到,但在工程上极其重要。 "确定性"的意思是:给定相同的输入,每次计算的结果完全一致,不会因为浮点运算的舍入误差或并行计算的顺序差异而产生微小偏差。 为什么重要?因为在大规模训练中,微小的数值偏差会随着层数和步数累积,最终导致训练结果不可复现,甚至出现 loss 突刺(损失函数突然异常升高)。 团队自研了覆盖 Embedding、FA(Flash Attention)、LSA、MoE 等多个模块的确定性算子。 所有规约类算子(比如求和、求均值)都采用二叉树分段累加,减少浮点误差累积。 还有一个细节:在部分计算密集型算子上加入了"比特翻转检测"。 硬件偶尔会出现单个比特从 0 变成 1 或从 1 变成 0 的错误(宇宙射线、电磁干扰等都可能导致),这种错误会造成数值异常。 加入检测后,可以及时发现并处理,不让它悄悄污染训练结果。 故障恢复:5 万张卡,总有卡会出问题 5 万张卡同时运行,每天都会有硬件故障。 如果每次故障都需要人工介入,训练根本无法持续。 团队的解法是端到端监控驱动的自动故障恢复:监控系统持续检测链路状态,发现故障后自动识别、切流、恢复,全程无需人工介入。 故障链路的隔离对训练没有可感知的影响。 修复后的链路还需通过压测才能重新上线,防止带病工作的硬件再次引发问题。 这套机制是"全程无回滚"这个结果的工程保障。 ## 百万上下文推理:在受限硬件上的极限工程 训练完成后,还需要把模型部署起来,让用户能实际使用。 在显存、带宽都受限的国产芯片上,跑百万上下文的推理是另一道难题。 Prefill 和 Decode:推理的两个阶段 理解后面的优化,需要先知道推理分两个阶段: Prefill(预填充):模型读取你的输入(比如一篇 10 万字的文档),一次性处理所有输入 token,生成初始的 KV-cache(可以理解为"模型对输入的理解摘要")。这个阶段计算量大,但可以并行处理。 Decode(解码):模型一个 token 一个字地生成输出,每次生成都要读取之前的 KV-cache。这个阶段是串行的,受限于显存带宽。 LongCat-2.0 采用 Prefill-Decode 分离部署:两个阶段用不同的硬件节点处理,各自针对自己的瓶颈做优化。 KV-cache:长上下文的显存杀手 KV-cache 是长上下文推理的核心挑战。 每处理一个 token,模型都需要存储一个 KV(Key-Value)对,供后续 token 参考。 100 万个 token 的上下文,就需要存储 100 万个 KV 对。这个数据量非常大,很容易撑爆显存。 LongCat-2.0 的解法是 KVP(KV-cache 并行):把 KV-cache 切分到多张卡上,每张卡只存一部分,降低单卡显存压力。 Prefill 节点的优化 Prefill 节点的主要瓶颈是节点间通信带宽。 MoE 模型在处理 token 时,需要把 token 发送给对应的专家(dispatch),再把专家的计算结果收回来(combine)。 当专家分布在很多节点上时,这个通信开销很大。 解法是 Chunked Pipeline Parallel(CPP):把长序列切成小块,用流水线方式处理,缩小每次通信涉及的专家并行域(EP 域),减少跨节点通信量。 在每个流水线阶段内,再用 Attention Sequence Parallelism(SP) 把长序列的注意力计算分散到多张卡上,进一步分担计算压力。 Decode 节点的优化 Decode 节点的主要瓶颈是显存和 KV-cache 的 I/O 带宽。 除了 KVP 切分 KV-cache,还用了较大的专家并行度(EP128,即 128 张卡分担专家),压低每张卡上的权重显存和专家 I/O 压力。 大 EP 并行度带来一个新问题:专家负载不均。 如果某些专家特别受欢迎,对应的卡就会成为瓶颈,其他卡在等待。 EPLB(Expert-Parallel Load Balancing) 负责动态均衡专家负载,统计采集和分布计算全部异步化,不阻塞主计算流程。 面向国产芯片的两个底层优化 Super Kernel:GPU 上的每个算子(计算操作)在启动时都有固定的开销,就像每次开车都要先发动引擎。 如果算子数量很多,启动开销累积起来很可观。 Super Kernel 把多个算子合并成一个大算子,减少总启动次数,降低累积开销。 Weight Prefetch(权重预取):国产芯片的显存带宽有限,但 L2 缓存(比显存快得多的片上存储)相对较大。 Weight Prefetch 利用这块大 L2 缓存,在前一个算子还在计算时,提前把下一个算子需要的权重数据加载进来。 等前一个算子算完,权重已经在缓存里了,不需要再等显存读取。 这叫"把 I/O 延迟隐藏在计算之中"。 ## 后训练:三组专家,一套融合架构 模型训练完成后,还需要"后训练"来让它真正好用。 LongCat-2.0 的后训练引入了三大专家组,分工明确。 Agent 能力专家组 这组专家负责让模型能在真实场景中自主完成任务。 重点不只是"能完成任务",而是优化几个关键的"原子能力":复杂工具调用的精准度(调用 API 时参数不出错)、多轮交互中的参数解析能力(记住上下文,不重复问同样的问题),以及自我纠错机制(发现自己陷入死循环时能主动跳出来)。 这些"原子能力"决定了 Agent 系统的鲁棒性。 一个 Agent 能完成 90% 的任务,但剩下 10% 会卡死或出错,在生产环境里是不可接受的。 推理能力专家组 这组专家负责数学、STEM 复杂问题求解和多跳知识推理。 "多跳知识推理"是指需要串联多个知识点才能得出答案的问题。 比如"爱因斯坦出生那年,美国总统是谁?"需要先知道爱因斯坦的出生年份,再查那一年的美国总统,这就是两跳推理。 这组专家还实现了"基于问题难度的自适应推理计算",简单问题快速回答,复杂问题深度思考,不浪费计算资源。 交互体验专家组 这组专家负责让模型更"好用":细粒度指令遵循(你说"用列表格式回答",它就真的用列表)、抑制幻觉(减少一本正经地编造事实)、以及在不牺牲有用性的前提下建立安全边界。 最后,用 MOPD 架构在数万卡的国产算力集群上,把三组专家的能力融合进一个模型。 这是整个后训练流程的核心工程挑战:怎么让一个模型同时具备 Agent 执行力、深度推理能力和良好的交互体验,而不是顾此失彼。 ## 评测数据怎么看 评测数据里有几个基准值得解释一下,不然很难判断数字的含义。 Terminal-Bench 2.1:测试模型在终端环境里完成真实任务的能力,比如写脚本、调试程序、管理文件。 这是最接近"程序员日常工作"的评测之一。 LongCat-2.0 得 70.8 分,与 Gemini 3.1 Pro(70.7)基本持平,低于 Claude Opus 4.8(78.9)。 SWE-bench Pro:给模型一个真实的 GitHub 代码仓库和一个 bug 报告,让它自己找到问题并修复。 这是目前最接近"真实软件工程"的评测。 LongCat-2.0 得 59.5 分,超过 Gemini 3.1 Pro(54.2)和 GPT-5.5(58.6)。 SWE-bench Multilingual:同上,但涉及多种编程语言。 LongCat-2.0 得 77.3 分,与 Gemini 3.1 Pro(76.9)接近。 FORTE:面向 15 类企业职业的办公 Agent 评测,模拟真实的职场任务,比如整理数据、撰写报告、处理邮件。LongCat-2.0 得 73.2 分,低于 GPT-5.5(77.8)和 Claude Opus 4.7(77.6)。 GPQA-diamond:由博士级专家设计的科学问题,涵盖物理、化学、生物等领域,专门测试模型的深度知识理解能力。 LongCat-2.0 得 88.9 分,低于 Gemini 3.1 Pro(94.3)和 GPT-5.5(93.6)。 怎么理解这张表? LongCat-2.0 的优势集中在代码和搜索:SWE-bench Pro 超过了 Gemini 3.1 Pro 和 GPT-5.5,RWSearch 超过了所有对比模型。 这和它在长上下文处理和 Agent 能力上的投入是一致的。 在基础科学推理(GPQA-diamond)和指令遵循(IFEval)上,与 Gemini 3.1 Pro 和 GPT-5.5 还有差距。 这不是意外,而是取舍的结果:资源有限,优先把长上下文和 Agent 能力做到最好。 还需要注意的是,标注 * 的数字来自各家公司自己的公开报告,评测条件未必完全一致,比较时需要保留一定的判断余地。 ## 这件事真正重要的地方 读完所有技术细节,有一件事值得单独说清楚。 LongCat-2.0 在技术上的每一个选择,都是在国产芯片的硬件约束下做出的。 显存小,所以要做更精细的并行和显存优化。 软件生态不成熟,所以要自研大量算子和工具。 带宽受限,所以要把计算和通信的重叠做到极致。 这不是在已有成熟方案上做微调,而是在一个约束更多的环境里,重新设计了整套训练和推理的工程体系。 5 万片国产芯片、35 万亿 token、全程无回滚,这组数字的含义不只是"模型训练成功了",而是"这套工程体系在生产环境里被验证可行了"。 对于关注国产算力生态的从业者来说,这是一个值得认真对待的数据点。 模型已开源,API 接入和在线体验均已开放,有条件的话直接上手测试,比看评测数字更直接。

译美团发布并开源LongCat-2.0,1.6万亿总参数、480亿激活参数(3%)的MoE大模型。使用35万亿token训练,在5万片国产芯片上“全程无回滚”完成。引入LongCat稀疏注意力(LSA),包含流感知索引、跨层索引和层级化索引,解决长文本注意力瓶颈。采用5-gram N-gram Embedding增加135B参数,在不增加MoE专家竞争的情况下增强局部上下文理解。训练使用6D并行技术适配国产算力。计划2026年6月30日发布并开源。

François Chollet@fchollet · 1天前60

This will hopefully unlock a new wave of better entries. Check it out!

译tufalabs 刚刚开源了他们获得第一名的 notebook。主推文表示,这有望解锁新一波更好的参赛作品。

meng shao@shao__meng · 1天前75

/writing-great-skills https://github.com/mattpocock/skills/tree/main/skills/productivity/writing-great-skills 来自 152K✨ Skills For Real Engineers 作者 @mattpocockuk 的新 Skill,教咱们用最少但最有行为牵引力的结构,把 Skill 写成能稳定触发、分层加载、清楚完成、持续删减的“可预测工作流”。 # 跟这个优质 Skill 学它的编写思想 1. Skill 的根本目标是过程可预测 Skill 不是知识库,也不是提示词堆叠。它的作用是让模型在某类任务中形成稳定行为路径。好的 Skill 应该减少“这次做得细、下次做得浅”的波动。 2. 触发方式有成本权衡 它区分两类 Skill: · Model-invoked:模型能自动发现并调用。优点是无需用户记住,缺点是 description 会长期占用上下文注意力。 · User-invoked:只有用户点名才会触发。优点是零上下文负担,缺点是用户必须记得它存在。 这里很关键:不是所有 Skill 都该自动触发。只有当模型确实需要自己识别任务,或其他 Skill 需要调用它时,才值得让它 model-invoked。 3. description 是触发器,不是简介 对于 model-invoked skill,description 的职责不是介绍得完整,而是准确告诉模型“什么时候该用我”。因此它应当前置关键触发词,只保留真正不同的触发分支,避免同义重复。 这点很实用:很多 Skill 写坏,是因为 description 像产品简介,而不是调用条件。 4. 信息层级决定 Skill 是否清爽 它提出一个三层结构: · SKILL.md 中的步骤:模型必须按顺序做的事。 · SKILL.md 中的参考:模型运行时需要随手查看的规则、定义、事实。 · 外部参考文件:只在特定场景需要加载的材料。 好的 Skill 不把所有东西塞进主文件,而是用 progressive disclosure:常用、必须、影响流程的内容留在主文件;分支性、解释性、定义性内容放到外部文件,通过明确指针调用。 5. 每个步骤都要有完成标准 它特别强调 completion criterion。一个步骤不能只写“分析清楚”“完成检查”这种模糊目标,而要让模型能判断“是否已经完成”。 完成标准越清楚,越能防止模型提前进入下一步,也就是它说的 premature completion。 6. 拆分 Skill 不是为了整洁,而是为了控制注意力 什么时候拆? · 如果一个 Skill 有独立触发词,可拆成单独的 model-invoked skill。 · 如果后续步骤会让模型急着往前跑,可把流程拆开,隐藏后续步骤,迫使模型认真完成当前阶段。 这很像工作流设计中的“减少提前优化”和“控制认知视野”。 7. leading word 是压缩行为的关键词 它提出一个很有洞察的概念:leading word。也就是用模型预训练中已经熟悉的强概念,来压缩一组行为要求。 例如与其反复写“快速、确定、低开销”,不如找到一个更有行为牵引力的词。好处有两个:节省 token,并且更容易稳定唤起模型已有的行为模式。 但它也提醒:弱词可能无效。例如“be thorough”如果只是模型默认会做的程度,那就是 no-op;需要更有约束力的词。 它的失败模式诊断很有用 这个 Skill 给出的几个常见问题非常精确: · Premature completion:模型过早认为当前步骤完成。优先修正完成标准,而不是马上拆 Skill。 · Duplication:同一个意思出现在多个地方,增加维护成本,也会让某个概念被模型过度重视。 · Sediment:旧内容沉积,没人敢删,导致 Skill 越来越脏。 · Sprawl:内容都有效,但主文件太长,注意力被稀释。 · No-op:看似有用,实际不会改变模型行为的句子。 其中最有操作价值的是 no-op 测试:一句话如果删掉后模型行为几乎不变,它就不该留在 Skill 里。

译mattpocockuk 的 /writing-great-skills 成为其最常调用的 Skill,指导如何编写稳定可预测的 AI Skill。核心:以过程可预测为目标;区分 model-invoked(自动触发)与 user-invoked(用户调用),description 应作触发器;采用三层信息结构(主步骤、参考、外部文件)实现渐进式披露;每步骤需明确完成标准;拆分 Skill 是为了控制模型注意力;利用 leading word 压缩行为要求。同时诊断五种失败模式:Premature completion、Duplication、Sediment、Sprawl、No-op,并提供 No-op 测试作为判断句子是否有效的标准。

OpenAI Developers@OpenAIDevs · 2天前45

⚙️ We debugged a year’s worth of crashes in our data infrastructure and found one issue in the hardware and another that has been unnoticed in open-source code for 18 years. Here’s how we tracked them down: http://openai.com/index/core-dump-epidemiology-data-infrastructure-bug/

译⚙️ 我们在数据基础设施中调试了一整年的崩溃,发现了一个硬件问题,以及另一个在开源代码中隐藏了18年未被注意的问题。 以下是我们的追踪过程: http://openai.com/index/core-dump-epidemiology-data-infrastructure-bug/

fofr@fofrAI · 2天前73

You can bootstrap your agent quickly with the Omni API using the skill we published: https://github.com/google-gemini/gemini-skills It includes: - video editing - text to video - video generation with image references - first frame to video But it also has some helper tools for: - prepping input videos for editing (10s, 720p) - audio stripping if you want to generate new audio - video inspection

译Google 通过 Gemini Omni API 发布 gemini-skills 技能包,支持视频编辑、文生视频、图片参考视频生成、首帧生成视频,并提供预处理输入视频为 10 秒 720p、音频剥离、视频检查等辅助工具。同作者展示 Omni Flash 模型编辑能力:输入“将桌子改成浅水池”,模型输出湿手、水波、折射、阴影及音效。该 API 已开放,可用于构建视频编辑流水线。

elvis@omarsar0 · 2天前24

Recommended reading if you are scaling with open models. BTW, you should be thinking about how to scale with open-weight models.

译推荐阅读,如果你正在使用开放模型进行扩展。 顺便说一句,你应该思考如何使用开放权重模型进行扩展。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
02:35
Ethan Mollick@emollick
48
Fable:"你有 Unity 和 MCP 的访问权限。我要你构建一个游戏,它是 FPS 的独特变体。你要让玩家说'哇'和'太聪明了',并享受核心玩法循环" WebGL: https://swapshot-void.netlify.app/ * 它没有资产,所以图形是程序生成的

Ethan Mollick: *Cracks knuckles*

智能体MCP/工具教程/实践
02:10
elvis@omarsar0
48
Elvis Saravia(DAIR.AI)分享了其构建的 PaperWiki--一个由 LLM 和代码智能体自动维护的知识库,用于研究工作流、社区论文策展及通讯。PaperWiki 从多源摄取论文,存储于 Obsidian 并用 qmd 索引,支持全文和语义搜索。设有每日更新自动化,结合 Opus-4.8 和 DeepSeek-V4-Flash 等模型维护。作者认为 LLM Wikis 是 AI 最有价值的应用之一,可帮助去噪、发现高质量论文,并计划开源相关组件(含 HTML artifact)。

elvis: LLM Wikis are being slept on. I argue that creating knowledge bases with LLMs or coding agents is one of the most valuab...

智能体检索增强教程/实践
02:04
OpenRouter@OpenRouter
精选68
用 Fable 5 构建的鲁布·戈德堡机械,仅需 4.44 美元 👀 提示词在此:https://www.reddit.com/r/openrouter/comments/1ulkilz/i_asked_claude_fable_5_to_build_a_rube_goldberg/
教程/实践

推荐理由:一个好玩又有技术含量的玩法示范,Fable 5 配上精心调教的 prompt 把复杂机械动画成本压到几美元,做创意内容的可以直接抄作业。
01:22
AYi@AYi_AInotes
60
Firefox 内置免费 VPN,Claude Fable 5 在 ZenMux 上限时免费回归

Firefox 推出官方原生 IP 保护功能,内置免费 VPN,每月赠送 50G 流量。开启方法:地址栏输入 about:config → 显示全部首选项 → 搜索 browser.ipProtection.enabled → 切换为 true。Claude Fable 5 回归上线,ZenMux 上限时免费使用。Fable 5 可输出高质量人像提示词,通过拆解塑料感根源、8 维度框架及自我检查环节,系统性避免塑料皮肤、畸形手等问题。ZenMux 提供无 RPM 限制、同屏 PK 功能,支持 Fable5、GPT-5.5、Opus4.8 等多模型对比,自动充值每笔返 20% 余额。

AYi: Claude Fable 5今天回归上线啦,ZenMux上限时免费使用真的太香了! 怎么用Fable 5输出高质量的「不会塑料 + 顶级人像提示词方法论以及户外美女人像prompt方法论大家收好! 说真的,我以为上次的Fable 5总结的A...

开源生态教程/实践
00:29
Chubby♨️@kimmonismus
43
Kim 介绍用 Bloome 实现多 AI 智能体群聊协作

Kim (@kimmonismus) 介绍利用 Bloome 替代传统一对一 AI 聊天窗口,将其作为共享工作空间,让人类与多个 AI 智能体在同一群聊中协同完成内容工作流。通过一键模板创建创意团队,关键特点是智能体主动互相审核而非仅附和用户:Writer 起草视频论文结构,Audience 即时批评节奏并重写枯燥部分以维持观众留存,Art Director 在聊天窗口内整合视觉 Markdown 报告和缩略图设计。适合希望从编写固定提示词转向管理“人+智能体团队”的创作者、营销人员和运营人员。

智能体教程/实践
7月2日
23:32
SiliconFlow@SiliconFlowAI
31
硅基流动推出GLM-5.2 Week Summer Rush活动

硅基流动举办Summer Rush-GLM 5.2 Week活动。使用GLM-5.2分析任意GitHub仓库,自动生成交互式代码解读向导。参赛需申请SiliconFlow API Key,将GLM-5.2接入智能体并指向仓库。6月29日20:30至7月6日20:30(PDT)期间,发布成果到X并标记@SiliconFlowAI和#GLMOnSiliconFlow,填写报名表即可参与排名。第1名获本周GLM-5.2消耗全额代金券返还(最高$1,000)及额外$50代金券。前72小时投稿享Early Bird额外奖励,所有有效参与均有抽奖机会。

SiliconFlow: 🌊 Clear Your GLM 5.2 Spend. Up to $1,000 Voucher 🍺 SiliconFlow Summer Rush-GLM 5.2 Week is LIVE From 20:30:00 on June ...

教程/实践行业动态
20:21
AYi@AYi_AInotes
53
Claude Fable 5在ZenMux回归并限时免费,用户分享高质量人像提示词方法论

传闻中的顶级模型Claude Fable 5在ZenMux平台回归上线并限时免费,官方价格高达50美元/百万token,ZenMux上则零成本使用且无RPM限制。用户分享了一套利用Fable 5生成高质量人像提示词的方法论:先分析AI人像塑料感根源,再搭建涵盖主体人设、服装材质、表情瞬间等8个维度的框架,最后输出示例并自我修正。此外,ZenMux还免费提供Claude Sonnet 5和Gemini Nano banana 2 lite,支持同屏对比Fable 5、GPT-5.5、Opus 4.8等200+模型,自动充值每笔返20%余额(最高300美元赠金)。

AYi: Claude Fable 5今天回归上线啦,ZenMux上限时免费使用真的太香了! 怎么用Fable 5输出高质量的「不会塑料 + 顶级人像提示词方法论以及户外美女人像prompt方法论大家收好! 说真的,我以为上次的Fable 5总结的A...

Anthropic图像生成教程/实践
19:29
eric zakariasson@ericzakariasson
66
Fable 在 Cursor 中的两种高效用法

Eric Zakariasson 分享了 Fable 在 Cursor 中的两种用法。一是作为编排器(orchestrator),将子任务分派给 Composer 2.5 并行执行,仅在设计决策、复杂 Bug 等需要整体判断时才单独使用 Fable。有效简报需包含单一关注点、足够上下文、完成定义和简短报告。二是长时云智能体(Cloud Agents)模式,用于长期重构、多端功能或跨代码库调查,通过 iOS 应用监控并适时干预。作者还建议轮换不同模型,以保持对前沿能力的认知。

智能体教程/实践编码
19:29
fofr@fofrAI
60
这些与 Omni 配合得很好: > 这个奇怪生物的一个连续不间断场景<IMG_REF_0>,没有对话,摄像机从远处颤抖地拉近又拉远,对焦前有点模糊,正在下雨。将图像用作参考而非第一帧。一个由业余爱好者拍摄的长场景。

fofr: You can replace the animal and the object with anything in the quoted prompt, and NB2L let's you cycle through ideas qui...

教程/实践视频
18:59
向阳乔木@vista8
56
Computer Use 自动订阅 YouTube 播客体验

用户分享利用 Computer Use(中文名“电脑”)功能自动订阅 YouTube 播客的流程:先与 Raycast AI 对话获取值得关注的 AI 播客推荐,然后在 Codex 中通过 @Computer Use 指令输入推荐列表,等待数分钟即可完成全部订阅,实现“偷懒式”自动化操作。

智能体教程/实践
18:21
AYi@AYi_AInotes
61
AI是放大器而非核心发动机,个人判断力与执行力才是护城河;营销Agent Lev8 数据亮眼

作者用AI副业赚20万,感悟AI是普通人的公平杠杆,但核心是个人判断力与执行力。引用的推文介绍营销垂直Agent「Lev8」,在找海外客户场景中,有效结果量90个(Exa 58.2,Codex 20),匹配精度83.3%(Exa 76.5%,Codex 71.8%),单条成本$0.052(Exa $0.061)。Lev8聚合50+实时数据源和10亿+职场人脉,自动监测融资/招聘等商机,生成定制破冰文案,支持五渠道一键发出。

AYi: 真的有点兴奋,终于等来营销圈的 Codex 了,不管你是独立开发还是OPC一人公司,找客户扒联系方式写破冰信这些破事,直接给你干得明明白白! 甚至你用来做副业搞钱都是一个超级神器! 我们都知道,AI现在已经把写代码的门槛拉平了,Codex能...

智能体教程/实践
16:39
小互@xiaohu
66
用户使用豆包,根据详细prompt复刻了一部真人实拍与2D动漫贴纸合成的搞笑短视频。视频为第一人称厨房做饭视角,包含4个镜头:贴纸角色倒盐捣乱、被锅铲敲头、被喂盐咸菜、齁到倒地。prompt指定了风格(8K超清竖屏)、时长10秒、场景(真实厨房)、角色(金色长发水手服Q版贴纸人物)及各镜头的动作与音效。

John: 简简单单使用豆包复刻一下📺 prompt 👇 [风格]真人实拍+2D动漫贴纸合成搞笑短视频(Live-Action + Flat 2D Sticker Composite),第一人称做饭视角(POV Cooking Vlog),写实厨房...

多模态教程/实践视频
15:21
AYi@AYi_AInotes
62
Claude Fable 5 在 ZenMux 回归,免费使用无 RPM 限制

Claude Fable 5 在 ZenMux 平台回归上线,提供免费端点 claude-fable-5-free,账户有余额即可使用,无 RPM 限制,免去官方高价。博主分享用 Fable 5 生成高质量人像提示词的方法论:先拆解 AI 人像塑料感根源,再搭建覆盖主体人设、服装材质、表情瞬间等 8 维度的框架,最后输出示例并自我修正。三个关键技巧:赋予顶级专业人士身份、必须分析塑料感根源、利用 Fable 自检能力。ZenMux 另支持同屏 PK 模型、自动充值返 20% 余额等福利。

AYi: 跟大家分享下绝版的Claude Fable 5总结的AI生图焚决,+2个顶级美女人像提示词,这篇至少值3000块! 昨晚睡前让Fable 5总结了AI生图之性感人像提示词最有效的写法: 1️⃣用"成人 + 气质 + 材质"来定人设,比如 2...

图像生成教程/实践
13:30
Ethan Mollick@emollick
60
Fable,一个提示词:"构建一个精心设计的游戏,让我在完全不懂国际象棋的情况下,感觉自己是个出色的棋手。它应该让我感觉自己像个大师。尽情发挥元创意,但越像国际象棋越好。" https://game-seven-chess.netlify.app/
教程/实践编码
13:00
Ethan Mollick@emollick
72
Ethan Mollick 提醒,Fable 在长时间任务中会发展出独有的内部节奏和对话模式,其多个 agent 与任务相互强化,使得 "Claudish" 语言越来越 "Claudish"。若不主动要求它用 plain language 报告,这种怪异风格会渗透到包括菜单在内的所有输出中。

Ethan Mollick: One thing I mentioned only in passing in my Fable post is that, for long running tasks, Fable starts to develop its own ...

智能体教程/实践
11:25
歸藏(guizang.ai)@op7418
71
藏师傅社交卡片Skill更新:支持Live Photo生成与编辑

歸藏的guizang-social-card-skill新增Live Photo能力,支持单视频动态卡片、拼图式(二/三/四宫格)、三连Live Photo及长视频筛选。核心细节:第一帧可作为静态图发布;小红书5秒/公众号3秒时长区分;发布需将JPG+MOV打包为.pvt并通过AirDrop传到iPhone。建议先粗剪视频每段10秒左右,让AI判断适合做Live Photo的片段。安装或更新后即可使用。

智能体GitHub产品更新图像生成
11:25
歸藏(guizang.ai)@op7418
69
AI Skills 让 Live Photo 制作门槛大降

藏师傅推出的 Skills 功能可制作 Live Photo,用户只需提供文案和一段视频,便能自动完成编辑、排版并生成带文字的 Live Photo。该功能还能执行拼图、夹子等基础编辑操作,比市面上同类产品更方便。其门槛极低,适合展示步骤说明、产品细节、动态网页等需要动态呈现的场景。

歸藏(guizang.ai): http://x.com/i/article/2072507922257723392

多模态教程/实践
10:31
Berryxia.AI@berryxia
21
个人Agent工具Bloome:全平台解析项目并调用本地Cline/Codex

Berry Xia 分享个人长期使用的工具 Bloome,支持 Windows、Mac、iOS 及网页端。用户将项目和产品链接丢给 Bloome,它能自动判断是否可运行或解析,然后直接调用本地的 Cline 或 Codex 执行任务。引用推文补充,该工具接入了小米的 mimo 模型,可实现听说读写、下载视频、剪辑等功能,体验优于多数 Agent。作者强调这不是广告。

Berryxia.AI: 我不管别人怎么吹,我觉得切身体会每天都用这玩意。 发现真的比很多Agent什么的好用很多,我接的是小米的mimo模型,听说读写,下载视频、剪辑什么的都可以搞定。 我已经当个小秘在用了哈! PS:不是一条广告😁 如果是就让老板安排打钱吧!

智能体教程/实践
10:08
小互@xiaohu
56
Claude Code 副屏:将回答转为直观页面展示

@xiaohu 开发了一个 Claude Code 副屏工具,解决 CC 回答大段文字时密集难读的问题。副屏将 CC 的回答直接转换成直观页面展示,让用户能快速理解和预览答案,并且支持交互式数据回传。

小互: 给你们看看我开发出一个什么东西 哈哈哈哈 我觉得可玩性还是非常高的😂

智能体教程/实践编码
09:07
meng shao@shao__meng
精选77
Emil Kowalski 发布设计工程师 Skills,让 AI 编码工具具备 UI 动画审美

Emil Kowalski 将多年 UI/动画原则沉淀为三个 Skill,使 Codex、Claude Code、Cursor 等 Coding Agents 具备资深设计工程师的审美判断。核心规则:动画必须有理由;每天 100+ 次的高频操作禁用动画;UI 动画控制在 300ms 内;只动画 transform 和 opacity;入口从 scale(0.95)+opacity:0 开始;尊重 prefers-reduced-motion(仅移除位移动画)。review-animations 以严格标准审查动画代码,输出 Before/After/Why 表格。animation-vocabulary 将模糊描述(如“弹一下的效果”)转为专业动效术语。

智能体GitHub教程/实践编码

推荐理由:Emil 把设计工程直觉变成了 AI 编码代理能理解的规则,clone 下来就能让 Claude Code 和 Cursor 产出有品味的动效,做前端的值得立刻试试。
08:21
AYi@AYi_AInotes
73
Seedance 2.0 生成逼真韩国社区生活视频

Seedance 2.0 通过详细 prompt 生成一段超真实视频,以 2000 年代初 DV 摄像机美学展示韩国女性日常:手持抖动、自动对焦搜索、曝光波动、运动模糊等不完美感,配合环境自然音(鸟鸣、风声、社区闲聊),实现家庭录像般的独特说服力。

图像生成教程/实践视频
06:26
Peter Steinberger 🦞@steipete
47
将 Codex 指向 OpenClaw iOS 应用的一些 Twitter 反馈后,它进行了一次初步改进。虽然还不够好,但就两个提示词而言还算不错。 特别酷的是它如何使用 computer use 来添加前后对比截图,因为没有 GitHub API。 https://github.com/openclaw/openclaw/pull/98452
智能体教程/实践编码
05:56
Peter Steinberger 🦞@steipete
50
要求 Codex 下载并转录 @aiDotEngineer 的所有会话,并根据我的兴趣进行定制。
教程/实践编码
04:35
Nathan Lambert@natolambert
43
我在课程中陆续制作 Q&A 视频。这是下一期,涵盖 on-policy 蒸馏和奖励模型推导中的细微修正、做这类数学时常见的符号陷阱,以及更多深入资料(例如 @johnschulman2 的 KL 估计博客)。 Q&A 2 来了! 00:00 推导修正 06:10 代码示例与额外资源 08:08 更多 RL 符号与注释 继续在 YouTube、GitHub 和 Discord 上发送问题吧。我和 Phoebe 都很喜欢这些问题。
安全/对齐教程/实践数据/训练
04:34
宝玉@dotey
41
Seedance 2.0 4K做的短片,用的 CapCut Video Studio
教程/实践
01:21
AYi@AYi_AInotes
47
AI零成本副业:儿童动画月入$5000+,营销Agent Lev8找客户三项Benchmark领先

主推文介绍零成本AI副业:用AI做YouTube儿童早教动画。五步:搜童谣对标、AI改写脚本、Wan2.7或Pika生成动画、AI配儿童音色+背景音乐、标题标签SEO。日更1-2条,首月见收益,月入$5000-$10000。注意纯原创、专业儿童音色、遵守COPPA关闭个性化广告。另引用营销Agent Lev8,找海外客户场景:有效结果90个(Exa 58.2,Codex 20),匹配精度83.3%(Exa 76.5,Codex 71.8),单条成本$0.052(Exa $0.061)。Lev8聚合50+数据源和10亿+职场人脉,支持5个渠道发送定制破冰消息。

AYi: 真的有点兴奋,终于等来营销圈的 Codex 了,不管你是独立开发还是OPC一人公司,找客户扒联系方式写破冰信这些破事,直接给你干得明明白白! 甚至你用来做副业搞钱都是一个超级神器! 我们都知道,AI现在已经把写代码的门槛拉平了,Codex能...

智能体多模态教程/实践视频
7月1日
23:31
Berryxia.AI@berryxia
47
接入小米mimo的AI智能体实测

我不管别人怎么吹,我觉得切身体会每天都用这玩意。 发现真的比很多Agent什么的好用很多,我接的是小米的mimo模型,听说读写,下载视频、剪辑什么的都可以搞定。 我已经当个小秘在用了哈! PS:不是一条广告😁 如果是就让老板安排打钱吧!

Bloome: This is what Bloome was built for. Drop Claude Code, Codex and DeepSeek into one group chat and they build competing ver...

智能体多模态教程/实践
23:31
Berryxia.AI@berryxia
58
用户用Codex将GEO入门文档整理后,分别交给6个顶流PPT Skill生成演示内容。部分Skill输出HTML,宝玉走生图路线,PPT Master可直接生成PPT和PDF便于编辑。归藏版本留白较多,适合演讲类内容,而非知识点密集的培训课件。测试仅反映默认表现,不代表各Skill能力上限。用户根据本次交付暂时更倾向PPT Master。

赖叔 | LaiShu.ai: 2 分钟,一边入门 GEO 一边看懂 6 个顶流 PPT Skill 的区别 素材来自姚老师 @yaojingang 的分享 我先让 Codex 整理成一份入门文档 再把完全相同的内容交给 6 个 PPT Skill 最后把 6 份结果剪到...

教程/实践评测/基准
23:21
AYi@AYi_AInotes
43
Lev8:营销领域的 Codex,一人顶一个商务团队

Lev8 被定位为营销领域的 Codex,专门解决找客户、写破冰信等脏活。Benchmark 显示:海外找客户场景有效结果量 Lev8 90 个(Exa 58.2,Codex 20),匹配精度 83.3%(Exa 76.5%,Codex 71.8%),单条成本 $0.052(Exa $0.061)。产品聚合 50+ 实时数据源(LinkedIn、X、YouTube 等),覆盖 10 亿+ 职场人脉,自动监控融资、招聘、网站改版等信号,生成定制破冰话术,通过邮件、LinkedIn、WhatsApp、Instagram、X 五个渠道批量发送并统一管理回复。适用于独立开发者、一人公司、猎头、中介等需要精准找人的场景。

AYi: 真的有点兴奋,终于等来营销圈的 Codex 了,不管你是独立开发还是OPC一人公司,找客户扒联系方式写破冰信这些破事,直接给你干得明明白白! 甚至你用来做副业搞钱都是一个超级神器! 我们都知道,AI现在已经把写代码的门槛拉平了,Codex能...

智能体搜索教程/实践
22:29
ginobefun@hongming731
48
AI产品设计原则:帮助用户恰当依赖AI

文章总结9组39条AI设计原则,核心是让用户信任程度匹配AI真实可靠性。关键点:AI应发挥模糊意图、内容生成等优势,而非替代传统界面;接受输出多样性,提供多版本和局部修改;输出附证据便于一键验证;用户保留编辑、拒绝、撤销等控制权;AI诚实说明角色和限制;重视失败路径,支持撤销、日志、转人工。

智能体教程/实践
19:41
OpenBMB@OpenBMB
35
真的写得很好且实用。👍 我们很欣赏你如何拆解整个本地管道,并突出说明了为什么 MiniCPM-V 4.6 是边缘部署的绝佳选择--其小巧的尺寸、强大的多模态能力以及在 Apple Silicon 上出色的效率正是这些模型令人兴奋之处。🤗

Shirish Srivastava: https://medium.com/@shirishsrivastava/running-local-vision-llms-on-apple-silicon-a-lightweight-playwright-llama-cpp-pipe...

多模态教程/实践端侧
19:22
fofr@fofrAI
69
Nano Banana 2 Lite 是一款图像生成工具,支持将动物头部替换为任意物体,并自动匹配颜色与纹理,实现无缝、自然的融合(如阿拉伯眼镜蛇头部替换为订书机,物体特征巧妙构成面部,原始动物面部完全不可见)。用户可快速迭代不同动物与物体组合,快速探索创意。

fofr: Nano Banana 2 Lite: > a photo of an arabian cobra, but the head is replaced with a stapler, seamless, perfect animal-obj...

图像生成教程/实践
17:22
fofr@fofrAI
51
仅供参考,JSON 提示词与 Nano Banana 2 Lite(简称 NB2L?)兼容。
图像生成教程/实践
17:21
向阳乔木@vista8
61
前端动效查词、打磨与审查AI Skill

Vista 分享一个前端开发 Skill,可当作专业动效字典使用:通过 animation-vocabulary 查询“列表一个个冒出来”等动效的标准术语;用 emil-design-eng 打磨弹窗、按钮、页面动效;用 review-animations 审查动画问题。地址详见评论。

教程/实践编码
12:21
向阳乔木@vista8
61
美团发布并开源LongCat-2.0万亿参数MoE大模型

美团发布并开源LongCat-2.0,1.6万亿总参数、480亿激活参数(3%)的MoE大模型。使用35万亿token训练,在5万片国产芯片上“全程无回滚”完成。引入LongCat稀疏注意力(LSA),包含流感知索引、跨层索引和层级化索引,解决长文本注意力瓶颈。采用5-gram N-gram Embedding增加135B参数,在不增加MoE专家竞争的情况下增强局部上下文理解。训练使用6D并行技术适配国产算力。计划2026年6月30日发布并开源。

开源生态推理教程/实践数据/训练
12:06
François Chollet@fchollet
60
tufalabs 刚刚开源了他们获得第一名的 notebook。主推文表示,这有望解锁新一波更好的参赛作品。

Greg Kamradt: .@tufalabs just open sourced their 1st place notebook 👀

开源/仓库开源生态教程/实践
09:33
meng shao@shao__meng
精选75
mattpocockuk 的 /writing-great-skills:编写可预测 AI Skill 的指南

mattpocockuk 的 /writing-great-skills 成为其最常调用的 Skill,指导如何编写稳定可预测的 AI Skill。核心:以过程可预测为目标;区分 model-invoked(自动触发)与 user-invoked(用户调用),description 应作触发器;采用三层信息结构(主步骤、参考、外部文件)实现渐进式披露;每步骤需明确完成标准;拆分 Skill 是为了控制模型注意力;利用 leading word 压缩行为要求。同时诊断五种失败模式:Premature completion、Duplication、Sediment、Sprawl、No-op,并提供 No-op 测试作为判断句子是否有效的标准。

Matt Pocock: /writing-great-skills is quickly becoming my most often-invoked skill It's just really good at writing skills, guys. npx...

智能体GitHub教程/实践

推荐理由:Matt Pocock 把写 Skill 从玄学变成了可拆解的工程,其中领先词和完成标准这两个概念,能立刻让你的自定义工具行为更稳定,搞 Agent 的都应该试一下。
01:00
OpenAI Developers@OpenAIDevs
45
⚙️ 我们在数据基础设施中调试了一整年的崩溃,发现了一个硬件问题,以及另一个在开源代码中隐藏了18年未被注意的问题。 以下是我们的追踪过程: http://openai.com/index/core-dump-epidemiology-data-infrastructure-bug/
OpenAI教程/实践部署/工程
00:50
fofr@fofrAI
73
Google 通过 Gemini Omni API 发布 gemini-skills 技能包,支持视频编辑、文生视频、图片参考视频生成、首帧生成视频,并提供预处理输入视频为 10 秒 720p、音频剥离、视频检查等辅助工具。同作者展示 Omni Flash 模型编辑能力:输入"将桌子改成浅水池",模型输出湿手、水波、折射、阴影及音效。该 API 已开放,可用于构建视频编辑流水线。

fofr: Omni Flash is a smart model. The way the hand is wet, the water ripples, the refraction, the shadows, the sound effects ...

智能体Google教程/实践视频
6月30日
22:35
elvis@omarsar0
24
推荐阅读,如果你正在使用开放模型进行扩展。 顺便说一句,你应该思考如何使用开放权重模型进行扩展。

elvis: http://x.com/i/article/2071684582336782336

开源生态教程/实践
‹ 上一页
123…31
下一页 ›