AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1227 条
全部一手资讯X论文
标签「教程/实践」清除
Berryxia.AI@berryxia · 5月13日67

这位老哥的,Codex的使用小Tips!👇🏻

译这位老哥的,Codex的使用小Tips!👇🏻 💡 小Codex技巧: 你不必局限于一次只看一个线程。 🪟 并行打开多个完整窗口 💬 使用 /side 分支对话以提出临时后续问题 🛟 你还可以为Codex弹出窗口设置热键以快速发起新任务

Berryxia.AI@berryxia · 5月13日75

90%的人在白白浪费“Token”! 看到 @DeRonin_ 转的一条 Andrej Karpathy 的观点,看下来觉得这对天天Vibe Coding的人来说太特么扎心了! Karpathy 直接说:“你 AI coding 账单的 90% 其实都花在了发一些根本不需要的 context 上。” 他接着列了 10 条高级工程师已经彻底不干的浪费行为,我挑几个最常见的说说: 比如以前动不动就自动把 50 个文件全塞进去改 30 行代码,结果一轮下来 1.2 美元的 token 你根本不会去读。 或者拿 Opus 去跑 lint、格式化、改名这种小活,其实 Haiku 两分钱就能搞定,贵了 30 倍。 还有 agent 每次 retry 都把整个 repo 重新发一遍,成本直接翻 5 倍。 现在大家默认用 Sonnet,结果 Kimi 2.6 在大部分 coding 任务上质量差不多,价格却只有 1/6。 还有“以防万一”把文件全扔进 prompt,8 万 token 其实 3000 就够。 每次 session 都让 agent 从头重建知识,其实写一个 SKILL.md 就能省下大把钱。 他最后说,真正能省钱又能把事情做好的,是把 context 管严、稳定前缀全开 prompt cache、用多模型路由(Kimi 2.6 当主力,Opus 只留 10% 关键任务)、把重复工作做成 SKILL.md 文件、每次先 profile 工具调用再优化 prompt。 一句话,12 个月后,拉开开发者月花费 200 美元和 4000 美元差距的,不是谁技术更牛,而是谁把 context 和 routing 玩得更明白。 值得每个重度用 AI 写代码的同学好好看看。

译Andrej Karpathy指出,AI编程账单的90%浪费在发送不必要的上下文上。常见浪费行为包括:过度加载文件、使用高价模型处理简单任务、Agent重复发送整个代码库、默认选用高价模型而非性价比更高的替代品。优化策略强调严格管理上下文、启用提示词缓存、采用多模型路由(如主力用Kimi 2.6,关键任务用Opus)、创建SKILL.md文件避免知识重建、先分析工具调用再优化提示。未来,开发者月花费的巨大差距将取决于其上下文和模型路由的管理能力,而非纯粹的技术水平。

宝玉@dotey · 5月13日68

Codex App 可以当 Typeless 用,开启全局快捷键设置正确权限后就可以在任意输入位置语音输入,效果还不错。 比如说这一段文字就是Codex帮忙输入的。

向阳乔木@vista8 · 5月13日56

Skill写成好了,做了第一个测试。 调研讨论最好的所见即所得Markdown编辑开源库。 最终报告在这里: https://www.32kw.com/view/f4acd0c 结论是我的需求没提清楚,选好数据模型,库的选择才有意义,哈哈哈。

译作者完成了首个测试,调研了最佳的开源所见即所得Markdown编辑库,并得出结论:明确需求和数据模型是选择合适库的前提。同时,他参考了@vista8提及的HeavySkill论文思路,该论文提出让多个AI(如Claude、Codex)先并行独立推理,再通过另一轮推理整合思路,以显著提升回答质量。作者正基于此思路开发一个Skill进行实践。

凡人小北@frxiaobei · 5月13日68

AI 时代每个人的工作方式都可以长这样,开完会不用整理、消息不用一条条看、重复的事 Agent 替你跑、只做真正需要你决策的事。 分享下官方 100+ 能力清单和一些使用案例,有需要的可以折腾起来 https://bytedance.larkoffice.com/wiki/CLNjwBozvi11IjkeChOcltHinye 不管你是带团队的还是单打独斗的,飞书 CLI 过去一个月悄悄更新了 100+ 能力,Bot@Bot、画板、妙记、审批、知识库全部可以被 Agent 编排,个人和团队都能用。

译飞书CLI近期悄然更新了100多项能力,允许用户通过AI Agent自动化编排飞书内的多项功能,如Bot、画板、妙记、审批和知识库。这旨在将AI能力从开发层延伸至日常协作层,解决工作碎片化问题。引用推文指出,管理者可为下属配置专属Agent,实现Agent间的自动化沟通与任务处理,从而让人专注于核心决策,提升个人与团队效率。官方提供了能力清单和使用案例以供参考。

Xiaomi MiMo@XiaomiMiMo · 5月12日58

Heads up, agent users! If you're using Xiaomi MiMo with thinking mode: When thinking mode is enabled in a multi-turn agent session and the conversation history contains a tool call, any assistant message with tool calls passed back in subsequent user turns must preserve its full reasoning_content field — otherwise the API will return a 400 error. Without it, the model's context is incomplete, which can lead to weaker instruction-following, more hallucinations, and a visibly degraded user experience. Missing reasoning = incomplete context = degraded reasoning quality. Affected frameworks include TRAE, Cursor, Roo Code, Codex, GitHub Copilot CLI, Zed, AutoGen. We're actively working with the maintainers to push compatibility updates. Affected models: MiMo-V2.5-Pro, MiMo-V2.5, MiMo-V2-Pro, MiMo-V2-Omni, MiMo-V2-Flash. See docs(https://platform.xiaomimimo.com/docs/en-US/usage-guide/passing-back-reasoning_content )for more details.

译当在多轮代理会话中启用小米MiMo思考模式,且对话历史包含工具调用时,后续用户回合中传回的助手消息必须保留完整的reasoning_content字段,否则API将返回400错误。缺失该字段会导致模型上下文不完整,进而削弱指令跟随能力、增加幻觉并显著降低用户体验。受影响的框架包括TRAE、Cursor、Roo Code等,受影响模型涵盖MiMo-V2.5-Pro、MiMo-V2.5等多个系列。开发团队正与相关维护者合作推送兼容性更新以解决此问题。更多详情请参阅官方文档。

向阳乔木@vista8 · 5月12日72

如何让Claude Code中调用Codex,可安装OpenAI提供的官方插件。 在Claude Code中依次执行: 1. 添加库 /plugin marketplace add openai/codex-plugin-cc 2. 安装插件 /plugin install codex@openai-codex 3. 重新加载插件 /reload-plugins 4. 登录配置(已安装登录Codex cli,这步不用) /codex:setup

译本文介绍了在Claude Code中通过插件市场安装OpenAI官方Codex插件的具体步骤:添加库、安装插件、重新加载及配置。其核心实践动机源于HeavySkill论文提出的“重思考”方法,即让多个AI模型并行独立推理,再由一个模型(如Codex)作为主持人综合思路以提升回答质量。作者正依此构建由Claude Code推理、Codex主持的Skill。

Berryxia.AI@berryxia · 5月12日67

Seedacne 2.0+ GPT-image-2 就可以完成如下视频,还原度不错,Prompt见评论区!

Berryxia.AI@berryxia · 5月12日73

过于实用 、给你的AI了解牛马更多的上下文。

译AI Agent需要用户消费上下文才能充当个人管家,作者调研了主流消费平台的订单导出方法。淘宝提供导出功能;京东无官方支持,但通过Codex定制Chrome插件实现一键导出,并开源在Github;闪购(饿了么)可申请导出Excel;美团外卖暂无方法;大众点评通过定制插件导出收藏列表。作者开源了京东和大众点评的导出工具,鼓励用户利用这些数据让AI Agent进行个性化分析,以提升服务实用性。

Kling AI@Kling_ai · 5月12日63

Imagine what you could create, templates ready in Kling AI! 🟢

译用户利用GPT image 2与Kling AI,根据详细提示词生成了一张模拟电视转播视角的超写实F1赛事直播截图。画面聚焦于一位在VIP围场/车队车库中的年轻女性,其身份特征从参考图像中被精确保留。她佩戴专业赛车耳机,神情紧张专注,画面包含“FINAL LAP”横幅、计时塔、直播标识等完整的转播图形元素。作品特别注重广播级细节,如压缩伪影、自然肤质和8K画质,旨在完美呈现如同真实电视截图的视觉效果。

凡人小北@frxiaobei · 5月12日62

我给每个下属都配了一个专属 Agent,跑在飞书上。现在是他们的 Agent 在跟我的 Agent 对话,我在旁边看着。 带团队这些年,我最大的感受不是累,是碎。 各种项目要跟,各种进展要盯,各种需求要确认。AI 让每个程序员的产出翻了好几倍,活多了,事也多了,人还是那几个。 有一天我看着 Claude Code 自己把一个功能从需求写到上线,然后转头看了眼飞书群,纪要要人整理,进展要人跟,审批堆着等人看。开发层已经 AI 化了,协作层还是原始人。 正好发现飞书 CLI 过去一个月悄悄更新了 100 多条能力,很多上个月还不存在的东西,现在已经可以用了。我就开始动手改。

译一位团队管理者表示,AI极大提升了程序员个体产出,导致工作量与事务激增,但团队规模未变。其核心矛盾在于开发层已实现AI化,而项目跟进、纪要整理、审批等协作层工作仍依赖人工,效率低下。为此,他利用飞书CLI近期密集更新的能力,为每位下属配置了专属Agent。现在,下属的Agent与他的Agent直接对话处理事务,他本人则转为旁观协调,以此应对管理事务过于“碎片化”的挑战。

向阳乔木@vista8 · 5月12日29

大家想读什么论文或书,但不想消耗自己Token。 欢迎留言,我来帮大家跑,解读成图文并茂的文章,一起学习。 示例为ViT经典论文解读。 https://blog.qiaomu.ai/vit-vision-transformer-image-recognition

译博主发起一项服务,邀请读者留言提出希望阅读但不愿自行消耗Token的论文或书籍。博主将代为处理,并将其解读成图文并茂的文章供大家共同学习。推文以Vision Transformer(ViT)的经典论文解读作为示例,并附上了相关博客链接。

Berryxia.AI@berryxia · 5月12日65

刚刷到CJ Zafir 发了一条关于 fine-tuning 小模型的帖子,看下来觉得这波建议特别实在。 他直接说,如果你也喜欢玩开源模型 fine-tuning,那先听听这些: 从 1B、2B、4B、8B 这些小模型开始练手,别一上来就冲 27B 以上。 云 GPU 用 Google Colab Pro 就够了,A100 80GB 一小时才 0.6 美元左右,小模型完全够用。 数据集自己造,用 Codex 5.5 先规划,再配 DeepSeek v4 Pro 生成每一行数据。 底座模型推荐 Unsloth 的 instruct 版本,Hugging Face 上直接拉,fine-tuning 笔记也用他们的做参考,直接丢给 Codex 让它帮你改成你想要的配置。 他建议花一天时间把这些东西过一遍:SFT、RL 训练(GRPO、DPO、PPO 这些)、LoRA / QLoRA、量化类型、本地推理引擎(llama.cpp)、KV cache 和 prompt cache。 他说就直接上手吧,Claude、Codex、ChatGPT 都能给你设计第一步的完整计划。 最后他还提到,未来技术会越来越往 5B 到 15B 的 Expert Language Models 走,并非一味堆通用大模型,所以 fine-tuning 这门手艺现在学特别值。 很多公司愿意花 5 万美元以上,让你帮他们用自家数据训个性化模型。 整条帖子的意思就是:fine-tuning 其实谁都能入门,调模型、测模型、用模型,慢慢就能把这变成一份靠谱的事业。 感兴趣的可以看看,还挺有意思。

译CJ Zafir 为开源模型微调新手提供了系统建议。入门应从 1B、2B 等小参数模型开始,推荐使用 Google Colab Pro 等低成本云 GPU 服务。数据集构建可结合 Codex 5.5 与 DeepSeek v4 Pro,基础模型建议选用 Hugging Face 上的 Unsloth instruct 版本。关键学习内容包括 SFT、RL 训练、LoRA/QLoRA、量化及本地推理引擎等。未来技术趋势正转向 5B 至 15B 参数的专家模型,掌握微调技能市场价值高,企业常愿支付高额费用定制个性化模型。

OpenAI Developers@OpenAIDevs · 5月12日48

What if your team gave standup updates, and GPT-Realtime-2 moved the tickets?

译如果你的团队在站会中更新进度,而GPT-Realtime-2自动移动任务票呢?

PixVerse@PixVerse_ · 5月12日70

ok @PixVerse_ these vibrant panels slap 🔥

译用户通过引用推文展示了由GPT Image 2在PixVerse平台上生成的一组高端时尚编辑图像。该图像采用2行4列的网格布局,包含8个独立面板。每个面板均以不同鲜艳纯色或渐变背景呈现一位身着现代街头服饰的年轻男模特,搭配滑板、吉他等道具,并采用简洁的工作室布景。图像整体追求商业广告摄影风格,具有奢侈品品牌广告的美学质感,强调柔和灯光、清晰阴影、逼真皮肤和电影级质感,且不含任何文字或标识。

Yuchen Jin@Yuchenj_UW · 5月12日74

When I want to learn something new, or dig into a paper, I have Claude generate a HTML for me. This works surprisingly well (especially in Claude, since Codex generated HTML is still kinda ugly...) It's better than Google NotebookLM. Podcasts are nice, but reading is much higher-bandwidth than listening to a podcast. HTML has a key advantage: they can show things. Diagrams. Charts. Interactive bits. You can actually poke at the idea, not just passively consume it. Then I iterate. Ask questions. Refine sections. Add missing pieces. The HTML evolves with my understanding. Over time, this compounds into a personal knowledge base. "The input/output mind meld between humans and AIs is ongoing and there is a lot of work to do and significant progress to be made, way before jumping all the way into neuralink-esque BCIs and all that." 💯

译作者提出一种高效学习方法:让Claude等大语言模型生成HTML文档来辅助深入学习与研究。相比纯文本或播客,HTML能嵌入图表和交互元素,支持主动探索。通过迭代提问和修改,文档随理解深入而演化,最终累积成个人知识库。文章引用观点指出,人机交互的输入输出融合尚有巨大发展空间,当前阶段可探索让LLM以HTML格式输出。信息呈现方式正从纯文本、Markdown向HTML及未来的交互式神经视频演进,以充分利用人类强大的视觉处理能力。作者认为,音频可能是人类偏好的AI输入方式,但视觉内容则是更高效的AI输出形式。

Google AI Developers@googleaidevs · 5月12日60

Build production-ready solutions with @GoogleDeepMind’s Gemini for Developers course. Registration opens today for this specialization series from @coursera that teaches you how to: - Reason & Act: Build AI apps that don't just generate text, but reason through complex tasks - Connect & Automate: Use function calling to connect Gemini with real-world tools - Scale with Confidence: Build, test, and deploy scalable AI systems Start building with Gemini today ↓ https://www.coursera.org/specializations/gemini-for-developers?utm_source=tw&utm_medium=social&utm_campaign=launch_gemini_s12n_04292026

译谷歌DeepMind与Coursera合作推出的“Gemini for Developers”专项课程现已开放注册。该课程旨在指导开发者利用Gemini模型构建可用于生产环境的AI解决方案。其核心涵盖三大模块:“推理与行动”使AI应用能推理并执行复杂任务;“连接与自动化”通过函数调用将Gemini与现实世界工具集成;“规模化与信心”则专注于构建、测试和部署可扩展的AI系统。课程强调超越单纯文本生成,实现实际任务的自动化与系统集成,助力开发者快速上手。

凡人小北@frxiaobei · 5月11日49

Tesla 的 FSD 的对比还是挺震撼的,左边人眼看到的完全是一片白茫茫的眩光,右边AI重建出来的画面却清晰可辨。 简单科普一下这个技术: 你手机拍太阳方向会一片白对吧?这是因为相机要把光信号处理成人看得懂的照片,亮的地方直接爆掉了。 但传感器本身其实记录了每个像素接收到多少光子,这些数据还在,只是被 ISP 直接给扔掉了。 Tesla的做法是跳过ISP,把传感器的原始光子计数直接喂给神经网络。 光子计数保留了完整的光强信息,AI从中重建出场景细节,所以右图能在一片白里看到路、树、车。 一个不恰当的比喻,把一本学术论文改写成通俗读物,普通人更容易读了,但专家反而觉得关键细节被删了。

译Tesla FSD通过跳过图像信号处理器,直接处理传感器记录的原始光子计数数据,而非传统相机处理后的人眼可见RGB图像。光子计数保留了完整的光强信息,神经网络据此重建出细节清晰的场景。这使得FSD在夜间或强眩光等极端视觉条件下,能超越人眼感知,从一片白茫茫中识别出路、树、车辆等关键信息,实现更优的视觉感知能力。

Berryxia.AI@berryxia · 5月11日73

兄弟们!这套结构,这个图理解后。 GPT-Image-2 生图也就算是入门了吧。 结构化越清晰,输出的质量越好! 最简单,最实用的,结构拆解和布局! 生成一张【画幅比例】的【用途】视觉图。 主题: 【一句话说清楚要表达什么】 核心主体: 【主体物或人物】,必须位于【画面位置】,占画面【比例】。 主体需要体现【情绪价值】,例如陪伴、信任、重启、增长、专业、秩序、创造力。 视觉隐喻: 用【视觉元素A】象征【抽象概念A】; 用【视觉元素B】象征【抽象概念B】; 避免直白堆砌,要有高级感和传播感。 画面风格: 【Apple 风格 / 人文科技 / 像素风 / 高级信息图 / 博物馆海报 / 产品发布会风格】。 要求干净、克制、高清、可商用、版式精准、文字清晰。 文字系统: 主标题:【中文主标题】 副标题:【中文副标题】 英文短句:【英文短句】 关键词:【3 个关键词】 限制: 不要二维码、不要网址、不要水印、不要杂乱小字、不要廉价广告风、不要错误中文、不要真实墙面或相框。

译推文介绍了一套提升AI生图质量的结构化提示词框架。其核心是“结构越清晰,输出质量越好”。框架将提示系统分解为几个关键模块:首先定义画幅与用途;其次明确主题与核心主体的位置、占比及情绪价值;接着通过视觉隐喻用具体元素象征抽象概念;然后选择如Apple风格等特定画面风格并强调干净、克制等视觉要求;最后规划包含主副标题、英文短句和关键词的文字系统,并列出应避免的限制元素。

向阳乔木@vista8 · 5月11日64

问了身边朋友和自己的实践,Skills的创建和管理目录都放在 .agent/skills好些。 其他Claude、Codex等目录都用软链接,这样能最大程度保持兼容性。 也推荐用CC Switch的Skill管理,可视化界面升级管理,点亮图标,开启不同工具的支持。

译针对如何管理日益增长的AI技能(SKILL)以及同步Claude、Codex等不同AI工具的技能问题,建议将技能创建和管理目录统一设置在`.agent/skills`路径下。对于Claude、Codex等其他工具的目录,推荐使用软链接方式,以实现最大程度的兼容性。同时,推荐使用CC Switch的Skill管理工具,其可视化界面便于升级管理、点亮图标以及开启对不同工具的支持。

PixVerse@PixVerse_ · 5月11日38

Ink’s flying? Seedance makes it happen. Try it on Pixverse 👀

译墨迹在飞舞?Seedance让它成为现实。快来Pixverse试试吧 👀 [引用 @MrDasOnX]:Ink shouldn't be able to fly, but this one finds a way! Seedance 2.0 1080p on PixVerse | @PixVerse_ 提示词如下 👇

向阳乔木@vista8 · 5月11日71

发现了宝藏AI论文学习库,3.3万 Star 作者花费大量时间自己录制、精选Youtube和B站讲解视频,比如收录了李沐老师的精讲系列。 按时间、类型做了详细分类,非常适合收藏慢慢学习。 地址见评论区

译一个在GitHub上获得3.3万星标的AI论文学习资源库,作者系统性地收集和整理了高质量的AI学习视频。资源主要来自YouTube和Bilibili平台,例如收录了李沐的论文精讲系列。所有内容已按时间和主题进行了详细分类,便于用户系统学习和收藏。该库旨在为学习者提供一个结构化的视频学习路径。

Berryxia.AI@berryxia · 5月11日57

一次将大模型的格式搞清楚!盘它! 很多朋友都在讨论大模型的这么多格式,到底有啥区别? 于是想一篇把 GGUF、MLX 这些本地大模型格式弄清楚。 简单说,GGUF 是 llama.cpp 团队搞出来的单文件格式,现在已经是本地推理最主流的选择。 以前 GGML 已经基本淘汰了,现在一个 .gguf 文件就把 header、元数据和所有 tensor 全装进去,加载特别快,还支持各种 K-quants 量化,从 2bit 到 8bit 都能灵活混用。 llama.cpp、Ollama、LM Studio 这些工具基本都靠它跑,Hugging Face 上也一大堆现成的 GGUF 版本。 MLX 则是 Apple 专门为 M 系列芯片优化的框架,mlx-lm 是它的 LLM 版本。 模型格式不是单个文件,而是一个目录,里面有 config、tokenizer 和权重(常见 .npz 或 safetensors)。 它在 Mac 上跑得特别爽,因为用了统一内存架构,加载和上下文处理都稳,转换时还能直接做 4bit 量化或者混合精度。 还有一些其他非主流核心格式比如: PyTorch / Safetensors 是训练和分享的标配,ONNX 适合跨框架部署,TensorRT 则是 NVIDIA 极致性能专用。 最有意思的是:GGUF 单文件、量化最灵活、跨平台强,特别适合 CPU 和低配设备。 MLX 在 Mac 上速度和微调体验最好。 Safetensors 体积大但分享方便; ONNX 更偏生产部署。 预训练阶段其实都不直接用这些格式,大模型训练完都是 PyTorch/Safetensors 的 checkpoint,后续转换时再做量化(PTQ),GGUF 和 MLX 就是在这一步把量化玩得最溜。 总的来说,本地 Mac 用户优先 MLX,跨平台或低配设备就选 GGUF,训练分享还是 Safetensors 最稳。 对想自己折腾本地 LLM 的同学来说,可以看看对比图。

译本文梳理了本地大模型推理的主流格式。GGUF是llama.cpp推出的单文件格式,集成头文件、元数据和权重,加载快且支持灵活的K-quants量化(2-8bit),兼容llama.cpp等工具,适合CPU与低配设备跨平台使用。MLX是Apple为M系列芯片优化的框架,采用目录结构,在Mac上利用统一内存架构实现高效加载与处理,支持4bit量化,为Mac用户提供最佳体验。其他如PyTorch/Safetensors是训练分享标配,ONNX侧重跨框架部署。建议Mac用户优先MLX,跨平台或低配选GGUF,训练分享用Safetensors。

Peter Steinberger 🦞@steipete · 5月11日62

Can highly recommend running a claw cron job that sweeps through mentions. GPT is really good at detecting shills and AI reply guy slop.

译强烈推荐运行一个抓取提及的定时脚本。 GPT非常擅长识别推广账号和AI回复的垃圾内容。

向阳乔木@vista8 · 5月11日69

上午让AI开发界面功能,让参考最佳实践,看里面有w3c的一个网址。 发现是一整套设计系统,从面包屑到Footer全都有规范。 感觉可以让AI Agent全面学习写一个Skill。 网址:https://design-system.w3.org/components/

译作者在让AI开发界面功能时,参考最佳实践发现W3C提供了一套完整的设计系统,涵盖了从面包屑导航到页脚等所有组件的规范。这一发现启发了作者,认为可以系统地让AI Agent学习这套全面的设计规范,从而将其转化为一个可执行的“技能”。这为利用现有、权威的标准化资源来训练和增强AI在特定领域(如前端开发)的能力提供了新的思路。

阿绎 AYi@AYi_AInotes · 5月11日55

卧槽,6个月→15天! 森马用AI把整个服装行业的底裤都扒了。 真的兄弟们,看完森马的 AI 落地,我直接懵了, 光2025年,AI就给森马带来几个亿的确收回款, 节省视觉、营销、样衣研发等成本数千万, 上新周期从 6 个月,直接压到了 15 天。 这才是真正的AI落地啊,能对业务带来增量价值, 而不是瞎折腾消耗token重复造轮子! 很多人以为传统企业用 AI,就是拍个图写个文案, 没想到森马直接把 AI 做成了全链路基础设施, 覆盖供应链、库存、直播、运营、物流、客服、财务。 整整 400 多个场景。 连整个经营逻辑都重构了, 最狠的是 AIGC 视觉, 以前拍一组模特图要等两个月, 改个背景换个动作,还要再等两个月, 现在 AI 几分钟出图, 效果不输实拍,成本几乎为零, 所有款式全量覆盖,不用再只赌几个爆款, 传统上新是串行的, 一个环节等一个环节, 现在 AI 介入后全并行推进, 不用空等,不用排队, 以上这些都是 2025 年已经跑通的真实案例, 一年带来几亿回款, 省了几千万的成本。 通过森马这个案例让我们看到了, 其实AI 不只是替代人工干活, 还能挖出那些我们根本想不到的隐性成本, 把以前不可能的事,变成日常。 我感觉以后所有传统企业,都会被逼着走这条路啊。 视频大家收好,非常值得收藏和学习! #森马 #AI落地 #服装行业 #AIGC #企业数字化

译森马通过AI技术将服装上新周期从6个月压缩至15天,2025年实现数亿元回款并节省数千万元成本。AI作为全链路基础设施,覆盖供应链、库存、直播、运营等400多个场景,重构经营逻辑。AIGC视觉使图像生成效率提升,成本近乎零,支持全款式并行推进。AI不仅替代人工,更挖掘隐性成本,推动传统企业数字化转型。

PixVerse@PixVerse_ · 5月11日67

Thanks for sharing @aziz4ai ! Great practice!

译用户分享了一个高效AI视频创作流程。他首先利用ChatGPT,基于预设镜头描述,生成了一个结构严谨、支持多镜头序列的详细视频提示词。该提示词严格指定了品牌元素(如瓶身、包装、Logo及阿拉伯文/英文文本)需通过参考附件精确还原,并描述了超奢华、电影感的视觉风格。随后,他将此提示词输入PixVerse平台,借助其高速生成优势,快速产出了1080p分辨率的视频。此工作流有效结合了GPT的精准指令生成能力与PixVerse的快速视频渲染能力,实现了对品牌视觉的严格把控和高效率内容产出。

歸藏(guizang.ai)@op7418 · 5月11日75

来了!藏师傅的 PPT Skill 更新了第二套主题 新主题更加简洁美观,适合讲一些数据和事实性的内容 而且支持 4 种颜色、20 多个版式。 支持用 Codex 内置的 GPT-2.0 帮你生成配图和美化截图。 还能让它帮你生成各种平台的封面,以及公众号配图。 文章里详细讲了一下怎么用,还有一些小技巧。

译藏师傅的PPT Skill工具发布了第二套主题,设计更简洁美观,适用于数据和事实性内容的演示。新主题提供4种颜色和20多种版式选择。其核心功能是集成了Codex内置的GPT-2.0模型,可辅助用户生成演示配图、美化截图,并能自动生成适用于各平台(如公众号)的封面图与配图。相关文章详细介绍了具体使用方法及操作技巧。

Peter Steinberger 🦞@steipete · 5月11日50

Birdclaw has my complete twitter archive, so I can ask Codex for any old weird tweet I ever favorited or bookmarked. https://birdclaw.sh

译Birdclaw保存了我完整的推特存档,因此我可以向Codex查询任何我曾点赞或收藏的旧推文。https://birdclaw.sh

Berryxia.AI@berryxia · 5月11日68

兄弟们。手撸3D 拆解图,指日可待啊! 本来以为AR 3D拆解教学早就走到瓶颈了 没想到突然被AI重新盘活! 很多人不知道 英国公司JigSpace 很早就在iPad上 用3D+ARkit做各类立体模型 飞机发动机、电脑主机这类硬核拆解早就做成熟了 我刚亲自实测 用Cursor里的Claude opus 4.7 直接做出了手表、冰箱柜的AR拆解教学 能直观3D拆解每一个部件 每一步还有详细文字标注 整个演示流程已经完全跑通 后续还有很大优化空间 最让人惊喜的是可以服用 给小孩科普生物细胞、植物光合作用 都能用这套方式直观教学 有现成模型就直接用开源资源 没有模型也能用极低成本快速搭建 未来科普教学真的要换一种方式了 如果你们觉得有价值,可以一键八连啊! 我可以将其开源给大家免费使用啊!!!!!

译AI技术正重新激活AR 3D拆解教学领域。利用Cursor中的Claude opus模型,可快速生成手表、冰箱等物体的AR拆解教学演示,实现部件3D可视化与步骤标注,流程已跑通且成本低。该方案未来可广泛应用于硬核设备拆解及生物细胞等科普教学。对于精度要求不高的展示,可直接利用Apple官方免费3D模型库或KhronosGroup等开源资源快速搭建,JigSpace则是成熟的教学互动应用范例。这预示着科普教学方式将迎来新的变革。

Berryxia.AI@berryxia · 5月11日56

看大家昨天都因为这个项目卧槽了一天! 朋友们都开始整活儿,其实对于精度要求不高只是展示3D的就是可以直接使用开源的一些3D库就可以拿来使用。 我最早接触和了解这玩意还是Apple的 Reality Composer,官方也提供了对应的3D USDZ/USDC 格式的3D 模型库,并且都是免费的。 直接导入页面还可以做AR增强现实使用,如果说你需要自定义或者进行进行教学互动炸裂就可以看看JigSpace 做的非常不错的教学类的App。 Apple 官方组3D模型库:https://developer.apple.com/augmented-reality/quick-look/ 我这个做的Demo 用的github:https://github.com/KhronosGroup/glTF-Sample-Models 模型:https://modelviewer.dev/ 看看各位还可以玩出什么花儿,这个是花了20分钟搞出来的,后面可以继续迭代一下。

译推文讨论了在精度要求不高的3D展示场景下,可直接利用开源3D库快速实现。作者提及Apple Reality Composer及其免费的USDZ/USDC格式官方3D模型库,适用于AR增强现实。对于需要自定义或教学互动的场景,推荐了JigSpace应用。同时,作者分享了使用GitHub上的glTF样本模型快速制作Demo的经验。引用的推文补充了关键应用:结合GPT-image-2和Gemini等AI工具生成3D生物结构,并开发可交互探索的应用,旨在为课堂教学等场景创造趣味互动体验。

meng shao@shao__meng · 5月11日67

这个为 iOS App 创建用户 Onboarding Video 的 Skill 很有启发 对 iOS/Android App 来说,用户安装后打开时,是完全陌生的状态,怎么让用户快速 get 到这是什么、有什么用、怎么用,短短几十秒时间可能会决定用户是否直接走掉,也可能让用户快速完成第一个 aha moment。 之前运营团队们的做法,或者是多张效果图,或者是录屏演示,前者会让用户很迷惑效果图和 App 之间的 Gap,后者参与感太低,容易丢失注意力。 @bidah 开源的「Create Onboarding Video」Skill,可以让 Agent 使用 @Remotion 来生产 iOS App 的引导/预览视频,我们可以基于它扩展到其他平台和不同的视频类型。 开源地址: https://github.com/bidah/skill-set/blob/main/skills/create-onboarding-video/SKILL.md Skill 的定位:"App Store 预览"级的特写片段 · 时长:每个引导画面 3–8 秒,整片很少超过 30 秒 · 风格:永远不展示完整屏幕。每个镜头只放大功能里"证明它在工作"的那一小块 UI——一个被点击的按钮、一个翻转的 toggle、一个被滑动重排的列表行、一张正在填充的图表 · 手法:把这块组件从截图里裁/抠出来,扔到一个有色背景上,用 spring、遮罩揭示、共享元素过渡(shared-element morph)、视差等"原生 UI 感"的动效串起来 · 基调:一个镜头讲一件事,不旁白、不大段文案 它强制的工作流:先访谈,再分镜,再写代码 Skill 定义了一个四步循环,并明确写了"不要跳过 intake,否则只会产出泛泛的视频": 1. Intake(素材采集)——每个画面要 2–4 张静态截图,分别覆盖:静止态、交互中态、结果态、变体态;外加一两句话说明"这个功能为用户做了什么"和"顺序"。如果用户说得含糊,就用 AskUserQuestion 反问。 2. Plan the shots(分镜)——为每个画面挑出"那一块能证明功能成立的组件",先在脑子/草稿里推演 focal element → motion → result → 下一个 focal element,再写代码。 3. Build with Remotion——这一步强制委派给另一个 skill remotion-best-practices,并附带一段 prompt 模板,约束它:"永远不要渲染整屏;用 <Sequence> 串接 beats;每个 beat 90–240 帧 @ 30fps;截图放 public/ 用 staticFile() + CSS clip-path 抠出焦点元素。" 4. Iterate——把第一版当草稿给用户看,问哪里要快/慢/重排。 文件结构也定死:public/<screen>/<state>.png,src/scenes/,src/transitions/,1080×1920 portrait 默认。 值得复制的部分:一套"反 AI 油腻感"的硬性规则 1. 字幕(Caption)规则 · 位置固定:始终锚在画面顶部约 100px 处,水平居中。禁止放在焦点 UI 下方、禁止逐镜头漂移。要预留 200–240px 的"caption band",焦点 UI 排在它下面。 · 大小:1080 宽画布下默认 54px / 700 weight,是头条级标题,不是字幕条。 · 入场:从静止位置下方 60px、opacity 0,向上滑入并淡入——上行运动是视觉身份的一部分。禁止原地出现或从上方落下。 · 可读时长:在每个 beat 的前 10–14 帧内淡入完成,并贯穿整个 beat 留在屏幕上。不要中途才出现,也不要提前淡出,靠 beat 间的场景过渡来切换。 · 同字幕跨 beat 不重做动画:当连续两个 beat 的字幕文字完全一致(例如"点击日期"和"表单打开"共享同一标题),第二个 beat 用 staticEntry(瞬时满透明 + 静止位)渲染,让观众感觉是"同一个字幕跨过了剪辑点"。文字哪怕变一个字,就让新字幕正常 rise-and-fade。 · 实现上要求建一个 TopCaption 包装组件,全局复用,不允许各 scene 内联定位。 2. 光标(Pointer)规则 这是本文档最有作者印记的地方,详细到工程规范级别: · 交互镜头必须有光标领跑:凡是 tap / click / select 的 beat,必须显示一个 Pointer,沿路径移动到目标之后再触发点击波纹。不允许瞬移、不允许"只有 ripple 没有指针"。 · 纯展示镜头不要光标:用 glow / 运动引导视线即可。规则是"interactive → cursor leads;illustrative → no cursor"。 · 指针入场方式唯一合法的姿势: · 在焦点区域的视觉中心处淡入(不是从画外飞入)。 · 然后一条直线滑到目标点。方向自由,对角线允许(这是文档里唯一允许同时改 x 和 y 的地方),但必须是单段直线,单一减速缓动 cubic-bezier(0.16, 1, 0.3, 1)。 · 同一 UI 上的多次点击:指针只在第一次淡入一次,点完一个目标后直接直线滑向下一个目标,全部点完才淡出。禁止在同屏两次点击之间淡出再淡入——那会让人觉得是两个不同用户在操作。 · 切换到不同 UI / 新屏幕:才允许指针淡出,下一次重新在中心淡入,作为"换场"信号。 · 明确禁止:从画面边缘进入、多段折线、曲线、Z 字形、中间关键帧、同 UI 多次点击之间闪烁。 3. 其他操作守则 · 没有截图就停——不允许凭文字描述编 UI。 · 一个视频只讲一个功能——用户列了 5 个功能,提议拆成 5 条视频。 · Show, don't narrate——无旁白、无大段文字解释。 · 沿用 App 自带的颜色/圆角/字体,不要重新设计。 · 写 Remotion 代码前一律调用 remotion-best-practices 这个上游 skill;本文档只管创意和约束,不管语法。

译一款开源Skill“Create Onboarding Video”利用AI(通过Remotion)为iOS App生成高质量的用户引导视频。它强制遵循一套“反AI油腻感”的硬性规则,以制作出具有“App Store预览”级质感的片段。核心规则包括:视频需聚焦于证明功能在工作的特定UI组件,而非展示完整屏幕;字幕需有固定的位置、大小和入场动画;光标交互必须真实自然,禁止瞬移。该Skill定义了从素材采集、分镜规划到编码实现的四步工作流,强调“展示而非叙述”,旨在快速引导用户达成“aha moment”。

meng shao@shao__meng · 5月11日53

昨晚用 Cursor (Opus 4.7) + Remotion 做一个视频,第一个版本完成后,问题比较多,字体和背景色重合、文字重叠等。。 然后我话说的重了点 😂,大概是说:很糟糕,问题很多,你输出前没有做检查吗?再加上几个举例的问题。 事实证明我确实说重了,Cursor Agent 在每个版本输出后都自己做一遍画面检查,结果检查了 10 遍还是有自己不满意的地方,我就一直等了 30 多分钟,才拿到了 v10,也就是 final 版本。。 确实不敢 PUA Agent 了,它是真往心里去啊,下回我还是直接把问题列出来,要求它一次考虑全面处理好就好了,这亏了是 Cursor 5月份 1万刀 Credits 放开了用,不然 Remotion 这个费 Token 的程度,可能一个视频就把我一天的额度干没了。 btw... 那个 v10 final 视频在这: https://youtu.be/si8EhxtRL7w

译作者使用Cursor和Remotion制作视频,初版问题多,严厉批评Cursor Agent后,它反复自检耗时30多分钟才生成最终版。作者由此反思,应清晰列出问题要求AI一次性处理,避免PUA式指责,同时注意Remotion的高Token消耗。

meng shao@shao__meng · 5月11日65

Codex 如何重塑产品营销的工作方式 @pranaveight 是 OpenAI Codex 的首位产品营销经理(PMM),他通过这篇文章,向我们展示了一个关键转变:Codex 已经从"写代码的工具"变成了"知识工作者贴近信息源头的工作台"。 Codex 的真正价值,是让 PMM(乃至任何跨职能角色)能够直接接触"原始素材",而不是等待别人把上下文整理好递给你。 · 过去:等 PM/工程师讲解 → 再做定位、写文档、对齐团队。 · 现在:直接读代码库、Linear、Slack、Notion → 带着已有的地图去和人沟通。 # 三个具体用法(按抽象层级递进) 1. 个人助理(Personal Assistant)—— 解决"信息过载" · 一个名为 Assistant 的 Codex 自动化任务,每小时巡检 Slack、Gmail、Notion、Figma、Google Drive。 · 关键不在"拉通知",而在预分类:紧急 / 与本周优先级相关 / 干系人请求 / 仅供知悉。 · 价值:把"散落在 5 个工具里的信号"变成"一份带初步判断的清单"。人只需要在这份清单上叠加判断力。 这一层解决的是 注意力管理 问题。 2. 跟上产品与工程(Product & Eng Tracking)—— 解决"理解滞后" · 把 Codex 指向 repo、Linear、Notion、Slack 频道。 · 让它回答:做了什么 / 在做什么 / 最近改了什么 / 功能实际行为 / 实现中的边界情况和限制。 · 然后再去和 PM/工程师对话,带着地图谈,而不是从零开始。 这一层解决的是 贴近产品(get close to the product) 这个 PMM 的老问题。 历史上 PMM 靠读 spec、参加评审、追线程来做这件事;现在可以直接读源码和真实状态。 3. 跨职能对齐(Cross-functional Alignment)—— 解决"协作熵增" · 让 Codex 横扫 Slack 线程、会议纪要、Google Docs、Notion、launch tracker。 · 输出一份对齐文档骨架:已决定的 / 仍开放的 / 谁负责什么 / 自上次更新以来的变化 / 需要决策的 / 下一里程碑。 · 人来做:调语气、校准确性、加判断。 这一层解决的是 信息可见性(legibility)。 作者强调一句很重的话:"不写文档也有代价"——决策被掩埋,团队从略有偏差的"真相版本"出发。 # 隐藏在三个用法背后的方法论 1. Assistant 处理的对象:信号/通知 Codex 的角色:聚合 + 初步分类 人的角色:判断什么真正重要 2. Product Tracking 处理的对象:状态/事实 Codex 的角色:跨源汇总当前实况 人的角色:提出更深的问题 3. Alignment Docs 处理的对象:叙事/共识 Codex 的角色:生成可编辑的初稿 人的角色:锐化信息、识别 gap # 对 PMM 角色的重新定义 "Codex 并没有抹掉产品营销中属于人的部分。如果有什么变化,是让那些部分变得更重要了。" 具体而言,AI 接管了"汇总、追踪、复述"之后,PMM 真正不可替代的部分浮现出来: · 判断何时一个表述太强(claim is too strong) · 判断何时一条信息会落地很糟 · 察觉团队在彼此错过(talking past each other) · 看出launch plan 中明显的漏洞 换句话说:AI 让"信息搬运型 PMM"贬值,让"判断型 PMM"升值。 # 对其他角色的可迁移启示 虽然文章讲 PMM,但底层模式适用于任何"上下文密集型"岗位(PM、TPM、Chief of Staff、Engineering Manager、Founder): 1. 不要让 AI 替你做判断;让它替你做"判断前的准备工作"。 文中反复出现"grounded first pass"(有据可依的初稿)这个表述,是个关键心智模型。 2. 把 AI 接入"工作真正发生的地方",而不是单独的对话框。 价值来自 Codex 能同时看 GitHub + Linear + Slack + Notion,而不是任何单点能力。 3. 自动化的杠杆点是"每小时跑一次",不是"问一次答一次"。 Assistant 案例是 cron 化的 agent,不是聊天机器人。 4. 越接近 source of truth,越能少做无用功。 "等别人总结给你"这件事,正在变成一种可以被消除的成本。

译OpenAI Codex的首位产品营销经理阐述了其核心价值:从“写代码的工具”转变为让知识工作者直接接触代码库、Slack等“信息源头”的工作台。具体通过三层应用重塑PMM角色:作为个人助理聚合多工具信息以管理注意力;跟踪产品与工程状态以直接理解源码;生成跨职能对齐文档初稿以提高信息可见性。AI接管了汇总与追踪工作,使人能更专注于不可替代的判断部分,如评估表述、识别计划漏洞。这一让AI做“有据可依的初稿”、接入真实工作场景并实现自动化的模式,可迁移至任何上下文密集型岗位。

DogeDesigner@cb_doge · 5月11日62

Use this @Grok prompt to create a beautiful Mother’s Day greeting card for your mom ❤️ "Transform this into a beautiful, professional Happy Mother’s Day greeting card, featuring the photo as a large Polaroid-style centerpiece, surrounded by bright vibrant flowers, elegant decorative elements, rich cheerful colors, and classy ‘Happy Mother’s Day’ text while keeping the overall design warm, polished, and visually stunning."

译用这个 @Grok 提示词为妈妈制作一张精美的母亲节贺卡 ❤️ "将这张照片转化为精美专业的母亲节贺卡,采用宝丽来风格大幅居中设计,周围环绕鲜艳花朵与优雅装饰元素,搭配丰富欢快的色彩和典雅的‘母亲节快乐’文字,整体保持温暖、精致、视觉惊艳的效果。"

Berryxia.AI@berryxia · 5月11日60

这个太方便了啊!!! 搞科研读论文的不要错过啦! 如何安装Hugging face的CLI? curl -LsSf http://hf.co/cli/install.sh | bash 直接开干就完了! 支持arxiv和hugging face…

宝玉@dotey · 5月11日57

http://x.com/i/article/2053591256110940160 # 深度拆解:AI Agent Harness 的构造【译】 本文将深入探讨 Anthropic、OpenAI、Perplexity 和 LangChain 究竟在开发什么。我们将聊聊编排循环、工具、记忆、上下文管理,以及那些将“无状态”的大语言模型(LLM)转变为全能智能体(Agent)的底层机制。 你可能已经开发过聊天机器人,甚至可能用一些工具搭建了一个 ReAct 循环 (ReAct:Reason + Act,一种让模型在行动前先进行推理的模式)。跑 Demo 的时候看着挺好,但一旦投入生产环境,系统就会开始掉链子:模型会忘记三步前做了什么,工具调用悄悄报错,上下文窗口(Context Window)里塞满了毫无意义的垃圾信息。 问题其实并不在模型本身,而在模型外围的基础设施。 LangChain 证明了这一点:他们仅仅通过改变包裹大语言模型的底层架构——模型没变,参数没变——就让系统在 TerminalBench 2.0 (一个衡量 AI 智能体处理命令行任务能力的权威基准测试) 上的排名从 30 名开外飙升到了第 5 名。另一项研究则通过让大语言模型自己去优化这套架构,实现了 76.4% 的通过率,甚至超过了人类精心设计的系统。 现在,这套基础设施有了一个正式的名字:AI Agent Harness。 虽然这个术语在 2026 年初才正式确立,但其核心理念早已存在。Harness是包裹在大语言模型之外的完整软件架构:它包括编排循环、工具、记忆、上下文管理、状态持久化、错误处理和护栏(Guardrails)。Anthropic 在其 Claude Code 文档中直截了当地指出:SDK(软件开发工具包)就是“驱动 Claude Code 的 Agent Harness”。OpenAI 的 Codex 团队也使用了同样的说法,明确将“智能体”和“Harness”等同,指代那些让大语言模型真正发挥作用的非模型架构。 我非常喜欢 LangChain 的 Vivek Trivedy 给出的定义公式:“如果你不是模型本身,那你就是 Harness。” 这里有一个经常让人搞混的区别:“AI 智能体”(Agent)是用户感知到的行为体现,它是一个有目标、会用工具、能自我纠错的实体;而**“Harness”**则是产生这种行为的背后机器。当有人说“我开发了一个智能体”时,他真正的意思是“我开发了一套 Harness,并把它接入了模型”。 Beren Millidge 在其 2023 年的博文中做了一个精准的类比:原生大语言模型就像一个没有内存、没有硬盘、也没有输入输出设备的 CPU。此时,上下文窗口充当了内存(快但容量有限),外部数据库扮演了硬盘(大但速度慢),工具集成则是设备驱动程序。而Harness,就是那个操作系统。正如 Millidge 所写:“我们重新发明了冯·诺依曼架构(Von Neumann architecture)”,因为这是任何计算系统最自然的抽象方式。 围绕模型,工程化可以分为三个同心圆层次: - 提示词工程 (Prompt engineering):精心设计模型接收到的指令。 - 上下文工程 (Context engineering):管理模型在什么时间点能看到什么内容。 - Harness 工程 (Harness engineering):涵盖了上述两者,再加上整个应用架构:包括工具编排、状态持久化、错误恢复、验证循环、安全执行以及生命周期管理。 Harness 不仅仅是一个包裹提示词的套壳(AI Wrapper),它是让智能体能够自主行动的完整系统。 综合 Anthropic、OpenAI、LangChain 以及广大从业者的实践经验,一个生产级的 Agent Harness 由 12 个不同的组件构成。让我们逐一拆解。 ## 1. 编排循环 (The Orchestration Loop) 这是系统的“心脏”。它实现了“思考 - 行动 - 观察”(Thought-Action-Observation,简称 TAO)循环,也被称为 ReAct 循环。这个循环不停运转:整合提示词 -> 调用大语言模型 -> 解析输出 -> 执行工具调用 -> 反馈结果 -> 重复,直到任务完成。 从技术实现上看,它通常只是一个 while 循环。但复杂的地方不在于循环本身,而在于循环所要处理的各种状态和逻辑。Anthropic 将他们的运行时描述为一个“笨循环”,所有的智慧都存在于模型之中,Harness 只负责管理回合的切换。 ## 2. 工具 (Tools) 工具是智能体的“双手”。它们被定义为某种结构化模式(名称、描述、参数类型),并注入到模型的上下文中,让模型知道哪些工具可用。工具层负责注册、格式校验、参数提取、在**沙箱(Sandbox)**环境执行、结果捕获,并最终将结果格式化为模型可读的“观察结果”。 Claude Code 提供了六大类工具:文件操作、搜索、执行、网页访问、代码分析和子智能体创建。OpenAI 的 Agents SDK 则支持函数工具(通过 @function_tool 定义)、托管工具(如网页搜索、代码解释器、文件搜索)以及 MCP (Model Context Protocol,一种开放的工具接入标准) 服务器工具。 ## 3. 记忆 (Memory) 记忆在不同的时间尺度上运作。短期记忆是单次会话中的对话历史。长期记忆则跨越多个会话持久存在:Anthropic 使用项目文件和自动生成的 memory.md 文件;LangGraph 使用按命名空间组织的 JSON 存储;OpenAI 则支持由 SQLite 或 Redis 驱动的会话存储。 Claude Code 实现了三层记忆架构:一个轻量级索引(每条约 150 字符,始终加载)、按需调用的详细主题文件,以及仅通过搜索访问的原始对话记录。一个核心设计原则是:智能体将自己的记忆视为一种“提示”,在行动前必须根据实际状态进行验证。 ## 4. 上下文管理 (Context Management) 这是许多智能体容易暗中翻车的地方。核心问题在于上下文腐烂:当关键信息处于窗口中间位置时,模型表现会下降 30% 以上(这就是斯坦福大学发现的“迷失在中间”现象)。即便是支持百万级 Token (Token:模型处理文本的最小单位,大致相当于单词或汉字的部分) 的窗口,随着上下文的增长,指令遵循能力也会退化。 生产环境的应对策略包括: - 压缩 (Compaction):在接近限制时总结对话历史(Claude Code 会保留架构决策和未修复的 Bug,同时丢弃冗余的工具输出)。 - 观察掩码 (Observation masking):隐藏旧的工具输出,但保留工具调用的记录。 - 即时检索 (Just-in-time retrieval):只保留轻量级标识符,动态加载数据(Claude Code 倾向于使用 grep 或 head 命令,而不是加载整个文件)。 - 子智能体委托:让每个子智能体进行深度探索,但仅返回 1000 到 2000 Token 的浓缩摘要。 Anthropic 的上下文工程指南指出,目标是:找到能最大化达成目标概率的、信号最强的最小 Token 集合。 ## 5. 提示词构建 (Prompt Construction) 这决定了模型在每一步具体能看到什么。它是层级化的:系统提示词、工具定义、记忆文件、对话历史,以及当前的用户消息。 OpenAI 的 Codex 使用严格的优先级栈:服务器控制的系统消息(最高优先级)、工具定义、开发者指令、用户指令,最后才是对话历史。 ## 6. 输出解析 (Output Parsing) 现代 Harness 依赖于原生工具调用,即模型返回结构化的 tool_calls 对象,而不是需要费力解析的自由文本。Harness 会检查:是否有工具调用?如果有,执行并继续循环;如果没有,那当前的输出就是最终答案。 对于结构化输出,OpenAI 和 LangChain 都支持通过 Pydantic 模型 (Python 中用于数据校验和格式化的库) 进行模式约束。 ## 7. 状态管理 (State Management) LangGraph 将状态模拟为在图形节点中流动的类型化字典。系统会在关键步骤进行“存档”(Checkpointing),这样即使中断也能恢复,甚至可以进行“时间旅行”式的调试。OpenAI 则提供了四种策略:应用内存、SDK 会话、服务器端 API 或轻量级的响应 ID 链。Claude Code 采用了不同的思路:将 Git 提交作为存档点,将进度文件作为结构化的草稿纸。 ## 8. 错误处理 (Error Handling) 为什么这很重要?一个包含 10 个步骤的过程,即使每一步的成功率高达 99%,最终全流程的成功率也只有约 90.4%。错误是会滚雪球的。 LangGraph 将错误分为四类:临时性的(带延迟的重试)、模型可恢复的(将错误作为工具消息返回,让模型自己调整)、用户可修复的(暂停等待人类干预)以及意外错误(上报调试)。 ## 9. 护栏与安全 (Guardrails and Safety) OpenAI 的 SDK 实现了三个层级:输入护栏(在第一个智能体运行时检查)、输出护栏(检查最终结果)以及工具护栏(每次调用工具前检查)。一旦触发“绊网”(Tripwire)机制,智能体将立即停止。 Anthropic 在架构上将“权限执行”与“模型推理”分离。模型决定想做什么,但 Harness 决定允许做什么。 ## 10. 验证循环 (Verification Loops) 这是区分“玩具演示”和“生产级智能体”的关键。Anthropic 推荐三种方法:基于规则的反馈(测试、代码检查)、视觉反馈(通过 Playwright 截取 UI 截图)以及以大语言模型为裁判 (LLM-as-judge)(由另一个子智能体评估输出)。 Claude Code 的创造者 Boris Cherny 指出,让模型能够验证自己的工作,能让产出质量提升 2 到 3 倍。 ## 11. 子智能体编排 (Subagent Orchestration) Claude Code 支持三种模式:克隆 (Fork)(复制父级上下文)、队友 (Teammate)(通过文件邮箱通信的独立窗口)和 工作树 (Worktree)(独立的 Git 分支)。OpenAI 则支持将智能体作为工具(专家处理特定子任务)或移交(专家接管后续控制权)。 既然了解了组件,让我们看看它们在一次循环中是如何协同工作的。 1. 第一步(提示词组装):Harness 构建完整的输入信息。 1. 第二步(模型推理):组装好的内容发送给模型 API,模型生成 Token:可能是文本,也可能是工具调用请求。 1. 第三步(输出分类):如果没有工具调用,循环结束;如果有,进入执行阶段。 1. 第四步(工具执行):Harness 校验参数、检查权限,在沙箱中运行并捕获结果。 1. 第五步(结果打包):将结果格式化为模型可读的消息,捕获错误以便模型自愈。 1. 第六步(上下文更新):将结果追加到历史记录,必要时触发压缩。 1. 第七步(循环):返回第一步,直到满足退出条件。 - Anthropic (Claude Agent SDK):通过一个简单的 query() 函数暴露 Harness,运行时是一个“笨循环”,智慧全在模型里。 - OpenAI (Agents SDK):采用“代码优先”策略,工作流逻辑直接用 Python 表达,而不是复杂的图形语言。 - LangGraph:将 Harness 建模为显式的状态图,强调对流程的精细控制。 - CrewAI:实现了基于角色的多智能体协作,由“流程层”管理确定性的骨干逻辑。 - AutoGen:由微软开发,支持多种编排模式,如顺序执行、群聊、移交和动态任务管理。 “脚手架”这个比喻并非装饰,而是极其精准的。建筑脚手架是临时性的基础设施,让工人们能触及原本够不到的高度。脚手架本身不盖房子,但没有它,工人就上不去高层。 关键洞察在于:房子盖好后,脚手架是要拆除的。 随着模型能力的提升,Harness 的复杂程度应该逐渐降低。 这就是协同进化原则:现在的模型在训练时,就已经考虑了 Harness 的存在。如果你的 Harness 设计得好,当模型升级时,你不需要增加复杂度,性能就会自动提升。 每个 Harness 的架构师都面临这七个选择: 1. 单智能体 vs. 多智能体:官方建议:先充分挖掘单智能体的潜力。多智能体会带来额外的开销和信息损耗。 1. ReAct vs. 先规划后执行:ReAct 灵活但成本高;“先规划后执行”速度更快。 1. 上下文管理策略:是总结对话,还是动态加载? 1. 验证循环设计:是用硬性的代码测试,还是用另一个 LLM 来打分? 1. 权限与安全架构:是追求速度自动批准,还是追求安全步步确认? 1. 工具范围管理:工具不是越多越好。暴露当前步骤所需的最小工具集往往效果最佳。 1. Harness 的厚度:多少逻辑写死在系统里,多少逻辑留给模型发挥? 两个使用完全相同模型的智能体,性能可能天差地别,原因就在于 Harness 的设计。TerminalBench 的证据已经非常明确:仅仅改变 Harness,就能让排名变动 20 多位。 Harness 不是一个已经解决的问题,也不是一个通用的商品层。它是硬核工程能力的体现:如何将上下文视为稀缺资源进行管理?如何设计验证循环以防止错误累积?如何构建不产生幻觉的记忆系统? 随着模型越来越强,Harness 会变薄,但它永远不会消失。即便最强大的模型,也需要系统来管理窗口、执行代码、保存状态并验证工作。 下次当你的智能体表现不佳时,别光顾着抱怨模型,去检查一下你的Harness吧。 如果你喜欢这些内容: 关注我 → https://x.com/@akshay_pachaar ✔️ 每天我都会分享关于 AI、机器学习和凭感觉编程 (Vibe Coding) 最佳实践的教程与见解。

译文章指出,将大语言模型转化为可靠智能体的关键在于其外围基础设施,即“AI Agent Harness”。它被定义为产生智能体行为的完整软件架构,包括编排循环、工具、记忆、上下文管理等核心组件。这如同操作系统之于CPU,是智能体得以自主运行的“机器”。Harness工程超越了提示词工程,涵盖了完整的应用架构,是解决智能体在生产环境中表现不稳定的根本方案。

elvis@omarsar0 · 5月11日66

This is just mindblowing stuff! I couldn't resist replicating this workflow to generate 3D biological structures. In a few minutes, I designed an artifact specifically built to generate these for any topic. Stack: - HTML Artifact to view diagrams - Gemini Nano Pro for concept generation - Tripo for generative 3D - Codex for assembling everything AI will exponentially accelerate learning and democratize high-quality education. Stay tuned! We have a few releases on this front.

译作者受启发复现了一个利用AI工具栈快速生成3D生物结构的工作流。该流程整合了Gemini Nano Pro生成概念、Tripo进行3D生成、Codex组装代码,并通过HTML构件实现交互式查看。作者认为,此类AI应用将指数级加速学习过程,并推动高质量教育的民主化。其灵感来源于@DilumSanjaya展示的利用GPT生成UI、Gemini编写代码来创建交互式科学探索应用的概念。

向阳乔木@vista8 · 5月10日59

如果你喜欢到Huggingface读最新的AI论文。 可以安装官方的cli: curl -LsSf https://hf.co/cli/install.sh | bash 安装好以后,提示词: hf papers read [论文编号或论文URL] 同时支持arxiv网站和Huggingface paper的URL。

阿绎 AYi@AYi_AInotes · 5月10日80

holy shit,The barrier to educational technology has vanished overnight. 这回教育科技的门槛,一夜之间归零了, why?来往下看,最后附上了任何人都可以做的零代码工作流教程 💻 • 2020年:做一个同等质量的3D教育App,需要3D建模师×2 + UI设计师×1 + 生物学家×1 + 前端工程师×3 + 产品经理×1,耗时6个月,成本80万美元。 • 2026年:一个懂生物的普通人,用GPT Images 2 + Gemini 3.1 Pro,48小时,成本不到10美元。 没有团队,没有融资,没有技术门槛, 你甚至都不需要会3D建模,不需要会写React,不需要懂Three.js。 你只需要懂生物学,知道什么是对学生重要的。 AI会帮你把所有的技术活全部干完。 damn,这简直就是生产关系的效率革命, 以前教育科技是大公司和亿万富翁的游戏。 现在,任何一个老师,任何一个父母,任何一个对某个领域有热情的人,都能做出比教科书好100倍的教学工具。 过去只有伊顿公学和哈佛附中才有虚拟实验室, 现在,任何一个能上网的家庭,花10美元就能给自己的孩子做一个专属的。 教育不平等,第一次有了被反向拉平的可能! 可1:1复制的零代码工作流,任何人都能做,老规矩评论区自取👇

译AI工具GPT Images 2和Gemini 3.1 Pro的出现,彻底颠覆了教育应用的开发模式。过去需多人团队、数月时间和高昂成本才能完成的3D教育应用,如今一个具备领域知识(如生物学)的普通人,仅用约48小时和不到10美元即可实现。这消除了对编程、3D建模等技术能力的依赖,使教师、家长等个体也能独立创造高质量互动教学工具。此举有望推动过去仅属于精英机构的教学资源(如虚拟实验室)普及,为缩小教育不平等提供了新的技术路径。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月13日
08:49
Berryxia.AI@berryxia
67
这位老哥的,Codex的使用小Tips!👇🏻 💡 小Codex技巧: 你不必局限于一次只看一个线程。 🪟 并行打开多个完整窗口 💬 使用 /side 分支对话以提出临时后续问题 🛟 你还可以为Codex弹出窗口设置热键以快速发起新任务

dominik kundel: 💡 Small Codex tip: You don't have to be limited to looking at one thread at a time. 🪟 Open multiple full windows in pa...

智能体OpenAI教程/实践编码
07:49
Berryxia.AI@berryxia
精选75
90%的人在白白浪费"Token"!

Andrej Karpathy指出,AI编程账单的90%浪费在发送不必要的上下文上。常见浪费行为包括:过度加载文件、使用高价模型处理简单任务、Agent重复发送整个代码库、默认选用高价模型而非性价比更高的替代品。优化策略强调严格管理上下文、启用提示词缓存、采用多模型路由(如主力用Kimi 2.6,关键任务用Opus)、创建SKILL.md文件避免知识重建、先分析工具调用再优化提示。未来,开发者月花费的巨大差距将取决于其上下文和模型路由的管理能力,而非纯粹的技术水平。

Ronin: Andrej Karpathy: "90% of your AI coding bill is paying for context you didn't need to send" Here are 10 things senior AI...

教程/实践编码

推荐理由:Karpathy 这条推文把 AI 编程的浪费点戳穿了,10 条技巧每条都能直接省下真金白银,Vibe Coding 的人看完账单会沉默。
04:35
宝玉@dotey
68
Codex App 可以当 Typeless 用,开启全局快捷键设置正确权限后就可以在任意输入位置语音输入,效果还不错。 比如说这一段文字就是Codex帮忙输入的。
OpenAI教程/实践语音
00:22
向阳乔木@vista8
56
调研最佳Markdown编辑器及HeavySkill多AI协作思路

作者完成了首个测试,调研了最佳的开源所见即所得Markdown编辑库,并得出结论:明确需求和数据模型是选择合适库的前提。同时,他参考了@vista8提及的HeavySkill论文思路,该论文提出让多个AI(如Claude、Codex)先并行独立推理,再通过另一轮推理整合思路,以显著提升回答质量。作者正基于此思路开发一个Skill进行实践。

向阳乔木: 读了一篇叫HeavySkill的论文,非常有意思。 让多个 AI先并行"独立思考",生成多条独立推理。 再用另一轮推理来综合所有思路,得出最终答案。 按论文测试结果,回答质量会提升非常多。 正在按这个思路写一个Skill,Claude Co...

智能体推理教程/实践
00:04
凡人小北@frxiaobei
68
飞书CLI新增百项能力,AI Agent重塑工作流

飞书CLI近期悄然更新了100多项能力,允许用户通过AI Agent自动化编排飞书内的多项功能,如Bot、画板、妙记、审批和知识库。这旨在将AI能力从开发层延伸至日常协作层,解决工作碎片化问题。引用推文指出,管理者可为下属配置专属Agent,实现Agent间的自动化沟通与任务处理,从而让人专注于核心决策,提升个人与团队效率。官方提供了能力清单和使用案例以供参考。

凡人小北: 我给每个下属都配了一个专属 Agent,跑在飞书上。现在是他们的 Agent 在跟我的 Agent 对话,我在旁边看着。 带团队这些年,我最大的感受不是累,是碎。 各种项目要跟,各种进展要盯,各种需求要确认。AI 让每个程序员的产出翻了好几...

智能体MCP/工具教程/实践
5月12日
23:54
Xiaomi MiMo@XiaomiMiMo
58
重要提示:使用小米MiMo思考模式时需注意reasoning_content字段完整性

当在多轮代理会话中启用小米MiMo思考模式,且对话历史包含工具调用时,后续用户回合中传回的助手消息必须保留完整的reasoning_content字段,否则API将返回400错误。缺失该字段会导致模型上下文不完整,进而削弱指令跟随能力、增加幻觉并显著降低用户体验。受影响的框架包括TRAE、Cursor、Roo Code等,受影响模型涵盖MiMo-V2.5-Pro、MiMo-V2.5等多个系列。开发团队正与相关维护者合作推送兼容性更新以解决此问题。更多详情请参阅官方文档。

智能体MCP/工具教程/实践
23:22
向阳乔木@vista8
72
本文介绍了在Claude Code中通过插件市场安装OpenAI官方Codex插件的具体步骤:添加库、安装插件、重新加载及配置。其核心实践动机源于HeavySkill论文提出的"重思考"方法,即让多个AI模型并行独立推理,再由一个模型(如Codex)作为主持人综合思路以提升回答质量。作者正依此构建由Claude Code推理、Codex主持的Skill。

向阳乔木: 读了一篇叫HeavySkill的论文,非常有意思。 让多个 AI先并行"独立思考",生成多条独立推理。 再用另一轮推理来综合所有思路,得出最终答案。 按论文测试结果,回答质量会提升非常多。 正在按这个思路写一个Skill,Claude Co...

AnthropicMCP/工具OpenAI教程/实践
21:49
Berryxia.AI@berryxia
67
Seedacne 2.0+ GPT-image-2 就可以完成如下视频,还原度不错,Prompt见评论区!
教程/实践视频
20:49
Berryxia.AI@berryxia
73
AI Agent需要用户消费上下文才能充当个人管家,作者调研了主流消费平台的订单导出方法。淘宝提供导出功能;京东无官方支持,但通过Codex定制Chrome插件实现一键导出,并开源在Github;闪购(饿了么)可申请导出Excel;美团外卖暂无方法;大众点评通过定制插件导出收藏列表。作者开源了京东和大众点评的导出工具,鼓励用户利用这些数据让AI Agent进行个性化分析,以提升服务实用性。

paulwei: AI Agent 连你平时买啥、吃啥的上下文都没有, 怎么了解你的消费品味?怎么做你的个人管家? 想拥有吃货Agent、买手Agent、导购Agent? 我又搓了个通宵,替你们调研实操了: 淘宝/京东/闪购(饿了么)/美团外卖/大众点评.....

智能体开源/仓库教程/实践
18:33
Kling AI@Kling_ai
63
用户利用GPT image 2与Kling AI,根据详细提示词生成了一张模拟电视转播视角的超写实F1赛事直播截图。画面聚焦于一位在VIP围场/车队车库中的年轻女性,其身份特征从参考图像中被精确保留。她佩戴专业赛车耳机,神情紧张专注,画面包含"FINAL LAP"横幅、计时塔、直播标识等完整的转播图形元素。作品特别注重广播级细节,如压缩伪影、自然肤质和8K画质,旨在完美呈现如同真实电视截图的视觉效果。

Ciri: Made with GPT image 2 + Kling AI Prompt: Ultra-realistic F1 live TV broadcast screenshot, identity preserved exactly fro...

OpenAI图像生成多模态教程/实践
17:33
凡人小北@frxiaobei
62
管理者用飞书Agent代劳沟通,应对AI时代协作瓶颈

一位团队管理者表示,AI极大提升了程序员个体产出,导致工作量与事务激增,但团队规模未变。其核心矛盾在于开发层已实现AI化,而项目跟进、纪要整理、审批等协作层工作仍依赖人工,效率低下。为此,他利用飞书CLI近期密集更新的能力,为每位下属配置了专属Agent。现在,下属的Agent与他的Agent直接对话处理事务,他本人则转为旁观协调,以此应对管理事务过于“碎片化”的挑战。

智能体MCP/工具教程/实践
11:52
向阳乔木@vista8
29
博主提供论文解读服务,助读者节省Token

博主发起一项服务,邀请读者留言提出希望阅读但不愿自行消耗Token的论文或书籍。博主将代为处理,并将其解读成图文并茂的文章供大家共同学习。推文以Vision Transformer(ViT)的经典论文解读作为示例,并附上了相关博客链接。

其他教程/实践
07:49
Berryxia.AI@berryxia
65
CJ Zafir 为开源模型微调新手提供实用入门建议

CJ Zafir 为开源模型微调新手提供了系统建议。入门应从 1B、2B 等小参数模型开始,推荐使用 Google Colab Pro 等低成本云 GPU 服务。数据集构建可结合 Codex 5.5 与 DeepSeek v4 Pro,基础模型建议选用 Hugging Face 上的 Unsloth instruct 版本。关键学习内容包括 SFT、RL 训练、LoRA/QLoRA、量化及本地推理引擎等。未来技术趋势正转向 5B 至 15B 参数的专家模型,掌握微调技能市场价值高,企业常愿支付高额费用定制个性化模型。

CJ Zafir: If you love fine-tuning open-source models (like me), then listen. > Start with 1B, 2B, 4B, and 8B models. (Don't start ...

Hugging Face开源生态教程/实践数据/训练
06:31
OpenAI Developers@OpenAIDevs
48
如果你的团队在站会中更新进度,而GPT-Realtime-2自动移动任务票呢?
OpenAI教程/实践语音
01:53
PixVerse@PixVerse_
70
用户通过引用推文展示了由GPT Image 2在PixVerse平台上生成的一组高端时尚编辑图像。该图像采用2行4列的网格布局,包含8个独立面板。每个面板均以不同鲜艳纯色或渐变背景呈现一位身着现代街头服饰的年轻男模特,搭配滑板、吉他等道具,并采用简洁的工作室布景。图像整体追求商业广告摄影风格,具有奢侈品品牌广告的美学质感,强调柔和灯光、清晰阴影、逼真皮肤和电影级质感,且不含任何文字或标识。

Cherry 2.O: GPT Image 2 on @PixVerse_ Prompt 👇 Ultra high-end fashion editorial collage in a 2 rows and 4 columns grid layout (tota...

OpenAI图像生成教程/实践
00:50
Yuchen Jin@Yuchenj_UW
74
以HTML为桥:利用LLM生成交互文档构建个人知识库

作者提出一种高效学习方法:让Claude等大语言模型生成HTML文档来辅助深入学习与研究。相比纯文本或播客,HTML能嵌入图表和交互元素,支持主动探索。通过迭代提问和修改,文档随理解深入而演化,最终累积成个人知识库。文章引用观点指出,人机交互的输入输出融合尚有巨大发展空间,当前阶段可探索让LLM以HTML格式输出。信息呈现方式正从纯文本、Markdown向HTML及未来的交互式神经视频演进,以充分利用人类强大的视觉处理能力。作者认为,音频可能是人类偏好的AI输入方式,但视觉内容则是更高效的AI输出形式。

Andrej Karpathy: This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the ge...

Anthropic教程/实践编码
00:27
Google AI Developers@googleaidevs
60
谷歌DeepMind与Coursera推出"Gemini for Developers"开发者专项课程

谷歌DeepMind与Coursera合作推出的“Gemini for Developers”专项课程现已开放注册。该课程旨在指导开发者利用Gemini模型构建可用于生产环境的AI解决方案。其核心涵盖三大模块:“推理与行动”使AI应用能推理并执行复杂任务;“连接与自动化”通过函数调用将Gemini与现实世界工具集成;“规模化与信心”则专注于构建、测试和部署可扩展的AI系统。课程强调超越单纯文本生成,实现实际任务的自动化与系统集成,助力开发者快速上手。

智能体DeepMindGoogleMCP/工具
5月11日
23:32
凡人小北@frxiaobei
49
Tesla FSD跳过ISP,用原始光子计数重建清晰视觉

Tesla FSD通过跳过图像信号处理器,直接处理传感器记录的原始光子计数数据,而非传统相机处理后的人眼可见RGB图像。光子计数保留了完整的光强信息,神经网络据此重建出细节清晰的场景。这使得FSD在夜间或强眩光等极端视觉条件下,能超越人眼感知,从一片白茫茫中识别出路、树、车辆等关键信息,实现更优的视觉感知能力。

Elon Musk: The human-perceived RGB is image 1 and the Tesla AI photon count reconstruction is image 2. This is why Tesla FSD can se...

图像生成多模态教程/实践
22:48
Berryxia.AI@berryxia
73
兄弟们!这套结构,这个图理解后。GPT-Image-2 生图也就算是入门了吧。

推文介绍了一套提升AI生图质量的结构化提示词框架。其核心是“结构越清晰,输出质量越好”。框架将提示系统分解为几个关键模块:首先定义画幅与用途;其次明确主题与核心主体的位置、占比及情绪价值;接着通过视觉隐喻用具体元素象征抽象概念;然后选择如Apple风格等特定画面风格并强调干净、克制等视觉要求;最后规划包含主副标题、英文短句和关键词的文字系统,并列出应避免的限制元素。

图像生成教程/实践
21:50
向阳乔木@vista8
64
优化AI技能管理:统一目录与可视化工具推荐

针对如何管理日益增长的AI技能(SKILL)以及同步Claude、Codex等不同AI工具的技能问题,建议将技能创建和管理目录统一设置在.agent/skills路径下。对于Claude、Codex等其他工具的目录,推荐使用软链接方式,以实现最大程度的兼容性。同时,推荐使用CC Switch的Skill管理工具,其可视化界面便于升级管理、点亮图标以及开启对不同工具的支持。

Yihui: 向大家讨教两个问题: 1. 你是如何管理日益增长的 SKILL 的? 2. 大家是如何同步 Claude Code 和 Codex 的 SKILL 的?有没有什么好的同步方案?

智能体教程/实践部署/工程
20:52
PixVerse@PixVerse_
38
墨迹在飞舞?Seedance让它成为现实。快来Pixverse试试吧 👀 【引用 @MrDasOnX】:Ink shouldn't be able to fly, but this one finds a way! Seedance 2.0 1080p on PixVerse | @PixVerse_ 提示词如下 👇

Mr Das: Ink shouldn't be able to fly, but this one finds a way! Seedance 2.0 1080p on PixVerse | @PixVerse_ Prompt below 👇

教程/实践视频
20:50
向阳乔木@vista8
71
3.3万星AI论文学习库,收录精选视频教程

一个在GitHub上获得3.3万星标的AI论文学习资源库,作者系统性地收集和整理了高质量的AI学习视频。资源主要来自YouTube和Bilibili平台,例如收录了李沐的论文精讲系列。所有内容已按时间和主题进行了详细分类,便于用户系统学习和收藏。该库旨在为学习者提供一个结构化的视频学习路径。

开源生态教程/实践
20:48
Berryxia.AI@berryxia
57
一次将大模型的格式搞清楚!盘它!

本文梳理了本地大模型推理的主流格式。GGUF是llama.cpp推出的单文件格式,集成头文件、元数据和权重,加载快且支持灵活的K-quants量化(2-8bit),兼容llama.cpp等工具,适合CPU与低配设备跨平台使用。MLX是Apple为M系列芯片优化的框架,采用目录结构,在Mac上利用统一内存架构实现高效加载与处理,支持4bit量化,为Mac用户提供最佳体验。其他如PyTorch/Safetensors是训练分享标配,ONNX侧重跨框架部署。建议Mac用户优先MLX,跨平台或低配选GGUF,训练分享用Safetensors。

教程/实践端侧部署/工程
19:00
Peter Steinberger 🦞@steipete
62
强烈推荐运行一个抓取提及的定时脚本。 GPT非常擅长识别推广账号和AI回复的垃圾内容。
OpenAI教程/实践
18:20
向阳乔木@vista8
69
W3C设计系统启发AI Agent技能开发新思路

作者在让AI开发界面功能时,参考最佳实践发现W3C提供了一套完整的设计系统,涵盖了从面包屑导航到页脚等所有组件的规范。这一发现启发了作者,认为可以系统地让AI Agent学习这套全面的设计规范,从而将其转化为一个可执行的“技能”。这为利用现有、权威的标准化资源来训练和增强AI在特定领域(如前端开发)的能力提供了新的思路。

教程/实践
17:34
阿绎 AYi@AYi_AInotes
55
森马AI革新服装业,上新周期缩至15天

森马通过AI技术将服装上新周期从6个月压缩至15天,2025年实现数亿元回款并节省数千万元成本。AI作为全链路基础设施,覆盖供应链、库存、直播、运营等400多个场景,重构经营逻辑。AIGC视觉使图像生成效率提升,成本近乎零,支持全款式并行推进。AI不仅替代人工,更挖掘隐性成本,推动传统企业数字化转型。

图像生成教程/实践
16:22
PixVerse@PixVerse_
67
用户分享了一个高效AI视频创作流程。他首先利用ChatGPT,基于预设镜头描述,生成了一个结构严谨、支持多镜头序列的详细视频提示词。该提示词严格指定了品牌元素(如瓶身、包装、Logo及阿拉伯文/英文文本)需通过参考附件精确还原,并描述了超奢华、电影感的视觉风格。随后,他将此提示词输入PixVerse平台,借助其高速生成优势,快速产出了1080p分辨率的视频。此工作流有效结合了GPT的精准指令生成能力与PixVerse的快速视频渲染能力,实现了对品牌视觉的严格把控和高效率内容产出。

AZIZ | AI 🇸🇦: 5️⃣ عجبتني النتيجة وقلت ليه ماستخدم سي دانس ٢ ، ورحت على منصة @PixVerse_ لان احب ان السرعة عندهم عالية جدا لتوليد الفيدي...

图像生成教程/实践视频
15:48
歸藏(guizang.ai)@op7418
75
藏师傅PPT Skill更新第二套主题,集成AI生成与美化功能

藏师傅的PPT Skill工具发布了第二套主题,设计更简洁美观,适用于数据和事实性内容的演示。新主题提供4种颜色和20多种版式选择。其核心功能是集成了Codex内置的GPT-2.0模型,可辅助用户生成演示配图、美化截图,并能自动生成适用于各平台(如公众号)的封面图与配图。相关文章详细介绍了具体使用方法及操作技巧。

歸藏(guizang.ai): http://x.com/i/article/2053655813877870592

OpenAI图像生成教程/实践
15:30
Peter Steinberger 🦞@steipete
50
Birdclaw保存了我完整的推特存档,因此我可以向Codex查询任何我曾点赞或收藏的旧推文。https://birdclaw.sh
智能体OpenAI搜索教程/实践
11:48
Berryxia.AI@berryxia
68
AI助力AR 3D拆解教学,低成本方案推动科普变革

AI技术正重新激活AR 3D拆解教学领域。利用Cursor中的Claude opus模型,可快速生成手表、冰箱等物体的AR拆解教学演示,实现部件3D可视化与步骤标注,流程已跑通且成本低。该方案未来可广泛应用于硬核设备拆解及生物细胞等科普教学。对于精度要求不高的展示,可直接利用Apple官方免费3D模型库或KhronosGroup等开源资源快速搭建,JigSpace则是成熟的教学互动应用范例。这预示着科普教学方式将迎来新的变革。

Berryxia.AI: 看大家昨天都因为这个项目卧槽了一天! 朋友们都开始整活儿,其实对于精度要求不高只是展示3D的就是可以直接使用开源的一些3D库就可以拿来使用。 我最早接触和了解这玩意还是Apple的 Reality Composer,官方也提供了对应的3D ...

多模态开源生态教程/实践
09:45
Berryxia.AI@berryxia
56
利用开源3D库与工具快速创建3D展示与互动应用

推文讨论了在精度要求不高的3D展示场景下,可直接利用开源3D库快速实现。作者提及Apple Reality Composer及其免费的USDZ/USDC格式官方3D模型库,适用于AR增强现实。对于需要自定义或教学互动的场景,推荐了JigSpace应用。同时,作者分享了使用GitHub上的glTF样本模型快速制作Demo的经验。引用的推文补充了关键应用:结合GPT-image-2和Gemini等AI工具生成3D生物结构,并开发可交互探索的应用,旨在为课堂教学等场景创造趣味互动体验。

Berryxia.AI: 从此告别无聊的课堂教学! 自己开发趣味互动科学应用创意 ~ 现在使用GPT-image-2 + Gemini 尝试生成3D生物结构,并开发了一款能交互探索这些结构的应用!

图像生成开源生态教程/实践
09:33
meng shao@shao__meng
67
这个为 iOS App 创建用户 Onboarding Video 的 Skill 很有启发

一款开源Skill“Create Onboarding Video”利用AI(通过Remotion)为iOS App生成高质量的用户引导视频。它强制遵循一套“反AI油腻感”的硬性规则,以制作出具有“App Store预览”级质感的片段。核心规则包括:视频需聚焦于证明功能在工作的特定UI组件,而非展示完整屏幕;字幕需有固定的位置、大小和入场动画;光标交互必须真实自然,禁止瞬移。该Skill定义了从素材采集、分镜规划到编码实现的四步工作流,强调“展示而非叙述”,旨在快速引导用户达成“aha moment”。

ROFI: http://x.com/i/article/2053059568121282560

智能体GitHub开源/仓库教程/实践
09:33
meng shao@shao__meng
53
批评AI导致过度自检的反思

作者使用Cursor和Remotion制作视频,初版问题多,严厉批评Cursor Agent后,它反复自检耗时30多分钟才生成最终版。作者由此反思,应清晰列出问题要求AI一次性处理,避免PUA式指责,同时注意Remotion的高Token消耗。

智能体教程/实践
08:33
meng shao@shao__meng
65
Codex 如何重塑产品营销的工作方式

OpenAI Codex的首位产品营销经理阐述了其核心价值:从“写代码的工具”转变为让知识工作者直接接触代码库、Slack等“信息源头”的工作台。具体通过三层应用重塑PMM角色:作为个人助理聚合多工具信息以管理注意力;跟踪产品与工程状态以直接理解源码;生成跨职能对齐文档初稿以提高信息可见性。AI接管了汇总与追踪工作,使人能更专注于不可替代的判断部分,如评估表述、识别计划漏洞。这一让AI做“有据可依的初稿”、接入真实工作场景并实现自动化的模式,可迁移至任何上下文密集型岗位。

pranav: http://x.com/i/article/2053505234522238976

智能体OpenAI大佬观点教程/实践
07:30
DogeDesigner@cb_doge
62
用这个 @Grok 提示词为妈妈制作一张精美的母亲节贺卡 ❤️ "将这张照片转化为精美专业的母亲节贺卡,采用宝丽来风格大幅居中设计,周围环绕鲜艳花朵与优雅装饰元素,搭配丰富欢快的色彩和典雅的'母亲节快乐'文字,整体保持温暖、精致、视觉惊艳的效果。"
xAI图像生成教程/实践
06:45
Berryxia.AI@berryxia
60
这个太方便了啊!!! 搞科研读论文的不要错过啦! 如何安装Hugging face的CLI? curl -LsSf http://hf.co/cli/install.sh | bash 直接开干就完了! 支持arxiv和hugging face…

向阳乔木: 如果你喜欢到Huggingface读最新的AI论文。 可以安装官方的cli: curl -LsSf https://hf.co/cli/install.sh | bash 安装好以后,提示词: hf papers read [论文编号或论文...

Hugging Face开源/仓库教程/实践
06:32
宝玉@dotey
57
深度拆解:AI Agent Harness 的构造

文章指出,将大语言模型转化为可靠智能体的关键在于其外围基础设施,即“AI Agent Harness”。它被定义为产生智能体行为的完整软件架构,包括编排循环、工具、记忆、上下文管理等核心组件。这如同操作系统之于CPU,是智能体得以自主运行的“机器”。Harness工程超越了提示词工程,涵盖了完整的应用架构,是解决智能体在生产环境中表现不稳定的根本方案。

智能体AnthropicMCP/工具OpenAI
04:58
elvis@omarsar0
66
作者受启发复现了一个利用AI工具栈快速生成3D生物结构的工作流。该流程整合了Gemini Nano Pro生成概念、Tripo进行3D生成、Codex组装代码,并通过HTML构件实现交互式查看。作者认为,此类AI应用将指数级加速学习过程,并推动高质量教育的民主化。其灵感来源于@DilumSanjaya展示的利用GPT生成UI、Gemini编写代码来创建交互式科学探索应用的概念。

Dilum Sanjaya: Fun interactive science app ideas | Part 3 Played around with generating 3D biological structures and made an app to exp...

MCP/工具图像生成多模态教程/实践
5月10日
23:14
向阳乔木@vista8
59
如果你喜欢到Huggingface读最新的AI论文。 可以安装官方的cli: curl -LsSf https://hf.co/cli/install.sh | bash 安装好以后,提示词: hf papers read 【论文编号或论文URL】 同时支持arxiv网站和Huggingface paper的URL。
Hugging Face开源生态教程/实践
22:33
阿绎 AYi@AYi_AInotes
精选80
教育科技门槛一夜归零:AI助力单人低成本开发3D教学应用

AI工具GPT Images 2和Gemini 3.1 Pro的出现,彻底颠覆了教育应用的开发模式。过去需多人团队、数月时间和高昂成本才能完成的3D教育应用,如今一个具备领域知识(如生物学)的普通人,仅用约48小时和不到10美元即可实现。这消除了对编程、3D建模等技术能力的依赖,使教师、家长等个体也能独立创造高质量互动教学工具。此举有望推动过去仅属于精英机构的教学资源(如虚拟实验室)普及,为缩小教育不平等提供了新的技术路径。

Dilum Sanjaya: Fun interactive science app ideas | Part 3 Played around with generating 3D biological structures and made an app to exp...

GoogleOpenAI图像生成教程/实践

推荐理由:阿易这视频展示了 GPT Images 2 和 Gemini 3.1 Pro 的组合,48 小时从想法到可交互 3D 教学 App,零代码工作流直接可以抄,教育技术门槛真的归零了,做内容的别错过。
‹ 上一页
1…2021222324…31
下一页 ›