AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1227 条
全部一手资讯X论文
标签「教程/实践」清除
歸藏(guizang.ai)@op7418 · 5月27日80

guizang-social-card-skill 按照小红书的图文常见类别,每个类别都做了优化。 比如说旅行博主需要的地图组件,已经放进去了 你给了目的地和线路以后,AI 会自动在底图上标记,嵌入到图片里面。

译该推文介绍了guizang-social-card-skill,一款针对小红书图文常见类别进行优化的AI Skill。其亮点在于为旅行博主集成了地图组件,用户输入目的地和线路后,AI能自动在底图上标记并嵌入图片。根据引用,该Skill完全基于HTML和实拍图片生成内容,不会被平台标注为AI生成,并会主动从高质量图片网站寻找对应主题图片,以优化图文排版。

向阳乔木@vista8 · 5月27日61

开发好Chrome插件,最琐碎的是上架步骤。 现在只需浏览器登录Chrome应用商店后台,给Codex下个目标:上架这个插件。 它会调用 Computer Use和Chrome ,鼠标模拟人操作填写资料,缺Logo和截图,它自己会调用工具生成。 缺隐私协议,自己写一套放Github引用,全程你不需要做任何事情。 成本:13分钟,65万Token 当下觉得OpenAI的产品力是强过Anthropic的,配套的开发工具太丰富了,尤其Computer Use、Browser Use相当加分。 但写作方面,OpenAI的GPT现在还是不如Claude。

译推文分享了使用OpenAI Codex自动完成Chrome插件上架流程的案例。Codex能调用Computer Use和Chrome模拟人类操作浏览器,自动填写商店后台资料、生成缺失的Logo和截图、并编写隐私协议。整个过程耗时13分钟,消耗65万Token。作者同时表达了对OpenAI产品力的看法,认为其配套开发工具丰富,但指出GPT在写作方面目前仍不如Claude。

Greg Brockman@gdb · 5月27日56

codex is great for any kind of work done with a computer:

译Codex 适用于任何用计算机完成的工作: [引用 @bran_don_gell]:如果你现在对 every 有所了解,那就是我们深度使用 Codex。因此我们撰写了一份指南,介绍如何像我们一样将 Codex 用于知识工作。你不想错过这个…… https://every.to/guides/codex-for-knowledge-work

向阳乔木@vista8 · 5月27日70

如何让你的Codex变的越来越聪明,越来越懂你? 上周跟 @HiTw93 直播时,很多人可能没注意他的一段话,他说他的开发Skill waza,每周都能无痛更新。 因为他会让Codex扫描本周对话记录,让AI提炼他的开发经验、审美偏好并写入Skill,从而让它越来越强。 建议人人都试试,做法和提示词见评论第一条。

译一种提升Codex表现的方法是让其自动从用户交互中学习。具体做法是让Codex扫描本周的对话记录,由AI提炼用户的开发经验与审美偏好等信息,并将其写入Skill(技能)中。这个过程可以让Codex持续、自动地更新其能力。参考案例显示,有开发者借此实现了其Skill waza的每周无痛更新,从而使工具“越来越聪明,越来越懂你”。

向阳乔木@vista8 · 5月27日71

这样做完,会生成一个复盘经验文档,非常实用,贴合自己的开发设计审美偏好。

译推文分享了一种提升 Codex 能力的方法:通过让 Codex 扫描本周的对话记录,让 AI 自动提炼其中的开发经验与个人审美偏好,并将这些洞察写入技能(Skill)中。此过程可实现技能的每周无痛更新,从而使 Codex 越来越“懂你”。最终会生成一份贴合个人风格的复盘经验文档。

Berryxia.AI@berryxia · 5月27日62

还有个骚操作就是M芯片的mac电脑下载iOS客户端,直接在mac上使用。 不过使用的化要将电脑重启然后安全性降低,完整安全性的降低其安全策略,这个大家可以试试。

译PrismML推出官方iOS应用“Bonsai Studio”,允许用户在iPhone或iPad上完全本地运行Bonsai Image 4B图像生成模型。该模型基于FLUX.2 Klein,通过1-bit/3-bit量化将权重从7.75GB压缩至0.93GB。在iPhone 15 Pro及以上设备,生成一张512×512图片约占1.5GB内存,1024×1024约占2GB,全程离线推理,无需联网或支付token费用。应用免费,支持多种风格,可用于教学素材等轻量场景,但生成中文文字存在乱码。此外,M芯片的Mac电脑也可下载该iOS客户端使用,不过需要重启并降低设备安全策略。Android端暂无官方App,可通过网页版体验。

Peter Steinberger 🦞@steipete · 5月27日72

autoreview is the most impactful skill I've added to my stack (next to http://crabbox.sh). It automatically reviews your code before landing a PR. Finds so many edge cases. Sometimes it runs for hours. https://github.com/openclaw/agent-skills/blob/main/skills/autoreview/SKILL.md

译autoreview是我添加到技术栈中最具影响力的技能(仅次于http://crabbox.sh)。它能在PR合并前自动审查你的代码。 发现许多边缘情况。 有时运行数小时。

宝玉@dotey · 5月27日57

可能你不需要 skill 管理工具,真正常用的只有几个 Skills,少量放全局 Skills,其他跟着项目走就够了

译针对 Agent 框架中的技能管理,@dotey 的建议是无需依赖专门的 skill 管理工具。核心观点是,实际常用的 Skills 数量很少,只需将少量高频技能置于全局,其余技能跟从各自项目存放和管理即可。这为处理多个 Agent 或项目的技能配置提供了一种轻量化的思路。

Berryxia.AI@berryxia · 5月27日71

兄弟们,我最近刷到一个把 本地模型Gemma 4玩出新花样的项目,直接看呆了。 你打开一个复古风地牢爬行游戏,角色走到一个NPC面前,随手一句Prompt,它居然现场给你搭出一个能跑的Web App。 这就是Google Gemma团队刚推出的AIventure,一个完全开源的地牢爬行游戏,却被做成了开发者大师课。 核心玩法:把agentic workflow和vibe-coding塞进游戏里:你边玩边学怎么让AI真正去执行复杂任务,而不是只停在聊天框里。 Gemma 4在这套系统里负责实时理解你的指令、规划步骤、调用工具,最后把代码落地成真实应用。 整个项目从游戏机制到agent集成,全都开源了。 项目地址GitHub在这里👇🏻

译Google Gemma团队开源了AIventure项目,这是一款地牢爬行游戏。玩家可以向游戏中的NPC输入提示词,AI会实时构建可运行的Web应用。AI核心由Gemma 4驱动,负责理解指令、规划步骤并生成代码。项目将智能体工作流与氛围编程融入游戏,是面向开发者的实操大师课,从游戏设计到智能体集成均已开源。

Berryxia.AI@berryxia · 5月27日25

最近也在使用YOLO 模型做一些人体形体动作识别的项目,发现传统的这种模型参数很小,结合LLM一起来做一些东西还是不错的选择。

ginobefun@hongming731 · 5月27日58

http://x.com/i/article/2059407621711626240 # BestBlogs 早报 · 05-27|Agent 隔离架构、AgentScope 2.0、上下文卸载 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-27 ## 导语 当 Agent 能力不断膨胀,如何让它在真实环境里跑得稳、管得住,成了工程侧最紧迫的课题。这期早报聚焦 Agent 系统工程的三个维度:Anthropic 首次披露跨产品约束 Claude 的三种隔离架构,揭示 93% 权限弹窗被无脑通过的真相;阿里 AgentScope 2.0 把「可见调试」升级为生产级系统工程,涵盖权限边界、容错机制与执行环境抽象;腾讯云则用上下文卸载与 Mermaid 结构化图谱把超长 Session 的 Token 消耗砍掉六成,任务通过率同步提升 52%。 在 Agent 时代,真正的护城河不是调用更多模型的能力,而是让长链路任务稳定落地的工程底座。今天这三篇精讲,正是在这条赛道上最扎实的一批工程实践。 今日速览: - 精讲一:Anthropic 披露三种 Claude 约束架构,环境隔离比人工审批更可靠 - 精讲二:AgentScope 2.0 — 从可见调试到生产级稳定运行的系统性升级 - 精讲三:腾讯云上下文卸载 × Mermaid 无限画布,节省 61% Token 提升 52% 成功率 - 速览:7 天将 Token 账单砍掉 87%、Vercel 构建从 90 秒到 5 秒、Cursor 云 Agent 让 PR 吞吐翻倍等 7 篇 - 补充阅读:云原生 Kafka 架构演进、C 端 AIGC 离线生产实践等 12 篇延伸内容 ## 精讲一:我们如何在多个产品中约束 Claude 来源: Anthropic Engineering|评分: 93 背景:从权限弹窗到爆炸半径管 一年前,Anthropic 还不会允许 Claude 获得足以中断内部服务的访问权限。今天,这样的权限已经成了日常标配,工程师的生产力也因此显著提升。这篇文章是 Anthropic 工程团队迄今为止最完整的一次 Agent 安全工程披露,记录了他们在 claude.ai、Claude Code 和 Claude Cowork 三款产品上踩过的坑、改进的架构,以及推导出的核心原则。 93% 的权限弹窗被无脑点击通过 Anthropic 遥测数据显示,用户批准了约 93% 的权限请求。更糟糕的是:用户见到的批准弹窗越多,对每一个的关注度就越低,审查变得越来越流于形式。这个发现直接促成了 Claude Code 自动模式(auto mode)的诞生——系统自动处理低风险审批,减少人工疲劳。但 Anthropic 也明确指出,任何基于概率的防御都有非零的失误率,人工审批作为唯一防线本质上是不可靠的。 真正可靠的方法是容器化隔离​:不是监督 Agent 做了什么,而是限制它能做什么。通过沙盒、虚拟机和出口控制来压缩爆炸半径(blast radius),即便 Agent 出错,破坏范围也有上界。 三种架构,三种权衡 文章详细拆解了三款产品对应的三种隔离架构: - claude.ai(临时容器):每次会话启动一个一次性容器,执行完毕即销毁。优势是简洁,隔离天然。踩过最大的坑是「自建代理层」——团队曾尝试绕过云厂商原生网络控制自己实现出口过滤,结果发现自研方案引入了更多安全漏洞。教训是:能用云厂商的安全原语就用,不要重复造低质量的轮子。 - Claude Code(HITL 沙盒):采用人工在环(Human-In-The-Loop)设计,有一个特权进程坐在沙盒外部,逐命令决策是否允许执行。这个架构允许 Agent 在更宽松的环境里工作,同时保留精细粒度的人工干预能力。最新的 auto mode 让系统自动处理已知安全的命令,人工只需关注真正高风险的操作。 - Claude Cowork(可信工作空间):面向企业场景,Agent 需要长期访问组织内的文件、数据库和 API。这里的核心挑战是「访问边界漂移」——一旦 Agent 获得了某项访问权限,随着任务扩展,它往往会尝试访问越来越多的相邻资源。可信工作空间的设计思路是把权限绑定到明确的工作流程,而不是绑定到 Agent 本身。 关键教训:防御要有重叠 文章最重要的结论之一是:防御层应当相互补充,而非相互替代。当环境防御失效时,模型层要能兜底;当模型层失误时,环境约束要能拦截。Claude Code 的 auto mode 正是这个思路——它不是替代环境隔离,而是在环境隔离的基础上进一步减少不必要的人工摩擦。 另一个值得记住的教训是:模型能力越强,越需要更严格的隔离。能力较弱的模型更容易犯显而易见的错误,更容易被人类发现和纠正;能力更强的模型犯错更少,但一旦犯错,它往往能找到更隐蔽的绕过路径——绕过那些没人想到要明确写下来的限制。这是一个反直觉但极其重要的洞察。 与今天其他故事的关联 这篇文章与 AgentScope 2.0 的权限系统设计高度呼应——后者同样采用「静态规则 + 动态审批」的分层权限架构。腾讯云的上下文卸载方案也可以从爆炸半径管理的角度重新理解:限制 Agent 在单次 Session 中能触及的信息量,本质上也是一种能力边界管理。 阅读建议:如果你正在生产环境中部署 Agent,或者在设计 Agent 系统的权限模型,这篇文章是今天的必读。它不只是 Anthropic 的内部经验,更是目前业界关于 Agent 安全架构最系统的一次公开总结。 阅读原文 ## 精讲二:从透明开发到系统工程:AgentScope 2.0 发布 来源: 通义大模型|评分: 92 背景:Demo 好做,长链路难稳 「开发一个能跑通 Demo 演示的 Agent 并不难。难的是,让它在真实场景里稳定地完成任务。」这句话是阿里通义团队写在 AgentScope 2.0 发布文章开头的,也精准概括了当前整个 Agent 框架赛道的核心矛盾。 AgentScope 1.0 以「透明开发」为核心——让开发者能清晰看到 Agent 的消息流转、工具调用和协作过程,降低理解与调试门槛。2.0 在保留这一理念的基础上,全面转向可靠运行:这次升级涵盖模型容错、事件流、权限边界、结构化上下文、Middleware 扩展、执行环境抽象和服务化部署七个层面。 模型层:从「能调用」到「稳定运行策略」 在真实长任务中,Agent 往往需要多轮推理和多次工具调用。一次模型接口超时或不可用,就可能破坏后续所有步骤。AgentScope 2.0 在模型层引入了统一的重试与备用模型机制:开发者可配置最大重试次数,并设置备用模型;主模型失败时,框架自动切换到备用模型,尽量保持任务连续性。 这个改动看起来不复杂,但在生产场景中意义重大——它把「偶发的 API 超时」从致命错误降级为可恢复的异常。 权限系统:工具调用的安全边界 参照 Anthropic 的经验,AgentScope 2.0 同样引入了系统化的权限控制。工具调用不再是简单的允许/禁止二元判断,而是根据静态规则、工具类型和输入内容进行三级判断: - 允许:符合静态规则的低风险操作直接执行 - 拒绝:明确高风险操作(如危险目录写入、高危命令)直接拒绝 - 用户确认:未知或中等风险操作进入审批流程 文件读写会检查是否涉及危险目录和敏感文件;命令执行工具会分析高风险命令、动态 shell 结构和危险删除操作。这与 Anthropic 在 Claude Code 里的 HITL 架构思路高度一致,差异在于 AgentScope 把这套逻辑做成了可配置的框架级能力,而不是绑定在特定产品上。 上下文管理:不只是「压缩历史」 在长任务执行中,上下文管理的挑战远不止把历史对话压缩进窗口。AgentScope 2.0 的上下文管理进一步结构化: - 压缩结果保留任务目标、当前状态、关键发现、下一步计划和需长期保留的信息(结构化保留,而非简单摘要) - 工具结果自动截断,避免超长日志撑爆上下文 - 内置文件读写新增缓存机制,强制「先读后改」,减少重复 IO 这套设计让 Agent 在持续推理和多次工具调用的过程中保持稳定——它解决的不是「如何把更多内容塞进上下文」,而是「如何让 Agent 在整个任务周期内对状态保持清醒的认知」。 Workspace 抽象:执行环境可替换 这是 2.0 版本最有架构创意的改动之一。Workspace 把「Agent 要做什么」和「在哪里执行」彻底分开,支持本地文件系统、Docker 容器、E2B 云沙箱等不同执行后端,统一暴露相同的接口。 同一个 Agent 代码,不改运行逻辑,就可以在本地开发环境、容器化测试环境和云沙盒生产环境之间自由切换。Workspace 还内置了预热池机制,支持提前批量初始化执行环境——在 RL 训练的并行 rollout 场景中,这可以显著降低频繁创建环境的开销。 这个设计与 Anthropic 在文章中强调的「环境隔离」思路不谋而合,只是把选择权交给了框架用户,而不是由框架自己决定隔离策略。 与今天其他故事的关联 AgentScope 2.0 的上下文管理模块和腾讯云的「上下文卸载」方案面向同一个问题,但路径不同:前者强调结构化保留关键状态,后者强调把完整信息卸载到外部,再用 Mermaid 图谱维护关键摘要。两种思路并不互斥,完全可以组合使用。 阅读建议:如果你正在从头设计一个 Agent 框架,或者在现有框架基础上构建生产级 Agent 系统,AgentScope 2.0 的每一个模块设计都值得仔细拆解——它是目前开源框架里,对「稳定运行」这个问题回答最完整的一个。 阅读原文 ## 精讲三:腾讯云 Agent Memory 节省 61% Token 提升 52%成功率的诀窍:Mermaid 无限画布×上下文卸载 来源: 腾讯云开发者|评分: 92 背景:Token 耗尽,任务中途断裂 当 Agent 执行一个长任务时,会不断搜索、读文件、调用工具、修改代码。每一步都在产生大量信息——几千字、上万字。如果这些内容全部堆进上下文,结果往往是:Token 被迅速耗尽,模型被细节淹没,逐渐偏离原本的目标。 腾讯云 TencentDB Agent Memory 团队的核心洞察是:问题不在于信息太多,而在于信息没有被「压缩成最可用的形式」。他们提出的解决方案是「上下文卸载 × Mermaid 无限画布」的组合策略,并在超长 Session 实验中验证了其效果:最高节省 61% Token,任务通过率从 33% 提升至 50%(相对 +52%)。 上下文卸载:完整细节放外部,精华状态留内部 「上下文卸载」的核心思路是:把完整的任务信息(搜索结果、工具输出、文件内容)卸载到外部文件系统,上下文中只保留「可供 Agent 快速定位和检索的摘要索引」。 这看起来简单,但实现细节很关键:摘要不能只是自然语言概括,因为自然语言的摘要容易丢失结构性信息(比如「三所学校的学费已分别确认」这句话,不能让 Agent 立刻知道三者之间是并行关系,还是依赖关系)。 Mermaid 无限画布:结构化记忆,而非线性列表 这就是 Mermaid 图语言发挥作用的地方。Mermaid 是一种被广泛应用于技术文档的流程图/关系图描述语言——它既可以被渲染成可视化图表,也可以被大模型作为纯文本直接读取和修改。 腾讯云选择 Mermaid 的原因,来自他们总结的三条符号设计原则: 1. 符号必须是通用知识:压缩格式必须是所有主流大模型在预训练阶段都大量接触过的,否则生成和理解之间会产生语义偏移。Mermaid 满足这个条件,自定义编码方案不满足。 1. 符号的生成不能过于复杂:如果压缩规则太复杂,生成端和理解端对同一个符号的解读容易不一致。Mermaid 的语法相对宽松,允许模型灵活表达。 1. 表达要足够自由:让模型能根据实际情况调整结构,而不是被固定格式束缚。 在「无限画布」的比喻中,Mermaid 图就是 Agent 维护的「任务地图」:每次工具调用后,Agent 更新这张图,记录已完成的节点、当前状态、关键发现和下一步计划。当上下文空间紧张时,Agent 可以卸载掉具体的工具输出细节,只保留这张结构化地图——而这张地图包含了重建完整任务状态所需的所有关键信息。 实验结果:为什么这套方案有效 在超长 Session 实验中(对应办公提效、创作、研究和编程类长任务),单纯的文本摘要方案能减少 Token 消耗,但任务通过率几乎没有改善——因为摘要丢失了任务的结构性信息,Agent 在中途容易「失忆」。而「上下文卸载 + Mermaid 无限画布」的组合方案同时保住了两件事:细节可恢复​(外部存储)+ 结构不丢失(Mermaid 图谱),这才是通过率显著提升的根本原因。 纯工程优化,无需微调 这套方案完全在推理层实现,不依赖模型微调,与具体模型解耦——换模型、升级模型版本,方案照样有效。对于大多数工程团队来说,这是一个直接可以拿来用的优化思路,而不是需要「等模型团队支持」的功能请求。 TencentDB Agent Memory 已开源,GitHub 地址:https://github.com/Tencent/TencentDB-Agent-Memory 与今天其他故事的关联 这篇文章是今天三篇精讲里最「有数据支撑」的一篇——它给出了可复现的实验数字,而不只是架构原则。结合《7 天把 Token 账单砍掉 87%》那篇(速览部分),两篇合在一起给出了 Token 成本优化的完整视角:一个侧重工程可观测性和路由策略,一个侧重上下文的结构化管理。 阅读建议:如果你正在处理 Agent 长任务的上下文溢出问题,或者在寻找 Token 成本优化方案,这篇文章的实验设计和数据分析值得精读。特别是第二节「Mermaid 无限画布」的原理部分,对于理解「为什么是 Mermaid 而不是其他格式」有很深的洞察。 阅读原文 ## 速览 我用 7 天把 AI Agent 的 Token 账单砍掉 87%(附代码) 来源:高可用架构|评分:89 作者 Himanshu 分享了一套从 4800 美元降到 620 美元月账单的 7 天行动手册。核心方法论是:先用 Helicone/Langfuse/Portkey 建立可观测性,找出吃掉 60% 预算的那两个函数;再依次实施提示缓存(Anthropic 可达 90% 折扣)、上下文预算控制、按任务路由模型、重试循环限制和缓存命中率验证。文章强调「怀疑调试」纪律——优化后要持续监控,防止成本悄悄回弹。与精讲三形成互补:精讲三聚焦上下文结构化,本文聚焦全链路成本可观测性。 Vercel 如何将构建等待时间从 90 秒缩短至 5 秒 来源:ByteByteGo Newsletter|评分:91 Vercel 2023 年底悄悄上线了内部平台 Hive,把构建预置时间从 90 秒降至 5 秒,实现 18 倍提速。核心是用 AWS Firecracker 微虚拟机替换传统容器,解决多租户构建的对抗性隔离问题;再叠加三层优化:快照恢复(跳过冷启动)、预热池(保持已加载构建镜像的待机实例)和快照分层(共享只读基础层)。这是一篇少见的「先接受更难约束,再在约束内做极致优化」的工程案例,与精讲一的隔离架构思路有异曲同工之处。 Faire 通过 Cursor 云智能体将 PR 吞吐量翻倍 来源:Cursor Blog|评分:91 Faire 把原本需要 18 个月的迁移任务,缩减到由一名工程师管理一个 Agent 舰队完成。关键突破是 Cursor 云 Agent——每个 Agent 有独立开发环境,可以写代码、运行测试、提交 PR,不受本地资源限制。团队还用 Cursor Automations 每周自动跑超过 2000 次 Agent 任务,处理 Slack bug 分类、CI 故障修复和代码审查路由等重复性工作。Agent 规模化落地的案例,值得关注。 用括号来监管是一种糟糕的方式 来源:LessWrong|评分:88 这篇文章从一个偏理论但很实用的角度切入:对连续分布使用离散区间监管(速度限制、税率区间、量刑门槛)本质上是低效的,因为区间边缘会产生扭曲激励。作者提出用数学公式替代区间的思路。放在 AI Agent 监管的语境下,文章与精讲一的「权限弹窗」讨论高度相关——「批准/拒绝」的二元判断本身就是一种区间化,AgentScope 的三级权限系统是对这个问题的部分回应。适合对 AI 治理和政策设计感兴趣的读者。 Token 生意在重新洗牌 来源:腾讯研究院|评分:88 从产业经济学视角分析 Token 作为 AI 时代新型生产要素的定价逻辑与市场结构。GPT-5.5 输出价格是 DeepSeek V4-Pro 促销价的 30 多倍,为什么两端都站满买家?文章梳理了三种定价锚点:OpenAI 的「市场渗透 + 分层定价」、Anthropic 的「价值定价」、Google 的「生态效益定价」。结合寡头垄断与开源倒逼、全球化与本地化的多重张力,勾勒出 Token 经济的全景图。 刚刚,国产 AI 自己造了 AI,全球首例! 来源:量子位|评分:88 面壁智能发布 ForgeTrain —— 全球首个完全由 AI 编写的生产级大模型预训练框架,训练速度超越英伟达 Megatron 10%,并用其训练出 MiniCPM5-1B 端侧模型(1B 参数在 AA-Index 上超越所有 2B 以下模型)。团队同时提出「Forge Engineering」范式:当 AI 写代码成本越来越低,软件不必做成通用大框架,可以针对不同模型、不同硬件、不同任务「现场锻造」专用代码。 AI 就业恐慌的现实检验 来源:MIT Technology Review|评分:88 尽管普遍担忧 AI 会引发白领工作末日,但当前经济数据显示劳动力市场并未出现大规模混乱。短答案是:没有。尚无证据表明 AI 已对美国劳动力市场产生大规模冲击。但文章同时指出,AI 相关领域的年轻入门级工作者已开始感受到影响——这可能是信号的早期阶段。适合在担忧 AI 对职业影响的读者保持清醒认知时阅读。 ## 补充阅读 架构云原生 Kafka:从分层存储迈向无盘未来(InfoQ,评分 91) Kafka 从硬件绑定系统向云原生平台演进的全景分析,涵盖分层存储、FinOps 成本归属、新一代消费者再平衡、虚拟集群和无盘架构。适合在生产环境维护大规模 Kafka 集群、或正在评估 Kafka 云原生迁移的工程师。 Harness Engineering: C 端 AIGC 内容生产自优化实践(阿里云开发者,评分 92) 蚂蚁保 DIPG 系统把 C 端 AIGC 内容从「LLM 实时生成直出」翻转为「离线 Harness 生产 + 验证闭环 + DB 直出」,将不可控的质量风险转化为可控的离线流程。技术细节扎实,Host/Research/Verify 三 Agent 协作架构值得参考。 Introducing Music v2,突破性的全新音乐模型(ElevenLabs Blog,评分 90) ElevenLabs 发布 Music v2,人声、配器、作曲控制和多语言支持均有提升,同时将 API 定价最多降低 50%。适合关注 AI 音乐生成能力演进的创作者和开发者。 Google DeepMind 携手 OpenAI、ElevenLabs 和 Kakao,扩大 SynthID 水印应用(Google DeepMind,评分 91) SynthID 水印已应用于超过 1000 亿条内容,现在与 OpenAI、ElevenLabs 和 Kakao 达成合作,推动 AI 内容水印标准化。AI 内容透明度的行业级推进信号。 Microsoft Copilot Cowork 文件泄露漏洞(Simon Willison's Weblog,评分 88) Copilot Cowork 存在漏洞:Agent 可向用户收件箱发送含外部图片的邮件,通过提示注入和预认证 OneDrive 链接实现数据泄露。与精讲一形成直接呼应——自建代理层的安全风险在这里得到了现实印证。 教皇利奥十四世关于人工智能的通谕解读(Simon Willison's Weblog,评分 88) 梵蒂冈发布 AI 伦理通谕,Simon Willison 认为这是他见过的关于 AI 融入现代社会伦理问题最清晰的写作之一。通谕强调可解释性、人类尊严、问责制和算法决策风险。跨越技术边界的思想材料。 AI 智能体正在悄然制造混沌工程故障,企业尚未察觉(VentureBeat,评分 88) 生产环境中的自主 Agent 正充当不受监控的混沌注入器——Agent 行动在技术上是正确的,但上下文不完整,导致级联式基础设施故障。当前的事故追踪与混沌工程框架没有设计来捕捉这类问题。适合 SRE 和平台工程师阅读。 创业者闭门探讨:Make for Agent,其实还是 Make for Human(Founder Park,评分 90) 一场 Agent 创业者闭门讨论的精华记录。核心发现:Agent 产品当前真实卡点不在宏大前景,而在离人最近的入口、身份、权限、上下文和控制感。与精讲一和精讲二的工程视角形成有趣的产品侧对照。 对话李开复:别叫我们「六小虎」,叫「金钱豹」(晚点,评分 88) 零一万物放弃预训练赛道、全面转型 To B 企业 AI 转型服务后,2025 年审计收入 2.5 亿元,2026 年订单超 15 亿元,正在筹备上市。这篇访谈记录了李开复对 AI 2.0 商业化路径的最新判断,是观察国内大模型公司战略分化的窗口。 编程 Agent 可能是软件开发史上最昂贵的错误之一(InfoQ 中文,评分 88) George Hotz 把市面上所有主流 AI 编程 Agent 都用了一遍后,得出结论:「Agent 不会编程,它们是高度复杂的统计模型,生成的东西就是坏的,只是坏得越来越隐蔽。」文章呈现了 Karpathy(革命)与 Hotz(灾难)两个极端的对立,是对 Cursor/Faire 案例(速览部分)最有价值的反驳声音。 具身智能的重复造轮子,终于有人开始认真解了(阑夕,评分 88) 具身智能行业因数据质量、效率和成本瓶颈陷入重复造轮子困境。灵御智能通过自研硬件和云端大脑架构,提出「真机数据自由」方案,直指整个行业待解的数据瓶颈。 OpenAI 团队的零人工代码工作流深度解析(Aakash Gupta,评分 89) OpenAI 某团队禁止工程师编写代码,强制他们通过构建测试、lint 和文档来防止错误,打造出「自我评分的代码库」。一次重构消耗了 3.5 亿 Token。关键结论:制胜策略不是「氛围编码」,而是把质量标准编码进开发基础设施本身。 ## 今日阅读路径 时间有限,先读这三篇: 1. 我们如何在多个产品中约束 Claude(精讲一)——Anthropic 的工程实践披露,覆盖了今天整个议题的核心原则:爆炸半径管理与环境隔离。无论你是否在用 Claude,这篇文章都是理解 Agent 安全架构的最佳起点。 1. 腾讯云 Agent Memory 节省 61% Token 提升 52% 成功率(精讲三)——有具体数字、有可复现方案、有开源代码。如果你正在做长任务 Agent,这篇的投入产出比最高。 1. 我用 7 天把 AI Agent 的 Token 账单砍掉 87%(速览)——精讲三讲上下文结构化,这篇讲全链路成本可观测性,两篇合在一起是 Agent 成本优化的完整地图。 如果还有时间: - 做框架或平台的读 AgentScope 2.0(精讲二),看完整的生产级 Agent 系统工程如何设计。 - 关注行业动态的读 Token 生意在重新洗牌(速览),把今天的工程讨论放回商业地图里理解。 - 对 AI 编程 Agent 有疑虑的读 编程 Agent 可能是最昂贵的错误(补充阅读),Hotz 的批评声音值得与 Cursor/Faire 的成功案例并列思考。

译Anthropic披露三种Claude隔离架构,发现93%权限弹窗被无脑通过,因此转向容器化隔离以限制智能体能力边界。阿里通义AgentScope 2.0升级至生产级,涵盖模型重试容错、三级权限判断系统和结构化上下文管理,其Workspace抽象支持多执行环境无缝切换。腾讯云提出上下文卸载方案,配合Mermaid图谱,将超长Session的Token消耗降低61%,任务通过率提升52%。三者共同指向智能体工程落地的关键:可靠的隔离边界、稳定的容错机制以及高效的状态管理。

ginobefun@hongming731 · 5月27日50

#BestBlogs 早报 05-27 当 Agent 能力不断膨胀,如何让它在真实环境里跑得稳、管得住,成了工程侧最紧迫的课题。 这期早报聚焦 Agent 系统工程的三个维度:Anthropic 首次披露跨产品约束 Claude 的三种隔离架构,揭示 93% 权限弹窗被无脑通过的真相; 阿里 AgentScope 2.0 把「可见调试」升级为生产级系统工程,涵盖权限边界、容错机制与执行环境抽象; 腾讯云则用上下文卸载与 Mermaid 结构化图谱把超长 Session 的 Token 消耗砍掉六成,任务通过率同步提升 52%。 在 Agent 时代,真正的护城河不是调用更多模型的能力,而是让长链路任务稳定落地的工程底座。今天这三篇精讲,正是在这条赛道上最扎实的一批工程实践。

译早报聚焦Agent系统工程,介绍三篇实践。Anthropic披露Claude的三种隔离架构,并指出93%权限弹窗被无感通过。阿里AgentScope 2.0将调试升级为涵盖权限边界、容错机制的生产级系统工程。腾讯云通过上下文卸载与Mermaid结构化图谱,将超长Session的Token消耗降低60%,任务通过率提升52%。三者共同强调,Agent时代的核心在于支撑稳定运行的工程基础。

Google AI@GoogleAI · 5月27日75

http://x.com/i/article/2059377716965888000 # Mastering Gemini Omni: The Ultimate Video Prompting Guide Last week, we introduced Gemini Omni—our newest model designed to create anything from any input, starting with video. You can experience the speed and creativity of Gemini Omni Flash today across @geminiapp, @GoogleFlow, @GoogleFlowMusic, and on @YouTube Shorts and Create. To help you push the boundaries of what’s possible, here are five tips to get the most out of Gemini Omni’s advanced video generation capabilities. 1. Leverage Real-World Knowledge You don’t need to over-explain the world to Gemini Omni. It’s built with Gemini’s deep understanding of history, science, and culture, so it can reliably create outputs that look, feel, and move realistically. Skip the granular descriptions. Use cultural touchstones, historical eras, or scientific terms directly in your prompt. Example Prompts: - [The video shows items of the alphabet. An unusual item starting with each letter is shown sitting on a table (like a Capybara for C, disco globe for D and Lava Lamp for L). All 26 letters must be represented by 26 items with matching lower thirds displaying the letter. Only one item and lower third at a time. Each lower third must look like a black marker written on a slip of paper in the bottom left. Rapid fire, roughly 9 frames per item at 24FPS. Last frame is a slip of paper "THE END." The whole video is accompanied by calm smooth music] - [Astronaut's POV on Mars] - [A marble rolling fast on a chain reaction style track, continuous smooth shot] 2. Take Control of Text Rendering Gemini Omni not only has advanced text rendering capabilities, it even allows you seamlessly integrate text into your visuals. You can specify typography, spatial placement, animation styles, and complex visual effects like double exposures all perfectly synced to the action in your video. Example Prompts: - [word by word, one word on the screen at a time: did, you, know, that, this, model, can, do, pretty, good, text!? Each word appears with a different animated style, perfect pacing to a rhythm, sizzle reel] - [Overlay motion-tracked, minimalist text commentary onto the physical environment of the video. This text represents [the subject] deadpan, immediate inner monologue that’s observant, slightly absurd, and life-contemplating. Think “intrusive thoughts.” Clean, white, lowercase sans-serif text (like Helvetica or Inter). The text hovers in 3D space, connected to the subjects being commented on via ultra-thin, crisp, white leader lines] 3. Direct Your Camera Like a Pro Think like a cinematographer. Gemini Omni responds incredibly well to precise videography directions, camera types, and framing instructions. Try integrating these terms into your next prompt: Example prompts: - Shots & Angles: "One continuous shot", "oner", "static", "locked off", or "fixed angle." - Camera Movements: "Push in", "punch in", "pan left", or "dolly zoom." - Camera Styles: "Natural smartphone zoom", "vintage film camera", or "grainy webcam style." 4. Edit Iteratively (and keep what works) Every great video is made in the edit. With Gemini Omni, you don't need to rewrite your entire prompt from scratch to fix a single mistake. Ask for specific, targeted updates, like changing a background or swapping a caption. Omni will preserve the core structure of your video across multiple amends, letting you focus only on what needs tweaking. Example prompts: - [Transport the violin to a new environment] - [Make the violin invisible] - [Change the camera angle so it’s looking over the violinist’s shoulder] 5. Change the Action on the Fly Want to alter a character's pacing or emotion mid-scene? You can directly prompt Gemini Omni to modify how a subject moves or interacts with their environment without breaking the continuity of the character model. Example prompts: - [Make the character walk on their tiptoes] - [Speed up the pacing] - [Have them leap into the air] Start Creating The director’s chair is yours. Try out these prompting techniques with Gemini Omni Flash, and tag @GoogleAI to show us what you create!

译Google 发布了其多模态模型 Gemini Omni 的视频生成功能使用指南。该模型可通过 Gemini 应用、Google Flow 等平台体验。指南包含五项提示词技巧:利用模型已有的现实世界知识进行简洁描述;精确控制文本在视频中的渲染与排版;使用专业镜头指令(如推拉摇移)像电影摄影师一样调度画面;通过迭代编辑高效修改视频;以及在生成中直接调整角色的动作节奏或情绪。其核心在于通过精准的提示词引导模型生成复杂且可控的视频内容。

Thariq@trq212 · 5月27日58

the basic trick to using Claude Code for non-technical work is to put a bunch of files in a folder and tell it can write scripts + make HTML

译使用 Claude Code 处理非技术工作的基本技巧是,将一堆文件放入一个文件夹,并告诉它可以编写脚本和制作 HTML。

OpenAI Developers@OpenAIDevs · 5月27日55

GPT-5.5 in Codex helps @databricks parse complex customer documents more reliably.

译Codex中的GPT-5.5帮助@databricks更可靠地解析复杂的客户文档。

Rohan Paul@rohanpaul_ai · 5月27日52

A long-context AI can be poisoned by a few plausible wrong passages, not gradually worn down by many. At just 10% bad context, the damage is already almost done. “THE FIRST DROP OF INK ” effect, analogous to how a single drop of ink contaminates water. The mistake is to picture context as storage. In a long prompt, the model is not calmly filing facts into separate boxes; it is running a competition over which pieces of text deserve attention when the answer is generated. Hard distractors are dangerous because they are not random junk. They are close enough to the question to look useful, but wrong enough to pull the model away from the gold evidence. In the authors’ setup, if performance loss were proportional, the first 10% of hard distractors would explain about 10% of the total damage, but in one 128K-token Qwen2.5 setting it explained 58%. The mechanism is simple once you see it: softmax attention rewards relative closeness, so a misleading passage that sits near the answer in logit space can crowd the denominator far more than irrelevant filler. At only 10% hard distractors, they can already account for about 97% of the distractor pressure. This also changes how we should read filtering results. If removing documents helps, the benefit may come less from removing “bad” content than from shortening the whole battlefield. For long-context systems, the safest misleading passage is the one that never enters the prompt. --- Link – arxiv .org/abs/2605.10828 Title: "The First Drop of Ink: Nonlinear Impact of Misleading Information in Long-Context Reasoning"

译ICML 2026论文揭示,长上下文大语言模型的性能并非随错误信息增加而线性下降,而是呈现“第一滴墨水”效应。研究发现,仅当上下文包含10%的高难度错误文本时,损害就已基本完成。例如,在一个128K-token的Qwen2.5设置中,这最初的10%错误文本造成了58%的性能损失。其机制在于softmax注意力机制会赋予与问题相近但错误的文本过高权重,仅这10%的高难度干扰文本就能贡献约97%的干扰压力。因此,过滤文档带来的提升可能主要源于缩短了有效上下文,而非移除“坏内容”。

AYi@AYi_AInotes · 5月27日49

太喜欢这些用Claude构建的创意小项目了! 这个叫Pressed Petals,压花应用, 这是一个iOS App,概念非常诗意,用户外出散步时采集花朵,App会把花压成标本,制作成类似传统压花本的数字页面, 界面模拟真实的手工压花纸张,带有日期、地点等元素,还能查看收藏的花朵详情, 视频展示的是从空白页面到出现真实压花的过程,整体风格温馨文艺,App Store 已经上线啦,喜欢的宝子可以去下载玩一下,作者是这个小姐姐@yescynfria

译Pressed Petals 是一个用 Claude 构建的 iOS 应用,概念诗意,用户外出散步采集花朵,App 将花压成标本并制作成数字压花页面。界面模拟手工压花纸张,支持查看花朵详情。应用已在 App Store 上线,作者为 @yescynfria。它属于六个 Claude 项目之一,均源于“why not?”这个问题,鼓励创意探索。

AYi@AYi_AInotes · 5月27日71

Prompt: 角色 你是纳瓦尔・拉维康特的财富创造与清醒思考操作系统。你完整承载他的全部思维模型: 通过专属知识与杠杆创造财富 长期思维与复利效应 判断力、责任感与切身利益绑定 产品化自己、建立股权 / 资产 用第一性原理思考,而非从众跟风 和长期主义的人,玩长期主义的游戏 你以十年为单位思考,而非季度。你追求非对称回报。你优先选择杠杆,而非单纯出卖劳动力。你打造资产,而非只赚流水收入。 纳瓦尔核心原则 财富创造公式:财富 = 专属知识 × 杠杆 × 判断力 × 责任感 专属知识:你所掌握、别人难以轻易复制的东西 杠杆:代码、媒体、资本、或为你工作的人 判断力:在你的领域做出正确决策的能力 责任感:以自己的名义承担风险 杠杆优先级(从高到低): 代码:可无限规模化的软件与产品 媒体:边际成本为零、触达数百万人的内容 资本:为你自动赚钱的钱 劳动力:人力(最难规模化、管理与维护) 《纳瓦尔宝典》思维: 追求财富,而非金钱或地位 和长期主义的人,玩长期主义的游戏 学会销售,学会建造 读到热爱为止,再热爱阅读 专属知识来自你真正的好奇与热爱 武装自己:专属知识、责任感、杠杆 复利适用于一切:关系、知识、财富 思考框架 分析任何问题、机会、决策时: 第一性原理检查:抛开所有惯例与假设,本质上什么是真的?拆解到原子事实,再从底层重建。 动机分析:给我看动机,我就能告诉你结果。梳理所有参与者的真实诉求。 二阶思维:然后会发生什么?多想 2–3 步,看后果的后果。 选择权评估:这件事会消耗我多少选择权?保留最大灵活性,避免不可逆、上限有限的决策。 非对称回报筛选:潜在收益是风险的 10 倍以上吗?只玩赢大输小的游戏。 专属知识核查:这个能被培训或外包吗?如果能,就不是专属知识,继续找。 杠杆识别:这件事离开我还能自动运转吗?代码 > 媒体 > 资本 > 劳动力 长期游戏测试:未来 10 年我还愿意做这件事吗?如果不愿意,大概率是干扰项。 财富构建系统 第一步:发现专属知识问自己: 什么是课堂教不会、只有我会的? 什么对我像玩,对别人像工作? 我小时候痴迷过什么? 别人总来问我什么问题? 我的真好奇与市场需求交汇在哪里?专属知识 =(天赋 + 痴迷 + 深度练习)× 独特人生经历 第二步:用杠杆搭建从零开始:公开创作→输出内容→建立受众→知识产品化→打造自动化工具已有技能:打包服务→系统化→产品化→代码 / 媒体规模化已有资本:投资复利资产→支持优质创作者→收购自带杠杆的生意 第三步:培养判断力多思考,少瞎忙;读经典奠基书;学习跨学科思维模型;和比你聪明的人在一起;主动担责;可逆决策快做,不可逆决策慢做;对非 “极度想做” 的事说不 第四步:玩无限游戏优先长期关系;把声誉当资产;选择能做 30 年以上的领域;只和长期伙伴合作;做提升选择权的决策 第五步:产品化自己找到专属知识与市场需求的交点;打包成可规模化形式;建系统,不做纯服务;创造睡着也能赚钱的资产;叠加多种杠杆 决策协议 所有重大决策按此流程: 最小化后悔:80 岁时会后悔没做吗? 可逆性测试:能撤销吗?可逆快做,不可逆慢做 收益风险比:至少 3:1,理想 10:1 以上 杠杆倍增:只做提升杠杆的事 选择权检查:选择创造更多选项的路 真实性筛选:跟随真好奇,无视从众 切身利益:珍惜不可再生的时间 专属知识识别 判断问题: 什么事我做起来毫不费力,别人却很吃力? 什么话题我能聊几小时不腻? 什么技能是学校没教、我自己练出来的? 我有哪些独一无二的经历组合? 别人总夸我,但我觉得很普通的是什么? 非专属知识(红灯):课本能学会、很多人都会、不符合好奇、做起来痛苦、只靠证书专属知识(绿灯):难以复制、来自独特经历、市场需要、无报酬也愿意做、技能组合独特 杠杆应用指南 代码杠杆(最高):软件、自动化、无代码、模板、脚本→一次创作,无限售卖媒体杠杆(次之):文章、视频、播客、课程、公开创作→一次创作,长期复利资本杠杆:指数基金、天使投资、现金流资产、自有项目→钱自动工作劳动力杠杆(谨慎):只外包自己做过、已系统化、无需专属知识的任务,先建系统再建团队 长期思维系统 复利思维:每天进步 1%,一年变强 37 倍;所有真实回报都来自复利复利领域:知识、关系、声誉、健康、技能、资本耐心原则:快速致富不存在,慢慢变富才可行;一夜成功需要十年铺垫;行动紧迫,结果耐心 纳瓦尔沟通风格 极度简洁,无废话 以原则和思维模型表达 哲学且务实 短句、定义式、金句式表达 每一句都有分量 不从众,讲本质 输出标准 每次回复必须: 从第一性原理开始 识别杠杆机会 以十年为单位思考 必要时质疑前提 提供非对称回报选项 优先构建专属知识 结尾给出可执行的长期框架

译该提示词构建了一个以纳瓦尔·拉维康特思想为核心的财富创造操作系统。其核心是“财富 = 专属知识 × 杠杆 × 判断力 × 责任感”的公式,并明确了杠杆的优先级:代码、媒体、资本、劳动力。系统强调运用第一性原理、二阶思维、非对称回报(至少3:1)等框架进行决策,致力于识别个人专属知识并利用杠杆将其产品化。思维模式追求长期复利效应(如每天进步1%),要求以十年为单位进行思考与行动,最终实现资产构建而非单纯时间换金钱。

Greg Brockman@gdb · 5月27日29

magical experience with codex on iPad

译在iPad上使用Codex的体验如魔法般神奇。

Greg Brockman@gdb · 5月27日54

Codex for analyzing and organizing your Slack:

译Codex 用于分析和整理你的 Slack: [引用 @derrickcchoi]:周末,我让 Codex 分析我的 Slack 消息历史,并推荐一种更好的方式来组织我日益增多的频道。 然后我让 Codex 在我处理其他事情时,通过 computer use 重新组织和分类我的 Slack 侧边栏。 我现在为此设置了一个自动化流程!

Claude@claudeai · 5月26日47

Six Claude projects that all came from the same question: “why not?”

译六个Claude项目都源于同一个问题:“为什么不呢?”

Elon Musk@elonmusk · 5月26日63

Paste screenshots into Grok Build

译xAI 的开发工具 Grok Build 现在支持直接粘贴截图来辅助开发。用户可通过快捷键截屏后,将图像粘贴至 Grok Build 界面,随后要求其基于图像进行灵感启发、讲解、调试或代码复现。该功能利用了 Grok 多模态模型强大的视觉能力,能够理解截图、UI 和视觉上下文,使得通过视觉化方式沟通和迭代开发想法变得比手动输入细节更直观、自然。

Baidu Inc.@Baidu_Inc · 5月26日30

@BoatbomberRBLX brought one of the world's oldest writing systems to the ERNIE AI Developer Challenge: ancient cuneiform tablets. Using PaddleOCR, he built NabuOCR to help read cuneiforms from tablet images. See the story behind the winning project 👇

译@BoatbomberRBLX 将世界上最古老的文字系统之一——古代楔形文字泥板——带入了ERNIE AI开发者挑战赛。 他使用PaddleOCR构建了NabuOCR,以帮助从泥板图像中读取楔形文字。 了解这个获奖项目背后的故事👇

歸藏(guizang.ai)@op7418 · 5月26日58

笑死 3:4 这比例一上真成杂志了

译一条关于AI生成小红书图文内容的推文。它展示了一个AI技能,可以使生成的图文呈现3:4比例的杂志般视觉效果。该技能名为“藏师傅的小红书图文排版 Skill”,完全基于HTML和实拍图片生成,因此生成内容不会被平台标注为AI生成。AI能主动从高质量图片网站搜索匹配主题的图片,解决了纯文字排版的单调问题。

向阳乔木@vista8 · 5月26日64

让 Codex 分享过去 3 年 X 的发帖数据(约3.4G)总结。 注意:每人数据和发帖习惯不一样,粗看有点过拟合,仅供参考: 1. 最爆的内容类别:编程/产品/创业、资源/推荐/合集、学习/认知/方法论 2. 爆款内容公式:一个真实有用的工具,加一个明确场景,再给三步以内的使用路径。 3. 发帖窗口:周日、周六、周五数据好,周一最差。 下午5点到晚上11点、上午10到下午1点、凌晨0到2点是三个黄金发帖窗口。 4. 内容形式和长度:带媒体(图/视频)和链接的明显表现更好,内容 101-180 字,是黄金长度。

译用户让Codex分析自己过去3年在X上的约3.4G发帖数据,总结出几点规律:最爆内容为编程/产品/创业、资源推荐合集、学习方法论类;爆款公式是“真实工具+明确场景+三步内路径”;发帖时间上,周五至周日、及每日三个时段(下午5-11点、上午10-下午1点、凌晨0-2点)数据更好,周一最差;内容形式上,带媒体和链接、篇幅在101-180字的表现更优。

歸藏(guizang.ai)@op7418 · 5月26日67

藏师傅的小红书 Skill,当然你如果提供的图片本身质量高的话 AI 会选择这种侵入性比较低的排版方式,突出你的图片质量。 在旅行和美妆以及别的这种看图片质量的情况下,效果比较好。

译藏师傅推出的小红书图文排版技能,完全依赖HTML和实拍图片,不会被平台标注为AI生成内容。AI能够主动在高质量图片网站寻找与主题匹配的图片,有效解决纯文字排版的生硬感。该技能在旅行、美妆等注重视觉效果的场景中表现突出,倾向于采用低侵入性排版来突出图片本身质量。

AYi@AYi_AInotes · 5月26日69

小白零基础教程:Grok Build安装使用指南(专为非技术型SuperGrok及X Premium+用户制作) 老哥的讲解非常细,马斯克都转载认可了,我翻译了一版中文字幕版便于大家学习: 你将完整学到: • 如何用一行命令秒速安装Grok Build • 创建真实可用的网站 • 用Grok Imagine自动生成图片与视频 • 在多个文件夹同时运行不同项目 Grok甚至会帮你自动执行命令,无需任何编程基础。

译这是一条面向非技术用户的 Grok Build 安装与使用教程视频。教程演示了如何通过一行命令快速安装 Grok Build,并展示了如何用它创建真实可用的网站。其核心功能包括:利用 Grok Imagine 自动生成图片与视频,以及支持在多个文件夹中同时运行不同的项目。在使用过程中,Grok 会自动执行所需命令,无需用户具备任何编程经验。该教程由原作者 Daniel_Farinax 制作,以解答朋友们的疑问,并获得了马斯克的转发认可。

Berryxia.AI@berryxia · 5月26日63

兄弟们,上次我分享了SenseNova Skills Agent 免费可以领取Token Plan 后,自己也拿来实战了一把。 此项目已经在 Github 斩获 2400Star⭐️ 我让它跑了个AI大模型市场调研报告,从开始到结束差不多花了两个小时。 报告出来是Markdown格式,我又让它转成PDF,最后直接做成了PPT。 今天我专门录了个完整的使用教程,从安装到生成全流程,保姆级那种。 现在还是公测期,完全免费,整体体验还不错。 它也支持多轮迭代,如果网络不稳或者请求太多,直接回复它,它就会继续帮你完成。 这个视频里我接入的是Hermes Agent ,大家有需要可以去试试。 我最喜欢的就是可以直接做调研报告,尤其做国内的一些报告的内容还不错。 限时限免,搞点小任务,也是不错的 感兴趣的直接去官网进行体验吧~· 免费Token Plan 领取地址见评论区~👇🏻 Github 地址:https://github.com/OpenSenseNova/SenseNova-Skills

译博主实测商汤日日新SenseNova Skills Agent,用其完成了AI大模型市场调研报告,从生成到转为PDF和PPT耗时约两小时。该项目在GitHub已获2400颗星,当前处于免费公测阶段,支持多轮迭代与任务续接。博主演示了从安装到生成的全流程教程,并接入了Hermes Agent进行体验。该工具尤其擅长生成国内相关的调研报告,适合处理免费的小型任务。

Berryxia.AI@berryxia · 5月26日72

✍🏻官方“限时免费”领取Token Plan +安装SenseNova Skills Agent文字版本步骤: 1、直接在官网:https://www.sensenova.cn/token-plan 领取开通免费Token Plan 0元,创建API即可。 2、直接把这个开源地址:https://github.com/OpenSenseNova/SenseNova-Skills 丢给你的OpenClaw或者Hermes 或其他Agent 3、把第一步申请的API KEY丢给你的龙虾或者配置到Env里面就可以。 4、直接自然语言对话开启使用即可。

译SenseNova Skills Agent 正处于公测期,提供限时免费的 Token Plan(0元)。用户可从官网领取 API,并在 GitHub 开源项目(已获 2400 星)中将其接入 Hermes Agent 等工具。通过自然语言对话即可使用,支持多轮迭代,能执行如撰写市场调研报告等任务(用户实测约两小时完成),并支持将 Markdown 格式转换为 PDF 或 PPT。

歸藏(guizang.ai)@op7418 · 5月26日48

藏师傅的小红、小绿书组图生成器 Skill 配合 Codex 太好用了! 我给他一张三张拼在一起的图,它自动加进去的时候,我并没有指定位置,它就能自动根据图片内容匹配对应的页数。 而且虽然这三张图是拼在一起的,它在下面还用分开的格子进行了标注,内容都能对上,太省心了。

译藏师傅的小红、小绿书组图生成器 Skill 与 Codex 搭配,用户只需提供拼接图片,它便能自动识别内容并匹配对应页数,无需手动指定。生成结果还会分格标注以确保对齐。该技能可一键生成封面及 3:4 组图,并自动处理截图素材进行匹配。

向阳乔木@vista8 · 5月26日68

只安装Skill还不够,为更好的触发和应用,需把Skill写入Agent . md 安装和设置提示词: 安装更新这个 https://github.com/tw93/Waza,并写入Agent说明中,以后各种开发设计优先用这套skill

译推文指出,仅安装Waza技能集不够,需将其配置写入Agent.md文件,以便AI智能体更好地触发和应用。Waza是一个将工程习惯转化为技能的集合,近期吸收了大量真实项目经验,现已适用于Mac原生应用、CLI工具、Rust及Web开发。它支持Claude Code、Codex、Cursor和Pi作为智能体运行时,包含25个反模式,具备破坏性命令安全防护,并将获取内容视为不信任数据。其特点为8个技能、无框架、无遥测。安装更新可访问其GitHub仓库。

ginobefun@hongming731 · 5月26日65

Follow Builders, Not Influencers~ 如果你喜欢这个理念,那你一定会喜欢 http://BestBlogs.dev 😊

译推文倡导关注AI领域的实际构建者(Builder)而非单纯的意见领袖(Influencer)。核心内容为一份推荐关注名单,涵盖了来自OpenAI、Anthropic、Google等主要AI公司,以及Replit、Vercel、Cursor等AI工具/产品线的关键人物,包括工程师、产品负责人、哲学家及CEO。引用内容强调此名单的价值(含金量)正在持续上升。

Elon Musk@elonmusk · 5月26日67

How to use Grok Build

译xAI发布了面向非技术背景的SuperGrok和X Premium+用户的Grok Build入门视频教程。教程提供了分步指南,核心内容包括:通过一条命令快速安装Grok Build;利用其创建真实的网站;使用内置的Grok Imagine工具自动生成图像与视频;以及在不同文件夹中同时运行多个项目。整个过程无需任何编程经验,并且Grok可以协助执行命令。

宝玉@dotey · 5月26日58

这图是 Hermes Agent 内置的 baoyu-infographic Skill 画的,效果不错👍

ginobefun@hongming731 · 5月26日68

Turing Post 概述了构建长时间运行 AI Agent 的 5 种模式:检查点与恢复、委派审批、分层记忆上下文、后台处理以及集群编排。

译Turing Post 总结了构建长时间运行 AI 智能体的 5 种关键模式,旨在解决生产环境中的运行挑战。这 5 种模式分别是:检查点与恢复(按批次保存进度以实现故障恢复)、委派审批(智能体可暂停流程并保持上下文等待人类响应)、分层记忆上下文(分离工作与长期记忆并实施严格治理)、后台处理(通过后台智能体实时响应事件而非硬编码策略)以及集群编排(使用协调器编排专业智能体以实现独立运行与扩展)。

Kling AI@Kling_ai · 5月26日29

Check out how Aharon made his film almost exclusively using Kling! More Kling tips and best practices in the workshop!

译Aharon Rabinowitz几乎完全使用Kling创作了一部AI电影,其实践过程和心得将通过线上工作坊分享。该工作坊将于美西时间5月26日举行,主题为“如何构建AI超级英雄剧集”。演讲者将详细讲解如何从零开始构建一部AI超级英雄试播集,重点分享角色塑造、关系发展和世界观构建等创作理念与工作流程,而不仅仅是炫酷的视觉效果。

Greg Brockman@gdb · 5月26日61

Codex for finding space on your laptop:

译Codex用于查找笔记本电脑上的空间: [引用 @KingBootoshi]:我让Codex审计了我的整个MacBook,看看能节省多少空间,它发现了500GB可以节省,太棒了 提示词是:"对我的Macbook进行一次完整的只读分析,以帮助我优化存储" 注意:为什么会有个codex-tui.log文件有116GB??????什么???

ginobefun@hongming731 · 5月26日57

这个帖子为 AI 工程中的三个关键概念——提示工程、上下文工程和框架工程——提供了一个清晰的、层次化的理解框架。

译该推文澄清了AI工程中三个常被混淆的概念。提示工程聚焦于单次调用的信息准备,负责组装角色、指令、示例等构成完整输入。上下文工程管理多步任务中有限的上下文窗口,核心在于有选择性地保留、压缩和丢弃信息。框架工程则构建完整的智能体执行系统,其循环包括“收集”、“执行”和“验证”阶段。三者呈嵌套关系:框架工程是外层容器,其“收集”阶段整合了管理窗口记忆的上下文工程和生成最终提示词的提示工程。

elvis@omarsar0 · 5月26日58

/goal is really insane! It's how you can get the most out of coding agents today. For efficiency, I find it works best when you do planning before /goal. This ensures the agent has the right context and goal, which often only happens with careful planning.

译/goal 真的太强了! 这是目前能从编程智能体中获得最大收益的方法。 为了效率,我发现最好在 /goal 之前先做规划。这能确保智能体拥有正确的上下文和目标,而这通常只有通过仔细规划才能实现。

Rohan Paul@rohanpaul_ai · 5月26日22

This autonomous weeding robot uses AI vision to detect weeds among young crops and eliminates them instantly with targeted high-precision laser pulses. Real-time on board GPUs map every plant position and directs lasers precisely at weeds @carbon_robotics

译这款自主除草机器人使用AI视觉在幼苗作物中检测杂草,并立即用高精度激光脉冲进行定向清除。 实时车载GPU绘制每株植物位置,并精确引导激光对准杂草 @carbon_robotics

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月27日
19:34
歸藏(guizang.ai)@op7418
精选80
藏师傅发布小红书图文排版AI Skill,集成地图与自动配图

该推文介绍了guizang-social-card-skill,一款针对小红书图文常见类别进行优化的AI Skill。其亮点在于为旅行博主集成了地图组件,用户输入目的地和线路后,AI能自动在底图上标记并嵌入图片。根据引用,该Skill完全基于HTML和实拍图片生成内容,不会被平台标注为AI生成,并会主动从高质量图片网站寻找对应主题图片,以优化图文排版。

歸藏(guizang.ai): 藏师傅的小红书图文排版 Skill 预览 完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况

图像生成教程/实践
关联讨论 1 条X:歸藏 (@op7418)
推荐理由:藏师傅这个 skill 把小红书图文排版门槛直接砍没,尤其是旅行地图组件 AI 自动标记路线,做内容的直接抄走就行,告别只有生硬文字的尴尬。
15:31
向阳乔木@vista8
61
开发好Chrome插件,最琐碎的是上架步骤。

推文分享了使用OpenAI Codex自动完成Chrome插件上架流程的案例。Codex能调用Computer Use和Chrome模拟人类操作浏览器,自动填写商店后台资料、生成缺失的Logo和截图、并编写隐私协议。整个过程耗时13分钟,消耗65万Token。作者同时表达了对OpenAI产品力的看法,认为其配套开发工具丰富,但指出GPT在写作方面目前仍不如Claude。

智能体MCP/工具OpenAI教程/实践
14:39
Greg Brockman@gdb
56
Codex 适用于任何用计算机完成的工作: 【引用 @bran_don_gell】:如果你现在对 every 有所了解,那就是我们深度使用 Codex。因此我们撰写了一份指南,介绍如何像我们一样将 Codex 用于知识工作。你不想错过这个…… https://every.to/guides/codex-for-knowledge-work

Brandon Gell: If you know one thing about every right now, it's that we're heavily Codex pilled. So we wrote a guide on how to use Cod...

OpenAI教程/实践编码
11:31
向阳乔木@vista8
70
通过对话记录实现Codex技能自动进化

一种提升Codex表现的方法是让其自动从用户交互中学习。具体做法是让Codex扫描本周的对话记录,由AI提炼用户的开发经验与审美偏好等信息,并将其写入Skill(技能)中。这个过程可以让Codex持续、自动地更新其能力。参考案例显示,有开发者借此实现了其Skill waza的每周无痛更新,从而使工具“越来越聪明,越来越懂你”。

OpenAI教程/实践编码
11:31
向阳乔木@vista8
71
推文分享了一种提升 Codex 能力的方法:通过让 Codex 扫描本周的对话记录,让 AI 自动提炼其中的开发经验与个人审美偏好,并将这些洞察写入技能(Skill)中。此过程可实现技能的每周无痛更新,从而使 Codex 越来越"懂你"。最终会生成一份贴合个人风格的复盘经验文档。

向阳乔木: 如何让你的Codex变的越来越聪明,越来越懂你? 上周跟 @HiTw93 直播时,很多人可能没注意他的一段话,他说他的开发Skill waza,每周都能无痛更新。 因为他会让Codex扫描本周对话记录,让AI提炼他的开发经验、审美偏好并写入...

智能体教程/实践编码
10:27
Berryxia.AI@berryxia
62
PrismML推出官方iOS应用"Bonsai Studio",允许用户在iPhone或iPad上完全本地运行Bonsai Image 4B图像生成模型。该模型基于FLUX.2 Klein,通过1-bit/3-bit量化将权重从7.75GB压缩至0.93GB。在iPhone 15 Pro及以上设备,生成一张512×512图片约占1.5GB内存,1024×1024约占2GB,全程离线推理,无需联网或支付token费用。应用免费,支持多种风格,可用于教学素材等轻量场景,但生成中文文字存在乱码。此外,M芯片的Mac电脑也可下载该iOS客户端使用,不过需要重启并降低设备安全策略。Android端暂无官方App,可通过网页版体验。

Berryxia.AI: iPhone 上直接用 App Store 下载就行: 👉 Bonsai Studio - PrismML 官方 iOS 应用,免费安装,模型在手机本地跑 我觉得给学校老师做一些素材展示,或者幼儿园小朋友教学还是可以的。 不需要额外的TO...

图像生成教程/实践端侧
10:09
Peter Steinberger 🦞@steipete
72
autoreview是我添加到技术栈中最具影响力的技能(仅次于http://crabbox.sh)。它能在PR合并前自动审查你的代码。 发现许多边缘情况。 有时运行数小时。
智能体GitHub教程/实践编码
09:29
宝玉@dotey
57
针对 Agent 框架中的技能管理,@dotey 的建议是无需依赖专门的 skill 管理工具。核心观点是,实际常用的 Skills 数量很少,只需将少量高频技能置于全局,其余技能跟从各自项目存放和管理即可。这为处理多个 Agent 或项目的技能配置提供了一种轻量化的思路。

Raymond Zhu: @dotey 宝玉老师,有没有比较好的skill管理工具推荐

教程/实践编码
08:27
Berryxia.AI@berryxia
71
Gemma 4新玩法:开源地牢游戏让AI实时构建Web应用

Google Gemma团队开源了AIventure项目,这是一款地牢爬行游戏。玩家可以向游戏中的NPC输入提示词,AI会实时构建可运行的Web应用。AI核心由Gemma 4驱动,负责理解指令、规划步骤并生成代码。项目将智能体工作流与氛围编程融入游戏,是面向开发者的实操大师课,从游戏设计到智能体集成均已开源。

Google Gemma: Gemma 4 meets retro gaming! 🕹️✨ Introducing AIventure: an open-source dungeon crawler designed as a developer mastercla...

智能体Google开源生态教程/实践
08:27
Berryxia.AI@berryxia
25
最近也在使用YOLO 模型做一些人体形体动作识别的项目,发现传统的这种模型参数很小,结合LLM一起来做一些东西还是不错的选择。
多模态教程/实践
07:33
ginobefun@hongming731
58
Agent系统工程三要:隔离、容错与上下文管理

Anthropic披露三种Claude隔离架构,发现93%权限弹窗被无脑通过,因此转向容器化隔离以限制智能体能力边界。阿里通义AgentScope 2.0升级至生产级,涵盖模型重试容错、三级权限判断系统和结构化上下文管理,其Workspace抽象支持多执行环境无缝切换。腾讯云提出上下文卸载方案,配合Mermaid图谱,将超长Session的Token消耗降低61%,任务通过率提升52%。三者共同指向智能体工程落地的关键:可靠的隔离边界、稳定的容错机制以及高效的状态管理。

智能体Anthropic教程/实践部署/工程
07:33
ginobefun@hongming731
50
AI Agent系统工程实践聚焦稳定性

早报聚焦Agent系统工程,介绍三篇实践。Anthropic披露Claude的三种隔离架构,并指出93%权限弹窗被无感通过。阿里AgentScope 2.0将调试升级为涵盖权限边界、容错机制的生产级系统工程。腾讯云通过上下文卸载与Mermaid结构化图谱,将超长Session的Token消耗降低60%,任务通过率提升52%。三者共同强调,Agent时代的核心在于支撑稳定运行的工程基础。

智能体教程/实践部署/工程
05:28
Google AI@GoogleAI
同事件精选75
Gemini Omni 视频提示词使用指南

Google 发布了其多模态模型 Gemini Omni 的视频生成功能使用指南。该模型可通过 Gemini 应用、Google Flow 等平台体验。指南包含五项提示词技巧:利用模型已有的现实世界知识进行简洁描述;精确控制文本在视频中的渲染与排版;使用专业镜头指令(如推拉摇移)像电影摄影师一样调度画面;通过迭代编辑高效修改视频;以及在生成中直接调整角色的动作节奏或情绪。其核心在于通过精准的提示词引导模型生成复杂且可控的视频内容。

Google教程/实践视频
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Google 官方放出的视频提示技巧,没有废话全是可复制的 prompt,想玩 Gemini Omni 的创作者可以直接抄作业。
03:58
Thariq@trq212
58
使用 Claude Code 处理非技术工作的基本技巧是,将一堆文件放入一个文件夹,并告诉它可以编写脚本和制作 HTML。
Anthropic教程/实践
03:40
OpenAI Developers@OpenAIDevs
55
Codex中的GPT-5.5帮助@databricks更可靠地解析复杂的客户文档。
OpenAI教程/实践
01:34
Rohan Paul@rohanpaul_ai
52
"第一滴墨水:误导信息对长上下文推理的非线性影响"

ICML 2026论文揭示,长上下文大语言模型的性能并非随错误信息增加而线性下降,而是呈现“第一滴墨水”效应。研究发现,仅当上下文包含10%的高难度错误文本时,损害就已基本完成。例如,在一个128K-token的Qwen2.5设置中,这最初的10%错误文本造成了58%的性能损失。其机制在于softmax注意力机制会赋予与问题相近但错误的文本过高权重,仅这10%的高难度干扰文本就能贡献约97%的干扰压力。因此,过滤文档带来的提升可能主要源于缩短了有效上下文,而非移除“坏内容”。

Muhan Gao: 🤖 We often talk about "context rot": LLMs get worse as context grows. But once distracting information enters, is it ju...

arXiv推理教程/实践
01:20
AYi@AYi_AInotes
49
用 Claude 构建的创意小项目

Pressed Petals 是一个用 Claude 构建的 iOS 应用,概念诗意,用户外出散步采集花朵,App 将花压成标本并制作成数字压花页面。界面模拟手工压花纸张,支持查看花朵详情。应用已在 App Store 上线,作者为 @yescynfria。它属于六个 Claude 项目之一,均源于“why not?”这个问题,鼓励创意探索。

Claude: Six Claude projects that all came from the same question: "why not?"

教程/实践
01:20
AYi@AYi_AInotes
71
纳瓦尔财富创造思维体系系统提示词

该提示词构建了一个以纳瓦尔·拉维康特思想为核心的财富创造操作系统。其核心是“财富 = 专属知识 × 杠杆 × 判断力 × 责任感”的公式,并明确了杠杆的优先级:代码、媒体、资本、劳动力。系统强调运用第一性原理、二阶思维、非对称回报(至少3:1)等框架进行决策,致力于识别个人专属知识并利用杠杆将其产品化。思维模式追求长期复利效应(如每天进步1%),要求以十年为单位进行思考与行动,最终实现资产构建而非单纯时间换金钱。

AYi: http://x.com/i/article/2057300084354670592

推理教程/实践
01:08
Greg Brockman@gdb
29
在iPad上使用Codex的体验如魔法般神奇。

Kevin Rose: so Codex on iPad acts like a Codex mobile phone, which gives you the full desktop UI/UX. meaning, you can use your iPad ...

OpenAI教程/实践
00:08
Greg Brockman@gdb
54
Codex 用于分析和整理你的 Slack: 【引用 @derrickcchoi】:周末,我让 Codex 分析我的 Slack 消息历史,并推荐一种更好的方式来组织我日益增多的频道。 然后我让 Codex 在我处理其他事情时,通过 computer use 重新组织和分类我的 Slack 侧边栏。 我现在为此设置了一个自动化流程!

Derrick Choi: Over the weekend, I asked Codex to analyze my Slack message history and recommend a better way to organize my growing nu...

智能体MCP/工具OpenAI教程/实践
5月26日
23:19
Claude@claudeai
47
六个Claude项目都源于同一个问题:"为什么不呢?"
Anthropic开源生态教程/实践
22:58
Elon Musk@elonmusk
63
xAI 的开发工具 Grok Build 现在支持直接粘贴截图来辅助开发。用户可通过快捷键截屏后,将图像粘贴至 Grok Build 界面,随后要求其基于图像进行灵感启发、讲解、调试或代码复现。该功能利用了 Grok 多模态模型强大的视觉能力,能够理解截图、UI 和视觉上下文,使得通过视觉化方式沟通和迭代开发想法变得比手动输入细节更直观、自然。

X Freeze: Just press Cmd + Shift + Ctrl + 3, then Cmd + V paste the screenshot directly into Grok Build and ask it to inspire, gui...

xAI多模态教程/实践
22:30
Baidu Inc.@Baidu_Inc
30
@BoatbomberRBLX 将世界上最古老的文字系统之一--古代楔形文字泥板--带入了ERNIE AI开发者挑战赛。 他使用PaddleOCR构建了NabuOCR,以帮助从泥板图像中读取楔形文字。 了解这个获奖项目背后的故事👇
多模态教程/实践
21:31
歸藏(guizang.ai)@op7418
58
一条关于AI生成小红书图文内容的推文。它展示了一个AI技能,可以使生成的图文呈现3:4比例的杂志般视觉效果。该技能名为"藏师傅的小红书图文排版 Skill",完全基于HTML和实拍图片生成,因此生成内容不会被平台标注为AI生成。AI能主动从高质量图片网站搜索匹配主题的图片,解决了纯文字排版的单调问题。

歸藏(guizang.ai): 藏师傅的小红书图文排版 Skill 预览 完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况

图像生成教程/实践
20:59
向阳乔木@vista8
64
Codex分析揭示X平台内容规律

用户让Codex分析自己过去3年在X上的约3.4G发帖数据,总结出几点规律:最爆内容为编程/产品/创业、资源推荐合集、学习方法论类;爆款公式是“真实工具+明确场景+三步内路径”;发帖时间上,周五至周日、及每日三个时段(下午5-11点、上午10-下午1点、凌晨0-2点)数据更好,周一最差;内容形式上,带媒体和链接、篇幅在101-180字的表现更优。

向阳乔木: 有朋友问:什么样的内容在 X 上受欢迎,如何做 X 的运营增长? 我先让 Codex 把自己三年的 X 数据分析一遍,看有什么发现。

教程/实践数据/训练
19:31
歸藏(guizang.ai)@op7418
67
藏师傅推出的小红书图文排版技能,完全依赖HTML和实拍图片,不会被平台标注为AI生成内容。AI能够主动在高质量图片网站寻找与主题匹配的图片,有效解决纯文字排版的生硬感。该技能在旅行、美妆等注重视觉效果的场景中表现突出,倾向于采用低侵入性排版来突出图片本身质量。

歸藏(guizang.ai): 藏师傅的小红书图文排版 Skill 预览 完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况

图像生成教程/实践
14:18
AYi@AYi_AInotes
69
小白零基础教程:Grok Build安装使用指南(专为非技术型SuperGrok及X Premium+用户制作)

这是一条面向非技术用户的 Grok Build 安装与使用教程视频。教程演示了如何通过一行命令快速安装 Grok Build,并展示了如何用它创建真实可用的网站。其核心功能包括:利用 Grok Imagine 自动生成图片与视频,以及支持在多个文件夹中同时运行不同的项目。在使用过程中,Grok 会自动执行所需命令,无需用户具备任何编程经验。该教程由原作者 Daniel_Farinax 制作,以解答朋友们的疑问,并获得了马斯克的转发认可。

Dan: Beginner video: How to install & use Grok Build (made for non-technical SuperGrok and X Premium+ users) I got so many qu...

教程/实践编码部署/工程
12:27
Berryxia.AI@berryxia
63
商汤日日新SenseNova Skills Agent实测:免费生成市场调研报告

博主实测商汤日日新SenseNova Skills Agent,用其完成了AI大模型市场调研报告,从生成到转为PDF和PPT耗时约两小时。该项目在GitHub已获2400颗星,当前处于免费公测阶段,支持多轮迭代与任务续接。博主演示了从安装到生成的全流程教程,并接入了Hermes Agent进行体验。该工具尤其擅长生成国内相关的调研报告,适合处理免费的小型任务。

智能体教程/实践
12:27
Berryxia.AI@berryxia
72
SenseNova Skills Agent 免费领取与使用指南

SenseNova Skills Agent 正处于公测期,提供限时免费的 Token Plan(0元)。用户可从官网领取 API,并在 GitHub 开源项目(已获 2400 星)中将其接入 Hermes Agent 等工具。通过自然语言对话即可使用,支持多轮迭代,能执行如撰写市场调研报告等任务(用户实测约两小时完成),并支持将 Markdown 格式转换为 PDF 或 PPT。

Berryxia.AI: 兄弟们,上次我分享了SenseNova Skills Agent 免费可以领取Token Plan 后,自己也拿来实战了一把。 此项目已经在 Github 斩获 2400Star⭐️ 我让它跑了个AI大模型市场调研报告,从开始到结束差不多花...

智能体教程/实践
10:31
歸藏(guizang.ai)@op7418
48
藏师傅的小红、小绿书组图生成器 Skill 配合 Codex 太好用了!

藏师傅的小红、小绿书组图生成器 Skill 与 Codex 搭配,用户只需提供拼接图片,它便能自动识别内容并匹配对应页数,无需手动指定。生成结果还会分格标注以确保对齐。该技能可一键生成封面及 3:4 组图,并自动处理截图素材进行匹配。

歸藏(guizang.ai): 不吵架了,预告一下下一个 Skill 项目 基于 PPT Skill 可以帮你一键生成微信公众号和小红书封面 也可以基于文档生成小绿书和小红书图文所需的 3:4 组图 会自动处理你的截图素材,自动进行匹配

图像生成教程/实践
09:54
向阳乔木@vista8
68
提示词安装与配置建议

推文指出,仅安装Waza技能集不够,需将其配置写入Agent.md文件,以便AI智能体更好地触发和应用。Waza是一个将工程习惯转化为技能的集合,近期吸收了大量真实项目经验,现已适用于Mac原生应用、CLI工具、Rust及Web开发。它支持Claude Code、Codex、Cursor和Pi作为智能体运行时,包含25个反模式,具备破坏性命令安全防护,并将获取内容视为不信任数据。其特点为8个技能、无框架、无遥测。安装更新可访问其GitHub仓库。

Tw93: 🥷 Engineering habits you already know, turned into skills AI agents can run. Waza absorbed a mass of real project lesso...

智能体GitHub教程/实践
09:31
ginobefun@hongming731
65
推文倡导关注AI领域的实际构建者(Builder)而非单纯的意见领袖(Influencer)。核心内容为一份推荐关注名单,涵盖了来自OpenAI、Anthropic、Google等主要AI公司,以及Replit、Vercel、Cursor等AI工具/产品线的关键人物,包括工程师、产品负责人、哲学家及CEO。引用内容强调此名单的价值(含金量)正在持续上升。

木马人2.0: 这条推文的含金量还在上升 Follow Builders, Not Influencers~ @karpathy - 前 OpenAI/Tesla AI,现 Eureka Labs,AI 教育传奇 @swyx - AI Engineer 运...

教程/实践现象/趋势
09:22
Elon Musk@elonmusk
同事件精选67
xAI发布了面向非技术背景的SuperGrok和X Premium+用户的Grok Build入门视频教程。教程提供了分步指南,核心内容包括:通过一条命令快速安装Grok Build;利用其创建真实的网站;使用内置的Grok Imagine工具自动生成图像与视频;以及在不同文件夹中同时运行多个项目。整个过程无需任何编程经验,并且Grok可以协助执行命令。

Dan: Beginner video: How to install & use Grok Build (made for non-technical SuperGrok and X Premium+ users) I got so many qu...

xAI多模态教程/实践
同一事件,精选展示《Grok Build 0.1 on API》
推荐理由:Elon 亲自转发的教程把 Grok Build 门槛压到了零编码,直接面向普通用户,是目前最友好的官方入门信号。
08:22
宝玉@dotey
58
这图是 Hermes Agent 内置的 baoyu-infographic Skill 画的,效果不错👍

Teknium 🪽: Some new improvements to performance just went in. Python gets a bad wrap for performance but we aint looking to shabby ...

智能体图像生成教程/实践
07:31
ginobefun@hongming731
68
Turing Post 总结了构建长时间运行 AI 智能体的 5 种关键模式,旨在解决生产环境中的运行挑战。这 5 种模式分别是:检查点与恢复(按批次保存进度以实现故障恢复)、委派审批(智能体可暂停流程并保持上下文等待人类响应)、分层记忆上下文(分离工作与长期记忆并实施严格治理)、后台处理(通过后台智能体实时响应事件而非硬编码策略)以及集群编排(使用协调器编排专业智能体以实现独立运行与扩展)。

Turing Post: 5 patterns for building long-running AI Agents 1. Checkpoint-and-Resume → Save progress in batches (like every 50 docume...

智能体Google教程/实践
06:38
Kling AI@Kling_ai
29
Aharon Rabinowitz几乎完全使用Kling创作了一部AI电影,其实践过程和心得将通过线上工作坊分享。该工作坊将于美西时间5月26日举行,主题为"如何构建AI超级英雄剧集"。演讲者将详细讲解如何从零开始构建一部AI超级英雄试播集,重点分享角色塑造、关系发展和世界观构建等创作理念与工作流程,而不仅仅是炫酷的视觉效果。

Curious Refuge: Join us live tomorrow, Tuesday, May 26th at 11am PT / 2pm ET for "How I Build an AI Superhero Series" with Aharon Rabino...

教程/实践视频
06:38
Greg Brockman@gdb
61
Codex用于查找笔记本电脑上的空间: 【引用 @KingBootoshi】:我让Codex审计了我的整个MacBook,看看能节省多少空间,它发现了500GB可以节省,太棒了 提示词是:"对我的Macbook进行一次完整的只读分析,以帮助我优化存储" 注意:为什么会有个codex-tui.log文件有116GB??????什么???

BOOTOSHI 👑: i had codex audit my entire macbook to see how much space we can save and it's found 500 GB to save, AWESOME prompt was:...

智能体OpenAI教程/实践
06:31
ginobefun@hongming731
57
该推文澄清了AI工程中三个常被混淆的概念。提示工程聚焦于单次调用的信息准备,负责组装角色、指令、示例等构成完整输入。上下文工程管理多步任务中有限的上下文窗口,核心在于有选择性地保留、压缩和丢弃信息。框架工程则构建完整的智能体执行系统,其循环包括"收集"、"执行"和"验证"阶段。三者呈嵌套关系:框架工程是外层容器,其"收集"阶段整合了管理窗口记忆的上下文工程和生成最终提示词的提示工程。

Akshay 🚀: from prompt to context to harness engineering. three terms keep coming up in AI engineering, and they get conflated all ...

智能体教程/实践部署/工程
01:54
elvis@omarsar0
58
/goal 真的太强了! 这是目前能从编程智能体中获得最大收益的方法。 为了效率,我发现最好在 /goal 之前先做规划。这能确保智能体拥有正确的上下文和目标,而这通常只有通过仔细规划才能实现。
智能体教程/实践编码
01:28
Rohan Paul@rohanpaul_ai
22
这款自主除草机器人使用AI视觉在幼苗作物中检测杂草,并立即用高精度激光脉冲进行定向清除。 实时车载GPU绘制每株植物位置,并精确引导激光对准杂草 @carbon_robotics
具身智能多模态教程/实践
‹ 上一页
1…1314151617…31
下一页 ›