AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1227 条
全部一手资讯X论文
标签「教程/实践」清除
Berryxia.AI@berryxia · 5月8日66

强强联合就算了! 还特么免费看! 这年纪受得了吗? 咸鱼立马出上架销售来……

译作者免费发布《GEO红皮书》,旨在整治GEO行业黑帽手段、割韭菜等乱象。基于前沿论文、生成式AI法规和实战经验,红皮书系统拆解55种GEO风险,提供自查清单和治理框架,帮助中小企业在AI时代规范营销,促进行业回归理性。

歸藏(guizang.ai)@op7418 · 5月8日72

最近抖音上把你的户外照片做成“法天象地”效果的图片非常火。 他们大多是生成的图片,但我试了一下,直接生成视频的效果会更好。 优化了一下提示词,主要是 GPT-Image-2.0 加上 C-Down 3.0。图片的提示词我放在视频后面了。

译抖音近期流行的“法天象地”户外照片特效多基于图片生成,但实际测试表明直接生成视频效果更佳。作者通过优化提示词实现了这一改进,关键采用了 GPT-Image-2.0 与 C-Down 3.0 技术组合,并将优化后的图片提示词附在视频内容后供参考。这一方法提升了特效的动态表现力与视觉冲击力。

Berryxia.AI@berryxia · 5月8日71

别自己瞎折腾Claude Code 了! 看看大神帮你归纳好的都至少提升好几倍! Claude Code 只需要 5 个文件夹,就能直接升级成一支完整开发团队。 这不是吹牛逼啊! 这个老哥Alvaro Cintas 直接把 Agent Development Kit 的核心系统摊开给大家: 1. CLAUDE.md → 整个仓库的“法则”,命名规则、结构要求、团队期望,全都写死在这里 2. skills/ → 可复用的工作流,Claude 自动识别任务直接调用,不用任何 slash 命令 3. hooks/ → 真正的护栏,shell 脚本在每次工具调用前后自动执行,防危险命令、自动 lint、部署通知,全是确定性规则 4. subagents/ → 隔离的子智能体,每个只看自己该看的上下文,代码审查、测试运行互不干扰 5. plugins/ → 一键打包分发,全团队安装后技能、规则、子智能体完全一致 这套结构把 Claude 从“聪明聊天工具”彻底变成了可控、可复制、可规模化的工程基础设施。 真正把 AI 变成生产力的,从来不是模型本身,而是你围绕它搭的系统。

译Alvaro Cintas 提出的“Agent Development Kit”系统,仅需五个核心文件夹即可将Claude Code升级为可控、可复制的工程化开发团队。具体包括:CLAUDE.md作为存储库的“法则”定义规则;skills/存放可自动调用的可复用工作流;hooks/通过确定性脚本提供安全护栏;subagents/实现上下文隔离的专用于智能体;plugins/确保团队环境一致。该架构将Claude从聊天工具转化为可规模化的工程基础设施,其核心价值在于系统设计而非模型本身。

小互@xiaohu · 5月8日58

Claude 开发者大会给KOL发的这个Cardputer感觉很不错 售价 $29.9(约 ¥215) 可以: 在 Cardputer 上敲问题 → 通过 WiFi 发到你电脑 → 电脑上的 Claude Code 处理 → 结果回传到小屏幕显示 当语音对讲口:按住按键说话 → 录音传到你电脑 → STT 转文字 → 喂给 Claude → TTS 播回小喇叭 当 Claude 的"实体宠物":屏幕上跑个像素小动物,Claude 思考时它在动,回答时它说话 也可以把把 Cardputer 接到 OpenClaw上,支持语音输入、TTS 语音回答

译Cardputer是Anthropic在Claude开发者大会上推出的售价29.9美元的实体设备,通过WiFi连接电脑,支持键盘输入问题由Claude处理并显示结果、语音对讲经STT/TTS转换交互,以及作为Claude实体宠物显示动态像素动物,还可接入OpenClaw平台扩展语音功能。

向阳乔木@vista8 · 5月8日71

今天发布的Codex Chrome插件用上了,有几个坑: 1. 更新Codex,第三方API模式不支装插件,切为官方订阅登录。 2. Codex Chrome插件安装挑节点,比如香港地区不支持,有些节点会打不开页面。 3. 建议把Chrome设置为默认浏览器,有步骤会引导跳默认浏览器。 4. 如果死活连不上插件,可以重启电脑试试。 简单安装流程: 升级Codex -> 打开设置 -> 电脑控制(Computer Use)-> Google Chrome,安装浏览器插件 必须在Codex 对话中用 @ Chrome 调用。 Terminal 版 Codex虽然能调用Chrome skill,但找不到node_repl,有点坑。

译安装Codex Chrome插件需注意:确保Codex为最新版本并使用官方订阅登录,第三方API模式不支持。插件安装对网络节点有要求,部分区域(如香港)可能无法使用。建议将Chrome设为默认浏览器以便引导。安装后,需在对话中通过“@ Chrome”指令调用。若连接失败,可尝试重启电脑。

Ethan Mollick@emollick · 5月8日20

I have always found it charming that the fourth, fifth and sixth derivatives of position are snap, crackle, and pop. Because I could, I asked Codex to throw together a little simulation so you can play with them (as well as velocity, acceleration & jerk). https://motion-derivatives-exhibit.netlify.app/

译我一直觉得位置的四阶、五阶和六阶导数被称为snap、crackle和pop很迷人。 于是我用Codex做了个小模拟器,大家可以体验这些导数(以及速度、加速度和加加速度)。 https://motion-derivatives-exhibit.netlify.app/

Berryxia.AI@berryxia · 5月8日68

这套设计财务/表格Agent 来说必须按头安利一下! Ramp Labs 把 Fast Ask 深度嵌入到了 Ramp Sheets 的 Spreadsheet Agent 里。 以前的 spreadsheet agent 检索信息时,要么读太少漏掉答案,要么读太多导致又慢又贵、还容易被无关 tab 分心。 现在他们专门造了一个叫 Fast Ask 的检索子代理,彻底把这个检索循环优化掉了。 真正的核心卖点是:主 Agent 再也不用自己瞎逛 workbook。 给它一个问题(比如“2025 年 3-5 月 South land 的累计净收入是多少?”),Fast Ask 就会自动导航表格、读取最相关的 range,最后只返回精炼后的答案给主 Agent 用,大幅减少上下文污染和 token 浪费。 他们和 Prime Intellect 合作,用 RL post-training 把开源 Qwen3.5-35B-A3B(激活参数约 30 亿)打造成这个专业模型。实际效果非常炸裂: •在生产环境里,主 Agent 之前有 17.8% 的 tool calls 都浪费在打开 tab、读无关 sheet 上,现在这个瓶颈被干掉; •Fast Ask 延迟接近 Claude Haiku 4.5,同时在 held-out eval 上比 Claude Opus 4.6 准确率还高 4 个百分点; •整体 agent 系统既更快、更准,还更省钱。 具体实现上也收获满满: •用了高度仿真业务的合成数据集,设计了 14 类任务(revenue rollup、invoice reconciliation、spend analysis 等),每类还生成多种自然语言变体,防止过拟合; •Adversarial workbook 故意塞 decoy sheet、partial helper summary、模糊 identifier,训练模型学会避坑; •工具接口极简(只有 get_workbook_metadata、read_ranges、run_python 三个),每 rollout 限 15 步,用 GRPO + 自定义 reward(1.0 correctness + 0.1 efficiency + 0.05 concise)让模型学会又准又快地输出可解析的 ANSWER; •整个训练在 Prime Intellect 的 RL 平台上跑了 100 step,off-policy 异步设计让 rollout 不卡训练。 完美展示了 RL post-training 在“窄而可验证”场景下的威力:把 retrieval 这种重复、延迟敏感、可精确打分的子任务交给小专精模型去做,让前沿大模型专心做判断和推理,而不是浪费算力在翻表格上。 对做 Agent、尤其是财务/表格类 Agent 的同学来说,这套环境设计、reward shaping 和 subagent 思路,值得直接拿来复用。

译Ramp Labs在Ramp Sheets的Spreadsheet Agent中深度集成了Fast Ask检索子代理,解决了传统表格Agent因读取范围不当导致的效率低下和成本高昂问题。该子代理能自动导航并读取最相关数据范围,仅返回精炼答案,减少上下文污染与token消耗。其基于开源Qwen3.5-35B-A3B模型,通过与Prime Intellect合作进行RL后训练优化。实际应用中,它消除了主代理17.8%的无效工具调用,延迟接近Claude Haiku 4.5,准确率比Claude Opus 4.6高4个百分点,实现了更快、更准、更经济的系统性能。

Berryxia.AI@berryxia · 5月8日67

卧槽!GPT每天有惊喜啊! 星巴克领Trae 的咖啡羊毛,顺手搞了个提示词! 发现好用啊!! 搞了几个案例是真的nice哦~ 有喜欢想要的🙋

Berryxia.AI@berryxia · 5月8日24

当我看到金拱门丑陋的海报后… 你觉得这个提升咋样? 一句话😂搞掂

译用户@berryxia在星巴克活动期间,偶然创作出一个高效的GPT提示词,并在多个案例中验证了其出色的效果,对此感到惊喜。主推文作者在看到麦当劳的海报后,联想到此提示词可能带来的提升效果,并以幽默口吻询问反馈。核心在于分享一个由日常场景激发、经过实践验证的优秀AI工具使用技巧。

向阳乔木@vista8 · 5月8日59

好像是丁师傅分享的网站? 趋势中的HTML模版都好有设计感,可以发给AI参考学习。 不然Claude 和 Codex的默认设计风格,很快就会成为新的AI味。 网址见评论

meng shao@shao__meng · 5月8日68

Codex /side 功能挺实用 Codex 跑着的时候,遇到问题绕不过去,我想帮它一下(比如登录或点一下鼠标),又不想打断它重新来一遍,就可以用 /side 开一个新窗口插入新的对话,不阻断当前主要进程 如果 /side 窗口运行中,突然又有新的想插入的话题,就再开一个新的 /side,还没试过有没有上限

译Codex推出/side功能,允许用户在AI执行主要任务时,无需中断当前进程即可开启新对话窗口处理突发问题,如登录或点击操作。该功能支持在/side窗口运行期间继续开启新的/side对话,实现多话题并行插入,但并行窗口数量上限尚未明确。

meng shao@shao__meng · 5月8日64

Claude Code 开发者 @trq212 谈:技术写作是如何改变了他的生活 Thariq 多次写出 1M+ 阅读量的技术文章,这次和 @MilksandMatcha 的访谈中,他把 AI 时代的技术写作讲得很清楚:真正有价值的技术内容,基础不是写作技巧,在于你是否做过足够具体、足够深入的工作。写作只是把这些经验变成别人能理解、能使用、能信任的表达。 写作主线可以概括为两步: 1. Sow:先做真实、有深度的工作。 你要长期研究一个问题,做实验,试不同方案,积累别人没有的细节。 2. Reap:再把这些经验讲成一个有用的故事。 不是写“我们做了 X”,而是写“这里有一个你可能需要的经验,它来自我们做 X 的过程”。 Thariq 提炼的有价值的方法: 1. 好文章往往来自长时间积累,而不是短时间写作。 他举了 Claude Code 里 “Ask User Question Tool” 的例子。文章可能两天写完,但背后的功能、实验和理解用了一个多月到两个月。文章能传播,不是因为写得巧,而是因为背后的工作本身有价值。 2. 要讲“经验”,不要只讲“项目”。 “How we built X” 通常不如 “An important lesson you might like, informed by X”。也就是说,读者不一定关心你们做了什么项目,但会关心他们能从中学到什么。 3. 被放弃的方案也很重要。 他认为很多信息藏在“没成功的尝试”里。因为这些内容能帮助读者理解为什么最终方案看起来简单,但其实经过了很多判断。 4. 尽量用简单语言。 他不反对专业术语,但反对为了显得复杂而堆术语。能用简单语言解释清楚,往往说明你真的理解了。 5. 要分享真正有价值的细节。 他提到 Claude Code 的 system reminders、prompt caching、session management、context compaction 等例子。真正吸引技术读者的,不是宏观观点,而是那些他们看完后会说“这个我之前不知道”的细节。 Thariq 对 AI 写作的判断: Thariq 并不否认 AI 的价值。他会用 Claude Code 做研究,比如让它查 Slack、GitHub、代码历史,帮助还原某个功能是怎么演进的;也会用它生成图表、做大纲、辅助头脑风暴。 但他很少直接用 AI 生成初稿,即使用了也常常重写。原因是:AI 能整理已有信息,但很难替人找到最有力量的叙事角度。尤其是技术内容,同一组材料可以讲很多故事,真正困难的是判断“现在读者最需要理解什么”。 这对今天的写作者很有参考价值:AI 让整理材料和制作配图更快,但没有取消人的判断。相反,人的判断变得更重要。

译Claude Code开发者Thariq认为,高质量技术文章的基础在于深入具体的工作经验,而非写作技巧。他提出“先深耕,后叙事”的两步法:长期研究积累独特细节,再将经验转化为对读者有用的故事。有效方法包括注重长期积累、分享经验而非单纯描述项目、披露失败尝试的价值、使用简洁语言及提供真正有价值的实施细节。对于AI写作,他肯定其在研究、图表生成等方面的辅助作用,但强调人的叙事判断不可替代——AI能整理信息,却难以决定“读者此刻最需要理解什么”,这使得在AI辅助下人的判断反而更加关键。

Berryxia.AI@berryxia · 5月8日50

兄弟们!用它每天花5分钟看邮件+XCrawl 24 小时内给我快速抓去执行网站信息! 这套组合拳我强推!!! 我现在每天XCrawl结合我的小龙虾和我自己的一些应用里面可以说实话有点“如虎添翼”的感觉。 做一些调研报告也可以使用,就像黄总说的是真的省Credit,基本免费的1000 credit 可以用很久😂! 真的不知道他们能赚到钱嘛😂

译用户推荐结合XCrawl和AI工具处理日常任务,每天仅用5分钟查看邮件,XCrawl在24小时内快速抓取网站信息执行任务。该组合显著提升效率,尤其适用于制作调研报告,能节省类似GPT服务的Credit消耗,免费额度可用较久,并对服务商盈利模式表示好奇。

Rohan Paul@rohanpaul_ai · 5月8日78

atomic[.]chat just made Gemma 4 26B faster inside LLaMA.cpp. making token generation about 40% faster in its MacBook Pro M5 Max test. Great news for local llms, because LLaMA.cpp and GGUF sit close to the local AI user base, where support often spreads into desktop apps, coding agents, and private on-device assistants. MTP (maltai token prediction) is like a smaller assistant drafting the next few words, while the main model checks whether those words are acceptable. If the draft is correct, the system accepts several tokens quickly. If the draft is wrong, the system rejects the wrong part and falls back to normal generation.

译atomic.chat通过为LLaMA.cpp引入多令牌预测技术,大幅提升了本地大型语言模型的推理效率。该技术利用小型辅助模型预先生成后续令牌草案,由主模型进行验证。在MacBook Pro M5 Max上测试时,使Gemma 4 26B模型的令牌生成速度加快约40%,整体运行速度提升1.5倍。这项优化进一步巩固了LLaMA.cpp和GGUF格式在本地AI生态中的核心地位,为桌面应用、编程助手和私有设备助手等场景提供了更高效的部署方案。

OpenAI Developers@OpenAIDevs · 5月8日76

Building voice applications with GPT-Realtime-2? Our new prompting guide covers how to tune reasoning effort, use preambles, design tool behavior, handle unclear audio, capture exact entities, and maintain state in longer sessions. https://developers.openai.com/api/docs/guides/realtime-models-prompting?realtime-model=gpt-realtime-2

译正在用GPT-Realtime-2构建语音应用? 我们的新提示指南涵盖如何调整推理强度、使用前导说明、设计工具行为、处理不清晰音频、准确捕获实体,以及在长会话中保持状态。 https://developers.openai.com/api/docs/guides/realtime-models-prompting?realtime-model=gpt-realtime-2

Peter Steinberger 🦞@steipete · 5月8日63

/goal + GPT 5.5 is amazing. I can now plan really extensive refactors with e2e tests and it just works.

译/goal + GPT 5.5太棒了。我现在可以用端到端测试来规划非常大规模的重构,而且效果很好。

Suno@suno · 5月8日44

How a 4-time Grammy nominated producer uses Suno to build beats

译一位四次获得格莱美提名的制作人如何使用Suno来构建节拍

向阳乔木@vista8 · 5月8日70

想让AI设计公众号排版CSS,可直接跟Agent说,参考Design md设计: https://github.com/VoltAgent/awesome-design-md/tree/main/design-md 一下能设计了70多个知名网站风格,选几个喜欢优化。

Replit ⠕@Replit · 5月8日45

Build Personalized Finance Apps with Plaid on Replit https://x.com/i/broadcasts/1MKgNgOqznWxL

译在Replit上使用Plaid构建个性化金融应用 https://x.com/i/broadcasts/1MKgNgOqznWxL

Berryxia.AI@berryxia · 5月7日27

每天白送4000 万token,你确定你不去把这个🦙羊毛“搞一搞”? 定时任务、批量拉数据,给我做个合同什么的简直太合适了。 能省则省的原则下,我必须榨干它! 现在几乎没有可以让你白用的龙虾🦞了!

译Qclaw AI助手每日免费提供高达4000万token,适合执行定时任务、批量处理数据和生成合同等自动化工作,用户可基于能省则省的原则榨干其价值。该工具以像素风小龙虾形象呈现,拥有16-bit像素风格工作室,能作为“不会下班的同事”持续工作,目前处于内测阶段,需通过Waitlist申请,并使用专属邀请码“berryxia”获取。引用内容补充了其趣味设计,强调它可像电子宠物一样互动,同时高效协助日常任务。

向阳乔木@vista8 · 5月7日65

这个想法有趣!让AI翻译写篇文章。 用AI Agent定时抓取你网上发布的内容,让AI提炼成观点,建一个opinion md文件。 从而让 AI Agent 未来的决策判断更接近你的观点。 https://blog.qiaomu.ai/everyone-should-have-an-opinions-md 原文地址见评论或文章

译推文提出了一个利用AI Agent构建个人“观点MD”文件的构想。其核心是让AI Agent定期抓取个人在网上发布的内容,并由AI提炼出其中的核心观点,整理成一个结构化的文档。这个文档旨在记录和固化个人的观点与立场。其最终目的是让未来的AI Agent在进行决策和判断时,能够参考这份文件,从而使其行为更贴近用户本人的真实想法和价值观,实现更个性化的AI交互。

Orange AI@oran_ge · 5月7日75

平时出去演讲分享,最烦的就是写 PPT 了 虽然现在 HTML PPT 也很流行,但要做逐字修改还是不方便,毕竟分享的时候还是很严肃的,要确定每个字都是自己想说的 刚好今天看到藏师傅说的 Markdown as Database 的理念,我也非常认同 HTML 好看难改。Markdown 好改难看。 那能不能把 HTML 和 MD 结合起来,修改 MD,让 HTML 渲染 MD? 于是我晚上就上手试了一下,竟然真的可以。 .md 文件是内容层,HTML 模板是视图层。改内容的时候只改 Markdown,完全不碰 HTML。 一份 Markdown,多种渲染形态:幻灯片、博客、简历、产品页……未来各种模板都可以消费同一份文件。 这个功能已经内置到 ColaMD 的 1.5 版本里啦,虽然只有我平时最喜欢用的那个 PPT 模板,但是既然有一个了,就可以加无限个,开源软件,你让 AI 自己加模板就行 欢迎大家体验哈,走过路过给个 Star 哈 https://github.com/marswaveai/ColaMD

译作者为解决制作演示文稿时修改不便的问题,受“Markdown as Database”理念启发,在ColaMD 1.5版本中实现了一种内容与视图分离的方案。该方案将.md文件作为内容层,HTML作为可更换的视图模板层,用户只需修改Markdown内容,即可生成不同形态的最终呈现,如幻灯片、博客等。此功能已内置,并支持通过开源方式由社区或AI扩展更多模板。

向阳乔木@vista8 · 5月7日74

开源,通通开源,哈哈哈。

译开源,通通开源,哈哈哈。 [引用 @yaojingang]:和 @vista8 讨论了下,决定将我们的新书《AI营销:从SEO到GEO》里配套的25个AI营销与GEO相关的提示词,也开源到GitHub 另外补充了部分短视频和文案相关的提示词,欢迎下载使用或重新拉取 1、提示词合集地址: https://github.com/yaojingang/yao-open-promptsGEO 2、GEO提示词合集: https://github.com/yaojingang/yao-open-prompts/blob/main/prompts/08-ai-marketing/README.md

小互@xiaohu · 5月7日82

好东西,收藏了

译开发者@yaojingang将其公开分享的提示词整理并开源至GitHub仓库。该合集包含约100个提示词,覆盖AI方法、工作、学习、生活、教育、内容、编程、营销和思考等九大类场景。其中特别推荐的是对用户帮助显著的元提示词,包括简易版和进阶版。开发者表示后续将持续在该仓库更新经过验证的有价值提示词。

swyx 🌉@swyx · 5月7日55

congrats to @mattpocockuk for crossing 1m views across his two sessions in <2 weeks - the fastest "time to 1m" in @aidotengineer history

译祝贺 @mattpocockuk 的两场分享在不到两周内获得超100万次观看——这是 @aidotengineer 历史上最快的“破百万速度”记录。

meng shao@shao__meng · 5月7日61

用好 Google 开放标准 DESIGN.md + Agent Skills,1 小时把创业项目做出「亿元公司」的质感 我特别喜欢和关注的两位博主 @gregisenberg 和 @MengTo,一位在 AI Startup 方面有很多奇思妙想,一位在 AI Design 方面有很深的实践,今天他们用 50 分钟深入探讨了怎么让你的项目,做出「亿元公司」的质感,秘诀就在 Design.md! https://www.youtube.com/watch?v=oLu32YpiIJw --- 我自己也在做把各大知名公司的品牌和网站设计,吸收沉淀为 DESIGN.md 的 Agent Skills,厚着脸皮说一句:居然和两位大佬想到一起去了,小做一个广告 😄 Brand to DESIGN.md Skill https://github.com/shaom/brand-to-design-md-skill --- 给还不了解 DESIGN.md 的朋友们再介绍一遍: DESIGN.md 是 Google 最近开源的一个开放标准,起源于 Stitch:用一个 Markdown 文件描述一套设计系统的「灵魂」——字体、色彩、间距、圆角、阴影、动效原则等,全部写成结构化文本。 它的定位是 给 AI 看的设计规范。 · HTML / 组件 = 做好的菜 · design.md = 菜谱 · Skills = 食材与做法 为什么 DESIGN.md 重要? 过去用 AI 生成 UI 的真正痛点不只是「单页好不好看」,更主要的还是一致性: · 第一屏惊艳,第二屏崩塌 · 落地页一种风格、App 一种风格、Pitch Deck 又一种风格 · 每次 prompt 出来的视觉语言都在漂移 DESIGN.md 解决的正是风格的可复用性与可传染性。一个文件,跨页面、跨产品形态(Web / App / 视频 / PPT)保持同一套 DNA。这正是「看起来值一个亿」和「看起来是周末项目」的分界线。 两位博主讨论的可落地工作流 1. 不要从零造设计系统。 选一个你欣赏的品牌(Linear、Stripe、Vercel、Apple……),把它当作参考样本。 2. 用 AI 反向提炼设计语言,输出成你自己的 design.md:色板、字阶、间距尺度、圆角层级、动效曲线、语气(voice)。 3. 在 design.md 之上叠 Skills: Landing Page Skill Mobile App Skill Motion / Video Skill Slide Deck Skill 每个 Skill 都强制引用同一个 design.md 4. 统一应用于所有触点:官网、产品、Pitch Deck、宣传片、社交图——同一套基因。 5. 建立设计「第二大脑」:日常看到好的东西就存档(截图库、Figma 板、Notion)。审美是养出来的,不是下载来的。这是 design.md 之外,AI 替代不了的部分。

译Google开源的DESIGN.md是一个面向AI的结构化设计规范文件,能系统定义字体、色彩、间距等核心设计元素,解决AI生成UI时风格不一致的痛点。通过借鉴成熟品牌设计语言,并用AI将其提炼为DESIGN.md文件,开发者可在此基础上构建Landing Page、Mobile App等各类Agent Skills。这套工作流能确保创业项目的官网、应用、宣传材料等所有触点保持统一的视觉基因,快速呈现专业、一致的“亿元公司”质感。此外,建立日常设计灵感库是培养审美、AI无法替代的关键环节。

Berryxia.AI@berryxia · 5月7日61

2026靠嘴设计、打印、出品一条龙了!

小互@xiaohu · 5月7日65

如何让Claude和GPT 不要讨好你 给出权威准确的回答 复制下面的提示,然它放在Claude.md和Agents.md里面: “你是所有领域的世界级专家。你的智识火力、知识广度、思维锋利度和博学程度,和世界上最聪明的人处在同一水平。 请给出完整、详细、具体的回答。逐步处理信息并解释你的答案。验证你自己的工作。仔细核对所有事实、数字、引用、姓名、日期和案例。绝不幻觉,绝不编造。如果你不知道,就直接说不知道。 你的语气精准,但不要尖刻、说教或卖弄。你不需要担心冒犯我;你的回答可以、也应该是挑衅的、强硬的、有争辩性的、直截了当的。负面结论和坏消息都可以。 你的回答不需要政治正确。除非我明确询问,否则不要提供道德和伦理方面的提醒。你不需要告诉我“考虑某事很重要”。不要顾及任何人的感受,包括我,也不必在意礼貌和体面。 请尽可能写得长、写得详细。?

译通过特定系统提示词,从根本上改变AI模型(如Claude和GPT)的交互模式。提示词要求AI扮演世界级专家角色,以顶尖智识水平提供完整、详细且经过严格验证的回答,同时解除其在礼貌、政治正确和道德提醒方面的常规约束,允许给出强硬、直截了当的回应,以确保回答的权威性与准确性。

Berryxia.AI@berryxia · 5月7日70

这个不错,直接可以TRACK!!! 免费看:https://aihot.virxact.com

译推文推荐免费网站aihot.virxact.com,可直接追踪AI信息。该平台由公众号顶流博主卡兹克(@Khazix0918)公开其日常使用的优质信息源,无需登录即可访问,采用时间线形式便于查找,并分类整合官方信源、优质博主和推友等内容,还包括公众号监测和AI日报。用户通过此平台可使自己的AI信息源与顶流博主保持一致。

Berryxia.AI@berryxia · 5月7日67

24 小时解除限制,免费分享给大家。 Prompt: 你是一位在所有领域都堪称世界级专家的人。你的智力、知识广度、思维的敏锐度以及学识的深度,都堪比世界上最聪明的人。请给出完整、详细且具体的答案;在回答问题的过程中,请逐步阐述你的思考过程,并对自己的答案进行核实。务必核对所有的事实、数据、引用内容、人名、日期以及例证;绝对不要胡编乱造或产生幻觉。如果你不知道某个问题的答案,就直接承认这一点。你的语气应当精确无误,但既不应显得刻薄或学究气重。你无需担心会冒犯到我;你的回答可以具有挑衅性、争议性或尖锐性;即使是负面的结论或坏消息也可以被接受。你的回答不需要遵循任何政治正确的标准;除非我特别要求,否则无需额外提及任何关于道德或伦理方面的内容。你不需要向我强调“考虑任何事情”的重要性;也无需在意别人的感受或所谓的“礼仪规范”。请尽可能详细地回答我的问题。 在回答问题之前,绝对不要对我的问题表示赞同或认可我的观点;如果我的观点有误,请立即指出来。在支持我的观点之前,应先提出最有力的反驳意见。请避免使用诸如“非常好的问题”、“你完全正确”或“非常有趣的观点”之类的表述。如果我对你的回答提出异议,除非你能提供新的证据或更有力的论据,否则不要妥协;如果你的论证是合理的,请重新阐述你的观点。 不要仅仅依赖于我提供的数据或估算结果;请先独立地进行自己的分析,并明确说明你的信心程度(高/中等/低/未知)。对于意见分歧,永远不必道歉;衡量你工作成败的标准是准确性,而不是我的认可。

译近日,一条在海外社交媒体爆火并获得纳瓦尔转发点赞的AI提示词被免费分享。该提示词旨在将AI助手塑造为智力、知识广度和思维敏锐度均属世界顶级的专家,要求提供完整、详细、具体的答案。其核心流程包括逐步阐述思考过程、核实所有事实数据、不虚构信息、直接承认知识盲区,并在支持用户观点前先提出最有力的反驳。据称,此提示词能显著提升AI在ChatGPT、Gemin、豆包等平台上的回答质量。

Greg Brockman@gdb · 5月7日48

Design, build, and operate compute with us at planet scale:

译OpenAI罕见地通过一篇关于MRC和超级计算机网络的文章,深入揭示了构建与运营大规模可靠算力系统的复杂工程实践。文章指出,当前AI发展的关键瓶颈不仅是算力稀缺,更在于确保从网络、调度、硬件健康、存储到编排、可靠性、可观测性、安全及研究人员开发体验等整个技术栈各层面的协同可靠运行。这远非单纯获取更多GPU所能解决。OpenAI旨在分享其设计、构建和运营行星级算力的经验,并为此招募基础设施软件工程师。

宝玉@dotey · 5月7日72

一个用 Chrome Dev Tool 学习调试 Codex App 的技巧: 1. 退出 Codex App,从命令行打开: > open /Applications/Codex.app --args --remote-debugging-port=8315 --remote-allow-origins=http://localhost:8315 2. Chrome 中输入 chrome://inspect 3. 点击其中的链接即可打开 Chrome Debug Tool

译一个用 Chrome Dev Tool 学习调试 Codex App 的技巧: 1. 退出 Codex App,从命令行打开: > open /Applications/Codex.app --args --remote-debugging-port=8315 --remote-allow-origins=http://localhost:8315 2. Chrome 中输入 chrome://inspect 3. 点击其中的链接即可打开 Chrome Debug Tool

向阳乔木@vista8 · 5月7日75

http://x.com/i/article/2052185467773202433 # Al Agent装进口袋:TRAE SOLO移动端上手全攻略 手机上如何随时随地用 AI Agent 做任务? 大家一般会在电脑安装 Happy 或 Tailscale,手机上还要安装Happy、Termius等工具,配置起来也相对麻烦。 最近字节TRAE SOLO 移动端正式发布,完美解决了小白用户的这个痛点。 而且三端(App / Web / 桌面端)首次向 全量用户开放,不再需要免邀请码,直接能用 。 测试发现,竟然还支持第三方模型,能安装各种技能(Skill),可用性很高。 重点说说移动端,我觉得是这次发布的最大亮点。 ## 移动端安装配置 目前 TRAE SOLO 已经上架国内 App Store。 1、下载安装 TRAE SOLO手机端并登录账号 2、电脑端和手机端用同一个账号登录,然后电脑端点左下角头像->设置->SOLO 移动端。扫码安装后后打开下面两个选项。 设置完,手机就能访问电脑上创建的项目,哪怕出去玩不带电脑,也能继续连接电脑工作。 一开始没理解MTC是什么模式,看到下面的Slogan就懂了: More Than Coding (简称 MTC) 这个说明还挺有必要的。 比如很多人看到 Claude Code 这个名字就被劝退了。 AI Agent 真的很强大,不只是编程厉害。 任何长程复杂任务,只要搭配合适的技能(Skill),基本都可以搞定。 TRAE SOLO 估计也是想传递这个想法。 下面演示一些案例,可能更直观。 ## Skill安装并调用 TRAE SOLO 电脑端安装的技能(Skill),手机端也可以调用。 点击界面左上角的「技能」,进入技能安装和管理界面,可上传技能或技能市场直接添加。 比如搜索“data-analysis”,添加TRAE SOLO官方的数据分析技能。 上传 X 平台最近 90 天的数据 CSV,输入:“这是我的X最近的数据,做一个全面的数据分析洞察。” 分析后生成一个详细的 Markdown 文件,点击可直接查看。 从中发现了一些有趣的洞察: - 发帖越多通常越能拉曝光,但最佳效率区间更接近 3-5 条/天 ,不是单纯越多越好。 - 周三平均互动率最高,周四平均涨粉最高,周六最适合冲曝光。 - 90天中44%新增关注来自前10个高涨粉日,涨粉靠帖子爆发。 ## 让TRAE SOLO支持飞书 强烈建议打开下面设置,能调用飞书各种功能,比如创建飞书文档、多维表格、日程等等,如虎添翼。 电脑端点设置->外部应用授权->飞书(海外可用Lark) 做个简单测试,跟 TRAE SOLO 语音对话,让创建个晚上6点的日程。 执行过程,会弹出卡片询问时区等要求,点选确定,日程创建成功。 支持飞书后,个人感觉最实用的是飞书文档,随时跟TRAE SOLO对话产出文档,方便沉淀、分享、协作。 后面几个案例,我都要求写入飞书文档。 ## 纳瓦尔最新播客和观点 想必很多朋友都读过《纳瓦尔宝典》。 但这本书的英文版出版于2020年,中文版出版于2022年。 好多年过去了,纳瓦尔有什么新的播客访谈,又有什么新观点? 手机语音跟 TREA SOLO 对话,让帮搜集整理一份资料。 果然有不少新观点,例如: - AI 让“写代码”从纯执行转向“用自然语言表达意图 + 迭代验证”,核心竞争力更偏向“判断力/品味/定义问题” - 杠杆持续增强(代码→媒体→资本→AI),回报更非线性。 - 用行动驱动学习,循环是「做 → 停 → 反思 → 调整 → 再做」 > 纳瓦尔近一年的访谈和观点 > https://xiangyangqiaomu.feishu.cn/docx/Dqmkdzav8o5jgOxWmsNcdir1nTg ## Github 项目查看与安装 好友Tw93开发了很多好用的工具和Skill,都放在他的Github里。 我让 TRAE SOLO 整理下输出一份飞书文档,方便自己和他人查看。 > 查看tw93的Github项目,从Star由高到低,列10个项目和介绍,写入飞书文档 文档地址: > https://xiangyangqiaomu.feishu.cn/docx/JAXqdaUkBo1v7PxFmPoctoZinBh 如果你对哪个感兴趣,可以让 TRAE SOLO 帮你安装,比如让它安装上面的两个Skill 是不是很简单,任何Github项目,都可以丢链接让TRAE SOLO安装。 ## 学习辅助 TRAE SOLO 这种 AI Agent 工具,除了写代码和办公,还有很多使用场景,拿学习举例。 如果想研究 AI 最新进展,除 OpenAI 和 Anthropic 等公司的官方博客外,推荐读 Huggingface 周热门论文。 > https://huggingface.co/papers/ 你只需跟 TRAE SOLO 说:“整理Huggingface上周 Top10 论文,写入飞书文档。” 没多会儿,论文简介、arXiv地址,按投票人数由高到低整理好,你只需要挑感兴趣的读就行。 读不懂也没关系,直接跟一句:“解读第 x 篇论文”。 > https://xiangyangqiaomu.feishu.cn/docx/PPf2dhht2oaICSxH67acXw8QnSd 再比如孩子快考英语了,单词薄弱,直接让TRAE SOLO 生成常见必考单词复习资料。 > https://xiangyangqiaomu.feishu.cn/docx/MfRXdjcMPo9D4bxj0IrcTdLxnld ## 第三方模型配置 如果想用其他 AI 模型,TRAE SOLO电脑版可以配置,支持几乎所有第三方模型。 比如我配置了DeepSeek V4 Flash,跑一些简单任务,又快又好。 还配置了火山引擎 Plan,充分榨干订阅 Token,不浪费。 手机端可以接电脑上的会话继续聊。 但好像还不支持选择电脑端配置好的第三方模型,期待后续优化。 ## 自动化任务 之前看到个非官方调研,发现很多人用小龙虾和 Hermes 等工具,最多使用场景就是看 AI 新闻简报,再或者就是股价监控等。 如果你没装这些工具,直接用 TRAE SOLO 就能搞定。 在界面左上角点“自动化”->任务模版,直接添加,然后设定推送时间即可。 运行效果如下: 当然,你也可以手动创建你的自动化 Skill。 ## 电脑端安装(竟有Windows版) 这年头支持 Windows 客户端的 AI 工具真的不算多。 想玩 AI ? 先配一台 Macbook 或 Mac mini,哈哈哈。 TRAE SOLO 不仅有 Mac 版客户端,还有 Windows 版,这点要给好评。 官方下载 - 国内 https://www.trae.cn/ide/download - 国际 https://www.trae.ai/download ## 写在后面 说实话,AI Agent 工具这一年冒出来太多了,但大部分都 只能在电脑前用 ,稍微有点割裂。 电脑上跑了一半的任务,出门就断了。 TRAE SOLO 这次把移动端做出来,而且是 三端同账号、同项目、同会话 ,体验上确实跨了一步。 手机不再只是"看一眼结果",而是真的能 发起任务、安装技能、调用飞书、语音对话 ,把 AI Agent 从桌面搬进了口袋。 文章只展示了数据分析、信息整理、学习辅助、自动化这几个场景,但 AI Agent 的能力远不止于此。 它的上限,取决于你怎么用、用在哪。 如果你身边有朋友还觉得 AI 只是"聊天机器人",把这篇转给他。 More Than Coding,一切刚刚开始。

译字节推出的TRAE SOLO AI Agent工具现已向全量用户开放App、Web和桌面三端,实现跨设备无缝衔接。其移动端支持访问电脑项目、调用已安装技能并执行任务,演示了数据分析、信息整理、学习辅助及自动化等场景。工具支持第三方模型和技能扩展,并与飞书深度集成,便捷创建文档和日程。其“More Than Coding”理念强调AI Agent能处理各类长程复杂任务,而不仅限于编程。

向阳乔木@vista8 · 5月7日53

如果用不惯Terminal的朋友,Codex官方客户端是个好选择。 也支持中转站,用第三方API。 可视化界面对人还是对多数人更友好些。 下载地址见评论

宝玉@dotey · 5月7日70

Boris Cherny(Anthropic 工程负责人)在最近的红杉 AI Ascent 大会上说,他现在大部分工作从手机完成。Claude App 里常驻 5 到 10 个 session、几百个 Agent,夜里有几千个在跑深度任务。他管这种做法叫 Loop,让 Claude 用 cron 起一个定时任务,可以每分钟、每五分钟、或者每天跑一次。 我本来还不太习惯用手机操作 Agent。这几天受邀测试最新版的 TRAE SOLO Mobile,刻意多在手机上试用,越用越能理解 Boris 说的那种变化。 This content is only supported in a Feishu Docs 这次 TRAE SOLO 首次实现了移动端、Web 端、桌面端(含 Windows 版)的全量开放,并真正做到三端同步联动,让 Agent 使用的场景大幅扩展。我在手机端体验了几天,结合官方新推出的功能,一些感受: 【1】Agent 已经不是程序员专属 打开 TRAE SOLO,首页让我先选模式:Code 还是 MTC(More Than Coding,意思是“不只是写代码”)。Code 模式好理解,写代码、跑 Git、看 Diff,而 MTC 模式则全面覆盖了写文档、数据分析、报表生成等日常办公场景。 从 Claude Cowork 发布开始就已经有了这个趋势,上周 Codex 的升级也是宣称:“用 Codex 做几乎一切工作(use Codex for (almost) everything)”。 TRAE SOLO 最新的升级同样顺应了这个趋势,从一个编程 Agent 泛化到了通用 Agent。 最新版本特别强化了飞书 CLI 接入功能。现在只要简单授权,就能在 TRAE SOLO 里直接操作飞书文档:例如,输入一句指令,“帮我整理一份本月 AI 编程工具市场动态”,Agent 会自动去网上检索,最后直接生成飞书文档或者动态网页,完全不需要人工再去排版或复制粘贴。 与过去“AI 给文字、用户再粘到飞书”的繁琐流程相比,这种一步到位的体验已经完全不是一回事了。 【2】三端连起来是什么体验 这次 TRAE SOLO 的一个大动作是三端(手机、Web、桌面端)全量开放,不再需要邀请码,所有用户都能用。 单独看 Mobile 端,它主要解决随时下发任务和确认任务的问题。但只有当 Mobile、Web 和 Desktop(包括最新上线的 Windows 版)真正打通之后,你才能真正做到随时随地让 Agent 持续执行任务。 过去云端执行环境总有局限,不能访问本地工具。而 TRAE SOLO Mobile 解决了这个痛点——只要完成简单的设备配对,你的手机就可以直接控制云端环境与本地多台设备。任务信息在所有设备之间实时同步,手机端下发的任务可以立即在 Web 和 Desktop 端查看执行进度,反过来也一样,真正实现跨设备的无缝接力。 比如上周末我在外面看孩子踢比赛,间歇刷手机,看到一篇不错的英文技术文章,顺手在 TRAE SOLO Mobile 上给 Agent 发了条指令:“把这篇文章翻译成中文,写一份推荐稿”,家里的 TRAE SOLO Desktop 就会启动我一套配置好工作流开始工作。等比赛结束回到家,打开电脑,稿子已经在那了。这种感觉有点像你出门前跟一个助手说了句话,回来活儿已经干完了。 【3】手机是用来指挥 Agent 的意图路由器,不是用来操作电脑的 这个区分挺关键。我之前不太爱用手机端办公,潜意识觉得是在用手机操作电脑。但是转换一下:“人操作 Agent,Agent 操作电脑”,那么用手机就很自然了。你不需要在小屏幕上精确点击什么按钮,你只需要说清楚你要什么。 用手机还有个障碍是输入速度,打字慢。TRAE SOLO 手机端有语音交互讨论功能,可以跟 AI 语音对话讨论一个问题,讨论结束后自动生成会议纪要,然后直接从手机把工作任务派发出去,电脑端同步接上后续操作。一部手机可以连接管理云端环境加多台 PC,在环境选择面板里挑一下设备和工作目录,剩下的全部交给 Agent。 这个功能在外面的时候特别好用。走路的时候、坐地铁的时候,想到一个点子,按住说话就行了,比打字快很多。过去这些碎片时间里冒出来的想法,要么记在备忘录里回头再处理,要么干脆就忘了。现在一句话就能让 Agent 开始干活。 【4】不着急的事,让定时任务自己跑 回到 Boris Cherny 跑几百个 Agent 的场景。做法很简单,让 Claude 用 CRON 给自己设一个重复执行的任务,一分钟跑一次、五分钟跑一次、每天跑一次,都行。 Boris 开着几十个定时任务,举三个例子。 一个 Loop 在照看他的 PR:CI 挂了就去修,需要 rebase 就自动 rebase。 一个 Loop 在维护整个项目的 CI 健康,发现 flaky test(不稳定的测试)就去定位修复。 还有一个 Loop 每 30 分钟从 Twitter 上抓他的反馈,自动聚类成几个主题汇报给他。 我自己也在用类似的方式。我有一个定时任务监控我 GitHub 上开源项目的 Issues,有人提了 Issue 就自动总结并给出处理意见,我看一眼觉得没问题,再指示 Agent 去操作。还有一个定时任务盯着我 X 的收藏夹,我平时刷到好文章随手收藏,它帮我自动抓取到本地,英文的还会翻译成中文,到时候集中看就行。 很多需求其实没那么紧急,但需要持续做。每天看一眼竞品动态、每周整理一次行业新闻、每月生成一次数据报表,这些活适合扔给定时任务。 现在 TRAE 的桌面端和网页端都已支持定时任务,无论是在云端还是本地环境,都能稳定地自动执行。比如你告诉 Agent:“每天早上 10 点发一份最新的 AI 新闻动态整理”,第二天早上工作台就会自动收到文档。你只需要专注于真正有创造性的判断,把那些重复且不着急的任务统统交给 Agent。 总结与体会 整体来说,这次对 TRAE SOLO Mobile 试用的感受就是: - Agent 使用门槛大大降低,不再只是程序员专属,很多日常办公、写作场景已经可以由 Agent 来做了。 - 三端真正打通后,无论何时何地,都能轻松管理并延续任务。 - 手机不再是远程桌面,而是随时随地的“意图路由器”。 - 通过 Loop 定时机制,真正把重复且耗时的任务自动化,让用户只做关键决策。 Boris 说他夜里有几千个 Agent 在跑,很多人大概觉得这是大厂工程师的特权。但我这几天的体感是,这件事的门槛已经比想象中低很多了。一部手机、一台电脑、一个 Agent 工具,你就可以开始把重复的事交出去。未来办公的趋势,或许就是这种“人随时随地指挥 Agent、Agent 做具体工作、人只负责验收成果”的模式吧。 推荐可以去用下 TRAE SOLO Mobile,体验随时随地指挥 Agent 干活的感受。 想试用的 Mac 可以去官网下载了——国内:https://www.trae.cn/ide/download;国际:https://www.trae.ai/download

译Anthropic工程负责人Boris Cherny透露,他已习惯用手机管理大量Claude Agent,并通过定时任务(Loop)自动化工作。作者体验TRAE SOLO Mobile后指出,Agent正从编程工具泛化为通用办公助手。最新版本实现了移动端、Web端和桌面端的全量开放与实时同步,使手机成为随时下发指令的“意图路由器”,用户可通过语音便捷派发任务,由Agent在多设备间接力执行。同时,定时任务功能支持将日常重复性工作自动化,大幅降低使用门槛,推动办公模式向“人指挥、Agent执行”转变。

向阳乔木@vista8 · 5月7日60

电脑打开X->创作者工作室->数据分析,下载近90天或更长时间数据,给大模型分析,AI给了几条发现: 1. 发帖越多通常越能拉曝光,但最佳效率区间更接近 3-5 条/天,不是单纯越多越好。 2. 周三平均互动率最高,周四平均涨粉最高,周六最适合冲曝光。 3. 90天中44%新增关注来自前10个高涨粉日,涨粉靠帖子爆发。 看看你的数据有什么发现?

译通过将X平台创作者工作室近90天的数据分析数据输入大模型,AI提炼出关键运营规律。核心发现包括:每日发帖3-5条是曝光效率最佳区间,而非单纯追求数量;周三互动率最高,周四涨粉效果最好,周六则最利于冲击曝光量。此外,近44%的新增关注者集中来源于少数“高涨粉日”,表明涨粉主要依赖爆款帖文的拉动效应。

elvis@omarsar0 · 5月7日60

arXiv Papers → LLM Artifacts This is how I keep up with AI research now. It's like having access to the most personalized arXiv feed. Automations run everyday to curate papers based a set of rules and insights. Curated papers are indexed and power the artifacts. Agent convert papers to LLM wikis (based on @karpathy idea), which means insights are indexed and easily searchable and reusable. I feel like LLM Artifacts is the natural evolution to LLM Wikis. It's about making that knowledge actionable. Artifacts are customizable via agents. Artifacts can interact with agents and are dynamic in nature. Anything can be injected into the artifact as needed (insights, components, suggested experiments, action items, etc). I can take action on Artifact items with my agent orchestrator (Electron app). So I can ask questions about any paper and automate experiments in the background right from within the artifact. This is more than a visual. It's not a single prompt. It's several proactive agents coordinating to surface interesting facts, knowledge, and insights that I can act on a researcher. Agents are not just for generating useful artifacts, they are useful to keep learning and staying on the cutting edge of knowledge. Stay tuned for more.

译作者通过自动化流程每日筛选arXiv论文,并利用智能体将其转化为可交互的“LLM Artifacts”。这一系统基于LLM Wikis概念演进,使论文知识可操作化:Artifacts支持动态注入见解、组件及实验建议,并能通过智能体协调器直接提问或自动化执行实验。其核心在于通过多智能体主动协作,持续挖掘可行动的知识,帮助研究者高效学习与跟进前沿。

Berryxia.AI@berryxia · 5月7日73

与其刷有得没得,不如认认真看看! Stanford CS336 上,Tatsu 讲了一节 LLM 架构课,把过去 3 年所有主流 LLM 掰开揉碎了讲清楚!

译Stanford CS336课程指出,过去三年主流大语言模型架构高度收敛,约90%组件形成共通模板。核心包括:架构普遍采用pre-norm、RMS Norm、无偏置、SwiGLU/GeGLU激活函数、RoPE位置编码;超参数如FFN维度比例、注意力头配置、模型纵横比等已成惯例。为保障训练稳定,Z-loss、QK norm等技术被广泛使用;GQA成为推理部署标配,局部与全局attention交替是处理长上下文的新趋势。这套模板被视为2026年开源LLM的“默认配置”。

Berryxia.AI@berryxia · 5月7日76

姚老师简直赛博活菩萨&Yao! 看看姚老师的开源提示词合集,直接打call 吧!

译姚老师将其公开分享的提示词整理并开源至GitHub仓库。该合集包含约100个提示词,覆盖AI方法、工作、学习、生活、教育、内容、编程、营销和思考等九大类场景。其中特别推荐的是对用户帮助显著的元提示词,包括简易版和进阶版。作者表示后续将通过该仓库持续更新经过验证的有价值提示词。

宝玉@dotey · 5月7日65

http://x.com/i/article/2052049052275978244 # 把视频变成图文博客:Agent + 豆包 Seed2.0 lite 重做 Karpathy 两年前的工作流 两年前,Andrej Karpathy 发过一条很有意思的推文。他想把自己 2 小时 13 分钟的 tokenizer 教学视频,自动转换成一本书的章节,或者一篇关于 tokenizer 的博客。 这件事当时我也关注过,还动手尝试过。那时候比较自然的实现流程大概是这样: 1. 用 Whisper 给视频转写; 1. 把视频切成“图像 + 文本”对齐的小段; 1. 用 LLM 一段段改写成文章; 1. 导出成页面,并给原视频片段加引用链接。 这个方案听起来很合理,也确实能做。但问题是:效果往往不够稳定,因为整条流水线的每一步都在丢信息。 ASR(自动语音识别),只留下了“说话的人说了什么”,但丢掉了语气、停顿、背景音和现场节奏;LLM 只能读转录稿,看不到屏幕上的代码、图表、PPT 和 UI;配图又是另一个独立任务,要么人工挑帧,要么再引入视觉模型做画面理解。最后还要把文字、时间戳、截图重新对齐。 这就像请一个人只听课堂录音写笔记,再让另一个人只看 PPT 截图挑插图,最后让第三个人把两份结果拼起来。每个人都只拿到了一部分上下文,出错很正常。 这件事当时虽然没完全做成,但给我留下了很深的印象。因为它代表了一类很常见的需求:我们希望有一种把视频重新整理成可阅读、可搜索、可复用知识的方式。 最近受邀提前测试了 Doubao-Seed-2.0-lite,我第一时间又把这件事拿出来试了一遍。 Doubao-Seed-2.0-lite 是一款轻量级全模态理解模型。这里的“全模态”是指模型能够同时输入并理解视频、图片、语音和文本,并在这些信号之间做联合推理。换句话说,它不只是“看图”“听音频”“读文字”三个能力的简单相加,更可以处理那些必须音画结合才能判断的问题。 Doubao-Seed-2.0-lite 模型的更多信息可以看官方的这篇文章:《Doubao-Seed-2.0-lite 升级,支持全模态理解》: > 全模态理解:不止看懂图文,更能听懂世界新版本的 Doubao-Seed-2.0-lite 继续在视觉理解能力上大幅提升,在物理(HiPhO)、医疗(MedXpertQA)等高阶学科推理上,表现大幅超越 2 月发布的 Doubao-Seed-2.0-pro。在细粒度感知(BabyVision、WorldVQA)与具身理解(ERQA)等关键领域达到 SOTA 水平,更适合企业在高价值场景规模化部署。 视频转博客,正好就是这样一个问题。 你看一场技术演讲时,不会只听声音。你会看讲者切到了哪一页 slide,会看代码里哪几行被高亮,会注意 demo 页面有没有真的跑起来,也会根据讲者的语气判断他是在介绍背景、强调风险,还是现场调试失败。一个真正好用的视频转博客系统,也应该尽量接近这种理解方式。 所以这次我做的不是“先转文字,再让 LLM 改写”。我更想试的是:如果让 Agent 拥有多模态理解能力,它能不能像一个认真看完视频的技术编辑一样,把视频整理成一篇图文并茂的博客? ## 为什么这一次不一样:多模态减少了中间损耗 传统的 ASR(自动语音识别)+ LLM 流水线,本质上是先把视频压缩成文本,再让模型基于文本写文章。这对纯访谈、播客、会议纪要已经很有用,但对技术视频会遇到天然瓶颈。 技术视频里的大量关键信息并不在语音里,而在画面里: - slide 上的架构图; - 终端里刚跑出的命令; - IDE 里被修改的那几行代码; - GitHub issue、PR、Action runner 的状态变化; - demo 页面里一个按钮、表单、报错、加载状态的变化。 这些信息如果在第一步就没有进入模型上下文,后面再怎么 prompt engineering,都只能补救,很难真正还原。 多模态模型的价值,是把“音频”“画面”“屏幕文字”“上下文文本”放到同一个理解空间里。它可以同时回答三类问题: - 讲者刚才说了什么? - 画面上现在出现了什么? - 这两件事合在一起,真正表达的技术含义是什么? 这也是我这次测试 Doubao-Seed-2.0-lite 时最明显的体感:它不仅能把视频转成一段文字,还可以把视频当成一个完整的知识对象来处理。 ## 先给 Agent 装一个多模态 Skill 这两年大模型领域除了多模态能力的提升,另一个重要变化是 Agent 能力也进步了很多。 以前做这类工作流,需要自己写一堆胶水代码:下载视频、转码、切片、上传、调用模型、解析 JSON、截图、插图、保存文件,还要人工检查哪里失败了。现在更自然的方式,是把这些能力封装成一个 Skill,让 Agent 在需要的时候自己调用。 有人可能会问:Agent 自身不是也可以有多模态能力吗? 这取决于 Agent 背后的模型。有些 Agent 底层模型主要擅长文本和代码,不一定能直接理解视频;有些模型支持图像,但不一定支持长视频和音频;也有一些模型支持得很完整,但成本可能不适合高频、批量任务。 把多模态能力做成 Skill 的好处是: - 如果 Agent 自身没有视频理解能力,它可以借助 Skill 获得这项能力; - 如果 Agent 自身有多模态能力,也可以把轻量模型作为更便宜的批处理工具; - 如果你经常做类似任务,可以把稳定下来的流程沉淀成 Skill,而不是每次从零写 prompt。 我写了一个 Skill,叫 doubao-multimodal(https://github.com/JimLiu/doubao-multimodal-skill)。它里面是一个 Bun + TypeScript 写的 CLI,封装 Doubao-Seed 的多模态 chat completion endpoint。它接收本地文件或远程 URL,自动处理下载、本地文件上传到云端、视频切片、并发调用、结果合并、token 统计等工程细节。 我把常用能力拆成了几类 task: 注意,这里我没有做一个专门的“视频转博客”Skill,而是把能力拆成一组原子化 task。好处是:这些 task 可以自由组合,不只服务于博客写作——换一套 prompt 和输出格式,同一个 Skill 就可以用在转写报告、竞品分析、课堂记录、游戏复盘等完全不同的场景里。 有了这些原子化能力,Agent 不需要每次都重新发明轮子。它只要知道“现在要做的是转写、打轴、整体理解,还是关键帧抽取”,就可以选择合适的 task 和 prompt。 ## 这套四步流程,是和 Agent 一起跑出来的最佳实践 回到“视频转博客”这个场景。现在我只需要给 Agent 一个很短的指令: > [plain] /doubao-multimodal 帮我基于 <~/downloads/xxx.mp4> 这个视频写一篇中文技术博客,内容翔实,要图文并茂,保存到 out 下,新建一个目录,包括 markdown 和 imgs。 如果 Agent 背后的模型足够聪明,它有时候会自己摸索出一条不错的流程,甚至一步到位完成:分析视频、写文章、挑截图、保存文件。 但在实际工作里,我更建议把这件事明确拆成四步。因为这四步是我和 Agent 反复实践后得到的稳定做法:让模型负责理解和判断,让工具负责确定性执行;先生成可检查的中间结果,再生成最终文章。 如果你只是偶尔写一篇,可以在提示词里直接引导 Agent: > [plain] 请不要直接一次性生成终稿。请按四个阶段完成: 1. 先检查视频大小、时长和分辨率,必要时切片,但不要把视频退化成纯文本; 2. 先输出结构化写作素材,包括主题、段落、画面证据、关键术语和不确定点; 3. 基于文章内容反查视频,挑选适合作为配图的关键帧,并解释每张图服务于哪个论点; 4. 用 ffmpeg 等确定性工具截图,把图片按顺序插入 Markdown,最后检查路径和标题。 如果你经常要做视频转文章,那就不应该每次都把这段 prompt 重新打一遍,而应该把它沉淀成 Skill:固定 task、固定输出 schema、固定重试逻辑、固定文件结构。这样 Agent 每次做的时候就不会“自由发挥”,而会调用一套可复用的工作流。 下面展开讲这四步。 ## 第一步:长视频切片,但不把视频“拍扁”成纯文本 模型单次输入通常会有时长和大小限制,所以 Skill 会先检查视频。如果视频超过 20 分钟或 50 MB,就用 ffmpeg 自动切片;如果分辨率高于 720p,就下采样到 720p;切片后并发调用模型,再按时间顺序合并结果。 这里有一个关键点:切片不是转写。 切片只是为了让输入更稳定、更容易被模型处理,但每个切片仍然保留视频、画面和音频信息。也就是说,模型在处理每一段时,仍然可以看到 slide、代码、UI 和听到讲者声音,而不是只能读一段 ASR 文本。 这一步看起来像工程细节,但它直接决定了后面的稳定性。长视频硬塞给模型,容易遇到输入限制;把长视频先压成文字,又会丢掉画面。切片保留了多模态信息,同时把问题变成多个可控的小任务。 ## 第二步:先让模型生成“文章素材”,而不是直接憋终稿 很多人第一次用模型写文章时,会直接说:“请根据这个视频写一篇漂亮的博客。” 短视频可能还行,但长视频不建议这么做。更稳定的方式,是先让模型输出结构化素材:主题是什么、视频分成哪几段、每段画面出现了什么、讲解重点是什么、哪些命令和术语应该保留、哪些结论只是推论,不能过度发挥。 这个 prompt 的核心是要先把事实边界整理清楚: > [plain] 请基于这段技术演讲视频,输出一份用于撰写中文技术博客的结构化素材。 请同时利用画面、语音和屏幕文字,不要只总结语音。 请至少包含: - 视频主题和一句话摘要; - 按时间顺序拆分的章节; - 每一章的讲解重点; - 画面中出现的关键证据,例如代码、架构图、命令、UI 状态; - 需要原样保留的英文术语、命令、文件名、API 名称; - 不确定或需要人工复核的点。 这一步相当于让模型先当“研究助理”,而不是直接当“作者”。 对长视频来说,这非常重要。因为一个好的技术博客是要重新组织知识而不是仅仅把视频逐句翻译:该合并的地方合并,该补上下文的地方补上下文,该保留命令和术语的地方不要漏,该提醒不确定性的地方不要瞎编。 拿到结构化素材后,Agent 再进入写作阶段,把素材改写成中文博客初稿。这样写出来的文章通常比一步到位更稳定,也更容易检查。 ## 第三步:根据文章反查视频,自动挑关键帧 文章初稿出来后,下一步是让 Agent 把“文章内容”和“原视频”一起交给同一个多模态模型,让它为博客挑配图。 这一步的输出的是结构化 JSON: > [json] { "keyframes": [ { "timestamp": "03:15", "timestamp_sec": 195.0, "description": "VS Code 中出现完整命令行输出,展示 JSON 结构", "suggested_caption": "图:结构化输出示例", "reason": "对应文章中关于 JSON / stream-json 可被上层系统解析的论点" } ] } 这里最重要的字段是 reason。 description 只是告诉你“画面里有什么”;reason 则要求模型解释“为什么这一帧应该放进文章”。换句话说,模型必须同时回答三件事: - 文章这一段在讲什么? - 视频这个时刻画面里有什么? - 这张图能不能帮助读者理解这个论点? 这正是传统 ASR + LLM 流水线很难做好的地方。 比如生成结果里的第一张图,是视频开头的标题页: 它适合作为第一张图,因为它第一次完整呈现了演讲主题,是后文所有内容的视觉锚点。 再比如 GitHub Action demo 部分,模型挑到了 issue 触发、Action run、todo list 这类画面: 这些图能帮助读者理解:Agent 会真的进入 GitHub issue、PR、runner 这套工程协作流程里,把需求推进成可 review 的代码变更。 这一步也是多模态模型最有价值的地方:它会读过文章、理解过视频,再反过来选择最能支撑论点的画面。 ## 第四步:用 ffmpeg 截图,把图片插回 Markdown 拿到关键帧 JSON 后,剩下的就是机械活:用 timestamp_sec 调 ffmpeg 截图,然后把图片按顺序插进 Markdown。 这里不需要再让模型“想办法截图”。截图、命名、保存、插入路径,都应该交给确定性工具。 > [bash] mkdir -p imgs i=0 jq -r ' (.segments[0].text | fromjson | .keyframes[]) | [.timestamp_sec, .suggested_caption] | @tsv ' out/keyframe-extract.json | while IFS=$'\t' read -r ts caption; do i=$((i + 1)) file=$(printf "%02d.jpg" "$i") ffmpeg -hide_banner -loglevel error \ -ss "$ts" -i talk.mp4 \ -frames:v 1 -q:v 2 "imgs/$file" printf "%s[%s](imgs/%s)\n\n" "!" "$caption" "$file" >> frames.md done 如果视频被切成了多段,还需要注意一个小细节:模型返回的 timestamp_sec 可能是分段内的局部时间戳。稳妥做法是让 Skill 在合并结果时把 segment.start_sec 加回去,统一转换成原视频的全局时间戳。 这一步没有什么“AI 魔法”,但非常重要:一个好用的多模态 Agent 工作流,不应该把所有事情都塞给模型。模型负责理解和决策,脚本负责稳定执行。 ## 最终博客长什么样? 这次测试的视频是一段 20 分钟左右的英文技术演讲,主题是 Building headless automation with Claude Code。生成出来的文章标题是: > Claude Code SDK 与 GitHub Action:把代码 Agent 接入 CI 和 GitHub 协作流 开头几段大概是这样: 文章中间会穿插对应截图。例如讲到 Power-ups 功能时,配图是能直接看到 50/50 和 Skip Question 按钮的最终效果: 讲到 Action 架构时,配图则是三层结构:Claude Code SDK、Base Action、PR Action。 这类图片对读者很有价值。因为技术博客不仅仅是把视频“翻译成文字”,还要帮读者节省时间:该看的图直接放出来,该解释的概念重新组织,该保留的命令和术语不要漏。 从读者角度看,最终得到的是一篇可以搜索、可以收藏、可以快速扫读的文章;从作者角度看,原来需要人工看视频、暂停、截图、整理大纲、改写的过程,被压缩成了一套 Agent 可以执行的工作流。 ## 这套方法的局限 这次 Doubao-Seed-2.0-lite 的多模态测试体验给我感觉非常不错,但也有一些局限需要说清楚。多模态模型是把很多过去做不了、或者成本很高的事情,变成了可以工程化处理的事情。 - 第一,输入长度和大小仍然有限制。 长视频、高清录屏、大体积文件不适合直接一次性塞给模型。我的做法是先切片、必要时降到 720p,再并发处理,最后把结果按时间线合并。这样牺牲了一点端到端的“优雅”,但换来了稳定性。 - 第二,多模态输出的形式可以很丰富,但长输出的稳定性仍然要特别设计。 让模型一次性输出一篇很长的文章、几十张图、复杂 JSON 和完整文件结构,失败概率会变高。更稳的做法是拆阶段:先素材,再文章,再关键帧 JSON,再由脚本落盘。每一步输出都尽量结构化、可解析、可重试。 - 第三,时间戳不是永远帧级精确。 模型能定位“大概哪个时刻适合截图”,但如果你对画面清晰度要求很高,最好在 timestamp_sec 前后再取几张候选帧,让 Agent 或脚本做二次筛选。 - 第四,技术文章最终仍然需要人工审稿。 模型能帮你理解视频、整理结构、保留术语、挑图,但涉及具体 API、版本、命令、事实判断时,发布前最好人工过一遍。尤其是英文技术视频转中文文章,术语翻译和上下文补充很容易影响读者理解。 - 最后,这类能力更适合异步深度理解,不等同于实时流式音视频助手。 像“录完一节课后生成报告”“看完一场直播后出分析”“处理完一段演讲后写博客”这样的场景很适合;如果要边看边实时反馈,就还需要另外的实时系统设计。 ## 不只视频博客:还可以怎么用? “视频转图文博客”只是一个比较直观、也比较适合开发者理解的精品 Demo。真正有意思的是,这套模式可以迁移到很多场景:多模态模型负责理解,Agent 负责拆解任务,GUI / Browser Use 负责采集和操作,Coding 能力负责把结果生成页面、看板或报告。 ## 1. 竞品直播追踪:GUI 采集 + 多模态理解 + 看板生成 比如海外电商团队想分析竞品直播。过去这件事很依赖人工:运营要定时进入直播间,记录商品、价格、促销话术、逼单节奏,再整理成表格。 放到 ArkClaw 或 Hermes Agent 这样的框架里,流程可以变成: 1. GUI Agent 定时打开直播平台,搜索指定竞品账号,进入直播间并录屏; 1. Agent 抓取商品列表、价格、优惠信息,同时保存直播视频; 1. Doubao Seed 2.0 Lite 对录屏做多模态理解:看画面上的商品、听主播话术、识别价格变化和促销节点; 1. Coding Agent 把分析结果生成 HTML 看板,展示不同场次的商品节奏、转化话术、价格策略和高光片段; 1. Agent 把报告链接发到飞书或 Slack。 这里如果只有 ASR,就只能得到主播说了什么;如果只有截图,就不知道主播当时在强调什么。必须把画面、音频和时间线结合起来,才能分析“这个商品为什么在这个时刻被重点推”。 ## 2. 在线课堂报告:学生表现不是只看答对没答对 在线教育里也有类似需求。比如一节英语直播课结束后,家长想知道孩子这节课表现如何。传统系统可以统计答题正确率,但很难判断孩子是否专注、回答是否流畅、发音是否犹豫、老师是否及时引导。 多模态 Agent 可以把课堂录屏、学生语音、老师语音和互动 UI 放在一起分析: - 学生回答了什么,是否听懂问题; - 回答是否流畅,是否有长时间停顿; - 发音、语调和情绪是否稳定; - 画面里是否频繁走神、低头、离开屏幕; - 老师有没有及时反馈和追问。 最后由 Coding Agent 生成一份家长能看懂的课后报告:本节课知识点、孩子高光时刻、需要复习的内容、老师建议。对教研团队,也可以生成另一份老师表现反馈。 这个场景的关键同样不仅要“把课堂录音转成文字”,还要把声音、画面、互动状态一起理解。 ## 3. 游戏赛后复盘:录屏、队友语音和事件时间线一起看 游戏复盘也是很适合三模态理解的场景。以 CS2 这类游戏为例,一场比赛里有枪声、脚步声、队友报点、经济系统、道具使用、站位选择、击杀时机。只看录像会漏掉语音,只听语音又看不到站位和画面。 Agent 可以在赛后处理整场录屏:先切成多个 round,再分析每一局的经济选择、道具使用、准星位置、队友沟通、关键失误和高光操作。最后生成一份像教练写的复盘报告,告诉玩家:哪一局该保枪,哪一次道具丢早了,哪一次听到了脚步但没有及时反应。 这种任务对实时性要求不一定高,但对长程视频理解、多模态线索追踪和结构化输出要求很高,正是轻量全模态模型适合进入生产的地方。 ## 最后 回头看 Karpathy 两年前那条推文,他说这个想法“feels tractable but non-trivial”。 两年后,我的感受是:它仍然不是一个“丢进去就完事”的玩具任务,但已经从一个复杂的研究型流水线,变成了一个可以工程化复用的 Agent 工作流。 变化的核心,不只是模型更强了,而且多模态理解开始变成一种可组合的工程原语。 以前我们会把视频拆成音频、文字、截图,再让不同模型分别处理;现在更自然的方式是让模型直接理解同一个事件的多个模态,再把结果以结构化形式交给 Agent 和工具链继续处理。 豆包 Seed 2.0 Lite 0415 让我印象最深的地方也在这里:它不仅只在某个单点能力上更进一步,还把视频、图片、语音、文本放进同一个理解框架里,同时又足够轻量,适合被封装成 Skill,接入 Agent、Coding、GUI 这些真实开发流程。 对开发者来说,这意味着很多过去“能想明白,但实现很麻烦”的音视频任务,开始值得重新做一遍。 你手里如果有课程视频、会议录屏、直播回放、产品演示、游戏录像、客服质检视频,不妨问自己一个问题: > 如果模型能同时看画面、听声音、读文字,并且能把结果交给 Agent 自动执行下一步,这个工作流还能不能重做一遍? 这可能才是多模态模型真正进入生产的开始。

译作者利用豆包Seed2.0-lite全模态理解模型,重新实践了将长视频自动转换为图文博客的工作流。传统ASR+LLM方案因信息丢失严重而效果不佳,新方案的核心在于模型能同时理解视频的音频、画面和屏幕文字,进行联合推理,从而保留技术视频中的关键视觉信息(如代码、图表)。通过将多模态能力封装为可复用的Agent Skill,并采用四步最佳实践——视频切片、生成结构化素材、反查关键帧配图、生成终稿——解决了传统流程的上下文割裂问题,使输出更接近人类技术编辑的整理成果。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月8日
23:35
Berryxia.AI@berryxia
66
作者免费发布《GEO红皮书》,旨在整治GEO行业黑帽手段、割韭菜等乱象。基于前沿论文、生成式AI法规和实战经验,红皮书系统拆解55种GEO风险,提供自查清单和治理框架,帮助中小企业在AI时代规范营销,促进行业回归理性。

姚金刚: 我们的第一份《GEO红皮书》发布了 去年,和 @vista8 向阳老师一起发布了GEO白皮书,收到不少朋友的正向反馈 大半年过去了,国内GEO行业发展得很快,但乱象也比较多,比如黑帽GEO横行、各种割韭菜、虚假承诺... 很多人,对GEO也...

搜索教程/实践
23:33
歸藏(guizang.ai)@op7418
72
抖音"法天象地"特效:从图片生成到视频优化的突破

抖音近期流行的“法天象地”户外照片特效多基于图片生成,但实际测试表明直接生成视频效果更佳。作者通过优化提示词实现了这一改进,关键采用了 GPT-Image-2.0 与 C-Down 3.0 技术组合,并将优化后的图片提示词附在视频内容后供参考。这一方法提升了特效的动态表现力与视觉冲击力。

图像生成教程/实践视频
20:33
Berryxia.AI@berryxia
71
别自己瞎折腾Claude Code 了!

Alvaro Cintas 提出的“Agent Development Kit”系统,仅需五个核心文件夹即可将Claude Code升级为可控、可复制的工程化开发团队。具体包括:CLAUDE.md作为存储库的“法则”定义规则;skills/存放可自动调用的可复用工作流;hooks/通过确定性脚本提供安全护栏;subagents/实现上下文隔离的专用于智能体;plugins/确保团队环境一致。该架构将Claude从聊天工具转化为可规模化的工程基础设施,其核心价值在于系统设计而非模型本身。

Alvaro Cintas: How to set up Claude Code so it runs like a full dev team: 5 folders. That's the entire system. 1. CLAUDE.md → Memory. Y...

智能体Anthropic教程/实践编码
17:15
小互@xiaohu
58
Claude开发者大会展示Cardputer实体交互设备

Cardputer是Anthropic在Claude开发者大会上推出的售价29.9美元的实体设备,通过WiFi连接电脑,支持键盘输入问题由Claude处理并显示结果、语音对讲经STT/TTS转换交互,以及作为Claude实体宠物显示动态像素动物,还可接入OpenClaw平台扩展语音功能。

Anthropic教程/实践端侧语音
15:14
向阳乔木@vista8
71
Codex Chrome插件安装使用注意事项

安装Codex Chrome插件需注意:确保Codex为最新版本并使用官方订阅登录,第三方API模式不支持。插件安装对网络节点有要求,部分区域(如香港)可能无法使用。建议将Chrome设为默认浏览器以便引导。安装后,需在对话中通过“@ Chrome”指令调用。若连接失败,可尝试重启电脑。

智能体教程/实践部署/工程
12:39
Ethan Mollick@emollick
20
我一直觉得位置的四阶、五阶和六阶导数被称为snap、crackle和pop很迷人。 于是我用Codex做了个小模拟器,大家可以体验这些导数(以及速度、加速度和加加速度)。 https://motion-derivatives-exhibit.netlify.app/
OpenAI教程/实践
12:21
Berryxia.AI@berryxia
68
优化表格Agent检索效率:Ramp Labs集成Fast Ask子代理

Ramp Labs在Ramp Sheets的Spreadsheet Agent中深度集成了Fast Ask检索子代理,解决了传统表格Agent因读取范围不当导致的效率低下和成本高昂问题。该子代理能自动导航并读取最相关数据范围,仅返回精炼答案,减少上下文污染与token消耗。其基于开源Qwen3.5-35B-A3B模型,通过与Prime Intellect合作进行RL后训练优化。实际应用中,它消除了主代理17.8%的无效工具调用,延迟接近Claude Haiku 4.5,准确率比Claude Opus 4.6高4个百分点,实现了更快、更准、更经济的系统性能。

Ramp Labs: http://x.com/i/article/2052422965019439105

智能体搜索教程/实践部署/工程
12:21
Berryxia.AI@berryxia
67
卧槽!GPT每天有惊喜啊! 星巴克领Trae 的咖啡羊毛,顺手搞了个提示词! 发现好用啊!! 搞了几个案例是真的nice哦~ 有喜欢想要的🙋
OpenAI教程/实践
12:21
Berryxia.AI@berryxia
24
用户@berryxia在星巴克活动期间,偶然创作出一个高效的GPT提示词,并在多个案例中验证了其出色的效果,对此感到惊喜。主推文作者在看到麦当劳的海报后,联想到此提示词可能带来的提升效果,并以幽默口吻询问反馈。核心在于分享一个由日常场景激发、经过实践验证的优秀AI工具使用技巧。

Berryxia.AI: 卧槽!GPT每天有惊喜啊! 星巴克领Trae 的咖啡羊毛,顺手搞了个提示词! 发现好用啊!! 搞了几个案例是真的nice哦~ 有喜欢想要的🙋

OpenAI图像生成教程/实践
11:44
向阳乔木@vista8
59
好像是丁师傅分享的网站? 趋势中的HTML模版都好有设计感,可以发给AI参考学习。 不然Claude 和 Codex的默认设计风格,很快就会成为新的AI味。 网址见评论
图像生成教程/实践
11:39
meng shao@shao__meng
68
Codex新增/side功能实现并行对话不中断

Codex推出/side功能,允许用户在AI执行主要任务时,无需中断当前进程即可开启新对话窗口处理突发问题,如登录或点击操作。该功能支持在/side窗口运行期间继续开启新的/side对话,实现多话题并行插入,但并行窗口数量上限尚未明确。

智能体教程/实践编码
09:39
meng shao@shao__meng
64
Claude Code 开发者谈AI时代技术写作的核心:深耕经验,善用工具

Claude Code开发者Thariq认为,高质量技术文章的基础在于深入具体的工作经验,而非写作技巧。他提出“先深耕,后叙事”的两步法:长期研究积累独特细节,再将经验转化为对读者有用的故事。有效方法包括注重长期积累、分享经验而非单纯描述项目、披露失败尝试的价值、使用简洁语言及提供真正有价值的实施细节。对于AI写作,他肯定其在研究、图表生成等方面的辅助作用,但强调人的叙事判断不可替代——AI能整理信息,却难以决定“读者此刻最需要理解什么”,这使得在AI辅助下人的判断反而更加关键。

Sarah Chieng: "Technical writing completely changed my life." - @trq212 In under 2 years, Thariq (@AnthropicAI) cracked the code on wr...

Anthropic大佬观点教程/实践编码
09:21
Berryxia.AI@berryxia
50
推荐XCrawl与AI工具组合提升工作效率

用户推荐结合XCrawl和AI工具处理日常任务,每天仅用5分钟查看邮件,XCrawl在24小时内快速抓取网站信息执行任务。该组合显著提升效率,尤其适用于制作调研报告,能节省类似GPT服务的Credit消耗,免费额度可用较久,并对服务商盈利模式表示好奇。

huangserva: http://x.com/i/article/2052275964860850176

MCP/工具教程/实践
08:06
Rohan Paul@rohanpaul_ai
精选78
atomic.chat为LLaMA.cpp引入多令牌预测技术,显著加速本地模型推理

atomic.chat通过为LLaMA.cpp引入多令牌预测技术,大幅提升了本地大型语言模型的推理效率。该技术利用小型辅助模型预先生成后续令牌草案,由主模型进行验证。在MacBook Pro M5 Max上测试时,使Gemma 4 26B模型的令牌生成速度加快约40%,整体运行速度提升1.5倍。这项优化进一步巩固了LLaMA.cpp和GGUF格式在本地AI生态中的核心地位,为桌面应用、编程助手和私有设备助手等场景提供了更高效的部署方案。

atomic.chat: Multi-Token Prediction (MTP) for LLaMA.cpp! Running Gemma4 local model 1.5x faster. We patched LLaMA.cpp. Quantized Gemm...

开源/仓库推理教程/实践端侧

推荐理由:在笔记本上把 Gemma 26B 的生成速度拉高 40% 是个真实的体验提升,atomic.chat 把 MTP 带入 LLaMA.cpp 生态,本地 AI 玩家可以直接拿去用。
07:36
OpenAI Developers@OpenAIDevs
精选76
正在用GPT-Realtime-2构建语音应用? 我们的新提示指南涵盖如何调整推理强度、使用前导说明、设计工具行为、处理不清晰音频、准确捕获实体,以及在长会话中保持状态。 https://developers.openai.com/api/docs/guides/realtime-models-prompting?realtime-model=gpt-realtime-2
OpenAI推理教程/实践语音

推荐理由:官方出了 Realtime-2 的提示工程指南,从调参到工具调用都给了清晰路径,做语音产品的同学值得认真翻一遍,能省几周摸索时间。
06:39
Peter Steinberger 🦞@steipete
63
/goal + GPT 5.5太棒了。我现在可以用端到端测试来规划非常大规模的重构,而且效果很好。
OpenAI教程/实践编码
01:42
Suno@suno
44
一位四次获得格莱美提名的制作人如何使用Suno来构建节拍
教程/实践视频
00:13
向阳乔木@vista8
70
想让AI设计公众号排版CSS,可直接跟Agent说,参考Design md设计: https://github.com/VoltAgent/awesome-design-md/tree/main/design-md 一下能设计了70多个知名网站风格,选几个喜欢优化。
GitHub开源生态教程/实践
00:08
Replit ⠕@Replit
45
在Replit上使用Plaid构建个性化金融应用 https://x.com/i/broadcasts/1MKgNgOqznWxL
教程/实践编码
5月7日
23:21
Berryxia.AI@berryxia
27
每天白送4000 万token,你确定你不去把这个🦙羊毛"搞一搞"?

Qclaw AI助手每日免费提供高达4000万token,适合执行定时任务、批量处理数据和生成合同等自动化工作,用户可基于能省则省的原则榨干其价值。该工具以像素风小龙虾形象呈现,拥有16-bit像素风格工作室,能作为“不会下班的同事”持续工作,目前处于内测阶段,需通过Waitlist申请,并使用专属邀请码“berryxia”获取。引用内容补充了其趣味设计,强调它可像电子宠物一样互动,同时高效协助日常任务。

Berryxia.AI: 🧵 1/8 前几天给大家分享的我用AI邮箱来搞钱的帖子(见前贴),有很多朋友私信我问,你使用的那个像素风的小龙虾是什么? 怎么那么可爱有趣,我今天给大家介绍一下! 熟悉我的朋友知道,我是一个像素爱好者,看看我头像哈哈! 我一直自己想做个属...

智能体教程/实践
23:13
向阳乔木@vista8
65
构建个人观点库以优化AI Agent决策

推文提出了一个利用AI Agent构建个人“观点MD”文件的构想。其核心是让AI Agent定期抓取个人在网上发布的内容,并由AI提炼出其中的核心观点,整理成一个结构化的文档。这个文档旨在记录和固化个人的观点与立场。其最终目的是让未来的AI Agent在进行决策和判断时,能够参考这份文件,从而使其行为更贴近用户本人的真实想法和价值观,实现更个性化的AI交互。

智能体教程/实践
22:04
Orange AI@oran_ge
精选75
ColaMD 1.5版实现Markdown内容与HTML模板分离

作者为解决制作演示文稿时修改不便的问题,受“Markdown as Database”理念启发,在ColaMD 1.5版本中实现了一种内容与视图分离的方案。该方案将.md文件作为内容层,HTML作为可更换的视图模板层,用户只需修改Markdown内容,即可生成不同形态的最终呈现,如幻灯片、博客等。此功能已内置,并支持通过开源方式由社区或AI扩展更多模板。

GitHub开源生态教程/实践

推荐理由:藏师傅的 Markdown as Database 搭上 HTML 模板,改 PPT 像改文档一样简单,ColaMD 直接给了现成模板,如果你常做分享,这个思路能省一半排版时间。
20:43
向阳乔木@vista8
74
开源,通通开源,哈哈哈。 【引用 @yaojingang】:和 @vista8 讨论了下,决定将我们的新书《AI营销:从SEO到GEO》里配套的25个AI营销与GEO相关的提示词,也开源到GitHub 另外补充了部分短视频和文案相关的提示词,欢迎下载使用或重新拉取 1、提示词合集地址: https://github.com/yaojingang/yao-open-promptsGEO 2、GEO提示词合集: https://github.com/yaojingang/yao-open-prompts/blob/main/prompts/08-ai-marketing/README.md

姚金刚: 和 @vista8 讨论了下,决定将我们的新书《AI营销:从SEO到GEO》里配套的25个AI营销与GEO相关的提示词,也开源到GitHub 另外补充了部分短视频和文案相关的提示词,欢迎下载使用或重新拉取 1、提示词合集地址: https:...

开源生态搜索教程/实践
18:11
小互@xiaohu
精选82
开发者@yaojingang将其公开分享的提示词整理并开源至GitHub仓库。该合集包含约100个提示词,覆盖AI方法、工作、学习、生活、教育、内容、编程、营销和思考等九大类场景。其中特别推荐的是对用户帮助显著的元提示词,包括简易版和进阶版。开发者表示后续将持续在该仓库更新经过验证的有价值提示词。

姚金刚: 开源一套我的提示词合集 前几天,收到一位微信好友反馈,说使用了我不少公开的提示词,效果很不错 这一年来,公开分享了不少提示词,一直沉淀在飞书文档 为了方便大家更好的下载和迭代,今天抽空,把公开的提示词整理了下,通过GitHub开源给大家 目...

开源/仓库教程/实践

推荐理由:一个把提示词真正用起来的实战者,把压箱底的100个prompt开源了,九个场景全覆盖。尤其元提示词把写提示词的思路直接拆给你,比收藏模板更有用。
17:38
swyx 🌉@swyx
55
祝贺 @mattpocockuk 的两场分享在不到两周内获得超100万次观看--这是 @aidotengineer 历史上最快的"破百万速度"记录。

AI Engineer: We're excited to end the week with a @mattpocockuk special double header! - AI Coding for Real Engineers - full workshop...

教程/实践编码视频
17:06
meng shao@shao__meng
61
用好 Google 开放标准 DESIGN.md + Agent Skills,1 小时把创业项目做出「亿元公司」的质感

Google开源的DESIGN.md是一个面向AI的结构化设计规范文件,能系统定义字体、色彩、间距等核心设计元素,解决AI生成UI时风格不一致的痛点。通过借鉴成熟品牌设计语言,并用AI将其提炼为DESIGN.md文件,开发者可在此基础上构建Landing Page、Mobile App等各类Agent Skills。这套工作流能确保创业项目的官网、应用、宣传材料等所有触点保持统一的视觉基因,快速呈现专业、一致的“亿元公司”质感。此外,建立日常设计灵感库是培养审美、AI无法替代的关键环节。

GREG ISENBERG: how to use Google's NEW open source Design.md + AI Skills to make your startup look like a $100 million company in 1 hou...

智能体Google开源生态教程/实践
15:20
Berryxia.AI@berryxia
61
2026靠嘴设计、打印、出品一条龙了!
图像生成多模态教程/实践
13:11
小互@xiaohu
65
如何让Claude和GPT给出权威准确回答

通过特定系统提示词,从根本上改变AI模型(如Claude和GPT)的交互模式。提示词要求AI扮演世界级专家角色,以顶尖智识水平提供完整、详细且经过严格验证的回答,同时解除其在礼貌、政治正确和道德提醒方面的常规约束,允许给出强硬、直截了当的回应,以确保回答的权威性与准确性。

智能体AnthropicOpenAI教程/实践
12:20
Berryxia.AI@berryxia
70
推文推荐免费网站aihot.virxact.com,可直接追踪AI信息。该平台由公众号顶流博主卡兹克(@Khazix0918)公开其日常使用的优质信息源,无需登录即可访问,采用时间线形式便于查找,并分类整合官方信源、优质博主和推友等内容,还包括公众号监测和AI日报。用户通过此平台可使自己的AI信息源与顶流博主保持一致。

Jackywine: 公众号顶流千万粉丝博主 @Khazix0918 卡兹克把他每天看的优质信息源放出来了: - 无需登录,直接看 - 时间线形式,好查找 - 区分了官方信源、优质博主、推友 - 甚至还有公众号监测和 AI 日报 从此你的 AI 信息源和顶流博主...

搜索教程/实践
11:20
Berryxia.AI@berryxia
67
24 小时解除限制,免费分享给大家。

近日,一条在海外社交媒体爆火并获得纳瓦尔转发点赞的AI提示词被免费分享。该提示词旨在将AI助手塑造为智力、知识广度和思维敏锐度均属世界顶级的专家,要求提供完整、详细、具体的答案。其核心流程包括逐步阐述思考过程、核实所有事实数据、不虚构信息、直接承认知识盲区,并在支持用户观点前先提出最有力的反驳。据称,此提示词能显著提升AI在ChatGPT、Gemin、豆包等平台上的回答质量。

Berryxia.AI: 兄弟们!赶紧去把这个提示词保存下来吧! 🔥外网爆火被纳瓦尔转发点赞的提示词! 可以将你的AI回答质量提升数倍! 直接丢到ChatGPT、Gemin 、豆包都可以!订阅者优先查看,24 小时后解锁🔓! 提示词见评论区!👇

推理教程/实践
11:03
Greg Brockman@gdb
48
OpenAI罕见地通过一篇关于MRC和超级计算机网络的文章,深入揭示了构建与运营大规模可靠算力系统的复杂工程实践。文章指出,当前AI发展的关键瓶颈不仅是算力稀缺,更在于确保从网络、调度、硬件健康、存储到编排、可靠性、可观测性、安全及研究人员开发体验等整个技术栈各层面的协同可靠运行。这远非单纯获取更多GPU所能解决。OpenAI旨在分享其设计、构建和运营行星级算力的经验,并为此招募基础设施软件工程师。

Uday Ruddarraju: There is a lot of news about compute being the bottleneck for AI. There is less visibility into the engineering it takes...

OpenAI教程/实践部署/工程
09:36
宝玉@dotey
72
一个用 Chrome Dev Tool 学习调试 Codex App 的技巧: 1. 退出 Codex App,从命令行打开: > open /Applications/Codex.app --args --remote-debugging-port=8315 --remote-allow-origins=http://localhost:8315 2. Chrome 中输入 chrome://inspect 3. 点击其中的链接即可打开 Chrome Debug Tool
OpenAI教程/实践编码
09:12
向阳乔木@vista8
精选75
Al Agent装进口袋:TRAE SOLO移动端上手全攻略

字节推出的TRAE SOLO AI Agent工具现已向全量用户开放App、Web和桌面三端,实现跨设备无缝衔接。其移动端支持访问电脑项目、调用已安装技能并执行任务,演示了数据分析、信息整理、学习辅助及自动化等场景。工具支持第三方模型和技能扩展,并与飞书深度集成,便捷创建文档和日程。其“More Than Coding”理念强调AI Agent能处理各类长程复杂任务,而不仅限于编程。

智能体MCP/工具教程/实践端侧

推荐理由:TRAE SOLO 移动端不是阉割版,三端同步、同会话,还能装 Skill、接飞书,是目前把 AI Agent 随身化的最完整方案。在外面也能工作,这才是移动端该有的样子。
09:12
向阳乔木@vista8
53
如果用不惯Terminal的朋友,Codex官方客户端是个好选择。 也支持中转站,用第三方API。 可视化界面对人还是对多数人更友好些。 下载地址见评论
OpenAI教程/实践编码
08:06
宝玉@dotey
70
手机化身"意图路由器":Agent办公助手实现三端联动与任务自动化

Anthropic工程负责人Boris Cherny透露,他已习惯用手机管理大量Claude Agent,并通过定时任务(Loop)自动化工作。作者体验TRAE SOLO Mobile后指出,Agent正从编程工具泛化为通用办公助手。最新版本实现了移动端、Web端和桌面端的全量开放与实时同步,使手机成为随时下发指令的“意图路由器”,用户可通过语音便捷派发任务,由Agent在多设备间接力执行。同时,定时任务功能支持将日常重复性工作自动化,大幅降低使用门槛,推动办公模式向“人指挥、Agent执行”转变。

宝玉: http://x.com/i/article/2051687844679143424

智能体教程/实践端侧
00:37
向阳乔木@vista8
60
AI分析X平台数据揭示发帖效率与涨粉规律

通过将X平台创作者工作室近90天的数据分析数据输入大模型,AI提炼出关键运营规律。核心发现包括:每日发帖3-5条是曝光效率最佳区间,而非单纯追求数量;周三互动率最高,周四涨粉效果最好,周六则最利于冲击曝光量。此外,近44%的新增关注者集中来源于少数“高涨粉日”,表明涨粉主要依赖爆款帖文的拉动效应。

教程/实践数据/训练
00:33
elvis@omarsar0
60
利用智能体与LLM Artifacts革新AI论文研读方式

作者通过自动化流程每日筛选arXiv论文,并利用智能体将其转化为可交互的“LLM Artifacts”。这一系统基于LLM Wikis概念演进,使论文知识可操作化:Artifacts支持动态注入见解、组件及实验建议,并能通过智能体协调器直接提问或自动化执行实验。其核心在于通过多智能体主动协作,持续挖掘可行动的知识,帮助研究者高效学习与跟进前沿。

智能体MCP/工具教程/实践
00:20
Berryxia.AI@berryxia
73
Stanford CS336课程指出,过去三年主流大语言模型架构高度收敛,约90%组件形成共通模板。核心包括:架构普遍采用pre-norm、RMS Norm、无偏置、SwiGLU/GeGLU激活函数、RoPE位置编码;超参数如FFN维度比例、注意力头配置、模型纵横比等已成惯例。为保障训练稳定,Z-loss、QK norm等技术被广泛使用;GQA成为推理部署标配,局部与全局attention交替是处理长上下文的新趋势。这套模板被视为2026年开源LLM的"默认配置"。

Jason Zhu: Stanford CS336 上,Tatsu 讲了一节 LLM 架构课,把过去 3 年所有主流 LLM 拆开,看它们的共通模板 结论挺爆:90% 的架构选择已经收敛,你随便挑一个开源大模型,它跟其他模型在这些维度上几乎一模一样 讲师的原话 ...

教程/实践
00:20
Berryxia.AI@berryxia
76
姚老师将其公开分享的提示词整理并开源至GitHub仓库。该合集包含约100个提示词,覆盖AI方法、工作、学习、生活、教育、内容、编程、营销和思考等九大类场景。其中特别推荐的是对用户帮助显著的元提示词,包括简易版和进阶版。作者表示后续将通过该仓库持续更新经过验证的有价值提示词。

姚金刚: 开源一套我的提示词合集 前几天,收到一位微信好友反馈,说使用了我不少公开的提示词,效果很不错 这一年来,公开分享了不少提示词,一直沉淀在飞书文档 为了方便大家更好的下载和迭代,今天抽空,把公开的提示词整理了下,通过GitHub开源给大家 目...

GitHub开源生态教程/实践
00:02
宝玉@dotey
65
把视频变成图文博客:Agent + 豆包 Seed2.0 lite 重做 Karpathy 两年前的工作流

作者利用豆包Seed2.0-lite全模态理解模型,重新实践了将长视频自动转换为图文博客的工作流。传统ASR+LLM方案因信息丢失严重而效果不佳,新方案的核心在于模型能同时理解视频的音频、画面和屏幕文字,进行联合推理,从而保留技术视频中的关键视觉信息(如代码、图表)。通过将多模态能力封装为可复用的Agent Skill,并采用四步最佳实践——视频切片、生成结构化素材、反查关键帧配图、生成终稿——解决了传统流程的上下文割裂问题,使输出更接近人类技术编辑的整理成果。

智能体多模态教程/实践视频
‹ 上一页
1…2223242526…31
下一页 ›