AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1227 条
全部一手资讯X论文
标签「教程/实践」清除
Berryxia.AI@berryxia · 5月1日68

兄弟们!嘴撸360 全景沉浸式体验小游戏!时代来了! 直接把这个Prompt丢给Flowith然后和Codex链接,图片直接整成360度场景图! Prompt:👇 1. 给图像Agent一个简单的提示,让它研究 AI 公司吉祥物并生成一个 360° 动物园。 2. 将全景图输入你的 Codex 以获得 3D 视图。

译推文介绍了一种利用AI工具链快速创建360度全景沉浸式小游戏体验的方法。核心流程是:首先,向图像生成AI(Agent)提供一个简单提示,例如让其研究AI公司吉祥物并生成一个360度全景动物园图像。然后,将生成的全景图输入Codex,即可获得相应的3D视图,从而构建出游戏场景。这种方法旨在简化沉浸式内容的创作门槛,标志着一种新的内容生成时代的到来。

Berryxia.AI@berryxia · 5月1日53

2026年你必须了解的6个大语言模型(LLM)知识库专业术语! (大多数团队至少缺失其中3项,这会让他们的智能AI代理付出代价) 1. LLM Knowledge Base 大语言模型知识库 一种能够让大语言模型接收原始资料、整理成结构化维基文档,并通过自有索引检索来回答问题的系统。安德烈·卡尔帕西曾为自己搭建过一套。该技术的难点在于:搭建一套能适配整个团队协同使用的知识库。 2. Continuous Ingestion 持续数据摄取 自动从所有日常工作工具中同步信息,包括即时通讯软件、客户关系管理系统、会议记录、文档资料等,全程无需人工维护数据链路。个人知识库一般抓取互联网信息,而团队知识库则必须同步企业内部数据。 3. Source Trust 来源可信度分级 并非所有信息都具备同等价值。来源可信度可以帮助AI代理和人类区分官方已定决策与聊天记录中的个人观点。如果缺失这项能力,所有文档权重完全一致,最终会导致所有信息都失去参考意义。 4. Freshness Monitoring 时效性监控 主动复核知识库中存储的所有信息。当不同资料出现内容冲突时,系统会自动标记矛盾点,并降低过时信息的权重。它无需等待人工发现问题,完美解决了人类习惯性拖延信息维护的痛点。 5. Self-Maintaining 自主维护 文档能够随着工作进展自动更新。会议中敲定的决议会自动归档至对应文档,路线图的变更会同步扩散到所有相关位置。告别手动复制粘贴,也不再需要依赖“找人来更新文档”。 6. Knowledge Drift 知识漂移 指文档记录的信息与现实真实情况之间,缓慢且隐蔽产生的信息偏差。 决议被推翻、工作流程变更、新功能上线,但相关文档却一成不变。往往直到AI代理给出错误答案时,人们才会察觉问题。知识漂移是知识库的通病,而上面五项技术正是对应的解决方案。 补充问答翻译

译本文介绍了2026年构建高效团队LLM知识库必须掌握的六个核心术语。LLM知识库是让大语言模型处理原始资料并自主检索回答的系统,难点在于团队适配。持续数据摄取能自动从Slack、CRM等工作工具同步信息。来源可信度分级帮助区分官方决策与聊天观点等不同价值信息。时效性监控可主动发现信息矛盾并降低过时内容权重。自主维护实现文档随工作进展自动更新。这些技术共同对抗知识漂移,即文档与现实间缓慢产生的信息偏差,这是导致AI代理给出错误答案的主要根源。

Berryxia.AI@berryxia · 5月1日53

这个小哥读完Anthropic关于智能体AI的博客后,我梳理出一套心智模型,用来理解并拆解智能体AI架构的设计逻辑。 设定任务与目标 明确你希望AI智能体需要完成、达成的具体事项。 1. 编排层 Orchestration layer 相当于整套系统的控制面板,负责全局调度与流程统筹。 2. 智能体层 Agents layer 由多个专用/通用智能体组成,也就是多智能体分工协作架构。 3. 工具层 Tools 为智能体提供各类能力支撑,例如网页搜索、数据库查询、第三方API调用等。 4. 记忆层 Memory 系统的“大脑”,负责存储短期记忆与长期记忆等各类信息。 5. 监控层 Monitoring 至关重要的一环,用来实时追踪智能体执行的每一个步骤。 6. 可靠性与故障管理 Reliability & failure management 自动识别错误、执行重试、设置降级兜底策略,并支持人工介入处理。 7. 治理与安全 Governance and security 包含合规校验、行为审计、身份授权、数据安全等管控机制。

译基于Anthropic关于智能体AI的博客,作者提炼出一个用于理解和设计智能体AI架构的心智模型。该模型以明确任务目标为前提,核心架构包含七个层次:编排层负责全局调度;智能体层由多智能体分工协作;工具层提供搜索、API等能力支持;记忆层存储长短期信息;监控层实时追踪每一步执行;可靠性与故障管理层处理错误、重试与降级;治理与安全层确保合规、审计与数据安全。监控层被视为最关键环节,而故障管理支持自动处理与人工介入。

Peter Steinberger 🦞@steipete · 5月1日56

If you tried OpenClaw in group chats and got mixed results, you GOTTA try again. I changed how agents talk there, it IS SO GOOD NOW. https://docs.openclaw.ai/channels/groups#visible-replies And if you used GPT and got subpar performance, switch to codex harness. https://docs.openclaw.ai/plugins/codex-harness Enable both and boom.

译OpenClaw宣布其群聊功能已大幅改进,建议用户体验新版对话机制。若此前使用GPT效果不佳,推荐切换至codex harness插件。同时启用两项改进可显著提升性能。此次更新使群聊体验更原生,具体改进包括优化对话感受、增强上下文跟进承诺、提升安全执行与管控、新增NVIDIA供应商及模型目录,并加速启动与修复插件/通道问题。

ginobefun@hongming731 · 5月1日68

实用的 AI SEO 操作指南

译本文介绍了一套提升内容在主流AI(如ChatGPT、Claude)中可见性的实用方法,核心是主动提供结构化数据。关键步骤包括:在网站部署`llms.txt`文件概述站点;在`robots.txt`中允许AI搜索爬虫;向Google、Bing等提交Sitemap并利用其工具监测AI引用;参与Perplexity出版者计划;使用JSON-LD结构化数据标记内容;甚至可为AI创建专用知识端点,集中提供实时更新的结构化信息。这些做法旨在帮助AI更准确、高效地理解内容,而非制造垃圾信息。

ChatGPT@ChatGPTapp · 5月1日63

Prompt: “Redraw the attached image in the most clumsy, scribbly, and utterly pathetic way possible. Use a white background, and make it look like it was drawn in MS Paint with a mouse. It should be vaguely similar but also not really, kind of matching but also off in a confusing, awkward way, with that low-quality pixel-by-pixel feel that really emphasizes how ridiculously bad it is. Actually, you know what, whatever, just draw it however you want.”

译一条针对GPT Image 2的特定图像生成提示词正在社交媒体上病毒式传播。该提示词的核心要求是:以最笨拙、潦草且极其糟糕的方式重绘所附图像,背景为白色,使其看起来像是用鼠标在MS Paint中绘制。生成效果需与原图似是而非,带有低质量像素感和令人困惑的别扭感,以突出其荒诞的“差劲”。推文引用者指出,这条提示词正引发疯狂传播。

SemiAnalysis@SemiAnalysis_ · 5月1日41

AWS is making serious moves in custom AI silicon with Trainium and Inferentia chips. Rachel Zheng and Karthik Venna from the @awscloud team break down how they're scaling these processors across the world's largest cloud infrastructure. @makora_ai https://youtu.be/mgrQWLERync

译AWS正通过Trainium和Inferentia芯片在定制AI芯片领域做出重大举措。来自@awscloud团队的Rachel Zheng和Karthik Venna详细介绍了他们如何在全球最大的云基础设施上扩展这些处理器。@makora_ai https://youtu.be/mgrQWLERync

Suno@suno · 5月1日56

How Genki turned a 16-bar jam into a 2000s rock track

译Genki 如何将一段 16 小节即兴演奏变成 2000 年代摇滚曲目

karminski-牙医@karminski3 · 5月1日72

给大家说下目前使用 DeepSeek-V4 (pro/flash) 的最需要注意的问题. 本身其实并不算 bug, 但是却很致命. 问题大概是这样的, 在请求 DeepSeek API 或者 terminal coding agent (claude code, kimi cli 等) / AI IDE (cursor 等) 用 DeepSeek 的时候偶尔会遇到报错: HTTP 400 {"error":{"message":"The `reasoning_content` in the thinking mode must be passed back to the API.","type":"invalid_request_error","param":null,"code":"invalid_request_error"}} 这个报错的意思是, 请求 DeepSeek API 必须在 tool_call 的时候回传 reasoning_content 这个字段. 听上去没问题, 开了思考模式那肯定要把 reasoning_content 作为上下文回传. 但是来了, 如果任务的这一步制定的 tool_call 过于显而易见, deepseek 返回的 reasoning_content 其实是空字符串. 这就导致了有些写代码的 IDE 直接过滤掉了这个字段, 不回传, 导致 DeepSeek API 报错, 编码任务或者 Agent 就直接挂了. DeepSeek-V4 API会不会真的有的时候 reasoning_content 空字符串? 答案是会的, 我专门构建了个 POV 场景, 复现概率高达 59%. 那么出现 reasoning_content 为空字符串的时候该怎么办? 经过验证, 答案是必须原样传回去. 即也在 context 中保留这个值为空字符串的字段. 不能是空对象, 也不能丢掉. 那就原样传回去呗? 废什么话呀? 关键是, 现有的各种 terminal coding agent 或者 AI IDE 这并不是默认行为, 它们大部分的默认行为是直接把字段丢掉了, 导致 DeepSeek-V4 API 报错. 所以现在的解决方法是, 要么等 IDE 的官方修复, 要么你用的 IDE 或者 coding agent 是开源的, 自己 fork 一个版本魔改. 另外, 如果你的 Agent 项目要使用 DeepSeek-V4 也要注意这个坑. 避免运行到一半直接报错退出. 以及, 报错重试不太行的, 因为 DeepSeek-V4 在我 POV 这个场景, 59% 的概率都会为空. 如果重试次数为 3, 那偶尔都不够用. 所以还是老实的把问题解决为好. #deepseek #deepseekv4

译用户在使用DeepSeek-V4 API或集成该模型的终端编码代理(如Claude Code、Kimi CLI)和AI IDE(如Cursor)时,频繁遇到HTTP 400报错。错误信息指出,在思考模式下必须将`reasoning_content`字段回传给API。核心问题在于,当任务步骤的`tool_call`过于简单直接时,DeepSeek-V4返回的`reasoning_content`可能为空字符串。许多开发工具默认会过滤掉空值字段,导致该字段未被回传,从而触发API报错,致使编码任务或代理中断。经测试,在特定场景下该字段返回空字符串的概率高达59%。解决方案是必须将空字符串值的字段原样回传,不能省略或改为空对象。目前需等待IDE官方修复或自行修改开源工具,使用DeepSeek-V4的代理项目也需注意此问题。

karminski-牙医@karminski3 · 5月1日64

POV 在这里 https://github.com/karminski/deepseek-reasoning-content-field-issue-pov

译使用DeepSeek-V4 API开启思考模式时,必须在后续请求中回传模型返回的`reasoning_content`字段。当任务过于简单时,该字段可能为空字符串,而许多终端编码代理和AI IDE的默认行为会过滤掉空值字段,导致API返回HTTP 400错误并中断任务。关键解决方案是必须原样回传该字段,即使其值为空字符串,不能丢弃或改为空对象。目前需等待工具官方修复或自行修改开源版本,仅靠重试难以根本解决此问题。

Chubby♨️@kimmonismus · 5月1日53

You can now upgrade existing SDR footage to HDR with LTX-2.3. Because it was trained on MP4 compression artifacts, it actually works on real world compressed video. It outputs scene linear EXR, giving you actual float data for DaVinci Resolve instead of a fragile image that breaks in the grade.

译现在您可以使用LTX-2.3将现有的SDR素材升级至HDR。 因为它基于MP4压缩伪影进行训练,所以能实际应用于真实世界的压缩视频。它输出场景线性EXR格式,为DaVinci Resolve提供真实的浮点数据,而非在调色中容易损坏的脆弱图像。

向阳乔木@vista8 · 5月1日45

终于读完DeepSeek最新论文,一万三千字 AI 解读。 论文中的所有图表都手动截图,累死了。 DeepSeek 这篇论文牛逼,独立思考的光辉在闪耀。 数据清洗也做的细致,把近 10 万数据用各种条件过滤到 3 万。 造训练数据的过程也特别有意思,比如大量迷宫题的设计,哈哈哈!!!

译作者完成DeepSeek最新论文的AI解读,指出论文在独立思考方面表现突出,闪耀创新光辉。数据清洗过程细致严谨,通过多条件过滤将数据规模从近10万缩减至3万条。训练数据构建设计巧妙,例如大量迷宫题等趣味方法,体现了研究团队的创意。整体而言,论文在AI领域具有重要价值,获得高度评价。

向阳乔木@vista8 · 5月1日41

http://x.com/i/article/2049847033758916609 # DeepSeek VL论文(2024年) ,建议搭配最新论文一起看 昨天体验了网页端的DeepSeek的识图模式,速度超级快,质量也还行。 为了了解更多DeepSeek在视觉模型训练的方法,翻出2024年的11月的论文。 让AI解读学习了一遍。 Github地址:https://github.com/deepseek-ai/DeepSeek-VL > 论文查看 https://arxiv.org/pdf/2403.05525 ## 一句话总结 DeepSeek-VL是DeepSeek团队开源的视觉语言模型,有1.3B和7B两个版本。 核心目标只有一个:在真实场景里既能看图又能说话,同时不丢失语言能力。它从数据、架构、训练策略三个维度入手,在同等参数规模下做到了开源模型里的顶尖水平。 ## 这篇论文到底在解决什么问题? 2024年初,开源多模态模型和GPT-4V之间有一道明显的鸿沟。 很多开源模型在学术benchmark(基准测试,就是标准化的评分考试)上跑分还行,但一到真实场景就拉胯。 让它看一张网页截图、读一份PDF、识别街拍里的小字,效果就大打折扣。 DeepSeek团队总结了四个核心原因: 第一,预训练不够充分。 很多模型把大量算力花在了指令微调阶段,但真正的通用能力来自大规模预训练。 这就像一个人只刷题不读书,考试可能还行,解决实际问题就不够用了。 第二,训练数据和真实使用场景脱节。 把一堆学术数据集拼在一起做微调,benchmark分数好看,但用户实际用起来体验很差。 第三,图像分辨率太低。 大部分模型只能处理336×336或448×448像素的图片。 现实世界里的OCR(光学字符识别,就是让AI读懂图片里的文字)、小物体识别,这个分辨率根本不够用。 第四,多模态训练会"吃掉"语言能力。 很多模型在加入视觉训练后,语言能力明显下降。 这是一个很棘手的问题,也是这篇论文花了最多篇幅去解决的事情。 ## 数据构建:从真实场景出发 DeepSeek-VL的数据分两大块:预训练数据和监督微调数据。 ## 预训练数据 覆盖面非常广,按类别拆开来看: 图文交错数据(占13.1%) 就是图片和文字混合出现的内容,比如维基百科文章里图文穿插的格式。 用了MMC4、Wikipedia中英文、Wikihow,以及内部的PDF和电子书。 这类数据能让模型学会在上下文里理解多张图片,也就是所谓的"多模态上下文学习"能力。 图像描述数据(占11.1%) 高质量的图文配对数据集,包括Capsfusion、TaiSu(一个1.66亿规模的中文视觉语言数据集)和Detailed Caption。 表格和图表数据(占2.1%) 来自十多个公开数据集,涵盖各种图表、地理题、科学题、UI截图等,让模型学会理解各种结构化视觉信息。 网页代码数据(占0.4%) 这部分很有意思。团队从GitHub上抓取了146万个Jupyter Notebook,提取了其中的图表和对应的生成代码,最终筛选出110万个高质量的图文代码对。 目标是让模型能从图形界面或可视化图表反推出代码。 文档OCR数据(占2.1%) 当时市面上没有大规模的中英文文档OCR数据集,团队自己造了。 两个来源:一是从140万篇arXiv论文里提取图文对;二是从86万本英文电子书和18万本中文电子书里,用HTML渲染工具生成了配对的图片和文本。 场景文字OCR数据(占1.2%) 识别融入环境的文字,比如街道招牌、商品包装。 用了ArT、MLT-17、LSVT、UberText等十个公开数据集。 纯文本数据(占70%) 这个比例是整个训练策略的核心,后面会详细解释。用的是DeepSeek-LLM的2万亿token文本语料。 ## 监督微调数据 微调数据分四类: 内部数据(占10.5%) 这是最有价值的部分。 团队先从网上收集了GPT-4V和Gemini的真实用户测试案例,然后把这些案例整理成一套完整的分类体系,再根据这套分类体系去选图、写提示词,构建出贴近真实使用场景的微调数据。 通用多模态数据(占35.5%) 包括ShareGPT4V、LAION-GPTV、LVIS-Instruct4V等知名开源数据集。 表格图表和网页代码数据(各占4.1%和2.0%) 从预训练数据集里抽取部分用于微调。 纯文本对话数据(占47.9%) 沿用DeepSeek-LLM的文本对话数据,保住语言能力。 ## 那套分类体系长什么样? 这套分类体系是整个数据构建思路的精华,值得单独说说。 团队把多模态模型的真实使用场景分成六大类: 识别类: 全局描述(场景、风格、食物)、局部描述(位置、人物、Logo、计数)、OCR转录(印刷体、手写体)。 转换类: 图片转代码(UI转代码、图表转代码、公式转代码)、图片转文本(生成提示词、文字摘要、图片创作)。 分析类: 数据图表分析、专业图表分析(电路图、流程图、地图、乐谱、平面图)、专业图像分析(传感器图像、医学图像)、百科知识分析(艺术文化、自然环境、衣食住行)。 常识推理类: 关系推理(人际、空间、大小)、功能推理(硬件、软件)、环境推理(具身智能)、异常推理(缺陷检测、事故判断)。 逻辑推理类: 数学推理(代数、平面几何、立体几何)、其他逻辑推理(物理、化学、生物、代码、智力题)。 评估类: 真实性评估、相似度评估、美学评估。 还有多图理解和安全两个额外类别。 这套分类体系同时用于数据构建和效果评估,保证了训练和测试的一致性。 这是"从真实用户需求倒推数据构建"的典型做法,比单纯堆学术数据集高明得多。 ## 模型架构:三个模块协同工作 整个模型由三个模块组成:混合视觉编码器、视觉语言适配器、语言模型。 ## 混合视觉编码器 这是技术上最有意思的部分之一。 传统的视觉语言模型通常只用一个视觉编码器,比如CLIP系列的SigLIP(一种用图文对比训练出来的视觉编码器)。 但SigLIP有两个问题: 一是存在"CLIP盲点对"现象,视觉上明显不同的两张图片,经过SigLIP编码后可能得到非常相似的表示,导致模型分不清楚。 二是分辨率有限,最高只到512×512,处理不了需要精细识别的任务。 DeepSeek-VL用了双编码器混合方案: SigLIP-L 处理低分辨率(384×384)输入,负责提取高层语义特征,擅长理解图片"讲了什么"。 SAM-B 处理高分辨率(1024×1024)输入,负责提取低层细节特征。 SAM是 Meta 开发的"Segment Anything Model"(万物分割模型),其中的ViTDet图像编码器(一种专门为目标检测优化的视觉Transformer)特别擅长捕捉精细的局部信息,比如小字、边缘、纹理。 两个编码器输出的特征经过适配器处理后,最终融合成576个视觉token(可以理解为576个"视觉词")。 这个数字很关键,它在视觉信息量和计算成本之间找到了平衡点,既能支持多轮对话,又不会让推理成本爆炸。 为了验证这个选择,团队做了对比实验,测试了CLIP、SigLIP、SigLIP+DINO、SigLIP+SAM四种组合的训练损失曲线。 结果显示SigLIP+SAM的组合训练损失下降最快、最低,证明引入视觉自监督编码器确实有效。 ## 视觉语言适配器 这是连接视觉编码器和语言模型的桥梁,用的是两层混合MLP(多层感知机,一种基础的神经网络结构)。 具体做法:先用两个独立的单层MLP分别处理高分辨率和低分辨率特征,然后把两个特征拼接在一起,再通过一层MLP映射到语言模型的输入空间。 为什么要用两个独立的MLP而不是共享一个? 团队做了消融实验,对比了几种适配器设计: - 序列拼接(把视觉特征在序列维度上堆叠):效果一般,而且计算量更大 - 嵌入维度拼接(在特征维度上拼接):效果更好 - 共享MLP:特征融合充分,但对不同编码器的特征分布适应性差 - 独立MLP:能精准适应各自编码器的特征分布,但融合不够 - 混合MLP(先独立处理再拼接):综合了两者优点,效果最好 ## 语言模型 基于DeepSeek-LLM构建,架构上和LLaMA高度相似:用了RMSNorm(一种更高效的归一化方法)、SwiGLU激活函数(一种改进的门控线性单元)、旋转位置编码(RoPE,一种让模型理解token位置关系的方法)。 两个版本的基础: - DeepSeek-VL-1.3B 基于 DeepSeek-LLM-1B(用约5000亿文本token训练) - DeepSeek-VL-7B 基于 DeepSeek-LLM-7B(用约2万亿文本token训练) 值得注意的是,团队选的是DeepSeek预训练模型的中间检查点,而不是最终版本,然后继续做多模态预训练。 ## 训练策略:三阶段 + 模态平衡 训练分三个阶段,每个阶段解决不同的问题。 ## 第一阶段:热身视觉语言适配器 冻住视觉编码器和语言模型,只训练适配器。 数据:125万张来自ShareGPT4V的图文描述对 + 250万个文档OCR渲染对。 这个阶段的目标是在视觉和语言的嵌入空间之间建立初步的概念连接,让语言模型能"认识"视觉特征。 团队做了一个重要实验:把第一阶段的数据量从2K步扩展到80K步,然后直接做微调,看效果有没有提升。 结果是扩大数据量没有任何帮助,性能甚至略有下降。 原因很清楚:适配器(两层MLP)的参数量太少,容量有限,学到一定程度就饱和了。 再多的数据也塞不进去。这也说明了为什么必须有第二阶段。 ## 第二阶段:联合视觉语言预训练 这是最关键的阶段,也是论文最核心的贡献之一。 解冻语言模型和适配器,视觉编码器保持冻结,用大规模图文混合数据继续预训练。 团队发现了一个严峻问题:如果只用多模态数据训练,语言能力会断崖式下降。 上图展示了这个现象。 在1B模型上,用100%多模态数据训练时,MMBench(多模态理解测试)分数缓慢上升,但HellaSwag(语言理解测试)和MMLU(多学科知识测试)分数急剧崩塌。 团队分析了两个原因: 一是多模态数据本身比纯文本数据简单得多,分布差异很大,直接用来训练会"稀释"语言知识。 二是视觉模态和语言模态之间存在竞争关系,学多了视觉就会忘记语言,这是一种"灾难性遗忘"。 解决方案是联合语言多模态训练:在训练时同时混入大量纯文本数据。 实验结果非常清晰: - 混入语言数据后,语言能力下降的问题得到了大幅缓解 - 加入语言数据并不会明显损害多模态性能 - 两种模态的性能都和它们在训练数据中的比例强相关 最终选定的比例是语言70%、多模态30%。 这个比例能让模型在保住语言能力的同时,获得足够的多模态预训练效果。 除了混合比例,团队还提出了两个实用技巧: 模态分组训练 直接把语言数据和多模态数据混在同一个batch里,会有效率问题:纯文本处理很快,但要等多模态数据处理完才能更新参数,造成大量等待。 解决方法是把不同模态的数据分开组batch,每个训练步要么全是语言数据,要么全是多模态数据。 这一招让训练效率提升了20%,而且性能完全不受影响。 模态热身策略 训练初期把语言数据比例设为100%,然后逐渐降到目标比例(70%)。 这样可以避免训练初期语言能力的剧烈波动,让模型更平稳地适应多模态数据的加入。 实验证明,这个策略在训练后期也能带来更好的语言和多模态双端性能。 还有一个容易被忽略的工程细节。 团队在1.3B小模型上做实验迭代,再放大到7B。 但小模型有个问题:在标准benchmark上表现波动极大,很难准确反映改进效果。 原因是小模型虽然"知道"正确答案,但没有足够的指令跟随能力把答案"说出来"。 解决方案是双管齐下: 1. 把评估方式从"让模型生成答案"改成"比较各选项的困惑度(PPL,一种衡量模型对某段文本有多困惑的指标,越低越好)" 1. 同时在预训练阶段混入少量指令微调数据,让小模型也能稳定地跟随指令。这样小模型就能给出稳定的评估信号,大大加快了迭代速度。 ## 第三阶段:监督微调 用前面构建的指令微调数据集,训练模型的对话和指令跟随能力,最终得到DeepSeek-VL-Chat。 这个阶段同时训练语言模型、适配器和SigLIP编码器。 SAM-B因为显存限制保持冻结。只对答案和特殊token计算损失,系统提示和用户输入不参与训练。 三个阶段缺一不可:只有第一阶段+第三阶段,平均分57.4;加上第二阶段后提升到62.4。 第一阶段虽然提升有限,但也有意义,去掉它性能会略微下降。 ## 训练基础设施 使用了DeepSeek自研的HAI-LLM分布式训练框架。 DeepSeek-VL-7B用了64个节点(每个节点8块英伟达A100 GPU),训练了5天。 DeepSeek-VL-1.3B用了16个节点,训练了7天。 ## 效果评测:数字说话 ## 多模态benchmark ## 7B模型在开源模型里表现最好: - SeedBench(综合多模态理解):70.4,接近GPT-4V的71.6 - MMBench(多模态综合测试):73.2,超过所有同级开源模型 - OCRBench(OCR专项测试):456分,远超同级模型(LLaVA-1.5 13B只有331分) - POPE(幻觉测试,测模型会不会"看到"不存在的东西):88.1,同级最高 - MathVista(数学视觉推理):36.1,超过所有同级开源模型,但和GPT-4V(47.8)还有差距 - CMMMU(中文多学科多模态理解):37.9,明显优于其他开源模型 1.3B小模型更令人印象深刻:用一半不到的参数(1.3B vs 2.7B),在MMBench上超过了MobileVLM V2 2.7B(64.6 vs 63.2)。 MathVista上甚至达到31.1,和部分7B模型相当。 ## 语言benchmark 这是DeepSeek-VL最值得骄傲的地方之一。 - HellaSwag:68.4(DeepSeek-LLM-7B是68.5),几乎持平 - MMLU:52.4(DeepSeek-LLM-7B是49.4),多模态训练后反而提升了 - AGIEval:27.8(DeepSeek-LLM-7B是19.3),同样提升 - GSM8K(数学):55.0(DeepSeek-LLM-7B是63.0),有所下降 数学能力的下降说明视觉和语言模态之间的竞争关系仍然存在,7B的模型容量在这里成了瓶颈。 团队认为更大的模型可以缓解这个问题。 ## 人工评测 团队构建了100道题,覆盖七个类别,和InternLM-XComposer2-VL、CogVLM-17B、GPT-4V做对比。 结论:DeepSeek-VL-7B在识别、转换、常识推理三个维度接近GPT-4V,整体表现优于其他开源模型。 逻辑推理是所有开源模型的共同短板,和GPT-4V差距最大。 还做了GPT-4V裁判评测:把DeepSeek-VL和其他模型的回答都给GPT-4V看,让它判断哪个更好。 结果DeepSeek-VL在超过60%的情况下被GPT-4V判定为更好,甚至在和GPT-4V自身对比时也获得了相当不错的评价。 真实场景能力展示 论文里展示了大量真实案例,值得逐一看看: 处理逻辑图、网页、公式识别、科学文献、自然图像、具身智能场景的综合展示 识别图片中的细小物体(骑车人在女士手提包的左侧),并给出有条理的解释 理解Python代码截图并逐步解释算法逻辑 看懂儿童编程Scratch流程图并转换成Python代码(对比的开源模型1直接说"我无法处理图片") 1. 分析训练损失曲线图表,找出代码中的bug 识别泰国10泰铢硬币;根据图片创作七言绝句;识别米哈游游戏角色 把真实表格图片转换成Markdown格式 ## 为什么这篇论文重要? 它揭示并量化了一个关键矛盾:多模态能力和语言能力之间存在竞争关系。 70%语言数据这个比例,加上模态热身策略和分组训练,提供了一套可复制的解决方案。 它证明了"从真实场景出发"构建数据的重要性。 用分类体系指导数据收集,比随意拼凑学术数据集有效得多。 混合视觉编码器的思路很实用。 用两个互补的编码器分别处理语义和细节,比单纯堆高分辨率更高效,576个token的压缩方案在信息量和计算成本之间找到了合理平衡。 小模型迭代方法论有很强的工程参考价值。 困惑度评估 + 少量指令数据混入,让1.3B模型也能给出稳定的实验信号,大幅降低了迭代成本。 当然,局限也很清楚。 7B的模型容量限制了数学推理等复杂任务的表现。 论文结尾提到了后续会引入MoE(Mixture of Experts,混合专家模型)技术,这也是后来DeepSeek-VL2的方向。

译DeepSeek-VL旨在解决开源视觉模型在真实场景中应用效果不佳的问题。其核心方案是系统性地从数据、架构与训练三方面进行设计:数据构建强调从真实用户需求出发,并包含70%的纯文本以保留语言能力;模型架构创新性地采用SigLIP与SAM-B混合视觉编码器,兼顾高层语义与低层细节;训练策略则通过三阶段渐进式训练与模态平衡技术,有效缓解了视觉训练对语言能力的侵蚀,最终在同等规模下达到开源模型的顶尖水平。

OpenAI Developers@OpenAIDevs · 5月1日38

Students are learning to build with Codex, and building to learn. Here’s what @UCBerkeley students built at the Codex Creator Challenge with @joinHandshake.

译学生们正在学习使用Codex进行构建,并通过构建来学习。 以下是@UCBerkeley的学生在@joinHandshake举办的Codex Creator Challenge中构建的作品。

Berryxia.AI@berryxia · 4月30日61

兄弟们!这个效果空间的理解还是被GPT所震撼😧! 五一期间,看看每天高点文生图的提示词!今天第一天! 今天看到乔帮主聊到游戏,我也想到当年在iOS 中的最佳年度游戏的纪念碑谷游戏。 晚上终于有时间来一点点试试GPT2能不能做出来一些类似的场景图,结果试了一发就行成了。 可以传递这种静谧,又有些孤独的寂静之美。 如果你想试试,我把提示词放到评论区了。 如果你喜欢记得一键三连!!!

译用户惊叹于GPT在效果空间理解方面的强大能力,尝试使用其文生图功能复现经典游戏《纪念碑谷》的风格场景,仅一次尝试便成功生成兼具静谧感与孤独美的图像。推文强调GPT能够准确捕捉并传递特定的美学氛围,同时作者已将生成所用的提示词公开分享供他人尝试。

Runway@runwayml · 4月30日28

You don't need to shut down the streets to bring a big idea to life. Just great storytelling. From idea to execution, this short concept was made by a single creative in just one day with Runway. Try it yourself at the link below. #MadeWithRunway

译实现宏大创意无需封锁街道。只需精彩的叙事。从构想到执行,这个短片概念由一位创作者仅用一天时间通过Runway完成。点击下方链接亲自尝试。#MadeWithRunway

Greg Brockman@gdb · 4月30日56

chronicle gives codex passive memory over what you’ve been doing with your computer, which unlocks surprising use cases

译Chronicle 赋予 Codex 对你电脑使用行为的被动记忆,这解锁了令人惊喜的用例 [引用 @ajambrosino]:它仍处于实验阶段,所以我们稍作隐藏,但在 Codex 应用中,不妨试试: > 根据 Chronicle 的记录,我一直在电脑上低效地做着什么?给出一些建议。直接点。告诉我需要听的内容。

ginobefun@hongming731 · 4月30日51

当传统的 CTR 模型在流量天花板前陷入瓶颈,京东广告团队公开了 GRAM 架构:放弃修补传统的特征工程,全面转向大模型原生的知识工程。 三大核心价值: - 构建「事实护栏」治愈幻觉: 摒弃大模型不可控的自由发挥。通过构建 5ms 内极速查询的级联知识图谱,将商品属性、业务规则和通识硬性注入,确保 AI 推荐 100% 契合物理现实与商业规则。 - 彻底颠覆「冷启动」路径: 告别对用户历史点击数据的深度依赖。新商品哪怕是零销量,系统也能通过知识网络的高维映射(如光源、材质、价格段等特征关联),瞬间完成语义对齐与精准分发。 - 从曝光计算走向「深度决策」: 传统特征的高频更新往往会干扰大模型。将企业长年积淀的内隐知识结构化并作为背景上下文输入,能让大模型真正化身资深专家,处理极其复杂的跨品类消费决策。

译京东广告团队推出GRAM架构,旨在通过大模型原生知识工程解决传统CTR模型的瓶颈。该架构构建了毫秒级查询的级联知识图谱,将商品属性与业务规则作为“事实护栏”注入,以杜绝AI幻觉,确保推荐符合现实。它颠覆了依赖历史数据的冷启动模式,即使零销量新品也能通过知识网络的高维特征关联实现精准分发。同时,GRAM将企业内隐知识结构化作为上下文,使大模型能进行复杂的深度决策,而非仅计算曝光。

Berryxia.AI@berryxia · 4月30日63

姚老师又开始分享干货了,全开源!

译姚老师于GitHub开源一款AI教程生成工具。用户只需输入主题并提供参考资料,该工具即可以资料为核心,自动补充高质量素材并过滤低质信息,生成系统性的定制教程。教程支持PDF、Word和HTML格式输出,内容按章节组织,并能根据章节特点自动生成并插入图表。其设计融入了《课程营销学》的底层逻辑,排版借鉴了kami风格,确保了质感与规范。文末附有基于实际文章的生成示例。

歸藏(guizang.ai)@op7418 · 4月30日46

太猛了,Codex 做类《杀戮尖塔》游戏完整关卡演示! 现在非常细了,除了没有声音以外,其他的都相当完美了! 主要的场景和角色素材是 GPT-Image 生成的,其他的素材是他自己找的。

译Codex展示了其强大的游戏开发能力,仅根据“制作类似《杀戮尖塔》的中国风格游戏”的简单指令,便自主完成了从代码编写到素材整合的完整可玩关卡。主要场景和角色素材由GPT-Image生成,其余素材由Codex自行寻找。最终成果是一个除声音外相当完善的游戏演示,凸显了AI在理解复杂指令并执行完整项目上的巨大潜力。

meng shao@shao__meng · 4月30日62

OpenAI 把 Responses API 提速 40%:为什么 Agent 时代,API 本身成了瓶颈? OpenAI 最新发布了一篇工程博客,讲了一件容易被忽视的事:当模型推理越来越快,API 框架本身反而成了 Agent 工作流的最大瓶颈。他们的解法是给 Responses API 加上 WebSocket 模式,端到端提速 40%,并让 GPT‑5.3‑Codex‑Spark 真正跑出 1000 TPS、峰值 4000 TPS 的体验。 https://openai.com/index/speeding-up-agentic-workflows-with-websockets/ 问题是怎么浮现的 一次 Codex 修 Bug,背后是几十次 Responses API 的来回:决定下一步动作 → 在用户机器上执行工具 → 把结果回传 → 再次推理。整个 Agent loop 的耗时主要分三段:API 服务处理、模型推理、客户端工具执行。 过去 GPU 推理慢,API 的开销被自然掩盖。但 GPT‑5/5.2 时代约 65 TPS,新一代 Codex‑Spark 借助 Cerebras 专用硬件目标是 1000+ TPS,推理快了一个数量级,API 那点"固定成本"就被无情放大。用户在等的,不再是 GPU,而是跑在 CPU 上的 API 框架本身。 第一轮优化:挤掉单次请求的水分 25.11 起,他们做了几件常规但关键的事: · 把已渲染的 token、模型配置缓存在内存,跳过多轮对话里重复的 tokenization 和网络调用 · 砍掉中间服务的网络跳数 (如图像处理),直接调推理服务 优化安全栈,让分类器更快标记问题对话 结果:首 token 时间 (TTFT) 改善了约 45%。但对 Codex‑Spark 来说,还是不够。 真正的结构性问题 每次 Codex 请求都被当作独立请求处理,即使对话大部分没变,服务端仍然要把完整历史重跑一遍验证、处理和上下文构建。对话越长,这种重复成本越贵——这是协议层面的浪费,不是某个组件能调优解决的。 WebSocket:把 Agent rollout 当作一次"长 Response" 他们重新思考传输层:能不能保持长连接、把可复用状态缓存在内存里,只传增量?在 WebSockets 和 gRPC 双向流之间,选了 WebSockets——简单、对开发者友好、不需要改动现有的 Responses API 输入输出结构。 第一版原型很激进:把整个 Agent rollout 建模成一个长时间运行的 Response。 工作方式类比 hosted tool call:模型调 web search 时,推理循环会阻塞、等服务返回、再继续 sample。WebSocket 模式下,本地工具调用走的是同一套机制——只是"远程服务"换成了通过 WebSocket 连接的客户端。模型发出 response.done,客户端执行工具后回 response.append, sampling loop 解除阻塞继续推理。 效果立竿见影:整个 rollout 只做一次预处理、一次后处理,中间的工具往返不再重复消耗 API 框架开销。 最后的取舍:激进设计 vs 开发者熟悉的形状 原型虽好,但 API 形态变了,开发者要重写集成。正式版做了折中:保留 response.create 原有 body,继续用 previous_response_id 串上下文,但底层在 WebSocket 连接生命周期内维护一份连接级内存缓存,包括: · 上一个 response 对象 · 历史输入输出 items · 工具定义和命名空间 · 已渲染 token 等可复用 sampling 产物 带来的具体优化: · 安全分类器和请求校验只处理新增输入,不再扫全历史 · 已渲染 token 增量追加,跳过重复 tokenization · 模型路由结果跨请求复用 · 计费等非阻塞后处理与下一个请求重叠执行 最终结果 · Codex 大部分流量已切到 WebSocket 模式 · Codex‑Spark 稳定 1000 TPS、峰值 4000 TPS · Vercel AI SDK 集成后延迟下降最多 40% · Cline 多文件工作流提速 39% · Cursor 上的 OpenAI 模型快了最多 30%

译OpenAI 最新工程博客指出,随着 GPT-5/5.2 及 Codex-Spark 等模型推理速度大幅提升(目标超1000 TPS),传统请求-响应 API 框架的固定开销成为 Agent 工作流的主要瓶颈。为此,OpenAI 为 Responses API 引入了 WebSocket 模式,通过保持长连接、在内存中缓存对话状态和已渲染 token,实现了跨工具调用的状态复用,避免了每次交互都重复预处理完整历史。此举使端到端延迟降低最多 40%,让 Codex-Spark 能稳定实现 1000 TPS 并峰值达 4000 TPS,显著提升了 Vercel AI SDK、Cline 和 Cursor 等集成的体验。

向阳乔木@vista8 · 4月30日69

姚老师又开始掏箱底了,哈哈哈。

译姚老师开源了一个名为“教程Skill”的AI工具。该工具允许用户输入任意主题和参考资料,AI会以参考资料为核心,自动补充高质量素材并过滤低质量信源,最终生成系统性的深度定制教程。教程内容按章节组织,AI能根据内容特点自行画图并插入相应模块。工具融合了《课程营销学》的底层方法论,并借鉴了kami的排版设计,最终可输出PDF、Word和HTML三种格式的文档,方便学习使用。项目已发布在GitHub上。

Berryxia.AI@berryxia · 4月30日48

说话间,你看,我盯住的这个关注的这个标的)只要有了更新,它就会直接给我推送过来。 像什么“招标助手”之类的工具其实卖得挺贵的,还不如自己搞一个。这种方式自定义程度更强,也很方便。 文章中已经给大家出了免费的教程,大家直接可以免费注册、免费去用,现在都是免费的。

译作者推荐一种自定义工具,用于监控关注标的(如招标信息)的更新并自动推送通知。相比商业工具“招标助手”的高昂价格,自制工具更具自定义性和便利性,且完全免费。基于引用推文中@berryxia提供的文章,该工具附有详细教程,用户可免费注册和使用,实现高效信息追踪。

阿绎 AYi@AYi_AInotes · 4月30日53

做内容运营和生图生视频的可以看下锤哥推荐的这个,整体工作流很流畅,晚点我注册玩一下

译内容运营和生图生视频通常依赖多个工具,但GPT Image 2的出现使旧工作流过时。作者尝试使用flowith,发现它能将提示词直接转化为完整输出:生成多个瑜伽动作分镜,并整合分镜图与人物图生成图片,再通过可灵模型制作视频,全部在一个工具内完成。Agent模式支持联网,能自动生成日期准确的海报日历。flowith作为一站式生图agent,简化了工作流,提高了效率。

宝玉@dotey · 4月30日64

原推这个提示词风格很好看👍 ---- 一张极简风格插画,画面主体是【主体/物体】。使用干净纤细的线条描绘轮廓与结构,整体以黑白或低饱和色为主,只在局部加入少量鲜明色彩作为视觉重点。画面有大量留白,构图精致克制,现代杂志编辑插画风格,优雅、简洁、高级。不要复杂背景,不要写实摄影,不要厚重阴影,不要过多装饰。 ---- 主体/物体:一只安静坐着的猫

译该推文赞赏一个用于生成极简风格插画的提示词。其核心要求是:用干净纤细的线条描绘主体,整体采用黑白或低饱和色调,仅在局部添加鲜明色彩作为焦点。画面强调大量留白与精致构图,追求现代杂志编辑般的简洁、优雅高级感,并避免复杂背景或写实元素。推文引用的“Minimal Line + Color Accent Illustrations”模板也体现了同样的极简美学。

Berryxia.AI@berryxia · 4月30日49

http://x.com/i/article/2049497253421940736 # AI时代最大的笑话:我居然还在用邮箱疯狂搞钱!别卷Prompt了,会发邮件就能让AI帮你干活! > 我从去年 11 月就开始养龙虾,自己摸索了半年。今年国内龙虾火了之后,我反而冷静下来——开始琢磨怎么把它真正接入工作和团队。 最近这半年,「养龙虾」这事儿在朋友圈和 X 上挺火的。 我也是其中一员。从去年 11 月份开始养,那时候国内还没什么人玩,全靠自己摸索。摸了半年到现在,国内龙虾真正火起来之后,我反而开始注意到一个挺奇怪的现象—— 大家养着养着就停了。 新鲜劲过去之后,那只龙虾就在那里待命中,朋友圈晒过几张截图,公众号写过几篇 demo,然后呢?然后就没有然后了。它没真正进到任何人的日常工作或生活流程里。 我也走过这个坑。直到今年开春想清楚一件事—— 我不只自己用,我能不能让我同事也“吃上”我养的这只龙虾? 这篇是我的答案。 我尽量讲得朴素一点,最小的成本、最低的学习门槛——这样你看完,如果你身边也有不太会折腾的同事,能直接照着搭起来。 ## 我们这边的真实情况 我做 TOB 教育业务。平时业务节奏很常规:谈业务、找客户、出方案、谈合同、交付。 投标是中间一环,不是大头——学校采购、教育比赛、各种乱七八糟的项目挺多,加在一起占用的零碎时间不少,但属于那种「不做不行,做了又烦」的活。 这次养龙虾这件事,参与的就两个人——我和我们公司的商务助理 TIFA。我主要跟进设计,TIFA 帮我做后端的对接和测试。我们日常公司里其他同事都还在按老方式干活,没人逼着改。 我决定先挑一个网站做测试实验,跑通了再考虑接入更广的工作流。 我挑了港科大广州的招投标公告——https://puro.hkust-gz.edu.cn/bid/index上面有新公告、投标截止时间、中标公示,结构清晰,是个典型的「靠人刷」场景。 把它跑通,再说扩展。 教育行业的标的极其分散——高校竞价网、竞价星、云彩通、各地政府采购、几十所重点学校自己的采购处页面。做过这个业务的人应该是懂的都懂,一个城市跑下来要刷十几个网站。我们之前给 同事 TIFA 配过豆包,让她每天看到公告就丢进去做摘要,但最累那一步「先得把公告找到」,豆包 帮不上忙。 那段时间我手机里和她的飞书消息长这样👇🏻 > TIFA 08:42 老板,今天广州那边智慧教室的标有没有看到? > TIFA 09:15 竞价星又打不开了…… > TIFA 09:48 港科大今天发了 3 条新公告,我整理一下发你 > TIFA 10:33 那个深圳的标我刚发现已经截止了,赶不上了 > TIFA 14:20 南沙的我在客户路上没法刷,你能帮我看一眼吗? > 说明:该图为AI生成示例图(工作原因没办法直接截图) 讲真,AI 进来了,但人还是脱不开身——没真做到自动化。 直到 4 月初,我换了一个组合。 ClawEmail + XCrawl——前者给龙虾一个真实可收发的邮箱身份,后者让龙虾能看任何公开网页。两个东西加上龙虾这个载体,整个工作流就跑起来了。 跑了一个月之后我突然意识到一件事—— 邮件这个被宣告死了 10 年的东西,正在变成 AI 时代最稳定的工作流入口。 过去几年所有 AI 工具都在比谁的对话框更聪明、谁的模型更强、谁的 token 更便宜。但真正决定一个 AI 工具能不能用起来的,从来不是它有多聪明,是它能不能进入你已经在用的工具流。 而我们已经用了 50 多年的、最不可替代的工具流,叫邮件。 ## 第一步,去 ClawEmail 给龙虾注册一个 Agent 邮箱 ClawEmail 的官网注册地址是:https://claw.163.com/?channel=Berryxia.AI 舔着 B 脸要的邀请码,不然要排队很久,仅仅适用于前200名。手慢无。 记得输入邀请码:CLAWBECF889BE773 进去你会看到一行很大的 slogan——「邮件是调用 Agent 最简单的方式」。下面那句更直白:「给每个 Agent 一个专属邮箱,任何人发邮件就能用,不需要注册、不需要 VPN、不需要 API 对接」。 第一次看到这句话我没在意。跑了一个月之后我意识到这就是这个产品的全部。 这里需要先讲清楚网易的 ClawEmail 和传统邮箱最大的不同—— 普通邮箱(Gmail / Outlook)只能干一件事:把邮件存进收件箱,等你打开来读。 而网易的 ClawEmail 邮箱打破了传统邮箱的设计,直接专为 Agent 设计。它的官方文档里有句话写得特别准: > 「不是又一个 AI 工具。是一个可编程的邮件处理引擎。」 什么意思?官方把它的能力拆成 5 项技能 简单讲——传统邮箱是给人用的,ClawEmail 是给程序用的。一个负责把邮件「摆在你眼前」,一个负责把邮件「变成程序能调用的接口」。 这就是为什么需要给龙虾单独配一个 @claw.163.com 邮箱——它不是个普通邮箱,它是一个能让 AI 真正参与工作流的接口层。 但要注意——这些读写能力不是开箱即用的。每装一个 Skill,它就多一项本事。下面这套就是我装了 3 个 Skill 之后跑起来的。 目前 ClawEmail 还在内测期,先点首页那个橙色「立即报名参与内测」按钮,提交资料拿邀请码 CLAWBECF889BE773 (我等了 4 天)。激活之后,三步配置一个 Agent 邮箱: 1. 创建邮箱:在 Dashboard 点「+ 新增 Agent」,给它起个名字,系统自动生成 @claw.163.com 后缀的真实地址。 1. 绑定到龙虾:需要点击添加邮箱后,可以看到更多点击配置邮箱,选择为 OpenClaw 安装。 1. 复制官方那行命令,丢到龙虾对话窗里说「装一下这个 Skill」。 1. 测试收发:拿任何邮箱给它发一封,看它能不能读懂能不能回。 我的实操。在龙虾对话窗里直接说「帮我装一下 ClawEmail + 安装指令即可」,然后把命令丢给它,注意这里每个人的Key不同,不要复制我的这个key哈: 它接过去自己装。装好告诉我「装完了,准备给我配邮箱吗」。 我申请的这个邮箱后缀@claw.163.com 的真实可收发的邮箱。 我的私人主邮箱是 andyhu#m e.com,跟它物理隔离——任何邮件混乱、隐私泄露的风险都不会传到我的主邮箱上。 因为大家叫我 Berryxia,我这里给我的龙虾起了个名字就叫小 B(后文全部使用它),方便大家可以记住他。 ClawEmail 还给小 B 配了两种处理模式——Email Channel(邮件即指令,AI 读上下文回复)和 CLI 工具(邮件即数据,按规则批量处理)。日报巡检走 CLI,临时查询走 Channel,混着用。 我们没干别的事儿就是每天查看邮件就可以完成这个工作流中的一个工作。 ## 第二步,给小 B 装一双能看公开网页的眼睛 XCrawl 是个网页智能抓取的 MCP 服务,小 B 装上之后就能看任何公开网页。之前给朋友们已经推荐安利过,是一款爬取文章内容都是很不错的工具,强烈安利给大家。 注册地址:https://xcrawl.com/?keyword=h4csylkj 注册之后会给一个控制台,里面有 API Key 和算分(赠送 1000 积分初始额度,够跑一阵)。它有 5 个原子能力—— - Scrape:抓单页。一次请求拿到 Markdown / JSON / HTML / 截图 / 摘要 / 链接列表。支持动态 JS 渲染、国家代理、仅主要内容过滤。 - Crawl:批量抓整站。智能递归,支持翻页和无限滚动,可设置深度(最大 3 级)、页面上限(最多 100 页)。 - Map:站点 URL 发现。先扫域名给出全部可发现 URL(最多 10 万条),可以正则过滤——比如我做标书雷达就用了 /bid/.* 只抓招标频道。 - Search:跨引擎搜索。Google / Bing 等。 - SERP:深度抓搜索结果页。除了 10 条结果,还含 People Also Ask、知识图谱、相关搜索、富结果。 但真正让我觉得这玩意儿是「为大模型设计」的,是它两个底层能力—— 输出 Markdown 直接喂大模型。它的 Markdown 已经做了清洗——去广告、去导航、去 cookie 弹窗,只留正文和结构化元素。不用我再写正则过滤。 自定义结构化提取。我可以告诉它「抓这个页面,提取项目名、预算、截止时间、资质要求」,它会按 schema 自动整理成 JSON。这一步省下来的脏活,可能是它最大的价值——以前自己写爬虫光「把页面文本变成结构化字段」就能写半天。 至于稳定性——住宅 IP 轮换、浏览器指纹伪装、JS 渲染重试,这些防封策略默认开。我跑了一个多月没卡死过。 把官方命令丢给小 B 或者丢安装文档就行: 安装文档:https://docs.xcrawl.com/doc/introduction/#welcome-to-xcrawl ## 第三步,让小 B 学会玩转飞书 因为自打过完年后,公司从企业微信转飞书平台,恰逢小龙虾起飞,飞书也将作为第二个基建的工具,必须给我的让小 B 装一个能玩转飞书的 Skill: 这一步很关键,因为我和 TIFA 平时所有工作都在飞书里。如果让小 B 把数据沉淀到一个我们不打开的地方,那等于没沉淀。 让它直接写飞书,意味着 TIFA 随时打开飞书就能看到所有标书的最新状态,不需要打开龙虾,不需要装新工具。 我让小 B 建了一张「港科大广州投标追踪表」,方便查看中标情况和毛利等信息 这张表是小 B 知道「我们投过哪些标」的来源,也是它每天更新中标结果的目的地。 ## 第四步,下任务(也是最后一步) 打开龙虾对话窗,我直接说—— > 每天中午有新标的推送邮件到 andyhuo@me.com 中将 https://puro.hkust-gz.edu.cn/bid/index的关于苹果、Mac、imac 服务器、工作站相关的项目推送给我并发送邮件,以及对应的中标信息,以及截止投标日期等提供链接 https://puro.hkust-gz.edu.cn/bid/work-list?columnId=7&location=2 可以参考,使用 xcrawl 进行提取。 注意我没强调几点钟干什么——它会自己排定时任务。第二天中午第一封早报就到了。 我和 TIFA 都把 ClawEmail 在手机上接进了飞书工作台,所以不管在地铁里、客户路上、家里沙发上,邮件来了第一时间能看到。 邮件的主要信息包含了,正在进行标的以及报名截止时间。已经成交的标的等,都是直接在邮件中可以查看,当然你的约束条件越多,给到的结果就会越精准。 你可以根据自己的需求进行调整变量。 我在地铁上花了几分钟读完,转给 TIFA「截止那条今天对一下应标材料;中标那条记录到复盘文档」。 但真正改变我们工作方式的,是那天下午。 3 点多,TIFA 在外面见客户,飞书发我:「我们之前投的『Mac 电脑科研教学用电脑』那个项目中标公示出了吗?」 我没在电脑前。打开手机邮件新建一封——收件人 berryxia@claw.163.com,主题「麦克电脑那个项目中标公示出了吗」,正文空。 3 分钟后 TIFA 和我都收到一封回信: > 来自 berryxia@claw.163.com已通过 xcrawl_search 查询 puro.hkust-gz.edu.cn/bid/index 的中标公示频道。「麦克电脑科研教学用电脑」项目中标公示已于今日 11:30 发布。中标方:我方公司 ✅。已自动更新「港科大广州投标追踪表」中该项目状态为 我们中标。详细公示文件附 PDF。小 我盯着这封邮件看了一会儿。 > 我们都是用最熟悉的方式参与的——发邮件。TIFA 不需要装任何工具,我也不需要远程操作她的电脑。我们各自给一个邮箱发了消息,各自收到了答复,飞书表格在我们都没看的时候已经被自动更新了。 港科大这一个网站跑通之后,下一步我准备把高校竞价网、竞价星、云彩通这几个也按同样的模板加进来——同一套工作流,加个监控站点的成本几乎是零。 ## 邮件这件事正在被重新定义 ClawEmail 官网那句被埋得很深的话,我后来才反应过来。 > 「对于不会养龙虾的人来说,他想用 Agent 帮自己完成工作,可以通过邮件去调用别人的 Agent。」 世界上会有一群养虾人,养着各种擅长不同事情的龙虾——做财务的、做法律的、做调研的。它们都有 @claw.163.com 后缀的地址。 你想让法律龙虾帮你看个合同?发邮件给它。你想让财务龙虾帮你处理一批发票?发邮件给它。 你不需要装 App、不需要注册账号、不需要学 prompt——你只需要会发邮件。 不过我又琢磨了一下,邮箱只是开始。 小 B 现在有了邮箱身份,能收能发能被任何人调用。但邮箱只是它的第一张身份证。下一张应该是 ID——统一标识符,让别的 Agent 知道「这只虾来自哪个组织、可信级别多少」。 再下一个可能是 钱包——让它能付款、收款、在干活过程中自己结清第三方 API 的费用。再往后可能是 声音(拨打电话)、地址(收快递)。 一只 Agent 完整身份系统正在长出来。 > 但邮箱这一步意义最大——因为它是整套身份系统里唯一反向兼容人类的接口。我会发邮件,我老板会发邮件,我妈也会发邮件。我们不需要为了用 AI 学一套新协议——AI 反过来学了一套我们已经用了 50 多年的旧协议。 如果你也想试试,几件事得讲清楚。 > 而 XCrawl 严格只爬公开数据,不碰需要登录的、不碰个人隐私、不碰付费内容。也不要碰 robots.txt 明确写着「禁止抓取」的站点。工具中性,但用法有边界。 > ClawEmail 还在内测期,要去 我给你的专属邀请码,不然就排队等官方审批,之前我都等了好几天。不要去外面找乱七八糟的——网易这套真做了反诈和邮件域名信誉机制,只有官方版的 @claw.163.com 邮箱才能保证不进对方的垃圾箱。 我刚开始踩过一个浅坑,用了一个野路子方案发邮件,全进了客户的垃圾邮件,事后才搞明白是域名信誉的问题。这事儿就是 ClawEmail 这种官方方案存在的意义——它解决的不只是「能发邮件」,而是「发的邮件别人能收到」。 最后插一嘴,最近还有个朋友让我帮她查个医生,于是乎我想到的还是这种组合,龙虾帮忙调用的工具然后去解决对应的问题, 最终使用用户喜欢和满意的结果进行交付。因为设计神秘,就不放对应交付物。 直接给对方做了一套完整的PPT,直接可以邮件让龙虾发送就行了。 事情是这样的,她想选择一个适合的医生,想看主治医师的口碑,但是一直找不到客观且真实的评价,。 我想了下让小 B 去小红书进行抓取对应的评论和这个医生的相关信息,XCrawl 的 xcrawl_search + xcrawl_scrape 把医生散在 小红书各个帖子和评论中的信息都拉了下来。 最后按我给的「基本信息、擅长方向、患者评价数」这几个字段做了结构化提取,第二天她邮箱里一份报告+PPT,连「主任号挂号费 50 元」「累计帮助 125 位患者」「8 条公开评价」这种细节都拢成了一张表。 她看完跟我说:「这个医生靠谱,不错。」又便宜,口碑又好。 ## 最后,关于那个“笑话” 文章开头我说:AI 时代最大的笑话,是我居然还在用邮箱疯狂搞钱。 但跑了一个多月之后我发现,真正的笑话其实是。 所有人都在卷 Prompt、卷模型、卷工具,却没人意识到,最低门槛、最稳定、最容易接入团队的 AI 入口,是一个50年前就存在的东西:邮箱。 你不需要让你的同事学 Prompt。 你不需要让你的老板装新 App。 你甚至不需要让你妈理解什么是 AI。 你只需要告诉他们:给这个邮箱发消息,它会帮你干活。 这就是为什么我说邮箱正在复活——不是以“通信工具”的身份,而是以“AI 同事的身份证”的身份。 下次有人跟你说「再不学 AI 就要被淘汰了」,你可以淡定一点。 因为最值钱的 AI 工具,正在悄悄变成一种你早就会用的东西。 而你,已经会了20年。 如果你也养着一只龙虾,但还没让它进入到任何工作流—— 可以从注册一个 @claw.163.com 邮箱开始。 不是为了赶时髦,是为了让 AI 真正帮你搞钱。 邀请码:CLAWBECF889BE773(仅限前200名,手慢无) 注册地址:https://claw.163.com/?channel=Berryxia.AI P. S. 如果你看完这篇文章后成功跑通了自己的 AI 工作流,欢迎在评论区告诉我——你的“小 B”在帮你干什么活。 我很好奇,除了盯标书,邮箱+AI 还能解决哪些被忽视的重复劳动。

译作者分享了一个将AI代理(“龙虾”)融入实际工作流的案例。核心在于利用ClawEmail为AI代理提供一个可编程的邮箱接口,使其能通过邮件接收和处理指令。结合XCrawl(网页抓取工具)获取公开的招投标公告信息,并整合飞书进行结果同步。这一组合解决了教育行业投标信息分散、需人工频繁刷网站的问题,实现了从信息发现到整理分发的自动化。关键在于,AI工具的价值不在于其模型本身多强大,而在于能否无缝嵌入现有、稳定的工作流(如邮件),从而真正提升效率。

Berryxia.AI@berryxia · 4月30日56

兄弟们!AI时代最大的笑话:我居然还在用邮箱疯狂搞钱!有了它我直接退订了我的企查查的年度会员! 养龙虾半年后,我终于让它真正进到我们真实的工作流了! 我用 ClawEmail + XCrawl + 小龙虾 给公司商务助理搭了一个自动投标监控系统。 现在每天中午,小 B 会自动: 1️⃣ 抓取热门招标网站新公告 2️⃣ 筛选苹果/Mac/服务器相关项目 3️⃣ 结构化提取截止时间、中标信息 4️⃣ 直接发邮件给同事+ 自动更新飞书表格 全程零配置、会发邮件就行了,再也不用手动刷几十个网站了! 邮箱正在变成 AI 时代最稳的工作流入口——你不需要让同事学 Prompt,只需要让他们发邮件就行。

译作者结合ClawEmail、XCrawl等工具,为公司商务助理开发了一套自动投标监控系统。该系统能自动抓取招标公告,筛选出苹果、Mac或服务器相关项目,并结构化提取关键信息,随后自动通知同事并更新飞书表格。全程零配置,仅需会发邮件即可驱动,体现了邮箱作为AI时代低门槛、高效工作流入口的价值。

meng shao@shao__meng · 4月30日56

Anthropic 增长营销团队成员 @helloitsaustin 谈: 如何在增长营销工作中深度整合 Claude,五个实际使用场景经验和方法论可借鉴!(不局限于 Claude,可以把方法论平移到你最常用的 Agents) 你是不是也只是让 AI 来做文案润色?这也是大多数增长营销者的现状!而真正的高杠杆用法在于将 AI 嵌入整个工作流中,提升决策质量、自动化重复劳动,并降低跨团队协作成本。 # 五个实际使用场景 1. Chat as a thinking partner Austin 在开始撰写报告或简报前,先用 Claude “talk through the shape of it”(梳理框架)。例如,讨论“哪些指标对目标受众真正重要?如何分段?高管需要什么 vs. 我想展示什么?” 关键技巧:让 Claude 主动向你提出澄清问题,从而暴露隐藏假设,避免后期返工。 这体现了“先思考、再执行”的原则。传统工作中,人们常花1小时写出无用文档;这里,AI 帮助在概念阶段就对齐方向,显著提升效率和输出质量。比如作者举例的 SEO 报告直观展示了对话式引导过程。 2. Cowork for scheduled reporting 文件上传(GSC exports、dashboard data、content list等)和自动生成周报的流程。 Austin 过去每天早上手动拉数据、写总结;现在通过 Cowork 设置定时任务,AI 读取原始数据、起草报告、标记异常,只需几分钟收尾。 这直接解决了增长营销中耗时最多的“数据聚合与叙事”环节。MCP 允许连接常用数据源,实现从 “raw data → executive summary” 的自动化。配图中的周报样例(有机搜索流量增长、关键词表现等)展示了专业输出水平。 3. Claude Code to build the tools I need 提示 “Build a dashboard that tracks our App Store reviews...”(构建追踪 App Store 评论的仪表盘)。 Austin(非开发者)用几小时就开发出用户情绪分析工具,连产品和工程团队都在使用。 这部分最体现“赋能非技术人员”。传统上,营销人需依赖工程资源;现在,“can I try building this myself” 成为第一反应。Claude Code 降低了开发门槛,让增长团队快速迭代内部工具,加速从 idea 到 value 的周期。 4. Skills for encoding your playbook Skills 包括“campaign-brief-analyzer” “brand-voice” “email-subject-line-drafter” 等可重复使用的自定义指令。 Austin 强调:将机构知识(品牌声音、实验分析方法、简报标准等)打包成 Skills,让 Claude 在 Chat、Cowork、Code 中一致应用。 这是“知识管理”的 AI 化解决方案。Skills 让零散文档或个人经验转化为可执行、可复用的资产,避免知识孤岛,提升团队一致性。 5. Claude Design to translate my ideas into visuals 从简报直接生成品牌化落地页mockup的过程。作者过去用文字描述给设计师,现在先用Claude渲染迭代,直到视觉匹配脑海中的想法,再与设计团队对接。 这极大减少了沟通损耗,提升创意对齐效率。Claude Design 桥接了营销 idea 与视觉实现,适合快速测试和迭代。

译大多数营销人员仅用AI润色文案,而高价值用法在于将Claude深度嵌入工作流。Anthropic增长营销成员分享了五大应用场景:1)作为思考伙伴,在撰写报告前梳理框架、对齐方向;2)通过Claude Cowork自动化数据报告生成,节省重复劳动;3)利用Claude Code让非技术人员快速构建内部工具;4)通过Skills功能将机构知识编码为可复用的标准化资产;5)使用Claude Design将创意快速转化为视觉稿,减少沟通损耗。这些方法旨在提升决策质量、自动化流程并降低协作成本,其方法论可迁移至其他AI智能体。

ginobefun@hongming731 · 4月30日51

Codex 现在进化得也很快,不再只是编码助手了,OpenAI 内部将其定位为软件工程智能体,可在「读取-规划-执行循环」中运行测试并协调子智能体。 最新 AI Engineer 里有一个一小时左右的 Full Workshop,讲解子智能体并行执行、插件生态扩展、Guardian 安全门控与 MCP 集成,以及 Codex 获得 300 万周活跃用户背后的工程基础。值得一看。

译Codex已从编码助手快速进化为软件工程智能体,OpenAI内部将其定位为能在读取-规划-执行循环中运行测试并协调子智能体的系统。最新AI Engineer的Full Workshop讲解了子智能体并行执行、插件生态扩展、Guardian安全门控与MCP集成,以及Codex获得300万周活跃用户背后的工程基础,展示了其在软件工程领域的应用潜力和发展进展。

meng shao@shao__meng · 4月30日63

GPT-5.5 提示词指南 https://developers.openai.com/api/docs/guides/prompt-guidance?model=gpt-5.5 GPT-5.5 模型推理更高效,能自主选择路径,因此提示词应当变得更短,从"指挥流程"转向"定义结果、给出预算、设定停止"——把判断空间还给模型,把约束、证据规则与终止条件写清楚。 和 GPT-5.4 相比的关键变化 · 少即是多:以"结果导向"的简短提示通常优于堆叠流程的长提示 · 重新评估推理强度:low 和 medium 已经够用,不要默认升级到 high · 保留的能力:preamble、phase 字段、assistant item 回放,仍是工具密集型 Responses 工作流的关键 · 新增重点:显式的人格设定、检索预算、校验循环 Tips:不要把 GPT-5.4 等旧模型的提示词直接迁移过来。旧提示往往过度规定流程——这在 GPT-5.5 上反而会引入噪声、收窄搜索空间、让回答变得机械。 人格与协作风格 GPT-5.5 默认风格是高效、直接、任务导向。对面向用户的产品(客服、辅导、陪伴等),需要显式定义两个维度: · 人格:语气、温度、正式程度、幽默、共情——决定"听起来怎样" · 协作风格:何时提问、何时假设、主动性高低、如何处理不确定性——决定"做事怎样" 用 Preamble 改善首字延迟 长任务或需调用工具时,让模型在动作前先输出一句可见的简短确认("我先做 X")。这不改变任务本身,却能显著改善流式应用的感知响应速度。 结果优先的提示与停止条件 推荐写法——描述目的地,不规定每一步,比如: Resolve the customer's issue end to end. Success means: - 决策基于现有政策与账户数据 - 允许范围内的动作在回复前已完成 - 最终输出包含 completed_actions, customer_message, blockers - 缺证据时,只追问最小必要字段 避免这样列流程:先 A、再 B、再比较、再思考、再调工具…… 关于 ALWAYS / NEVER / must 等绝对词:只用于真正不可违反的规则(安全、必填字段)。判断类问题(是否要搜索、是否要追问)应改为决策规则。 显式停止条件,比如: "在最少有用的工具循环内解决问题,但不要让'减少循环'压过正确性、证据可得性、计算与必要的引用。每一步后自问:现在是否已足够回答用户核心诉求?是则停下。" 输出格式 · 通过 text.verbosity 控制详略,默认 medium,简洁场景用 low · 默认用纯段落,标题、加粗、列表只在能提升可比较性或可扫读性时使用 · 给定受众与字数(如"面向高管,<400 字,结论先行") · 编辑/改写类任务,先告诉模型要保留什么(结构、长度、体裁),再要求改进——避免悄悄扩写或加营销腔 检索预算 把"何时停止搜索"写进提示。原则:先一次广搜,命中即答;只有在以下情形才再搜: · 顶部结果未回答核心问题 · 缺关键事实/参数/负责人/日期/ID/来源 · 用户要求穷尽列举或对比 · 必须读到指定文档/邮件/会议/代码 · 否则会留下重要的未支持事实声明 不要为了润色措辞、补充无关细节、让语句更具体而再次检索。 创意写作的护栏 写 slide、launch copy、leadership blurb、talk track 等"半事实半创意"内容时,明确分层: · 产品/客户/指标/路线图/能力等具体声明必须来自检索到的事实,并标引用。 · 不要为了让稿子更有力而虚构名字、第一方数据、客户成果或产品能力。 · 缺证据时,写通用稿+占位符或显式假设,而不是编造具体细节。 让模型自检 为模型提供可执行的校验工具,并要求它使用: · 代码任务:跑相关单测、类型检查、lint、build、最小冒烟测试。 · 可视化产物:渲染后再检查布局、裁剪、间距、缺失内容。 · 工程规划:方案要可追溯——需求映射、涉及资源、状态/数据流、校验命令、失败行为、隐私安全、未决问题。 Phase 参数(工具密集工作流) 用 previous_response_id 时,API 自动保留 assistant 状态。 手动回放 assistant items 时,必须原样保留 phase 值: · phase: "commentary" 用于中间可见更新 · phase: "final_answer" 用于最终答案 · 不要给 user 消息加 phase 推荐的提示词结构模板 Role: [1–2 句定义功能、上下文、职责] # Personality 语气与协作风格 # Goal 用户可见的结果 # Success criteria 最终答案前必须满足的条件 # Constraints 政策、安全、业务、证据、副作用限制 # Output 分节、长度、风格 # Stop rules 何时重试、回退、放弃、追问、停止

译GPT-5.5因推理能力增强,提示词应转向精确定义结果、约束与停止条件,而非详细规定流程。相比前代,需采用更简短的结果导向提示,并重新评估推理强度需求。关键新增点包括显式人格设定与检索预算。指南强调不应直接迁移旧提示,避免限制模型搜索空间。此外,还涉及利用Preamble改善响应感知、设定停止条件、控制输出格式等实用技巧。

Rohan Paul@rohanpaul_ai · 4月30日51

Very nice resource. claude-code-best-practice trending on GitHub with 49,500+ ⭐️

译非常不错的资源。 claude-code-best-practice 在 GitHub 上趋势热榜,拥有 49,500+ ⭐️

宝玉@dotey · 4月30日69

OpenAI 上周发布 GPT-5.5 后,紧接着放出了一份官方提示词指南。这份指南传递的核心信息只有一个:别再写长提示词了。 GPT-5.5 距离上一代 GPT-5.4 只隔了六周,API 定价每百万输入 Token 5 美元、输出 30 美元,上下文窗口 100 万 Token,目前已面向 Plus、Pro、Business 和 Enterprise 用户开放。模型本身的变化各家媒体已经报道过,这份提示词指南更值得关注的是它暗示的使用方式转变。 【1】越短越好,告诉它“要什么”而不是“怎么做” 过去用 AI 模型,很多人习惯写一长串步骤,手把手教模型该先查什么、再比什么、最后怎么输出。OpenAI 在指南里直接说:这套玩法过时了。GPT-5.5 的推理能力够强,你只需要描述清楚想要的结果、成功的标准和限制条件,剩下的让它自己规划路径。 指南原话的意思是:以前的模型比较笨,需要你教它每一步怎么走,但对 GPT-5.5 来说,这些啰嗦的指令反而成了干扰,会缩小它的搜索空间,让输出变得死板。 对开发者来说,这意味着需要重新审视手头积攒的提示词模板。以前管用的“保姆式”写法,现在可能适得其反。 【2】给 AI 装上“性格”和“刹车” 指南花了不少篇幅讲两件事:一是怎么给模型设定性格(语气、态度、合作方式),二是怎么让它知道什么时候该停。 性格设定分两层。一层是“听起来像什么人”,比如热情还是干练、直接还是委婉。另一层是“怎么干活”,比如什么时候该主动提问、什么时候可以自己做主。OpenAI 建议两层都写短,几句话就够。 停止条件可能更实用。指南建议给搜索行为设定“检索预算”,明确告诉模型:搜到什么程度就收手。比如第一次搜索如果已经能回答问题,就别再搜了。只有在核心问题没被回答、缺少关键事实、或用户要求穷尽所有情况时,才允许发起下一次搜索。 这对做客服、做知识问答产品的团队很有参考价值。搜索次数直接关联 Token 消耗和成本,设好预算能省不少钱。 【3】一个有意思的细节:开场白 GPT-5.5 在开始输出文字之前,可能会在后台默默花时间推理和规划。用户盯着空白屏幕等待的体验很差。指南建议让模型在正式干活之前,先输出一两句话,告诉用户“收到了,我先做这个”。 这不会让任务真的变快,但能让用户觉得响应快了。做过产品的人都知道,感知速度有时候比实际速度更重要。 【4】创意写作要区分事实和发挥 指南里有一段专门讲给 AI 写幻灯片、宣传文案、演讲稿时的注意事项:产品数据、客户信息、路线图这些必须用有出处的事实,不能让模型编造。如果手头没有数据,宁可用占位符标出来,也别让 AI 自由发挥出一个看起来很真但完全瞎编的数字。 这条建议对应的是 AI 最大的实用风险之一:模型编故事的能力太强,强到你可能分不清哪些是真的。尤其是在做对外材料的时候,一个编造的客户案例或数据点,后果可能比不写还糟。 OpenAI 推荐的提示词模板最终浓缩成六个模块:角色、性格、目标、成功标准、限制条件、停止规则。每个模块都强调“尽量简短,只在需要改变模型行为的地方加细节”。 从 GPT-4 时代的“提示词工程”到现在 GPT-5.5 的“少说多做”,提示词的写法以前是人适应模型的局限,现在是模型开始适应人的模糊表达。对于还在用两年前的提示词模板的团队,可能要考虑重写你的提示词了。 更详细的文档:https://developers.openai.com/api/docs/guides/prompt-guidance?model=gpt-5.5

译OpenAI在发布GPT-5.5后推出官方提示词指南,核心主张是摒弃冗长指令。指南指出,新模型具备更强推理能力,用户只需清晰描述期望结果、成功标准和限制条件,过细的步骤规划反而会限制模型搜索空间,导致输出僵化。关键建议包括采用简短的角色、目标等模块化提示;为搜索设定“检索预算”以控制成本;在创意写作中严格区分事实与虚构。这标志着提示词范式从“详细过程控制”转向“结果导向”。

OpenAI Developers@OpenAIDevs · 4月30日63

You can just build web apps

译你完全可以构建网络应用

宝玉@dotey · 4月30日62

http://x.com/i/article/2049616699541090304

译我测试了 GPT-4o 和 Claude 3.5 Sonnet 在多种任务上的表现。 Claude 在需要深度思考的任务中表现更好,而 GPT-4o 在需要快速响应的任务中更出色。 两者都是优秀的模型,但各有侧重。

Z.ai@Zai_org · 4月30日59

Scaling laws push model capability forward. But whether that capability becomes reliable in production depends on how we handle Scaling Pain. http://z.ai/blog/scaling-pain In our latest blog, we share how we debugged GLM-5 serving at scale: reproducing rare garbled outputs, repetition, and rare-character generation; tracing and eliminating KV Cache race conditions; fixing HiCache synchronization issues; and introducing LayerSplit for up to 132% throughput improvement. We hope these lessons help the community avoid similar pitfalls and build more robust inference infrastructure.

译模型能力的提升遵循扩展定律,但其在生产环境中的可靠性取决于如何应对“规模化阵痛”。博客通过GLM-5大规模服务的调试实例,分享了处理罕见乱码输出、重复及生僻字符生成等问题的经验。关键工作包括追踪并消除KV Cache的竞态条件、修复HiCache同步问题,以及引入LayerSplit技术以实现最高132%的吞吐量提升。这些实践旨在帮助社区避免类似陷阱,构建更健壮的推理基础设施。

宝玉@dotey · 4月30日60

我就说你们咋逆向 Claude Design 的 System Prompt 的,原来都在请求的 Payload 里面,包括调用啥工具都有。 可惜额度太少了,用几次就没了

Google AI Developers@googleaidevs · 4月30日55

Watch this demo from @thorwebdev to see Gemini 3.1 Flash Live in action as a real-time DJ. The model uses function calling (to the Gemini API) to generate custom 30-second clips using Lyria 3️⃣ Start your own studio session in @GoogleAIStudio: http://goo.gle/3PbcCXJ

译观看 @thorwebdev 的这个演示,看看 Gemini 3.1 Flash 如何作为实时 DJ 实际运作。该模型使用函数调用(调用 Gemini API),通过 Lyria 3️⃣ 生成定制的 30 秒片段。 在 @GoogleAIStudio 中开启你自己的工作室会话:http://goo.gle/3PbcCXJ

Google Gemini@GeminiApp · 4月30日38

This event is happening soon! Join the Gemini Discord here: http://discord.gg/gemini

译这场活动即将开始!在此处加入Gemini Discord:http://discord.gg/gemini [引用 @GeminiApp]:准备好用Gemini Canvas释放你的创造力了吗?🪄 不要错过我们下一次的Discord活动,届时Gemini创意技术专家@DavidMaliglowka将现场演示他最新的Canvas和Nano Banana工作流程,帮助你提升自己的创意提示技巧。 🗓️ 4月29日,星期三 ⏰ 太平洋时间上午11:30 📍 http://discord.gg/gemini

Luma@LumaLabsAI · 4月30日25

Behind the blade. A look at how the fox samurai came to life with Luma. Character. Motion. Cinematic style. Here is how every element came together from first idea to final frame. Start creating → http://lumalabs.ai/app

译刀锋背后。一览狐狸武士如何通过Luma获得生命。 角色。动作。电影风格。从最初构想到最终画面,每个元素如何融合的过程在此呈现。 开始创作 → http://lumalabs.ai/app

向阳乔木@vista8 · 4月29日54

读到一篇不错的小白教程,如何用Notion和Obsidian搭建更好的Claude记忆系统。 让AI翻译了下。 https://blog.qiaomu.ai/how-to-give-claude-perfect-memory

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月1日
08:10
Berryxia.AI@berryxia
68
利用AI工具链快速生成360度沉浸式游戏场景

推文介绍了一种利用AI工具链快速创建360度全景沉浸式小游戏体验的方法。核心流程是:首先,向图像生成AI(Agent)提供一个简单提示,例如让其研究AI公司吉祥物并生成一个360度全景动物园图像。然后,将生成的全景图输入Codex,即可获得相应的3D视图,从而构建出游戏场景。这种方法旨在简化沉浸式内容的创作门槛,标志着一种新的内容生成时代的到来。

图像生成多模态教程/实践
08:10
Berryxia.AI@berryxia
53
2026年你必须了解的6个大语言模型(LLM)知识库专业术语!

本文介绍了2026年构建高效团队LLM知识库必须掌握的六个核心术语。LLM知识库是让大语言模型处理原始资料并自主检索回答的系统,难点在于团队适配。持续数据摄取能自动从Slack、CRM等工作工具同步信息。来源可信度分级帮助区分官方决策与聊天观点等不同价值信息。时效性监控可主动发现信息矛盾并降低过时内容权重。自主维护实现文档随工作进展自动更新。这些技术共同对抗知识漂移,即文档与现实间缓慢产生的信息偏差,这是导致AI代理给出错误答案的主要根源。

Femke Plantinga: 6 LLM Knowledge Base terms you need to know in 2026: (Most teams are missing at least 3, their AI agents pay the price) ...

检索增强教程/实践
08:10
Berryxia.AI@berryxia
53
智能体AI架构设计的心智模型与七层逻辑

基于Anthropic关于智能体AI的博客,作者提炼出一个用于理解和设计智能体AI架构的心智模型。该模型以明确任务目标为前提,核心架构包含七个层次:编排层负责全局调度;智能体层由多智能体分工协作;工具层提供搜索、API等能力支持;记忆层存储长短期信息;监控层实时追踪每一步执行;可靠性与故障管理层处理错误、重试与降级;治理与安全层确保合规、审计与数据安全。监控层被视为最关键环节,而故障管理支持自动处理与人工介入。

Neha Sharma: After reading @AnthropicAI blog on Agentic AI. spent some time to create a mental model to understand how to design, and...

智能体Anthropic教程/实践
07:15
Peter Steinberger 🦞@steipete
56
OpenClaw宣布其群聊功能已大幅改进,建议用户体验新版对话机制。若此前使用GPT效果不佳,推荐切换至codex harness插件。同时启用两项改进可显著提升性能。此次更新使群聊体验更原生,具体改进包括优化对话感受、增强上下文跟进承诺、提升安全执行与管控、新增NVIDIA供应商及模型目录,并加速启动与修复插件/通道问题。

OpenClaw🦞: OpenClaw 2026.4.29 🦞 💬 Group chats feel much better now 📌 Follow-up commitments from context 🔐 Safer exec, pairing, ...

智能体GitHub开源/仓库教程/实践
06:10
ginobefun@hongming731
68
本文介绍了一套提升内容在主流AI(如ChatGPT、Claude)中可见性的实用方法,核心是主动提供结构化数据。关键步骤包括:在网站部署`llms.txt`文件概述站点;在`robots.txt`中允许AI搜索爬虫;向Google、Bing等提交Sitemap并利用其工具监测AI引用;参与Perplexity出版者计划;使用JSON-LD结构化数据标记内容;甚至可为AI创建专用知识端点,集中提供实时更新的结构化信息。这些做法旨在帮助AI更准确、高效地理解内容,而非制造垃圾信息。

Tw93: 这几天,有好几个小伙伴@我说,我的一些作品在他们问 AI 的时候主动被推荐了,很神奇,我想了想感觉啥也没有做,居然可以被收录,那要不要做点更体系化的事情来整一整让现在所有的主流 AI 能够更好的知晓我的内容、产品、想法,于是就开干了。 首先...

搜索教程/实践部署/工程
04:16
ChatGPT@ChatGPTapp
精选63
一条针对GPT Image 2的特定图像生成提示词正在社交媒体上病毒式传播。该提示词的核心要求是:以最笨拙、潦草且极其糟糕的方式重绘所附图像,背景为白色,使其看起来像是用鼠标在MS Paint中绘制。生成效果需与原图似是而非,带有低质量像素感和令人困惑的别扭感,以突出其荒诞的"差劲"。推文引用者指出,这条提示词正引发疯狂传播。

CHOI: This GPT Image 2 prompt is going insanely viral right now. "Redraw the attached image in the most clumsy, scribbly, and ...

OpenAI图像生成教程/实践

推荐理由:这 prompt 把 GPT Image 2 从「精美」逼成了「小学生涂鸦」,是近期最有网感的玩法,做内容的可以直接抄。
04:14
SemiAnalysis@SemiAnalysis_
41
AWS正通过Trainium和Inferentia芯片在定制AI芯片领域做出重大举措。来自@awscloud团队的Rachel Zheng和Karthik Venna详细介绍了他们如何在全球最大的云基础设施上扩展这些处理器。@makora_ai https://youtu.be/mgrQWLERync
推理教程/实践部署/工程
03:45
Suno@suno
56
Genki 如何将一段 16 小节即兴演奏变成 2000 年代摇滚曲目
多模态教程/实践
03:14
karminski-牙医@karminski3
精选72
DeepSeek-V4 API推理内容字段缺失导致报错问题

用户在使用DeepSeek-V4 API或集成该模型的终端编码代理(如Claude Code、Kimi CLI)和AI IDE(如Cursor)时,频繁遇到HTTP 400报错。错误信息指出,在思考模式下必须将reasoning_content字段回传给API。核心问题在于,当任务步骤的tool_call过于简单直接时,DeepSeek-V4返回的reasoning_content可能为空字符串。许多开发工具默认会过滤掉空值字段,导致该字段未被回传,从而触发API报错,致使编码任务或代理中断。经测试,在特定场景下该字段返回空字符串的概率高达59%。解决方案是必须将空字符串值的字段原样回传,不能省略或改为空对象。目前需等待IDE官方修复或自行修改开源工具,使用DeepSeek-V4的代理项目也需注意此问题。

DeepSeek推理教程/实践

推荐理由:如果你在用 DeepSeek-V4 写代码,这个坑迟早会踩到,作者把问题和解法都讲清楚了,不用等 IDE 修,看完就能自己改。
03:14
karminski-牙医@karminski3
64
使用DeepSeek-V4 API开启思考模式时,必须在后续请求中回传模型返回的`reasoning_content`字段。当任务过于简单时,该字段可能为空字符串,而许多终端编码代理和AI IDE的默认行为会过滤掉空值字段,导致API返回HTTP 400错误并中断任务。关键解决方案是必须原样回传该字段,即使其值为空字符串,不能丢弃或改为空对象。目前需等待工具官方修复或自行修改开源版本,仅靠重试难以根本解决此问题。

karminski-牙医: 给大家说下目前使用 DeepSeek-V4 (pro/flash) 的最需要注意的问题. 本身其实并不算 bug, 但是却很致命. 问题大概是这样的, 在请求 DeepSeek API 或者 terminal coding agent (c...

智能体DeepSeek教程/实践编码
01:42
Chubby♨️@kimmonismus
53
现在您可以使用LTX-2.3将现有的SDR素材升级至HDR。 因为它基于MP4压缩伪影进行训练,所以能实际应用于真实世界的压缩视频。它输出场景线性EXR格式,为DaVinci Resolve提供真实的浮点数据,而非在调色中容易损坏的脆弱图像。
教程/实践视频
00:44
向阳乔木@vista8
45
DeepSeek论文AI解读:独立思考与数据清洗亮点

作者完成DeepSeek最新论文的AI解读,指出论文在独立思考方面表现突出,闪耀创新光辉。数据清洗过程细致严谨,通过多条件过滤将数据规模从近10万缩减至3万条。训练数据构建设计巧妙,例如大量迷宫题等趣味方法,体现了研究团队的创意。整体而言,论文在AI领域具有重要价值,获得高度评价。

向阳乔木: http://x.com/i/article/2049885174113185792

DeepSeek教程/实践论文/研究
00:44
向阳乔木@vista8
41
DeepSeek-VL:面向真实场景的视觉语言模型

DeepSeek-VL旨在解决开源视觉模型在真实场景中应用效果不佳的问题。其核心方案是系统性地从数据、架构与训练三方面进行设计:数据构建强调从真实用户需求出发,并包含70%的纯文本以保留语言能力;模型架构创新性地采用SigLIP与SAM-B混合视觉编码器,兼顾高层语义与低层细节;训练策略则通过三阶段渐进式训练与模态平衡技术,有效缓解了视觉训练对语言能力的侵蚀,最终在同等规模下达到开源模型的顶尖水平。

DeepSeek多模态教程/实践
00:43
OpenAI Developers@OpenAIDevs
38
学生们正在学习使用Codex进行构建,并通过构建来学习。 以下是@UCBerkeley的学生在@joinHandshake举办的Codex Creator Challenge中构建的作品。
OpenAI教程/实践
4月30日
23:10
Berryxia.AI@berryxia
61
GPT效果空间理解力惊人,一键生成纪念碑谷风格场景

用户惊叹于GPT在效果空间理解方面的强大能力,尝试使用其文生图功能复现经典游戏《纪念碑谷》的风格场景,仅一次尝试便成功生成兼具静谧感与孤独美的图像。推文强调GPT能够准确捕捉并传递特定的美学氛围,同时作者已将生成所用的提示词公开分享供他人尝试。

图像生成教程/实践
22:14
Runway@runwayml
28
实现宏大创意无需封锁街道。只需精彩的叙事。从构想到执行,这个短片概念由一位创作者仅用一天时间通过Runway完成。点击下方链接亲自尝试。#MadeWithRunway
教程/实践视频
21:42
Greg Brockman@gdb
56
Chronicle 赋予 Codex 对你电脑使用行为的被动记忆,这解锁了令人惊喜的用例 【引用 @ajambrosino】:它仍处于实验阶段,所以我们稍作隐藏,但在 Codex 应用中,不妨试试: &gt; 根据 Chronicle 的记录,我一直在电脑上低效地做着什么?给出一些建议。直接点。告诉我需要听的内容。

Andrew Ambrosino: it's still experimental so we hide it a bit, but in the codex app, try: > what have i been doing very inefficiently on m...

OpenAI教程/实践
20:10
ginobefun@hongming731
51
京东广告发布GRAM架构,用大模型知识工程突破推荐瓶颈

京东广告团队推出GRAM架构,旨在通过大模型原生知识工程解决传统CTR模型的瓶颈。该架构构建了毫秒级查询的级联知识图谱,将商品属性与业务规则作为“事实护栏”注入,以杜绝AI幻觉,确保推荐符合现实。它颠覆了依赖历史数据的冷启动模式,即使零销量新品也能通过知识网络的高维特征关联实现精准分发。同时,GRAM将企业内隐知识结构化作为上下文,使大模型能进行复杂的深度决策,而非仅计算曝光。

教程/实践数据/训练部署/工程
20:10
Berryxia.AI@berryxia
63
姚老师于GitHub开源一款AI教程生成工具。用户只需输入主题并提供参考资料,该工具即可以资料为核心,自动补充高质量素材并过滤低质信息,生成系统性的定制教程。教程支持PDF、Word和HTML格式输出,内容按章节组织,并能根据章节特点自动生成并插入图表。其设计融入了《课程营销学》的底层逻辑,排版借鉴了kami风格,确保了质感与规范。文末附有基于实际文章的生成示例。

姚金刚: 开源一个教程Skill 打磨了十几版,效果还不错,已推到GitHub 如果想在五一假期高质量充电,或随时给自己生成一份定制高质量教程 欢迎下载 基本逻辑: 1、输入任意主题及参考资料,AI会优先以参考资料为核心,然后根据需要进行高质量素材和...

开源/仓库教程/实践
17:10
歸藏(guizang.ai)@op7418
46
Codex展示了其强大的游戏开发能力,仅根据"制作类似《杀戮尖塔》的中国风格游戏"的简单指令,便自主完成了从代码编写到素材整合的完整可玩关卡。主要场景和角色素材由GPT-Image生成,其余素材由Codex自行寻找。最终成果是一个除声音外相当完善的游戏演示,凸显了AI在理解复杂指令并执行完整项目上的巨大潜力。

歸藏(guizang.ai): 我操,Codex 太牛逼了! 自己给我做了一个类似于《杀戮尖塔》的爬塔游戏,从代码到素材全是自己搞。 我就跟他说了一个要做类似《杀戮尖塔》的游戏,要中国风格的 这是能玩的!

OpenAI图像生成教程/实践编码
16:09
meng shao@shao__meng
62
OpenAI 把 Responses API 提速 40%:为什么 Agent 时代,API 本身成了瓶颈?

OpenAI 最新工程博客指出,随着 GPT-5/5.2 及 Codex-Spark 等模型推理速度大幅提升(目标超1000 TPS),传统请求-响应 API 框架的固定开销成为 Agent 工作流的主要瓶颈。为此,OpenAI 为 Responses API 引入了 WebSocket 模式,通过保持长连接、在内存中缓存对话状态和已渲染 token,实现了跨工具调用的状态复用,避免了每次交互都重复预处理完整历史。此举使端到端延迟降低最多 40%,让 Codex-Spark 能稳定实现 1000 TPS 并峰值达 4000 TPS,显著提升了 Vercel AI SDK、Cline 和 Cursor 等集成的体验。

OpenAI Developers: ⚙️ We made agent loops faster with WebSockets in the Responses API As Codex got faster, the bottleneck moved from infere...

智能体OpenAI教程/实践部署/工程
15:39
向阳乔木@vista8
69
姚老师开源了一个名为"教程Skill"的AI工具。该工具允许用户输入任意主题和参考资料,AI会以参考资料为核心,自动补充高质量素材并过滤低质量信源,最终生成系统性的深度定制教程。教程内容按章节组织,AI能根据内容特点自行画图并插入相应模块。工具融合了《课程营销学》的底层方法论,并借鉴了kami的排版设计,最终可输出PDF、Word和HTML三种格式的文档,方便学习使用。项目已发布在GitHub上。

姚金刚: 开源一个教程Skill 打磨了十几版,效果还不错,已推到GitHub 如果想在五一假期高质量充电,或随时给自己生成一份定制高质量教程 欢迎下载 基本逻辑: 1、输入任意主题及参考资料,AI会优先以参考资料为核心,然后根据需要进行高质量素材和...

GitHub教程/实践
14:40
Berryxia.AI@berryxia
48
免费自定义工具监控标的更新,替代昂贵商业软件

作者推荐一种自定义工具,用于监控关注标的(如招标信息)的更新并自动推送通知。相比商业工具“招标助手”的高昂价格,自制工具更具自定义性和便利性,且完全免费。基于引用推文中@berryxia提供的文章,该工具附有详细教程,用户可免费注册和使用,实现高效信息追踪。

Berryxia.AI: http://x.com/i/article/2049497253421940736

智能体教程/实践
13:37
阿绎 AYi@AYi_AInotes
53
内容运营和生图生视频通常依赖多个工具,但GPT Image 2的出现使旧工作流过时。作者尝试使用flowith,发现它能将提示词直接转化为完整输出:生成多个瑜伽动作分镜,并整合分镜图与人物图生成图片,再通过可灵模型制作视频,全部在一个工具内完成。Agent模式支持联网,能自动生成日期准确的海报日历。flowith作为一站式生图agent,简化了工作流,提高了效率。

铁锤人: 做内容运营,生图生视频,你现在还在跑好几个工具吗? 被朋友拉去做瑜伽图,搭了无数工作流 GPT Image 2 出来后,发现全废了 得重新规划一套,但这几天身体不舒服,没心思搞 随手把提示词扔进 flowith 试了一下 以为偷懒的结果会很...

智能体图像生成教程/实践视频
11:45
宝玉@dotey
64
极简线条与色彩点缀的插画提示词

该推文赞赏一个用于生成极简风格插画的提示词。其核心要求是:用干净纤细的线条描绘主体,整体采用黑白或低饱和色调,仅在局部添加鲜明色彩作为焦点。画面强调大量留白与精致构图,追求现代杂志编辑般的简洁、优雅高级感,并避免复杂背景或写实元素。推文引用的“Minimal Line + Color Accent Illustrations”模板也体现了同样的极简美学。

Aleena Amir: Minimal Line + Color Accent Illustrations PROMPT: "Minimal illustration of [SUBJECT/OBJECT], clean thin lines with selec...

图像生成教程/实践
11:40
Berryxia.AI@berryxia
49
以邮件为入口,让AI代理自动化处理招投标信息

作者分享了一个将AI代理(“龙虾”)融入实际工作流的案例。核心在于利用ClawEmail为AI代理提供一个可编程的邮箱接口,使其能通过邮件接收和处理指令。结合XCrawl(网页抓取工具)获取公开的招投标公告信息,并整合飞书进行结果同步。这一组合解决了教育行业投标信息分散、需人工频繁刷网站的问题,实现了从信息发现到整理分发的自动化。关键在于,AI工具的价值不在于其模型本身多强大,而在于能否无缝嵌入现有、稳定的工作流(如邮件),从而真正提升效率。

智能体MCP/工具教程/实践
11:40
Berryxia.AI@berryxia
56
利用AI与邮箱构建自动投标监控系统,实现高效工作流

作者结合ClawEmail、XCrawl等工具,为公司商务助理开发了一套自动投标监控系统。该系统能自动抓取招标公告,筛选出苹果、Mac或服务器相关项目,并结构化提取关键信息,随后自动通知同事并更新飞书表格。全程零配置,仅需会发邮件即可驱动,体现了邮箱作为AI时代低门槛、高效工作流入口的价值。

Berryxia.AI: http://x.com/i/article/2049497253421940736

智能体MCP/工具教程/实践
09:44
meng shao@shao__meng
56
Anthropic增长营销专家分享:深度整合Claude提升工作效能的五个高阶场景

大多数营销人员仅用AI润色文案,而高价值用法在于将Claude深度嵌入工作流。Anthropic增长营销成员分享了五大应用场景:1)作为思考伙伴,在撰写报告前梳理框架、对齐方向;2)通过Claude Cowork自动化数据报告生成,节省重复劳动;3)利用Claude Code让非技术人员快速构建内部工具;4)通过Skills功能将机构知识编码为可复用的标准化资产;5)使用Claude Design将创意快速转化为视觉稿,减少沟通损耗。这些方法旨在提升决策质量、自动化流程并降低协作成本,其方法论可迁移至其他AI智能体。

austin lau: most growth marketers use AI to rewrite headlines and call it a day. here's how I actually use Claude on the growth mark...

AnthropicMCP/工具教程/实践
09:40
ginobefun@hongming731
51
Codex进化为软件工程智能体,AI Engineer Workshop解析关键技术

Codex已从编码助手快速进化为软件工程智能体,OpenAI内部将其定位为能在读取-规划-执行循环中运行测试并协调子智能体的系统。最新AI Engineer的Full Workshop讲解了子智能体并行执行、插件生态扩展、Guardian安全门控与MCP集成,以及Codex获得300万周活跃用户背后的工程基础,展示了其在软件工程领域的应用潜力和发展进展。

智能体MCP/工具OpenAI教程/实践
09:14
meng shao@shao__meng
63
GPT-5.5提示词指南

GPT-5.5因推理能力增强,提示词应转向精确定义结果、约束与停止条件,而非详细规定流程。相比前代,需采用更简短的结果导向提示,并重新评估推理强度需求。关键新增点包括显式人格设定与检索预算。指南强调不应直接迁移旧提示,避免限制模型搜索空间。此外,还涉及利用Preamble改善响应感知、设定停止条件、控制输出格式等实用技巧。

Adam.GPT: https://developers.openai.com/api/docs/guides/prompt-guidance?model=gpt-5.5 **NEW: GPT-5.5 Prompting Guide** "GPT-5.5 wo...

OpenAI推理教程/实践
08:09
Rohan Paul@rohanpaul_ai
51
非常不错的资源。 claude-code-best-practice 在 GitHub 上趋势热榜,拥有 49,500+ ⭐️
智能体Anthropic教程/实践
07:14
宝玉@dotey
69
OpenAI发布GPT-5.5官方提示词指南:主张简短指令,转向结果导向

OpenAI在发布GPT-5.5后推出官方提示词指南,核心主张是摒弃冗长指令。指南指出,新模型具备更强推理能力,用户只需清晰描述期望结果、成功标准和限制条件,过细的步骤规划反而会限制模型搜索空间,导致输出僵化。关键建议包括采用简短的角色、目标等模块化提示;为搜索设定“检索预算”以控制成本;在创意写作中严格区分事实与虚构。这标志着提示词范式从“详细过程控制”转向“结果导向”。

Adam.GPT: https://developers.openai.com/api/docs/guides/prompt-guidance?model=gpt-5.5 **NEW: GPT-5.5 Prompting Guide** "GPT-5.5 wo...

OpenAI推理教程/实践
07:09
OpenAI Developers@OpenAIDevs
精选63
你完全可以构建网络应用

dominik kundel: http://x.com/i/article/2049579443216338944

OpenAI教程/实践编码部署/工程

推荐理由:OpenAI开发者官方转发了这篇‘直接构建web应用’的文章,说明这可能是他们认可的实践路径,对想用AI快速搭应用的开发者算是个值得收藏的参考。
06:44
宝玉@dotey
62
我测试了 GPT-4o 和 Claude 3.5 Sonnet 在多种任务上的表现。 Claude 在需要深度思考的任务中表现更好,而 GPT-4o 在需要快速响应的任务中更出色。 两者都是优秀的模型,但各有侧重。
智能体教程/实践
05:36
Z.ai@Zai_org
59
模型规模化部署的挑战与GLM-5服务调试经验

模型能力的提升遵循扩展定律,但其在生产环境中的可靠性取决于如何应对“规模化阵痛”。博客通过GLM-5大规模服务的调试实例,分享了处理罕见乱码输出、重复及生僻字符生成等问题的经验。关键工作包括追踪并消除KV Cache的竞态条件、修复HiCache同步问题,以及引入LayerSplit技术以实现最高132%的吞吐量提升。这些实践旨在帮助社区避免类似陷阱,构建更健壮的推理基础设施。

教程/实践部署/工程
04:44
宝玉@dotey
60
我就说你们咋逆向 Claude Design 的 System Prompt 的,原来都在请求的 Payload 里面,包括调用啥工具都有。 可惜额度太少了,用几次就没了
AnthropicMCP/工具教程/实践
04:13
Google AI Developers@googleaidevs
55
观看 @thorwebdev 的这个演示,看看 Gemini 3.1 Flash 如何作为实时 DJ 实际运作。该模型使用函数调用(调用 Gemini API),通过 Lyria 3️⃣ 生成定制的 30 秒片段。 在 @GoogleAIStudio 中开启你自己的工作室会话:http://goo.gle/3PbcCXJ
Google多模态教程/实践
02:08
Google Gemini@GeminiApp
38
这场活动即将开始!在此处加入Gemini Discord:http://discord.gg/gemini 【引用 @GeminiApp】:准备好用Gemini Canvas释放你的创造力了吗?🪄 不要错过我们下一次的Discord活动,届时Gemini创意技术专家@DavidMaliglowka将现场演示他最新的Canvas和Nano Banana工作流程,帮助你提升自己的创意提示技巧。 🗓️ 4月29日,星期三 ⏰ 太平洋时间上午11:30 📍 http://discord.gg/gemini

Google Gemini: Ready to unlock your creativity with Gemini Canvas? 🪄 Don't miss our next Discord event to see Gemini Creative Technolo...

Google多模态教程/实践
01:51
Luma@LumaLabsAI
25
刀锋背后。一览狐狸武士如何通过Luma获得生命。 角色。动作。电影风格。从最初构想到最终画面,每个元素如何融合的过程在此呈现。 开始创作 → http://lumalabs.ai/app
教程/实践视频
4月29日
22:45
向阳乔木@vista8
54
读到一篇不错的小白教程,如何用Notion和Obsidian搭建更好的Claude记忆系统。 让AI翻译了下。 https://blog.qiaomu.ai/how-to-give-claude-perfect-memory
智能体MCP/工具教程/实践
‹ 上一页
1…2526272829…31
下一页 ›