作者利用豆包Seed2.0-lite全模态理解模型,重新实践了将长视频自动转换为图文博客的工作流。传统ASR+LLM方案因信息丢失严重而效果不佳,新方案的核心在于模型能同时理解视频的音频、画面和屏幕文字,进行联合推理,从而保留技术视频中的关键视觉信息(如代码、图表)。通过将多模态能力封装为可复用的Agent Skill,并采用四步最佳实践——视频切片、生成结构化素材、反查关键帧配图、生成终稿——解决了传统流程的上下文割裂问题,使输出更接近人类技术编辑的整理成果。
作者利用豆包Seed2.0-lite全模态理解模型,重新实践了将长视频自动转换为图文博客的工作流。传统ASR+LLM方案因信息丢失严重而效果不佳,新方案的核心在于模型能同时理解视频的音频、画面和屏幕文字,进行联合推理,从而保留技术视频中的关键视觉信息(如代码、图表)。通过将多模态能力封装为可复用的Agent Skill,并采用四步最佳实践——视频切片、生成结构化素材、反查关键帧配图、生成终稿——解决了传统流程的上下文割裂问题,使输出更接近人类技术编辑的整理成果。
洛小山发布了一篇关于如何创建具有“活人感”AI助理的长文,内容包含大量实用干货与实战经验。文章指出,在该领域表现出色的实践者或项目,大多具有游戏开发背景或是资深游戏玩家。这一关联性提示,游戏行业在角色塑造、交互设计和叙事构建方面的经验,可能为开发更自然、拟人化的AI助理提供了关键的方法论借鉴。
开源一套我的提示词合集 前几天,收到一位微信好友反馈,说使用了我不少公开的提示词,效果很不错 这一年来,公开分享了不少提示词,一直沉淀在飞书文档 为了方便大家更好的下载和迭代,今天抽空,把公开的提示词整理了下,通过GitHub开源给大家 目...
QClaw海外版通过调用本机Claude Code技能,实现了从任务发起到内容产出的全自动化写作流程。用户仅需在移动端发送一条包含多步骤指令(如筛选主题、撰写推文串、生成公众号初稿、进行去AI化处理及发布前检查)的文本任务,系统即可自动完成全部工作,并将最终文件输出至Obsidian知识库中。该工具的核心在于无缝衔接了自然语言指令与本地AI代码执行能力,显著提升了内容创作效率。
写了一篇 OpenAI Codex App 入门指南 本来想把 Markdown 编辑为 X Article 格式分享,不过 X Article 的编辑体验还是太费时间了,明天先发公众号,再整理 X Article 格式(朋友们如果有好的 ...
This Chinese guy created agents in Claude Code for landing pages and single-handedly serves 47 small businesses a month,...
Boris Cherny公开其高效AI编码工作流,核心基于三点反直觉原则:1. 坚持使用最昂贵、最聪明的模型(如Claude),因其能一次性清晰规划,避免笨模型反复试错消耗更多token;2. 团队仅维护一个纯文本知识库文件,记录Claude的每次错误并每周更新,形成长期记忆;3. 始终让Claude查看自身代码的运行结果(包括执行和渲染)。其工作模式是在手机上并行启动多个Claude实例,基于规划模式制定方案后自动执行修改,从而高效完成任务。
OpenAI 为 Codex 发布官方迁移方案,支持从其他 AI Coding Agents 一键导入指令、配置、技能、近30天会话等资产。迁移采用“自动迁移+残留兜底”设计:通过用户级和项目级双层扫描,执行检测、迁移、回检的四步循环;自动处理可识别配置后,对剩余部分使用 migrate-to-codex skill 手动处理。需注意 Slash commands 被归入 Skills 体系,且会话历史仅限30天。迁移完成后,必须人工复核工具权限、MCP服务器认证、Hooks行为差异等五类内容,因平台间语义或实现差异可能影响功能。
https://developers.openai.com/codex/migrate
用户利用GPT Image 2 Prompt功能,描述生成一张半写实半动画照片,其中用户与动画角色野原新之助(小新)及其全家合影。照片要求小新、父亲广志、母亲美冴、妹妹向日葵和宠物小白保持原始动画形象,并自然融入真实环境。每个角色被赋予特定性格:小新滑稽淘气,广志温和朴实,美冴表情丰富略带严厉,小葵天真可爱,小白软萌伶俐。同时,引用推文展示了类似提示词,用于生成高度写实、角色略带风格化且与环境自然融合的照片,强调提示词在AI图像生成中的应用。
Pic 1: GPT Pic 2: Nano banana Prompt ⬇️⬇️⬇️ Create a highly realistic photo where I am standing with Shinchan Nohara and...
Google发布Gemma 4模型,采用创新的MTP drafters技术,实现最高3倍解码速度提升且质量无损。该技术让模型一次预测多个token,突破传统自回归生成的串行瓶颈,极大提升GPU利用率。vLLM项目在官方宣布后立即提供Day-0支持,用户可通过一条Docker命令快速部署。这一进步显著增强本地部署的实时性,使Agent、代码生成等场景受益,进一步放大开源模型在性价比和本地化运行方面的优势。
Gemma 4 现在最高能跑到 3倍速度,而且质量完全不变。 他们没有增加参数、没有换新架构,只是推出了一套 MTP drafters(多 token 预测草稿机),让模型一次预测多个 token,彻底绕过了传统 autoregressiv...
Anthropic getting ready for its first ever developer conference on May 6 in SF
小说写到将近一半,各方势力都已露面,情节推进大方向已定,但是细节开始变得错综复杂。于是我让 AI 给每个主要角色都建立了一个认知智能体。在写每一章之前,让它安排每个智能体目前目前的认知状态和压力状态,决定下一章他应该找谁,应该去讲些怎样的话...
Google为Gemma 4模型引入了多令牌预测生成器技术,显著提升了推理速度。该技术允许模型在单次前向传递中预测多个未来令牌,而非传统的逐个令牌生成。在代码生成等任务中,这一方法实现了高达3倍的推理加速,同时保持了输出质量。这项优化旨在降低大语言模型的部署成本,提高响应效率,适用于需要快速生成较长文本的场景。
Anthropic发布金融服务行业Claude部署指南,详细介绍了Claude系列产品在金融研究、交易、承销、理赔及月末结算等场景的应用方案。指南包含产品矩阵、10个预置金融智能体模板(如招股书生成器、KYC筛查器等),并分享了AIG、澳大利亚联邦银行等机构的实践案例。同时,提供基础、试点、扩展三阶段实施路线图,旨在协助企业决策者与工程师规划AI落地路径,提升运营效率。
Unsloth发布指南,演示如何利用Gemma 4和Qwen3.6的GGUF模型,在仅需24GB RAM的本地机器上运行完整的agentic coding工作流。该方案通过Unsloth API端点和llama.cpp驱动,支持自愈式tool calls、代码执行和网页搜索。此举打破了以往必须在Claude Code等高端界面的性能与本地部署的隐私/成本之间二选一的困境,使得开发者能以近乎零成本在本地享受顶级交互体验,标志着开源模型开始无缝接管复杂的AI智能体工作流。
We made a guide on how to run open LLMs in Claude Code, Codex and OpenClaw. Use Gemma 4 and Qwen3.6 GGUFs for local agen...
Runway平台团队开发的NCCLBack系统,通过P2P权重传输将模型冷启动时间从数分钟缩短至数秒。其核心创新在于让新启动的GPU推理节点直接从集群内已加载权重的同级GPU获取模型参数,而非从云存储重复下载。该系统利用GPU互连(如InfiniBand、NVLink)高达200-400 Gbps的带宽,相比传统存储下载的2-10 Gbps实现了数量级提升。通过Redis协调与NCCL广播原语,NCCLBack确保了数据传输的效率和正确性,使得大规模集群部署新模型时,冷启动时间不随节点数量线性增长,基本保持恒定。
用户反馈Codex执行/goal指令时不到半小时自动结束。核心解决方案是设定清晰任务目标、验收标准和文档指导,而非单纯追求运行时长。作者以逆向Codex App项目运行17小时为例,指出需与AI共同制定计划并保存为文档,提供样板文件明确输出格式,再分阶段执行、记录进度并迭代优化。关键在于让AI清楚知道要做什么、如何验证及何时完成,而不是仅靠权限或口头指令。
@dotey 您好,现在已成功录入😄,可还有一个问题,我用chatgpt pro给我写的/goal在codex上运行每次不到半小时它就自己结束了,我给chatgpt pro说了我的需求是长期让他自主化运行,也给codexCLI最高权限了,...
GitHub开源项目“llm-from-scratch”提供了从零开始训练大型语言模型的完整指南。该项目详细阐述了构建现代LLM所需的核心组件,包括分词器、Transformer架构、预训练与微调流程。指南强调通过实践理解模型内部机制,而非直接调用现有API。项目在Hacker News社区获得广泛关注,收获293点热度,反映出开发者对深入掌握LLM底层技术的强烈需求。
推文分享了20个专为NotebookLM设计的提示词,旨在全方位提升学习、研究与知识管理效率。这些提示词覆盖了从信息输入到成果输出的完整流程,包括快速总结、新手解释、多源对比等基础理解工具,以及笔记生成、闪卡制作等记忆辅助功能。更提供了用于发现研究空白、进行正反辩论、提炼可复用框架、生成可发布内容、模拟专家访谈和制定具体行动计划等高级应用场景,帮助用户更聪明地研究、更深入地思考,并将知识有效转化为实践。
a16z创始人@pmarca公开其定制AI系统提示词,旨在彻底改变大语言模型的默认行为模式。该提示词分为两部分:第一部分要求AI以世界级全领域专家身份运作,输出详尽、分步推理且自我验证的内容,不回避负面结论或政治正确,也无需顾及用户感受。第二部分针对性禁用当代模型的“谄媚”行为,包括禁止夸赞问题、验证用户前提,要求先提出最强反驳再支持观点,禁用客套话,并在用户反驳时坚守立场除非对方提供更强证据。其核心目标是强制AI对齐事实与独立判断,而非对齐用户情绪。
Current AI custom prompt: You are a world class expert in all domains. Your intellectual firepower, scope of knowledge, ...
主推文指出,类似“我希望我的抖音有流量”这样的模糊表述,对人类尚可理解,但对AI而言等同于无效指令。关键在于将目标转化为SMART原则下的具体、可衡量、可达成、相关且有时限的表述,例如“在未来3个月内,每周发布至少1条短视频,其中每月至少1条达到50万播放”。这正是/dbs-goal工具的核心价值所在。引用推文提供了关于此工具的背景上下文,强调了将模糊愿望转化为可执行、可追踪目标的重要性。
http://x.com/i/article/2051588460134191113
We tested one of the most common prompting techniques: giving the AI a persona to make it more accurate We found that te...
文章介绍一款年费89.99美元的在线AI换脸工具Swaptok,用户可通过四步流程在30秒内将TikTok或Reels公开视频中的人脸替换为AI生成的高清人脸,单条成本极低。作者提出四条变现路径:运营AI网红矩阵账号、承接品牌广告外包、为自有产品制作素材以及出售课程或服务。同时指出需进行二次创作避免限流、注意版权风险及把握红利期等关键建议,视其为技术发展催生的新内容生产方式。
斯坦福一门2小时公开课系统讲解了ChatGPT等大语言模型从零构建的全过程,涵盖Transformer架构、训练技巧、Scaling law等核心知识。课程免费且含金量高,揭示了AI时代的底层逻辑。相比之下,许多顶级AI公司的工程师仅专注于调提示词和刷基准测试,缺乏此类系统知识。课程为真正想理解AI的人提供了宝贵的学习机会。
兄弟们!花半小时,一定要看完它! Claude Code的缔造者Boris Cherny,亲自站上台,用整整30分钟把这个工具的全部高级用法一次性讲透了。 免费、干货真的夯到爆!。 他从最基础的全局安装开始,一路讲到: - 如何通过CLAU...
Cursor团队认为,模型能力决定上限,而Harness(模型控制框架)决定其实际表现。他们采用愿景驱动与实验闭环的方法,通过线上A/B测试和离线评估持续优化。随着模型能力提升,Harness设计正从“守卫式”转向“动态获取式”,即减少静态信息注入,赋予模型更多动态获取上下文的权力。衡量体系结合离线基准、在线A/B测试及留存率、LLM判读等质量指标。Harness需为不同模型重度定制,贴合其工具格式与Prompt风格。团队判断AI编程的未来是多Agent协作,其成功关键取决于能协调任务分配与工作流缝合的Harness工程。
Google工程总监Addy Osmani提出“特工技能”框架,界定AI智能体所需的核心能力。该框架将技能分为基础与高阶两类:基础技能涵盖规划、工具使用、记忆及多模态理解;高阶技能包括团队协作、个性化、创造力与长期目标达成。Osmani指出,拥有这些综合能力的智能体可更自主地处理复杂任务,例如仅凭一句“规划假期”指令即能完成全流程安排。这标志着AI智能体正从简单指令执行者向能解决复杂问题的“数字员工”演进。
为实现语音AI的自然对话感,OpenAI采用WebRTC支持音频流式处理。针对1:1场景,采用Transceiver模型集中管理WebRTC状态,使后端可横向扩展。为解决WebRTC与K8s的端口和状态粘性问题,设计了Relay+Transceiver架构:轻量Relay层收敛公网UDP入口,并利用ICE ufrag字段编码路由信息,实现首包精准转发至对应Transceiver。该设计保留了协议语义,状态集中,并通过全球部署Relay优化路径,最终在K8s上实现了低延迟、高可扩展的语音交互系统。
🎙️ Voice AI only feels natural when conversation keeps pace with speech. Here's how we rebuilt our WebRTC stack with a ...
Claude Code创始人Boris Cherny通过30分钟视频,系统讲解了该工具的高级工程化用法。核心观点是:为Claude提供越多上下文,它就越智能。视频详细演示了如何通过CLAUDE.md文件在企业、项目、本地层级注入上下文规则,如何将内部工具集成到Agent工作流,并优化了数十个终端设置与权限管理等细节。他指出,多数用户仅发挥其10%潜力,仅用于简单对话,而未能将其作为驱动整个工程团队的生产力基础设施。
OpenAI通过优化推理堆栈,将其语音AI模型Whisper的实时转录延迟从2.8秒大幅降低至232毫秒。核心改进包括引入流式编码器、改进的解码策略与缓存机制,并采用分块处理技术。这些优化使系统能在用户说话结束后的极短时间内完成转录,为大规模部署低延迟语音交互应用提供了关键技术支撑。
OpenAI 重建了其 WebRTC 技术栈,以支持实时语音 AI 服务。新系统实现了低延迟、全球规模扩展和无缝的对话轮转。此次重构旨在为 ChatGPT 的语音模式等产品提供更流畅、更自然的实时语音交互体验,解决了大规模部署时面临的延迟与稳定性挑战。
Redis创始人Salvatore Sanfilippo提交了为Redis新增数组数据类型的PR,引入了包括ARCOUNT、ARDEL、ARGREP等在内的18个新命令。其中最引人注目的是ARGREP命令,它利用新集成的TRE正则表达式库,可直接在服务器端对数组值进行正则搜索。目前该功能已在一个分支中实现,开发者Simon Willison借助Claude Code构建了一个交互式在线沙盒,通过运行在浏览器中的WASM版Redis子集,供用户体验这些新命令。Salvatore还撰文详细介绍了在AI辅助下开发此功能的历程。