Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomou...
商汤 SenseTime 展示 SenseNova U1 的文图交错生成能力,通过定制香水逐步演示,证明模型不仅能识别图像,还能以图像为思考单元输出生动视觉内容。相关示例、Gallery、HuggingFace 模型、GitHub 代码及 Discord 社区链接已同步开放。
剪映翻译效果不佳,作者尝试自建了一个本地视频剪辑应用,主要功能为视频翻译和字幕。近日测试了根据文档自动生成口播视频的功能,并输出了一段吉卜力动漫风格的视频。作者表示后续将迭代增加动画效果,可用于微信视频号内容创作。
OpenRouter 的 Agent SDK 新增人类参与循环(HITL)工具,用于 AI 智能体的合规监督。该工具可帮助 AI 智能体满足欧盟 AI 法案、科罗拉多州自动化决策技术法(SB26-189)以及 NIST AI 风险框架(NIST AI RMF)的监管要求。
同一事件,精选展示《OpenRouter Agent SDK 发布 `create-agent-tui` 与 `create-headless-agent` 技能,可快速搭建个性化编码智能体》Pakistan Notice Helper 是一款安全工具,帮助巴基斯坦用户在点击链接、拨打电话、分享 OTP 或支付前识别可疑消息。它接受文本或截图输入,返回风险等级、简短解释、可见警示标志和安全下一步建议。工具支持英文和乌尔都语,乌尔都模式采用从右向左布局并全界面翻译。最终部署选用 Qwen3.5 4B Q8 模型(通过 llama.cpp + CUDA),在 10 个测试用例中通过了所有高风险诈骗和截图场景。此前曾测试 Qwen3.6 27B(质量高但成本高)和 MiniCPM-V 4.6 Q8(速度慢且不稳定),最终选择了精度、速度和成本平衡的 4B 模型。项目受限于 hackathon 的 32B 模型上限规则。
通义实验室教程演示了如何用 Agent(Qoder)辅助完成 Qwen3-VL-2B 模型在 Android 端侧的全流程部署。操作包括:检查 JDK 21、NDK 27、CMake 3.18.1 等环境;创建 arm64-v8a 的 Native C++ 工程(minSdk 29、compileSdk 35);通过 ModelScope CLI 下载约 1.4GB 的 MNN/Qwen3-VL-2B-Instruct-MNN 模型;编译开启 LLM 视觉支持(MNN_BUILD_LLM、LLM_SUPPORT_VISION)的 libMNN.so;构建 APK 并推送模型至手机私有目录。最终 App 提供图文推理页面,输出 MNN 版本(v3.5.0)、ABI 及推理指标。所有繁琐步骤均可由 Agent 自动执行。
同一事件,精选展示《Agent辅助开发:通义实验室教程打通Qwen3-VL Android端侧推理》通义实验室第二期教程展示如何利用Agent(如Qoder)自动完成Android端侧AI App开发全流程。Agent依次执行:检查并配置Android环境(JDK 21、NDK 27等)、创建Native C++工程PhotoTaggerMNN、下载约1.4GB的Qwen3-VL-2B-Instruct-MNN模型、编译支持视觉能力的libMNN.so、将MNN接入工程、构建APK、推送模型至手机私有目录,最终确认MNN版本3.5.0及模型文件全部ok。核心思路是开发者定义业务目标,Agent负责环境检查、代码编写、编译构建与排错。
藏师傅的社交媒体卡片 Skill 即将迎来重大升级,新增对小红书 Live Photo 的支持。该功能可帮助用户制作带文字排版的动态 Live Photo,使发布动态内容时仍能以图文形式呈现,无需制作完整视频。具体细节尚未公布,但用户可期待更便捷的社交媒体内容创作体验。
http://x.com/i/article/2059811469081141248
藏师傅的社交媒体卡片 Skill,即将迎来一个非常重磅的升级。 可以帮大家解决小红书 Live Photo 的制作问题,同时会帮你制作动态的带文字排版的 Live Photo 这样你可以在发布一些必须的动态内容的时候,依然以图文的形式发布,...
http://x.com/i/article/2063237792746831872
一篇关于用 Python 构建最简单人工神经网络——感知器(Perceptron)的文章在 Hacker News 上获得 108 个用户点赞。
Boris Cherny 给出五条让 Claude Opus 自主运行数小时/天的建议:1. 开启 Auto Mode 减少审批;2. 用 Dynamic Workflows 编排数百至数千子 Agent;3. 使用 /goal 或 /loop 指令持续推进;4. 优先用云端 Claude Code,可关闭笔记本;5. 确保端到端自验证能力。邵猛补充:自动权限是前提;/goal、/loop 适合高难度任务但 token 消耗高;需解决本地关机/休眠;端到端验证最重要,否则 token 可能白费。
Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomou...
多项基准显示 Claude Opus 是长时间运行工作的最佳模型。SWE-Marathon 基准评估编码智能体在 10 亿 token 预算下自主完成长期软件任务(如重写 JAX 代码为 PyTorch、用 Rust 构建 C 编译器)。Opus 在此类任务上领先。Boris Cherny 给出 5 个技巧:使用自动权限模式避免审批;用动态工作流协调数百/数千个智能体;用 /goal 或 /loop 推动持续执行;在云端使用 Claude Code(桌面/移动端)以便关闭笔记本;确保 Claude 能端到端自验证——Chrome 扩展验证网页、iOS/Android 模拟 MCP、启动完整后端服务。
Can coding agents stay coherent over a 1 billion token budget? Can they build Slack from scratch? Rewrite a JAX codebase...
performance.dev 上发布的一篇技术解析文章,探讨项目管理工具 Linear 实现快速性能的原理,在 Hacker News 上获得 111 个点赞。
OpenAI just published dozens of real-world workflows showing how teams are using it to automate work. > Manage your inbo...
宝玉分享开发模式:先用 Claude Design 设计 App UI/UX,生成 HTML+CSS+React+data.js(优于 Figma,利于 AI 理解和 Git 版本管理);再用 Claude Opus 4.8 实现 MVP(GPT 5.5 在 UI 实现上差距明显)。因反复在本地与网页间导出替换设计稿繁琐,他编写工具解析 HAR 文件、解密 Claude Design 二进制内容,分析其 Prompt 和内置组件,将核心逻辑本地化集成到 Cursor(利用网页标记功能),配合 Opus 4.8 即可本地运行。最终开源 GitHub 项目“baoyu-design”。
最近为了研究 Claude Design,专门写了一个工具,可以解析 HAR 文件,解密 Claude Design 传输的二进制内容,这样可以方便的看到请求的 Prompt
本教程展示如何利用GEPA这一反思性提示进化框架,改善小型语言模型在多步算术应用题上的表现。从弱种子提示出发,构建确定性基准并定义能返回可操作反馈的结构化评估器。多组件设置同时进化指令字段与输出格式规则,最后在保留验证集上对比基线提示与优化提示,检验优化效果是否泛化。
文章盘点四大渠道:① OpenAI Codex for OSS,开源项目维护者可免费获6个月ChatGPT Pro(价值$1200)及API credits;② Anything AI,新用户通过促销链接注册可得2万credits,需重复点击触发bonus;③ Lenny's Product Pass,付费订阅其年度Newsletter($200-400)可兑换总价值$30000+的AI工具一年会员,先到先得且要求新用户;④ 三大云startup credits,微软Founders Hub最低$1K-$5K(无VC要求),谷歌AI-first创业最高$350K但要求严,AWS可叠加(自筹$1K+YC等)。每个口子均有门槛限制。
推文介绍一套内容整理范式:将推文、文章等拆解为知识原子(问题、概念、观点、案例),而非单纯归类文件。通过严格结构的纯文本Markdown作为“运行时”,让AI Agent按既定方法论检索、重组内容,使过往积累从死库存变为可反复调用的资产库。核心纪律:先审计再建工程,结构先于规模,避免全量乱跑(仅X推文就一万两千条)。这标志着内容创作者的护城河从写作能力转向内容资产的工程化可调用能力。
http://x.com/i/article/2061721924875825152
日本北海道农民富安弘毅用 ChatGPT 和 Codex 解决农场实际问题,涵盖 8 个用法:拍照识别西兰花病害、卫星监测获取 NDVI 数据、用 ESP32 和 LINE 机器人远程控制温室卷帘、为农场群聊开发机器人管理温度与排期、从聊天记录追踪播种数量、学习 RTK-GPS 自动转向原理并评估自建成本、设计基于 Airtable 的农场管理数据库。他说 AI 让传统昂贵的自动化变得低成本可及,“如同身边有一位超级工程师”。
素人作者刘梓渝的AI视频《丧尸清道夫》爆火,使其进入顶级资源圈。AI视频发展历经三阶段:图生视频(Runway 2023年2月、Sora 2024年2月);首尾帧生视频(Kling 2024年7月、即梦AI 2024年9月);多模态全能参考生视频(可灵率先发布,字节即梦Seedance 2.0于2026年2月12日上线,人物/产品一致性高且自带运镜)。刘梓渝公开创作思路:核心是将导演思维、镜头语言和后期剪辑嵌入AI工作流,而非依赖抽卡运气。
全网爆火的《丧尸清道夫》作者刘梓渝公开了自己的视频创作思路,内容非常干,值得所有AI短视频创作者逐帧学习! 先说结论,跟抽卡运气没太大关系, 核心是把自己的导演思维、镜头语言和后期剪辑, 完整嵌进了AI工作流。 具体视频内容和我做的总结:⬇...
NVIDIA garak 教程演示了端到端的防御性 LLM 红队工作流,包括框架设置、插件发现、模拟运行、在 Hugging Face 生成器上对真实模型进行扫描以及多探针评估。流程随后分析安全评分与攻击成功率,审查被标记的输出,并通过自定义探针和检测器扩展 garak 功能,最后以 AVID 格式导出结构化漏洞报告。
宝玉对比了GPT-5.5与Opus 4.8的设计能力,认为Opus 4.8效果远优于GPT-5.5。他使用了基于Cursor浏览器和元素标注的baoyu-design Skill,该Skill通过npx skills add JimLiu/baoyu-design安装,可在本地运行:描述屏幕需求即可生成精良HTML,点击预览中任意元素即可发出修改指令。官方推荐搭配Opus 4.8以获得最佳效果。工具GitHub仓库:https://github.com/JimLiu/baoyu-design。
Cursor's new browser + element annotation turns it into a design studio. Meet Cursor Design 🎨 - Claude Design, running ...
关联讨论 1 条X:宝玉 (@dotey)Harness 工程在智能体优先的世界中利用 OpenAI Codex 的实践文章,6月6日发布于 openai.com,在 Hacker News 上获得 102 点热度。
With Design Mode, you can now point, draw, or talk to update your UI.
With Design Mode, you can now point, draw, or talk to update your UI.
Claude Design 分享了8条产品设计核心原则:原型若无人点击只是一幅画;最好的设计系统让人察觉不到;糟糕字体搭配一旦看到就无法忽视;每个像素都在争夺注意力,但大多数应让步;最快完成设计的方式是发布上线;留白如同乐谱音符间的静默;超过三种颜色意味着对色彩失控;用户心理模型才是唯一真正重要的产品规范。这些简洁而深刻的准则适用于所有创作者和构建者。
Claude Design 的小贴士很有意思: ### 第一部分:产品设计心法 1. 交互的本质 - EN: A prototype nobody clicks is just a painting. - CN: 没人点击交互的产品原型,充...
BestBlogs 发布第二波订阅源整理,包含176个源(57个小宇宙播客、119个YouTube频道),覆盖人工智能、软件编程、商业科技等8个分类。人工智能类共43个,按高、中、普通三级优先级推荐,核心源包括李宏毅AI教学、OpenAI/Anthropic官方频道、十字路口Crossing播客等。BestBlogs对每集进行质量评分,并提供OPML文件便于批量订阅。
洪明分享了BestBlogs整理的播客和视频订阅源,包含57个小宇宙播客和119个YouTube频道,覆盖AI、编程、商业科技、投资财经、产品设计、效率成长、媒体资讯、生活文化等方向。所有源已整理成文章并开放OPML,支持一键导入RSS阅读器,也可接入Agent或自动化内容工作流。BestBlogs的“我的关注”功能可帮助用户筛选、排序、摘要和评分音视频内容,生成个性化早报。
http://x.com/i/article/2063420344678158336
Thousand Token Wood v2使用四个不同实验室的小模型(gpt-oss-20b、MiniCPM3-4B、Nemotron-Mini-4B及微调Qwen 0.5B)驱动金融模拟游戏的智能体。核心发现是异构服务层摩擦在于vLLM 0.22.1需CUDA工具包,而非模型本身。通过容忍性JSON解析层,添加模型只需一条配置。信息隔离确保内幕标志不在提示词中,扫描测试验证无泄露。记忆用情绪摘要截断避免淹没。微调0.5B模型实现0%自成交、100%有效报价,真相防火墙零泄露。小模型是可靠格式生成器但不可靠推理器,可通过结构化、提示词和微调弥补。
一名前日本公务员(不会种地)在北海道用AI管理100公顷农场。他借助ChatGPT和Codex自行编写代码,构建全自动农场系统:ESP32+LINE机器人远程控制温室通风/卷帘电机;温度监测+自动通风机器人;Airtable农场数据库(田地、任务、传感器、材料);卫星NDVI作物健康地图叠加在田地上;AI生成布线图。展示了普通人用AI解决实际问题的正确方式。
http://x.com/i/article/2063237792746831872
Start with an image of a building and prompt for a projection mapping with Omni.