Visual-Seeker 是一种视觉原生多模态深度搜索智能体,通过主动视觉推理而非将视觉视为静态输入,动态收集细粒度视觉证据以完成多跳跨模态搜索。研究人员设计了主动视觉推理数据流水线,合成了 5K 高质量多模态轨迹用于模型训练。在五个具有挑战性的多模态搜索基准上,Visual-Seeker 达到最先进性能,甚至超越部分闭源模型。代码和数据集已开源。
Visual-Seeker 是一种视觉原生多模态深度搜索智能体,通过主动视觉推理而非将视觉视为静态输入,动态收集细粒度视觉证据以完成多跳跨模态搜索。研究人员设计了主动视觉推理数据流水线,合成了 5K 高质量多模态轨迹用于模型训练。在五个具有挑战性的多模态搜索基准上,Visual-Seeker 达到最先进性能,甚至超越部分闭源模型。代码和数据集已开源。
Oran Ge 让 Claude Fable 5 打磨文案三遍,发现改稿越来越讲究却缺“人味儿”。他与 AI 讨论后得出结论:人写的文字背后有“存在感”——作者在具体位置付出过具体代价,而 AI 无法复现。为此他制作了《人味儿写作心法.skill》,专用于自写文章或口述后让 AI 改稿的场景,旨在保留文字的人味。该技能已开源免费发布在 GitHub。
GitHub Copilot CLI 通过更好的编排实现了更少的任务交接和更快的进度,且没有新增任何配置选项。
交互式LLM智能体的用户偏好修正常被遗忘,Mem0记忆仍有57.5%相关偏好检查被违反。研究提出TRACE,一种即插即用的技能层管道,从用户聊天修正中挖掘原子规则并编译为运行时检查。在ClawArena上,分布内违规从100.0%降至37.6%,分布外从100.0%降至2.0%;在MemoryArena上,分布内从100.0%降至60.5%,任务通过率匹配或超越最强记忆基线。实验代码已开源。
MiniMax 提出块状稀疏注意力 MSA,基于 GQA 构建。轻量级 Index Branch 为每个 GQA 组独立选择 Top‑k KV 块,Main Branch 仅对选中块执行精确块稀疏注意力。在 109B 参数多模态模型上,MSA 与 GQA 性能持平,1M 上下文下每 token 注意力计算减少 28.4 倍。配合协同设计的 GPU 内核,H800 上实现 14.2 倍 prefill 和 7.6 倍 decoding 端到端加速。推理内核与基于 MSA 的多模态模型已公开发布。
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》邵猛分享 Spec 驱动开发(SDD)方法,用三个 Skills(/write-product-spec、/write-tech-spec、/validate-changes-match-specs)覆盖 Spec→Implement→Verify 闭环。规格分两层:PRODUCT.md(用户故事、不变量)和 TECH.md(架构、实现策略),均放在 specs/<issue>/ 目录,随 PR 提交。五步流程:写产品规格、写技术规格、Agent 按规格实现、一致性校验、计算机操作端到端验证。Skills 可移植,不绑定 Warp。开源仓库 warpdotdev/common-skills,安装:npx skills add warpdotdev/common-skills。
http://x.com/i/article/2065151123128721408
MVEB是一个包含23项任务的视频嵌入基准,涵盖分类、零样本分类、聚类、对分类、检索及视频问答。对33个模型的评估显示无单一模型主导:基于MLLM的嵌入在分类、聚类、对分类和问答上领先;多模态绑定方法在检索和零样本分类上领先;缺乏对比适应的生成式MLLM在跨模态任务上崩溃。对比纯视频与音视频评估表明,音频的贡献取决于数据标注来源:标签来自双模态时音频有帮助,仅来自视觉时则有害,差距达6个百分点且跨模型家族一致。MVEB衍生自184项任务的MVEB+池,在降低评估成本的同时保持任务多样性,并集成到MTEB生态系统中。代码和排行榜已开源。
FastContext 是一个将仓库探索与任务解决相分离的专用探索子智能体,由 4B–30B 参数的探索模型驱动,通过参考模型轨迹和任务奖励进行优化。集成 FastContext 的 Mini-SWE-Agent 在 SWE-bench Multilingual、SWE-bench Pro 和 SWE-QA 基准上端到端解决率提升最多 5.5%,同时编码智能体 token 消耗减少最多 60%,且边际开销很低。结果表明,仓库探索可与解决任务分离,并由专用模型高效处理。
ClinHallu是一个面向医疗多模态大语言模型(MLLM)的阶段性幻觉诊断基准。该基准包含7031个经过验证的实例,每个实例都带有结构化的推理追踪,分解为视觉识别、知识召回和推理整合三个阶段。通过阶段替换干预,可测量修正特定阶段对最终答案的影响。实验表明,追踪监督微调能减少阶段性的模型幻觉。ClinHallu为诊断和缓解医疗MLLM中的推理故障提供了细粒度的测试平台,并已公开提供。
一群AI研究员开源了量化金融知识处理框架QuantMind(MIT协议)。它能将arXiv论文、SEC文件、研报等非结构化内容批量解析为可查询的语义知识图谱,支持多模态解析(表格、公式、图表)及自然语言多跳推理,可替代初级分析师读论文、整理观点等工作。但真正的alpha仍取决于提问质量与验证严谨度。
http://x.com/i/article/2064536412670562304
GitHub 改进了密钥扫描的验证步骤,通过上下文感知的 LLM 推理大幅降低误报率,使警报更加可信且可操作。该方案在保持检测覆盖面的同时,显著减少了噪音干扰,提升了开发者的告警处理效率。
Claude Fable 5(Mythos 安全公开版)6月22日前对 Pro/Max/Team 订阅用户开放,之后转 API。作者用 100 美元/月的 Max 会员,让 Fable 5 开发了开源“鲁班 Skill”,专用于打磨其他 AI Skill。该 Skill 通过前提验证(真实问题、安装理由、唯一性)、并行搜索同类(GitHub/ClawHub/skills.sh 等)、横纵分析、Darwin 式 9 维度评分(权重最高的实测表现)、SkillOpt 式单方向改写等步骤,将作者已有的 ai-news-radar 项目升级至 v0.7。Fable 5 自动录制操作视频并剪辑,追加了热点模式和时间轴模式,改进了消息评分算法并公开回测工具。鲁班 Skill 已开源至 github.com/LearnPrompt/luban-skill,强调 Skill 本质是清晰提示语而非复杂脚本。
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克baoyu-design skill 更新,现已支持导入 Figma 本地文件(.fig),可在本地重建设计系统,效果与 Claude Design 在线版一致。该功能依赖 Claude Fable 5 辅助(Token 不够用)。安装后提供 Figma 文件路径即可导入为 Design System,后续新建设计项目可复用。同时支持在新建项目时添加已导入的 Design System,保留了 Claude Design 原始的导入和编译方式,用户可通过提问选择设计系统。安装命令:npx skills add JimLiu/baoyu-design。项目地址:https://github.com/jimliu/baoyu-design。
baoyu-design skill 现在支持导入 Design System,以及在新建项目时添加导入的 Design System 比我想的要麻烦的多:https://github.com/JimLiu/baoyu-design/pul...
同一事件,精选展示《baoyu-design skill 支持导入 Design System 并在新建项目中使用》小米 MiMo 发布并开源 MiMo Code V0.1,一款终端 AI 编程助手。它附带多模态模型 MiMo V2.5(限时免费),支持百万 token 上下文窗口。核心特性包括:无限上下文(无损压缩,百万行项目质量不降)、深度优化的 Agent 框架(测试/审查/验证闭环)、Compose 模式(规格→计划→构建→报告)、自动学习每轮会话经验的自我进化系统、MiMo-V2.5-ASR 语音输入、与 Claude Code 兼容(可复用现有 skills/MCP/API 配置)、MIT 许可,并支持 Anthropic、OpenAI、DeepSeek、Kimi、GLM 等模型提供商。一键安装(Mac/Linux 用 curl,Windows 用 npm install)。
GitHub Copilot CLI 现在可以通过安装和配置 LSP(Language Server Protocol)服务器来替代原始的暴力 grep 或反编译方式,从而获得真正的代码智能。
macOS容器机项目在GitHub上公开,获得102个Hacker News热度积分。该项目为macOS提供容器化运行环境,具体实现细节及功能尚未在本次发布中详细披露。
FORT-Searcher 提出抗捷径训练数据合成框架 FORT,识别证据共覆盖、单线索选择性、暴露常数和先验知识绑定四种捷径风险,在实体选择、证据图构建、问题生成和对抗性精炼环节控制。实验表明,FORT 生成的数据比现有开源深度搜索数据集诱导更长的搜索路径和更少的捷径模式。仅用监督微调(SFT)训练的 FORT-Searcher 在多个深度搜索基准上达到同类开源搜索智能体的最佳整体性能。资源即将开放。
开源免费的 token 压缩工具 headroom 本周增速最快,已获 17k star。它专为所有 AI API 调用(输出、日志、文件、RAG 块)设计,压缩 60%-95% 的 token,将账单直接砍到原来的 1/5,且回答质量不变。无需修改一行现有代码,可作为库、代理或 MCP 服务器无缝对接所有大模型。开发者无需再绞尽脑汁凑提示词,一行配置即可大幅降低 API 成本。
Kocoro是一款Mac原生AI智能体,旨在解决AI会话每天重启后遗忘上下文的痛点。它每晚在本地审查工作内容,通过TensorLogic在云端训练轻量记忆模型,次日自动恢复上次中断的会话状态,无需重复粘贴或解释。Kocoro能感知项目文件、追踪昨天的变更、打开浏览器、操作桌面应用、整理文件并跨多个应用执行任务。其内核已在GitHub开源,确保可审计和用户可控。用户可通过命令行(Shannon)或桌面应用运行。
GitHub Copilot CLI 新增自定义 AI 智能体功能,使 CLI 能够理解开发者的技术栈和团队工作流,将一次性终端提示转变为可重复、可审查的流程。
微软已封锁其在GitHub上的至少70个开源项目,原因是黑客在代码中植入窃取密码的恶意程序。受影响项目涉及Azure、Claude Code、Gemini命令行界面和VS Code等AI编程工具。安全机构Cloudsmith和开源社区OpenSourceMalware首先发现,用户运行篡改程序时会泄露密码及账号凭证。微软已下架相关仓库,部分恢复访问,并通知了少数下载过恶意内容的用户。这是近几周内微软开源项目第二次遭入侵,5月中旬Durable Task项目也曾被攻击。
Berry Xia 推荐开源工具 Tokei,这是一个 macOS 菜单栏小工具,只读本地日志、零网络调用,30 秒自动刷新,实时监控 Claude Code、Grok CLI、Aider、OpenCode 等 8 个主流 AI coding agent 的 token 用量、实时成本与性能数据,并附每日图表、周热力图和年度 Wrapped。支持私人 Git 多设备同步、价格表本地覆盖,闲置过久会提醒休息。引用推文指出,token 消耗情况可作为深度使用 AI 的面试亮点,数据全程私有,零侵入,无需任何认证。
快让我看看大家消耗了多少token🎉 我现在面试会问候选人的token 消耗情况,这个算是评判你深度使用AI的一个证明了 建议有刚需的朋友也保留一份,给自己简历也能增加一些亮点 当前发布的开源版本使用的是github 做的同步,全程数据都...
GitHub 122K⭐的Skills仓库推出新技能Teach,可将当前工作目录变为有状态学习空间。设计理念从Knowledge(概念事实)→Skills(动手操作)→Wisdom(真实判断)。工作区以文件即学习状态:MISSION.md定目标、lessons/提供课程、learning-records/记录已会内容、reference/生成速查手册。五个关键机制:Mission定方向、ZPD根据记录调整难度、Lesson一课一事+即时反馈、Learning Record记“会了什么”而非“讲了什么”、Reference形成长期可回看手册。可通过npx skills add mattpocock/skills --skill teach安装,适用于从魔方到软件基础等学习场景。
/teach is live Learn anything, from rubik's cube to vocal harmonies to software fundamentals. npx skills add mattpocock/...
Kimi Code 开源 coding agent 迎来重大升级:一行 CLI 命令安装、零配置、秒启动;支持拖拽视频作为编码上下文,可参考视频生成 .cube LUT 文件或把屏幕录像转成可运行代码;插件系统上线,可一键拉取股票、财报、学术论文;支持 ACP 协议,对接 JetBrains、Zed,并提供自定义 hooks 扩展工作流。配合 Kimi K2.6 模型使用,视频推理能力大幅增强。
Kimi Code, our open-source coding agent, just got a major upgrade! 🔹One-line CLI install, zero setup, fast startup 🔹Dr...
WebChallenger 围绕核心模块 PageMem(从 DOM 确定性构建的带摘要语义层次页面结构)设计三种机制:分而治之的观测管线(让智能体扫读摘要、仅提取任务相关区域细节)、轻量级网站探索与记忆系统(遍历一次网站即可复用页面与元素行为地图)、以及将多步交互压缩为单步智能体动作的工作流。使用未经微调的开源模型,在 WebArena 上达 56.3%、VisualWebArena 48.7%、Online-Mind2Web 51.0%、WorkArena 70.9%,接近前沿闭源系统但成本极低。代码已开源。
73个软件包被植入自复制窃密程序,一旦被AI智能体打开就会立即运行。这是数周内第二次发现微软相关软件包被伪装成凭据窃取器。
邵猛批评 X Article 编辑器难用、不支持 Markdown 格式,并用 Codex 创建了一个 Skill「md-to-x-article-skill」,可将 Markdown 自动转换为 X Article 展示格式。该工具已开源在 GitHub(shaom/md-to-x-article-skill),用户可 Fork 后按需微调。
小互(@xiaohu)开源视频翻译工具(xiaohu-video-translate),只需说一句“把链接翻译成中文字幕视频”即可全自动完成下载、Whisper本地转写、AI翻译润色、烧字幕、出文稿。转写本地运行,不花API费。支持YouTube、Bilibili、抖音等链接及本地文件,英语、日语、韩语、法语、西班牙语等均可转成中文字幕。字幕精确到词级时间戳,按语义断句,每行不超过12字,双语模式下中文大英文小。提供纯中文与中英双语模式。工具由三个子技能组成,可单独或串联使用,适配Claude Code、Codex、OpenClaw等AI编程工具。已开源,附安装指南。
邵猛关注 Design Skill、Taste Skill、Anti-AI-slop design skill,并开源 Brand to DESIGN.md Skill(GitHub: shaom/brand-to-design-md-skill),让 Agent 学习设计品味后复刻网站。但他指出,这种复刻看多了反而从 Anti-AI-slop 衍生新“AI Slop”,缺少设计精髓,仅皮毛相仿。
麻省理工新研究追踪超10万GitHub开发者使用三代AI编码工具(自动补全、交互式agent、自主agent)的生产漏斗。自主AI agent使代码提交数提升180%,但实际发布仅增30%。代码量激增近300%,经人工审核后收益降至150%,最终发布仅增约30%。研究估算替代弹性为0.25,即AI能力大幅提升时仅能替代少量人类工作。应用市场同样显示新应用数量增加,但总使用量未升。瓶颈在于人类仍需负责审查、测试、打包和发布等环节,AI加速的局部任务并未转化为同等产出增长。
FT publisehd a piece. AI is raising software supply faster than demand. AI is producing far more work inside companies, ...
Lathe(车床)是一个基于大型语言模型(LLMs)的工具,核心理念是使用LLMs帮助用户逐步学习一个陌生领域,而非直接替代学习过程。项目托管在 GitHub 上。
宝玉分享开发模式:先用 Claude Design 设计 App UI/UX,生成 HTML+CSS+React+data.js(优于 Figma,利于 AI 理解和 Git 版本管理);再用 Claude Opus 4.8 实现 MVP(GPT 5.5 在 UI 实现上差距明显)。因反复在本地与网页间导出替换设计稿繁琐,他编写工具解析 HAR 文件、解密 Claude Design 二进制内容,分析其 Prompt 和内置组件,将核心逻辑本地化集成到 Cursor(利用网页标记功能),配合 Opus 4.8 即可本地运行。最终开源 GitHub 项目“baoyu-design”。
最近为了研究 Claude Design,专门写了一个工具,可以解析 HAR 文件,解密 Claude Design 传输的二进制内容,这样可以方便的看到请求的 Prompt
BestBlogs 整理了对外交流和发布入口,包括微信交流群、微信公众号、飞书群、小宇宙(中英文版)、Apple Podcasts、公开仓库(GitHub)、作者博客以及 Gino 和小光的推特。适合对 RSS、AI 阅读、Agent 工作流、高质量信息源和个人内容管理感兴趣的用户关注,可获取产品动态、订阅源、技术架构和独立开发思考等内容。
http://x.com/i/article/2063420344678158336
WaveDiT是一种在3D Haar小波系数空间中的条件流匹配框架,结合分解时空注意力与基于高阶小波统计的带异方差不确定性建模。预测对数方差融入流目标和条件路径,适应解剖细节的输入相关方差结构。该方法在单个GPU上实现全分辨率3D合成。多中心评估显示,相比扩散、潜在和小波基线,生成与真实MRI分布对齐更优,下游脑年龄预测和区域解剖一致性均有提升。代码已开源。
开发者 @dotey 提交的 PR 已被合并,Hermes Desktop(Hermes Agent Desktop)将在下个版本支持多语言。该 PR 将硬编码文字替换为多语言支持,并把语言选择改为可检索的 Dropdown List,解决语言数量多时无法一屏显示的问题。为测试语言支持,加上了完整繁体中文和日文。翻译借助 Web 版和 AI 辅助,可能存在错误,鼓励用户自行提交 PR 修正。
感谢 @Teknium 合并了 PR,现在 Hermes Agent Desktop 支持中文了,还不够完整,会继续贡献 PR,以及修复一些因此带来的错误。
GitHub 发布开源工具包 Spec Kit,旨在解决 "vibe coding" 的最大弱点——AI 常在规则未明确时就开始编码。它把流程从 "让 AI 直接构建" 改为 "先写产品规范,再让 AI 根据规范实现"。当前 AI 编码模式常因松散提示直接跳入代码,导致需求薄弱、边界遗漏和反复返工。Spec Kit 推动反向流程:先定义产品功能,再澄清差距、制订技术计划、分解任务,最后让 agent 执行。规范成为可执行的开发合约,支持 Copilot、Claude Code、Codex、Gemini、Cursor、Qwen 等 30+ agent 集成。项目已获 109K+ 星标。
OpenCut 是一个 GitHub 5 万星的开源 AI 剪辑工具,主打本地优先,视频无需上传服务器,永久免费、无水印、无会员墙。目前处于 Early Beta 阶段,网页版支持基础剪辑(导入视频、时间线、切割),但导出、特效、转场等功能仍在开发。路线图包括 Rust 重写核心、Web+桌面+移动统一、插件系统、Editor API 及 MCP Server(让 AI Agent 直接调用工具),目标是成为可编程的视频底座,而非对标剪映的封闭工具。
http://x.com/i/article/2060717603987791878
Kimi Code CLI 是 Moonshot AI 推出的开源终端 AI 编码智能体,使用 TypeScript 构建,内置子智能体(subagents)与 MCP 配置支持。