GeoStack是一个模块化框架,旨在解决视觉语言模型中多领域知识组合导致的灾难性遗忘问题。该框架允许将独立训练的领域专家模型组合成一个统一模型,通过对适配器流形施加几何与结构约束,确保基础模型的原有知识得以保留。研究从数学上证明了其权重折叠特性,使得无论集成多少专家模型,推理复杂度均保持恒定。在多领域适应和类增量学习任务上的实验表明,GeoStack能有效实现长期知识组合,并显著缓解灾难性遗忘。相关代码已开源。
GeoStack是一个模块化框架,旨在解决视觉语言模型中多领域知识组合导致的灾难性遗忘问题。该框架允许将独立训练的领域专家模型组合成一个统一模型,通过对适配器流形施加几何与结构约束,确保基础模型的原有知识得以保留。研究从数学上证明了其权重折叠特性,使得无论集成多少专家模型,推理复杂度均保持恒定。在多领域适应和类增量学习任务上的实验表明,GeoStack能有效实现长期知识组合,并显著缓解灾难性遗忘。相关代码已开源。
近年来,视频编辑在自然语言指令引导下发展迅速,但背景替换任务因需合成全新、时间一致场景并保持前景-背景交互,面临高质量数据匮乏的挑战,导致现有模型生成静态、不自然背景。为此,研究团队设计可扩展数据生成流程,以解耦方式分别生成前景与背景引导,并实施严格质量过滤,构建了Sparkle数据集(包含约14万视频对,覆盖五种常见背景更换主题)及迄今最大的专项评估基准Sparkle-Bench。实验表明,基于该数据训练的模型在OpenVE-Bench和Sparkle-Bench上均显著优于现有基线。数据集、基准与模型已全部开源。
atomic.chat通过为LLaMA.cpp引入多令牌预测技术,大幅提升了本地大型语言模型的推理效率。该技术利用小型辅助模型预先生成后续令牌草案,由主模型进行验证。在MacBook Pro M5 Max上测试时,使Gemma 4 26B模型的令牌生成速度加快约40%,整体运行速度提升1.5倍。这项优化进一步巩固了LLaMA.cpp和GGUF格式在本地AI生态中的核心地位,为桌面应用、编程助手和私有设备助手等场景提供了更高效的部署方案。
Multi-Token Prediction (MTP) for LLaMA.cpp! Running Gemma4 local model 1.5x faster. We patched LLaMA.cpp. Quantized Gemm...
指令跟随是大语言模型的基本能力,但持续提升面临挑战。现有方法依赖昂贵的外部监督或静态指令自训练。为此,研究团队提出SEIF框架,通过自进化循环提升指令跟随能力。SEIF包含四个角色:生成难度递增指令的Instructor、过滤低质量指令的Filter、学习跟随指令的Follower,以及提供强化学习奖励信号的Judger。Instructor与Follower交替训练、协同进化,使指令难度与模型能力相互促进。实验显示,SEIF在不同规模和架构的模型上均能稳定提升性能。分析发现,有效训练策略是在早期充分训练以打下基础,后期适度训练以避免过拟合。相关代码与数据已开源。
SuperSplat项目将3D Gaussian Splatting技术转化为大众可用的创作与分发平台。其核心功能是允许创作者一键开启文件下载,观众可直接获取Gaussian splat文件。平台支持附加多种CC 4.0许可证并自动生成署名,个人页面可集成社交链接,成为3D作品集。下载的文件能直接导入PlayCanvas引擎快速创建交互体验。该项目免费开源,旨在降低技术门槛,推动3DGS从实验室走向普通创作者的实际应用。
Simon Willison 为配合其“氛围编码”macOS演示工具,快速开发了一个名为“Big Words”的网页工具。该工具通过URL参数(如文本、渐变、大小)动态生成可自定义的幻灯片页面,解决了演示工具仅能嵌入URL内容的需求。用户可双击页面访问设置表单,自由调整文本内容、颜色、背景(支持纯色或渐变)、字体、字重、大小等多种视觉选项。所有设置均可生成一个特定的URL以便保存和分享,从而快速创建用于演示的文本幻灯片。
DeepSeek 4 Flash 本地推理引擎正式发布,这是一个专为苹果 Metal 框架优化的开源项目。它允许开发者在配备 Apple Silicon 芯片的 Mac 上高效运行 DeepSeek 4 模型,实现本地离线推理。引擎通过 Metal Performance Shaders 显著提升了计算性能,降低了延迟与内存占用。该项目已在 GitHub 开源,并在 Hacker News 上获得了关注。
和 @vista8 讨论了下,决定将我们的新书《AI营销:从SEO到GEO》里配套的25个AI营销与GEO相关的提示词,也开源到GitHub 另外补充了部分短视频和文案相关的提示词,欢迎下载使用或重新拉取 1、提示词合集地址: https:...
SenseNova-U1开源了一项8步蒸馏LoRA技术,将扩散模型的生成步骤从100步压缩至8步,使GPU推理时间从23秒大幅缩短至2秒,速度提升达11倍。该技术同时完整支持ComfyUI,并提供了文本生图、图像编辑和交错生成等开箱即用的工作流程。此举标志着扩散模型从研究阶段迈向实用化,引发了业界关于未来应聚焦参数规模竞赛还是追求速度与实用性的讨论。
🚀SenseNova-U1 Update🚀 ⚡Open-source an 8-step distilled LoRA: 100 NFE → 8 NFE, cutting GPU inference from 23s to 2s 🧩C...
开源一套我的提示词合集 前几天,收到一位微信好友反馈,说使用了我不少公开的提示词,效果很不错 这一年来,公开分享了不少提示词,一直沉淀在飞书文档 为了方便大家更好的下载和迭代,今天抽空,把公开的提示词整理了下,通过GitHub开源给大家 目...
刚刚刷到Hugging Face上这个gpt-oss-20b-tq3,真的有点爽啊! OpenAI自己开源的20B参数MoE模型,被社区用TurboQuant 3-bit量化 + MLX优化后,竟然能直接在普通MacBook上本地丝滑跑起来。 完全不用联网、不用交月费,还支持131K超长上下文。 日常聊天、写作、写代码这些日常需求,现在都能在自己笔记本上搞定。 非常适合公司的一些部门使用啊! 以前本地跑大模型还得配高端显卡,现在一台M系列Mac就够了。 模型直达👉 https://huggingface.co/manjunathshiva/gpt-oss-20b-tq3
A new GPT model just dropped for Apple Silicon. The gpt-oss-20b-tq3 is a 20B parameter MoE text generator, optimized wit...
开源项目 Open Slide 基于 React 框架构建 PPT,其工作流专为 AI Agent 设计。它利用丰富的 React 组件库实现更强扩展性,便于集成各类图表。核心功能包括可视化编辑器支持手动修改,以及 AI 能直接读取用户评论并协同修改内容。项目还集成了包含 1500+ 品牌 Logo 的 SVGL 库,方便技术演示,旨在提升 PPT 制作的效率与自动化程度。
针对基于大语言模型的多智能体系统因交互轨迹长而难以定位错误的问题,研究者提出一个基于保形预测的误差归因框架。该框架提供有限样本且与分布无关的覆盖保证,并引入了专为序列数据设计的新算法,能预测出连续的序列集合以支持高效的系统回滚与调试。方法具有模型无关性,经多种智能体和数据集验证,可精确隔离错误并利用预测集使多智能体系统回滚至早期状态以自行修正错误。相关代码已开源。
现代传感器生成丰富数据,但可穿戴或遥感设备受带宽和功耗限制。标准编解码器如JPEG为人类感知设计,不适用于机器任务和非传统模态;通用压缩方案未利用信号冗余,性能次优;生成神经编解码器参数多、数据需求大且模态特定,难以实用。为此,研究团队提出LiVeAction,一种轻量级、通用且非对称神经编解码器架构。其关键创新包括:采用类似FFT结构并缩减神经网络分析变换的规模和深度,以降低编码器复杂度;使用基于方差的码率惩罚替代对抗性和感知损失,以支持任意信号模态并简化训练。相比最先进生成分词器,LiVeAction在码率-失真性能上更优,且可实际部署于低功耗传感器。相关代码、实验和Python库已开源。
开源测试套件iFixAi通过模拟真实产品场景的测试夹具,为AI代理在部署前提供可重复、标准化的可靠性评估。它在五大风险类别下运行32项检查,评估模型是否捏造事实、遵循不安全指令、无故更改答案、隐藏不确定性或在措辞微调时行为不一致。其核心价值在于可重复性,能完整保存模型、提示词、评判标准和输入,确保不同工程师可复现相同结果。该工具主要目标并非证明AI绝对安全,而是用于捕捉性能退化、公平比较不同供应商模型,并为合规团队提供基于证据的客观报告。
http://x.com/i/article/2052027135619919876
Every product team has a 30-line file in their codebase called pick_model.py. Nine if/else branches. Three retry decorat...
OpenAI 联合 AMD、博通、英特尔、微软和英伟达,通过 OCP 开源了新型网络协议 MRC。该协议旨在解决大规模 AI 训练集群中因网络延迟或故障导致的 GPU 闲置问题。MRC 将数据包拆分并通过数百条路径并行传输,实现微秒级故障绕行,无需交换机重算路由。这简化了网络架构,将连接十几万 GPU 所需的交换机层级从 3-4 层减至 2 层,降低了功耗、成本和故障点。该协议已部署于 OpenAI 最大的 GB200 超算,并成功用于训练多个模型,显著提升了训练任务的鲁棒性。
We've partnered with @AMD, @Broadcom, @Intel, @Microsoft, and @NVIDIA, to release Multipath Reliable Connection (MRC), a...
让你搭一个多 agent 团队,每个 agent 有自己的性格和技能,随便哪个设备都能用。 自托管的多 agent 协作平台,跑在 Cloudflare Durable Objects 上。每个 agent 有自己的性格、技能、工具和工作区...
这个项目能让Gemma 4 推理提速到6倍 比谷歌的3倍还快,而且不损失质量 https://github.com/z-lab/dflash
Warp 团队将其内部用于大幅提升工作流效率的“Skills”工具集完全开源。用户通过一条命令 npx skills add warpdotdev/oz-skills 即可安装包含 SEO 与无障碍审计、文档自动写作、Terraform/DevOps 配置、GitHub Issue 处理等在内的15个高质量生产级技能。团队此举旨在将其实用工具开放给整个社区,而非私有化,体现了开放精神。项目 GitHub 仓库已开放,并鼓励社区贡献。
The Warp team uses a lot of Skills to speed up our workflow, so we open-sourced them. > npx skills add warpdotdev/oz-ski...
Petdex是一个专为Codex设计的宠物商店项目,允许用户更换终端小宠物。用户可预览、下载和提交各种动态宠物,通过命令行工具如'npx petdex install <宠物名>'快速安装。在Codex中,可通过Settings → Appearance → Pets界面选择宠物,或使用/pet命令唤出或收起宠物,实现个性化终端体验。
NVIDIA通过OCP开源了MRC协议,这是一种专为大规模AI训练集群设计的新型RDMA传输协议。其核心创新在于将单一连接分散到多条网络路径上,当某条路径出现故障或拥塞时,能在微秒级时间内通过硬件重路由流量,以解决前沿AI训练中日益严峻的网络瓶颈问题。该协议已应用于OpenAI的Blackwell集群,微软和Oracle也是其主要部署方。NVIDIA此举在表面推动更开放标准的同时,优先为自家Spectrum-X平台优化,实则强化了其全栈竞争优势,并将以太网技术推向传统上由InfiniBand主导的高性能计算领域。
Mininglamp-AI开源了两个核心项目,旨在将Mac打造为本地AI工作站。Cider是一个端侧推理加速框架,通过更充分利用M系列芯片的INT8 TensorOps,显著提升LLM/VLM等模型在Mac上的运行速度并降低内存占用。Mano-P则是一个端侧GUI-VLA Agent模型,采用纯视觉方式理解屏幕,能在本地操作各类桌面软件、网页、专业工具及复杂图形化工作流,实现自动化任务执行与数据整合。两者结合,为私有AI提供了高效的本地基础设施。
BREAKING: MiMo-V2.5 by @Xiaomi is #6 overall out of open weight models on Design Arena! This has an Elo of 1297 and is i...
Hugging Face 的 Open ASR Leaderboard 加入了来自 Appen Inc. 和 DataoceanAI 的高质量私有英语 ASR 数据集,涵盖多种口音及脚本式/会话式语音,总时长约 28.7 小时。数据集保持私有以降低 benchmaxxing(针对基准的过度优化)或测试集污染风险。默认平均 WER 仍基于公开数据集计算,用户可通过切换查看私有数据集影响。标准化采用基于 Whisper 的标准化器,UI 代码和评估脚本已开源。自 2023 年 9 月上线以来,该榜单访问量已超过 71 万次。
写教程时,经常需要拼接多张图,如果打开Figma处理就很笨重。 跟AI讨论,它推荐了一个HTML5 Canvas库。 打算把它整合到Markdown编辑器,拼好图再插入文章中。 Github项目见评论区
作者在撰写教程时,常需拼接多张图片,但使用Figma等工具较为笨重。在与AI讨论后,其推荐了一个HTML5 Canvas库来解决此问题。作者计划将该库整合到Markdown编辑器中,以便直接在编辑环境内完成图片拼接,再将结果插入文章,从而简化工作流程。相关Github项目链接可在评论区查看。
Warp团队在开源终端和文档工具后,进一步开源了内部使用的15个“Oz Skills”工作流加速工具集。这些工具覆盖五大领域:Git/GitHub协作(如自动创建PR、修复CI问题)、数据分析与标准化、Web质量审计(性能、无障碍访问、SEO/AEO)、基础设施规范(如Terraform风格检查)以及通用生产力(如文档更新、本地定时提醒)。团队强调其设计哲学是构建“工作流工具”而非简单API覆盖,并提供了便捷安装命令,旨在将提升内部效率的实践分享给开源社区。
The Warp team uses a lot of Skills to speed up our workflow, so we open-sourced them. > npx skills add warpdotdev/oz-ski...
Datasette 新插件 datasette-referrer-policy 0.1 发布,旨在解决 global-power-plants 演示中 OpenStreetMap 地图瓦片无法显示的问题。问题由两个原因导致:一是站点此前添加的 CAPTCHA 错误拦截了地图插件发起的 .json 请求,该问题已修复;二是 OpenStreetMap 会屏蔽使用了 Referrer-Policy: no-referrer 头部的站点请求。此插件允许用户将 Datasette 默认的此头部策略更改为其他值,从而确保地图正常加载,同时不影响默认安全设置。插件的开发过程得到了 Codex 与 GPT-5.5 的辅助。
OpenAI对其Agents SDK进行重大升级,旨在为构建长时运行Agent提供更强的执行控制能力。核心在于将控制权交给开发者,打破黑盒状态。新功能包括:在受控沙箱环境中运行Agent,支持多家云服务商;允许完全检查和自定义开源harness;以及精准控制记忆的创建时机与存储位置。所有文件、凭证和执行状态均保留在开发者自有环境中,模型仅能访问经批准的上下文。此举解决了Agent易“失控”或“失忆”的问题,显著降低了工程化门槛,推动其从演示原型迈向生产级基础设施。
Build long-running agents with more control over agent execution. New capabilities in the Agents SDK: • Run agents in co...
RaguTeam团队在SemEval-2026任务8的B任务(基于参考段落生成)中获胜。其方法采用一个包含七个大型语言模型的异构集成系统,结合两种提示变体,并由GPT-4o-mini作为评判者为每个实例选择最佳响应。该系统在26支队伍中排名第一,以0.7827的条件调和平均值显著优于最强基线模型。消融实验证明,模型家族、规模和提示策略的多样性对集成效果至关重要。团队还发布了领域适应的7B模型Meno-Lite-0.1,在成本与性能间取得了良好平衡,并对任务数据集的标注局限性及改进方向进行了分析。相关代码已开源。
open-slide 这个开源的 Slides 项目不错,可以通过 Agent + Skills 制作 Slides,然后还有一个 Web 程序可以编辑生成好的 Slides。 并且可以支持动画,以及网页直接播放 slides。 期待完善: - 更好的编辑 - 导出 pptx https://github.com/1weiho/open-slide
Introducing open-slide - The slide framework built for agents. Prompt your agent, get a polished deck. $ npx @open-slide...