美团技术团队推出的LongCat-AudioDiT模型,实现了零样本TTS音色克隆,让AI直接学习声音本身的规律,跳过中间处理环节,从而突破音色克隆的上限。
美团技术团队推出的LongCat-AudioDiT模型,实现了零样本TTS音色克隆,让AI直接学习声音本身的规律,跳过中间处理环节,从而突破音色克隆的上限。
Libretto 是一款开源 AI 浏览器自动化工具,通过技术手段解决传统 AI 自动化中的不确定性问题,使浏览器操作具备确定性和可预测性。该项目已在 GitHub 发布,并在 Hacker News 获得 100 点关注,为开发者提供了更可靠的 AI 驱动浏览器自动化方案。
Darkbloom 发布了一款工具,支持在闲置 Mac 电脑上执行私有 AI 推理,利用本地空闲算力完成机器学习计算,避免数据上传云端。该项目主打隐私保护,所有推理均在设备本地运行。该消息在 Hacker News 上获得 113 个点赞,详情见 darkbloom.dev。
Cal.com 近期以"AI 威胁"为由宣布将其开源代码转为闭源,引发业界对开源模式可持续性的争议。文章指出,这一决定仅反映该公司对商业模式的误判,而非开源软件的系统性失败。尽管 AI 技术给开源商业化带来新挑战,但闭源并非应对冲击的唯一或正确选择,开源并未因个别公司的退出而消亡。
Steve Yegge 宣布 Gas Town 项目正式发布 v1.0 版本,标志着该软件从早期被戏称为"小丑秀"的混乱开发阶段进入稳定正式版。文章回顾了项目迭代过程中的关键转折与改进,该发布在 Hacker News 获得 101 点关注热度。
DavidAU团队基于Qwen3.5-27B Dense魔改出官方不存在的40B Dense模型。首先通过"Heretic"消融实现Uncensored,并用私有Deckard数据集赋予模型性格;随后截取并复制中间50%参数实现"扩增";最后用Unsloth配合Claude Opus推理数据集微调,稳定参数并优化可变长度推理。测试显示该模型在哲学思辨与创意写作上表现惊艳,但代码生成存在变量作用域问题,上下文能力受损。
BlockNote是基于React的开源富文本编辑器,采用Notion风格Block模式,基于ProseMirror和Tiptap构建。通过高层封装显著降低集成门槛,几行代码即可部署完整UI。核心亮点是原生AI支持,可接入OpenAI等模型实现写作辅助。协议分层需注意:核心功能采用MPL-2.0允许商业自由使用,但AI集成等xl-系列高级包基于GPL-3.0,闭源项目需购买商业许可。适合追求快速落地的CMS、知识库等场景。
小红书开源发布Relax,一个为全模态数据、Agentic工作流和大规模异步训练Co-Design的RL训练引擎。
LangAlpha是一款专为华尔街金融场景打造的AI编程助手,定位为面向交易与金融分析优化的Claude Code替代品。该项目已开源并托管于GitHub仓库ginlix-ai/langalpha,在Hacker News发布当日获得102个赞。工具针对金融行业复杂的数据处理、量化分析和交易执行需求进行了专门适配,旨在为金融从业者提供更精准的代码生成与数据分析能力。
OpenClaw 2026.4.14 🦞 More reliability updates: ✨ Smarter GPT-5.4 routing and recovery 🌐 Chrome/CDP improvements 🧵 Sub...
Strix 是开源自主渗透测试框架,以 AI 作为确定性安全工具之上的自适应操作员。其核心机制围绕动态测试、POC 验证、自动修复 Pull Request 和 CI/CD 钩子构建,可在代码合并前阻断不安全代码。不同于传统扫描器仅抛出猜测,Strix 采用攻击者风格测试,通过浏览器操作、流量检查等方式验证漏洞可利用性,使安全发现附带证明和修复方案直接融入开发流程。
http://x.com/i/article/2043500390885494784
"They See Your Photos"(theyseeyourphotos.com)项目揭示用户上传照片可能面临的隐私泄露风险,通过直观演示展示图像元数据及内容如何被第三方获取与分析。该网站在 Hacker News 平台获得 104 点热度关注,以可视化方式警示公众关于数字影像在未经授权情况下被访问与识别的安全隐患。
开发者仅用3周时间,借助Claude和Codex开发了一款社交媒体管理工具,并在GitHub开源。该项目在Hacker News发布后立即获得102个点赞,展示了AI辅助编程在快速构建产品原型方面的高效性。项目代码已托管于brightbeanxyz/brightbean-studio仓库,为开发者提供了可参考的AI协作开发实践案例。
OpenBMB发布开源TTS模型VoxCPM 2,仅2B参数支持30种语言,无需语言标签即可生成语音。Apache-2.0许可,8GB显存可运行。支持文本描述创建新声音、可控克隆与终极克隆,保留说话人细节。输出48kHz音质,RTX 4090实时推理达0.3 RTF。兼容PyTorch、LoRA微调及Nano-VLLM部署,适用于影视、游戏、有声书等专业场景。
Claudraband 是专为高级用户设计的 Claude Code 增强工具,针对专业开发者优化,已开源至 GitHub。
Linux内核项目本周正式确立政策,允许开发者使用AI辅助编写代码,但须遵守严格的信息披露要求。Torvalds主张将AI视为普通工具,强调应追究开发者责任而非限制其本地软件使用,这与其它开源社区的恐慌态度形成鲜明对比。新政明确规定,只有人类可为Developer Certificate of Origin添加Signed-off-by认证,AI代理严禁签署;开发者须对AI生成代码(如Claude产出的补丁)承担全部法律责任。此举旨在应对当前开源社区"AI slop"泛滥的乱象。
Claude Code Pro Max 5x 用户反馈,在 moderate usage(中等使用强度)下,流量配额仅 1.5 小时即耗尽。该问题已提交至 GitHub issue,引发对配额限制合理性的质疑。
Linux 内核官方文档新增 coding-assistants.rst,明确贡献者使用 AI 辅助工具时的披露义务与代码审查标准,要求声明 AI 生成内容并确保符合内核编码规范,为开源大型项目整合 LLM 提供首个官方指引框架。
LMSYS Org推出HiSparse分层内存系统,针对稀疏注意力仍受限于GPU内存容量的问题,将非活跃KV缓存卸载至主机内存,仅在GPU HBM保留热缓冲区,并通过专用CUDA内核高效管理数据交换(采用LRU策略与页表更新)。该系统在256并发请求下实现超3倍吞吐量提升,GLM-5.1-FP8模型长上下文场景性能提升达5倍,支持DeepSeek-V3.2等采用DeepSeek Sparse Attention架构的模型。
@dotey 前几天,傅盛公司的人来我们公司讲他的小龙虾 PPT 是怎么做的。那时候给我们看他的 Skill,我还以为他们是公开的呢,结果只有这个没有公开。但是对他的那个手写的画风印象特别深刻,想要研究一下。这下宝玉老师出了这个 Skill...
Agentshire推出基于Three.js的3D AI Agent可视化插件,支持天气系统、昼夜循环及NPC自主社交功能。相比2D方案Star-Office-UI,该插件为多Agent协作任务提供更生动的三维演示场景。项目目前处于初期阶段,GitHub star数较少,建议谨慎评估后使用。
inclusionAI团队发布了TC-AE项目,旨在通过开源与开放科学推动人工智能技术的进步与民主化。该项目致力于降低AI技术的使用门槛,促进更广泛的社区参与和创新。核心变化在于构建了一个可访问的AI开发框架,强调协作与知识共享。此举预期将加速AI工具在多元领域的应用,并推动技术发展的透明性与包容性。
@qubitium We tried. Happy to try again.
研究团队发布了TC-AE,一种用于深度压缩自动编码器的新方法,旨在突破现有模型的令牌容量限制。该方法通过创新的架构设计,显著提升了模型在压缩表示中保留信息的能力,实现了更高的压缩效率与重建质量。具体指标显示,TC-AE在多个基准测试中,相较于传统深度压缩自动编码器,将有效令牌容量提升了约30%,同时保持了较低的计算开销。这项工作为高密度数据压缩与表示学习提供了新的技术路径。
the last time I was this hyped for a release, it was GoT
SuperLocalMemory V3.3("活脑")作为本地优先的Zero-LLM智能体记忆系统发布,实现完整认知记忆分类。核心创新包括:Fisher-Rao量化感知距离(FRQAD)以100%精度识别高保真嵌入;艾宾浩斯自适应遗忘曲线实现6.7倍区分力;7通道认知检索(语义、关键词、实体图、时间、扩散激活、巩固、Hopfield联想)在LoCoMo基准零LLM模式下达70.4%,多跳任务提升23.8个百分点。支持长时内隐记忆参数化与自动认知管道,纯CPU运行,月下载超5000次。
Keras 社区发布 Kinetic 库,开发者通过装饰器即可将函数部署至云端 TPU/GPU 运行,定位类似 Modal 但新增 TPU 支持。该工具自动完成代码打包、Cloud Build 容器构建(支持缓存)、GKE 集群调度及结果返回,实现日志实时流式传输,使远程执行体验如同本地运行。
Google发布的Gemma4系列开放权重模型包含多个版本,选型需结合场景。带“-it”后缀为指令微调版,开箱即用;不带后缀为基座模型,供自行微调。其中,A4B指激活参数量为4B,E4B则采用逐层嵌入技术,以内存换取计算量,优化移动端性能。选型建议:综合性能与速度选26B-A4B;追求最佳代码或任务效果选31B;开发本地全模态应用选E4B;资源受限设备体验可选E2B,但输出质量有限。
inclusionAI发布了cuLA项目,这是一套为线性注意力变体编写的CUDA内核。该内核完全采用NVIDIA的CuTe DSL和CUTLASS C++库进行开发,旨在高效实现Transformer模型中的线性注意力机制。此举专注于底层计算优化,通过利用先进的CUDA编程抽象和高效模板库,有望提升大语言模型在推理和训练过程中的计算性能与效率。
Whaaaa. Only realized now and apparently our repo was public since 11 months ago and noone told us?!
CaP-X开源具身智能系统,让大模型智能体通过机械臂与人形机器人进入物理世界。系统整合SAM3、Molmo等感知API与IK求解器、抓取规划等控制接口,可自动合成技能库。研究发布CaP-Gym基准(187项操作任务)与CaP-Bench(评测12个前沿模型),提出零样本框架CaP-Agent0及强化学习方案CaP-RL,后者仅用50次迭代即将7B模型成功率从20%提升至72%。该技术由曾开发Minecraft智能体Voyager的团队推出。