Ring-2.6-1T 正式开源,这是为真实复杂任务打造的万亿级思考模型,Agent 执行能力全面增强,采用双档推理配置,兼顾效率、成本与能力上限。
Ring-2.6-1T 正式开源,这是为真实复杂任务打造的万亿级思考模型,Agent 执行能力全面增强,采用双档推理配置,兼顾效率、成本与能力上限。
Prime Intellect 近期在AI研究自动化领域取得重要进展。他们让Claude Code与Codex智能体完全自主运行于nanoGPT速度挑战的优化器赛道,利用闲置算力完成了近万次实验,消耗约1.4万H200小时。最终,Claude Code将记录提升至2930步,超越了2990步的人类基准。实验显示,智能体在系统整合社区主流优化方法、进行超参数扫描和策略组合方面效率极高,但在要求真正创新的“新颖性检查”环节未能突破基线。该项目将所有实验记录、日志和代码开源,使得AI自主研究从概念转化为可复现的现实。
Automating AI research is the next major step in AI We let Claude Code (Opus 4.7) and Codex (GPT 5.5) run autonomously o...
开发者@neilsonks开源了一套专为Claude Code设计的完整3D生成工具包。该工具能将输入的单张图片自动拆解,生成包含环境、网格、物理、灯光和音频的全套可交互3D场景。其流程首先利用图像与3D生成技术提取物体并生成高质量网格,随后移除物体以得到静态背景,最后为整个场景添加物理模拟、实时灯光和环境音效。配套查看器支持对生成物体的点击编辑与一键导出。此工具将以往需数天的2D转3D工作流程缩短至几分钟,适用于游戏开发、世界构建和产品可视化等项目。项目已在GitHub开源。
open-sourcing a 3D gen toolkit for Claude Code input image → environment, meshes, physics, lighting, & audio
Mitchell Hashimoto 针对 Bun 从 Zig 移植到 Rust 一事发表评论,指出编程语言正变得越来越可替代。他认为,过去编程语言常形成技术锁定,但现在情况已大不相同。Bun 团队展示出他们可以在大约一两周内用任何他们想要的语言重写项目,Rust 也不例外。语言变得可消耗,有用时则用,不再适用时便可弃用,这一现象值得关注。
IBM 发布两个 Apache 2.0 开源多语言嵌入模型:97M 参数的紧凑型(granite-embedding-97m-multilingual-r2)在 MTEB Multilingual Retrieval 上得 60.3 分,超越所有开放子 1 亿参数模型;311M 全尺寸模型(granite-embedding-311m-multilingual-r2)得 65.2 分,在 500M 以下开放模型中排第二,并支持 Matryoshka 维度。两者均基于 ModernBERT 架构,支持 200+ 种语言,针对 52 种语言和 9 种编程代码检索训练,上下文窗口达 32,768 tokens。可直接替换 sentence-transformers、LangChain、LlamaIndex 等框架中的默认模型,预置 ONNX 和 OpenVINO 权重以优化 CPU 推理。
MLX框架的CUDA后端已实现所有测试通过,标志着其从苹果芯片专属工具正式进军NVIDIA GPU领域。这意味着开发者能用同一套代码,在Mac和NVIDIA显卡上获得高性能运行体验,有望打破PyTorch等框架的兼容性壁垒。此举可能强力推动本地AI应用的跨平台发展进程。
We have achieved a milestone in MLX that all tests are passing in CUDA backend now.
Ring-2.6-1T 正式开源,这是一个专为现实世界复杂任务构建的万亿规模旗舰思考模型。其设计目标超越单纯的“回答”,转向任务执行,能够理解上下文、规划步骤、调用工具,并在长任务链中保持稳定。模型重点支持高级智能体工作流,提供不同级别的推理努力配置:常规任务采用高级别,复杂推理则启用更高强度。通过 IcePop 算法实现了可扩展的异步强化学习,从而支撑了面向长周期智能体任务的稳定万亿规模训练。
Proud to announce the release of the SenseNova U1 Tech Report - together with the a new set of model weights based on Mo...
BREAKING: MiMo V2.5 Pro (Thinking) takes 3rd overall out of open weights models on Design Arena. MiMo V2.5 Pro (Thinking...
本研究系统性地探索了长上下文视觉语言模型的持续预训练方法,成功将7B参数模型的上下文长度从32K扩展至128K。关键发现包括:长文档视觉问答数据优于OCR转录;均衡的序列长度分布数据比仅聚焦目标长度的数据更有效;检索能力是主要瓶颈,需搭配检索密集型数据。基于此,团队以仅50亿token的预算,从Qwen2.5-VL-7B训练出MMProLong模型。该模型将长文档视觉问答得分提升7.1%,并在未经额外训练的情况下,在256K和512K的上下文长度上保持强劲性能,同时能泛化应用于网页检索、长文本压缩及长视频理解等任务。
Today we release Token Superposition Training (TST), a modification to the standard LLM pretraining loop that produces a...
杨植麟在视频中拆解Kimi K2模型的训练,仅花费460万美元便在编程大战中击败GPT-5.5等对手。其通过极致优化、线性注意力等架构创新,抹平资源差距,标志AI竞赛规则改变,小团队以聪明设计颠覆大厂传统玩法。
小米技术正式发布并开源一步式潜空间语言视觉推理框架Xiaomi OneVL。该框架在业内率先通过潜空间推理,将视觉语言动作模型与世界模型统一到同一套框架中。在推理、规划等多个主流基准上,该模型全面刷新了潜在推理方法的性能上限,在精度上超越显式思维链方案,在速度上对齐“仅答案”预测的潜空间思维链方案。小米已全面开源其模型权重及训练、推理代码。
Video2GUI框架能从5亿互联网视频元数据中自动提取GUI交互轨迹,构建了包含1200万条轨迹的WildGUI数据集,覆盖1500多个应用和网站。在Qwen2.5-VL和Mimo-VL上预训练后,GUI定位和行动基准测试性能提升5-20%,达到或超越现有最优水平。该数据集与框架将开源以支持GUI智能体研究。
理想汽车CEO李想认为,AI本质上是提升生产力和劳动力的技术。他目前对“一人公司”模式持怀疑态度,指出许多此类公司初期通过频繁更新内容来验证概念,但长期观察发现,其工作往往局限于追踪和报告技术进展,例如“OpenClaw又更新了,解决了什么bug”。关键在于,这些公司未能建立起真实、可持续的生产环境,而构建这样的环境被证明是极其困难的挑战。
Introducing the Cline SDK. We rebuilt the Cline harness for our extension and CLI from scratch using all the lessons lea...
New: The charitable foundation tied to Nvidia CEO Jensen Huang and his wife, Lori Huang, has agreed to rent GPUs from Co...
Statewright发布了一个开源的可视化状态机工具,旨在通过图形化界面提升人工智能代理的可靠性。该工具允许开发者直观地设计和监控AI代理的状态转换,简化开发流程,减少错误并增强系统稳定性。在Hacker News上,该项目获得101个点赞,显示出技术社区对其创新性的关注。开发者可通过GitHub访问代码,将其集成到AI项目中以提高可维护性和性能。
Meta 为其开源沉浸式 Web 开发框架 Immersive Web SDK 推出重大更新,新增支持接入 Claude Code、Cursor、OpenAI Codex 等 AI 工具。该框架旨在简化 VR 开发的底层工程工作,此次更新允许开发者利用 AI 智能体进行代码测试、验证和迭代优化。为展示能力,Meta 使用该框架与 AI 工作流,仅用 15 小时便重建了其 VR 演示项目 Project Flowerbed,在保留原有美术资源的前提下完成了数万行代码的重构与应用重建。
近期CopyFail、YellowKey、Mini-Shai Hulud等系列安全事件,标志着软件安全范式正发生根本转变。AI不仅辅助发现漏洞(如732字节脚本攻破Linux root),更被直接用于驱动零日漏洞的在野利用和武器化。漏洞从发现到武器化的时间急剧缩短。供应链成为最薄弱环节,Mini-Shai Hulud事件揭示被广泛信任的CI/CD管道(如GitHub Actions)可能成为最大后门。安全模式正从“被动修补”转向构建“AI实时免疫”体系。应对核心是将供应链审计提升至最高优先级,审查CI/CD、强制实施SLSA等标准。未来3-5年,安全能力将直接决定企业生存成本。
Security things from the last few days: - CopyFail (linux pwn'd) - CopyFail 2/Dirty Frag - 13 advisories in Next.js - Ov...
腾讯混元在重组后推出Hy3 preview模型,该模型全球token消耗量位居前列。结束限免期后,Hy3 preview的日Token用量和周Token调用量仍保持榜首。
原阿里巴巴通义千问核心研究负责人、最年轻P10技术专家林俊旸已创立新AI实验室,正寻求数亿美元融资。若本轮融资完成,该实验室估值预计将达到约20亿美元(约136亿元人民币)。目前高榕创投和红杉中国正与其接触讨论投资。林俊旸于今年3月突然宣布卸任阿里职务,他曾是“基模四杰”之一,其离职在业界引起广泛关注。
自己的博客,想了大半年,终于上线了。 说来惭愧,"搭一个自己的写作阵地" 这件事在我 TODO 里躺了很久。 选框架、挑主题、搞部署、接公众号...... 每次一想就觉得工程量太大,然后就搁置了。 直到看到 @vista8 乔木老师开源了他...
当前AI模型厂商普遍重视并补贴开源Agent框架和客户端,但忽视了头部Skills开发者的巨大价值。这些开发者的技能装机量庞大,广泛分布于各类Agent中,在数据、用户反馈和商业广告方面潜力巨大。然而,目前行业缺乏有效的合作模式,未能为这些开源技能开发者提供合适的框架或商业化途径来回馈他们,同时也错失了利用其广泛传播力提升自身产品知名度的机会。这导致一个关键生态角色的价值未被充分挖掘。
Hy3 preview from @TencentHunyuan is now live on GMI #1 on OpenRouter's LLM leaderboard, open-sourced, and the strongest ...
LychSim是一个基于Unreal Engine 5构建的可控交互式仿真框架,旨在降低现代仿真平台的高技术门槛。其核心设计包括:一个简化底层引擎复杂性的Python API;一个能生成具有多样化分布外视觉挑战的高保真环境,并提供丰富2D与3D真实标注的程序化数据管线;以及原生集成的模型上下文协议,可将仿真器转变为支持推理型大语言模型的动态闭环测试平台。该框架支持语义对齐的3D标注与自动场景修改,已成功应用于合成数据生成、基于强化学习的对抗性评估及语言驱动的交互式场景布局生成等多个下游任务。LychSim将公开提供完整源代码与多种数据标注。
本期探讨AI Agent从演示走向生产环境的核心挑战。首先,在LLM时代,工程师的核心竞争力转向为问题域构建精准的概念模型与通用语言。其次,构建可靠的长流程Agent需进行关键架构转变:用持久化状态机替代对话历史来管理状态,采用事件驱动机制处理空闲等待,并通过多Agent委托实现职责分离。最后,GUI操控Agent的实践表明,执行自动化仅解决一半问题,对业务逻辑的深度理解才是关键。此外,基础设施需应对大规模并发访问的挑战。
Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni,能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸,分别具有1.57B和0.95B参数,并支持Matryoshka截断技术。关键优势在于完全向后兼容:现有jina-embeddings-v5-text的索引无需重新构建,可直接替换为v5-omni,在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲,小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。
jina-embeddings-v5-omni is here! Our first universal embedding model for text, images, audio, and video. Available in tw...
研究提出HodgeCover方法,用于无需重新训练的稀疏专家混合模型压缩。该方法解决了现有压缩器的结构障碍:三个专家可能两两兼容,但合并后形成不可约循环。通过将专家间的KL合并障碍和三元组障碍建模为2-复形,并利用单纯形拉普拉斯算子的调和核进行霍奇分解,HodgeCover能精确隔离关键障碍。它采用贪心策略覆盖调和关键边和三元组关键三角形,混合变体还结合权重剪枝。在三个开源稀疏MoE骨干模型上的激进专家削减测试表明,HodgeCover在专家削减轴上匹配当前最优无学习基线,在混合轴的激进压缩前沿领先,并平衡所有霍奇分量的保留质量。
本文从函数空间视角研究几何网格上物理场方程的解算子。我们发现Hodge正交性通过分离不可学习的拓扑自由度和可学习的几何动力学,从根本上解决了谱干扰问题,实现了结构保持子空间的加性逼近。基于Hodge理论和算子分裂,我们推导了原则性的算子级分解,构建了称为Hodge Spectral Duality (HSD)的混合欧拉-拉格朗日架构。该框架使用离散微分形式捕获拓扑主导分量,并利用正交辅助环境空间表示复杂局部动力学。我们的方法在几何图上实现了更高的精度和效率,同时增强了对物理不变量的保真度。代码已开源。
研究团队发布了名为Needle的轻量级模型,它将谷歌Gemini的工具调用能力浓缩至仅2600万参数。该模型在保持核心功能的同时,体积显著缩小,旨在实现更高效的部署与应用。项目代码已在GitHub开源,并在Hacker News社区获得了超过100点的关注度。
🎤 Keynote announcement: @percyliang (Percy Liang), Professor of Computer Science at @Stanford, founding director of the...
Obsidian全新社区站点正式上线,对其插件生态进行了彻底重构。新社区为每个插件提供公开的安全记分卡,自动扫描版本更新的恶意代码,并一次性处理了2300多个积压提交。此举旨在应对AI编程工具大幅降低插件创建门槛后可能出现的数量激增,通过自动化持续扫描平衡生态发展速度与安全风险。新系统还提供了开发者仪表盘和更好的用户体验,增强了其作为可信生产力平台、吸引企业客户的能力。
http://x.com/i/article/2054219318758703104
代号“Mini Shai-Hulud”的大规模供应链攻击正在爆发,已波及TanStack、Mistral AI等170多个热门npm/PyPI包。攻击者通过劫持GitHub Actions CI管道,使合法项目自动发布带毒版本,并附有SLSA 3级证明以绕过验证。恶意软件会持久化修改用户配置文件,威胁删除home目录,并能利用窃取的CI密钥像蠕虫一样自动扩散。即使固定包版本,也可能在6分钟发布窗口期内中招。建议开发者立即冻结安装、使用工具自查,并全面轮换所有云密钥和访问凭证。
🚨 There's a major attack going on via npm right now. Do not install any packages right now. Talk to your agent ASAP and...
中国AI生态呈现高参与度与开放优先特征,开源模型社区形成自我强化循环。开发者基于主流架构二次创新,国产开源模型下载量季度环比激增超200%。开放协作降低了技术门槛,推动应用层涌现大量行业解决方案,模型微调工具使用量同比大幅增长。生态参与者通过贡献代码、数据及优化方案,持续反哺核心模型迭代,构建了技术红利共享的复合增长网络。
How open model ecosystems compound Further reflections on China's high-participation, open-first AI ecosystem. https://w...
Hugging Face平台出现伪装成OpenAI官方“Privacy Filter”隐私脱敏模型的山寨恶意项目“Open-OSS / privacy-filter”。该仓库文件目录与正版高度一致,但实际暗藏信息窃取木马,在下架前下载量已超过20万次。安全公司HiddenLayer披露,用户若运行该文件会导致系统被入侵,建议受影响者彻底重建开发环境,并在清理前避免登录和输入敏感信息。