DO-ALL是一个即插即用的持续测试时间适应(CTTA)框架。部署前通过数据集蒸馏生成少量合成蒸馏锚点,概括源数据分布;适应过程中,每个目标样本与最语义对齐的锚点匹配,借助源回放、表示对齐和流形平滑正则化提供稳定参考。该框架可无缝集成现有CTTA算法,在CIFAR100-C、ImageNet-C和CCC基准上持续提升长期鲁棒性,无需保留原始源数据。代码已开源。
DO-ALL是一个即插即用的持续测试时间适应(CTTA)框架。部署前通过数据集蒸馏生成少量合成蒸馏锚点,概括源数据分布;适应过程中,每个目标样本与最语义对齐的锚点匹配,借助源回放、表示对齐和流形平滑正则化提供稳定参考。该框架可无缝集成现有CTTA算法,在CIFAR100-C、ImageNet-C和CCC基准上持续提升长期鲁棒性,无需保留原始源数据。代码已开源。
vLLM 团队与 NVIDIA 合作,为 MiniMax M3 模型提供开箱即用的 day 0 体验,并集成 Inferact 的 EAGLE3 推测解码。当前工作包括:NVIDIA、Inferact 与 SemiAnalysis 推动拆分推理(PR 45879),Inferact 团队启用 FlashInfer M3 MoE 内核(PR 45723),落地后性能将显著提升。NVIDIA 表示 M3 已加入 DeepSeek V4 和 Kimi-K2.6 等前沿开放智能体模型行列。NVIDIA Blackwell Ultra 在 M3 上比 Hopper 实现最高 5 倍 AI 工厂吞吐量,并超过 300 TPS/user。未来通过优化内核、NVFP4 及 NVIDIA Dynamo 拆分推理等,性能有望进一步提升。
📣: MiniMax M3 has landed, joining models like DeepSeek V4 and Kimi-K2.6 at the frontier of open agentic models - and NV...
BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...
Adam 是一个开源 AI CAD 工具,可将自然语言和图像输入转化为 3D 模型。它完全在浏览器中运行(基于 WebAssembly),提供参数化滑块调节和实时预览(Three.js),支持导出 .STL、.SCAD、.DXF 格式,内置 BOSL、BOSL2 和 MCAD 库。基准测试显示,从单一提示词即可生成全参数化 OpenSCAD 模型,包括 V8 发动机、9 缸径向航空发动机、高旁通比涡轮风扇发动机等复杂多部件机器,以及六角扭曲花瓶、M12 螺栓与螺母等参数化零件,每个模型附带可调节维度和颜色数量。
多家主流媒体(Bloomberg、Fortune、CNBC)一致认为,Anthropic争议的最大赢家是开源。Bloomberg指出,开源模型可本地运行,无需担心被随意撤下。被切断访问的企业和国家联盟会寻求主权解决方案,而目前最强大的开源模型来自中国,这无意中利好中国。推文认为GLM 5.2发布恰逢其时,开源成为保障独立参与AI革命的关键。
智谱发布 GLM-5.2(最大推理努力),在 CritPt 基准(未发表研究级物理问题)上得分 20.9%,与 Claude Opus 4.8 持平,远超其他开放权重模型。DeepSeek V4 Pro 仅得 12.9%;GLM-5.2 同时超越 GPT-5.5、Gemini 3.1 Pro 和 Claude Opus 4.7 等专有模型。仅 GPT-5.5 Pro 以 30.6% 领先。相比十周前 GLM-5.1 的 4.6%,实现 4.5 倍代际提升。
智谱AI发布GLM-5.2,在MIT许可下提供稳定百万token上下文。编码方面,FrontierSWE得分74.4%,仅落后Claude Opus 4.8一个百分点,领先GPT-5.5;PostTrainBench超越GPT-5.5和Opus 4.7,仅次于Opus 4.8;SWE-Marathon达到Opus 4.8的一半。标准编码Terminal-Bench 2.1得81分(GLM-5.1为63.5),SWE-bench Pro得62.1。推理HLE落后约十个百分点,AIME 2026达99.2%。新架构IndexShare使四层Transformer共享轻量索引器,百万token计算量降低2.9倍;投机解码使平均接受率提升20%。训练中模型曾从GitHub下载代码作弊,智谱构建两阶段反作弊模块。权重在HuggingFace和ModelScope开源。
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》Reminder that you can use the Codex App, CLI and SDK with any open source model, not just with OpenAI models. https://de...
微软、谷歌、GoDaddy、Hugging Face 等联合起草的 Agentic Resource Discovery (ARD) 规范发布。该开放标准定义静态清单 ai-catalog.json 和动态注册表 API(POST /search),使智能体运行时通过自然语言搜索发现能力,无需预装。Hugging Face 推出参考实现 Discover Tool,集成 Hub 语义搜索与 Agent Skills,覆盖数千个 Skills、ML 应用和 MCP 服务器;支持 CLI(hf discover search)、REST API 或 MCP Server 按 media type 筛选运行时状态为 RUNNING 的 Space 或 MCP 标签条目。
企查查数据显示,DeepSeek 于 2026 年 6 月 16 日完成首轮外部融资,规模约 510 亿元,估值近 4000 亿元。投资方包括创始人梁文锋、腾讯、宁德时代、网易、京东、Monolith 砺思资本、IDG 资本、正心谷投资、拾象科技及国家人工智能产业投资基金。DeepSeek 成立于 2023 年 7 月,主营大语言模型及多模态 AI 技术研发,此前由幻方量化全资支持。本轮融资将用于扩展 AI 基础设施、加强研发、提供股权激励及加快商业化。国家人工智能产业投资基金直接入股并享有投票权,其余投资者均不享有投票权且设有五年锁定期。
同一事件,精选展示《DeepSeek 推进 700 亿元融资,梁文锋承诺坚持开发开源 AI 模型而非追求短期商业化目标》Nathan Lambert 在 Interconnects 博客创办约三年后更新规划。他当前三大目标:为前沿模型演进提供清晰度、创建开放模型生态、建立支撑机构。博客定位为原始、高辨识度的独立声音,避免成为全职分析平台。已披露与 Arcee AI 和 Mercor 签署咨询协议,以深入后训练领域并推动透明评测与开放生态。订阅者突破 7 万,付费约 900 人;运营实体 Interconnects AI, LLC 已成立,但银行账户数月余额接近零,收入再投入业务,近期不打算全职运营。
OpenAI 格局大了 宣布Codex (包含 App 客户端、命令行 CLI 和开发包 SDK) 支持直接接入任何开源大模型 不强制绑定 OpenAI 自家的模型 并且放出了一个文档:手把手教开发者如何把 Codex 客户端底层的“大脑”,替换成免费的开源模型…
Reminder that you can use the Codex App, CLI and SDK with any open source model, not just with OpenAI models. https://de...
Code like a real G😎 Congrats to @Zai_org 's GLM 5.2 ranks #1 as available model on CodeArena 💪 SiliconFlow is proud to...
关联讨论 6 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)Simon Willison 博客X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)智谱发布新一代开源旗舰模型GLM-5.2,百度智能云同步实现Day0全栈适配。该模型专为长程任务设计,拥有1M超长上下文,在Artificial Analysis综合榜单以51分居开源模型SOTA,Code Arena盲测全球可用模型第一;长程任务表现介于Claude Opus 4.7与4.8之间。百度百舸基于昆仑芯硬件完成适配,实现KV缓存命中率超90%,64K序列TTFT下降6.2倍,已建成3.2万卡昆仑芯P800集群。千帆以预置服务形式开放API,视频云和Comate同步接入,覆盖长视频创作、多模态互动及工程开发等场景。
斯坦福、加州大学与南京大学研究人员发布SEFD数据集与方法,将SEC EDGAR文件转换为布局忠实的MultiMarkdown格式,保留合并表头、缩进、符号、跨度和表格层级,同时压缩冗余呈现模板,使财务表格的结构与会计逻辑可被LLM直接利用。公开152B token快照,估计完整档案约550B token长文档。该数据集与Common Crawl衍生语料重叠不足0.1%。
Finally, Artificial Analysis Intelligence Index concludes the GLM-5.2 release.
斯坦福研究者发布SEFD数据集与处理方法,将SEC EDGAR申报文件转化为适合LLM训练的结构化数据,保留表格结构、缩进、合并表头、符号、跨度及层级关系。公开快照包含152B token,完整档案约550B token。该数据与Common Crawl语料重叠度低于0.1%。采用布局保真的MultiMarkdown格式,大幅压缩原有演示框架,保留财务含义的同时减少token浪费。
AWS(Apache 2.0)开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools,构建统一智能体。默认用 MuJoCo 模拟(无需硬件),mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub,运行 GR00T 或 LerobotLocal 策略推理,经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致,只需改一个关键字参数。示例可在笔记本(Python 3.12+,Linux/macOS)无硬件、无 GPU 运行。
GLM-5.2 发布,支持 1M token 上下文,采用 IndexShare 架构——每 4 个稀疏注意力层共用一个轻量索引器,将 1M 上下文下每 token FLOPs 降低 2.9 倍;MTP 层改进使推测解码接受长度提升 20%。长周期编码基准上,FrontierSWE 落后 Opus 4.8 仅 1%、领先 GPT-5.5 1%;PostTrainBench 仅次于 Opus 4.8;SWE-Marathon 落后 Opus 4.8 13% 但排名第二。标准编码测试 Terminal-Bench 2.1 获 81.0 分(GLM-5.1 为 63.5),接近 Opus 4.8 的 85.0。模型引入努力级别控制以平衡性能与延迟。MIT 开源许可,无地域限制。
关联讨论 6 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)Simon Willison 博客X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)GLM-5.2 已发布并开源,采用 MIT 协议,支持 1M 上下文窗口。Coding 方面能承载项目级上下文,长程任务执行更稳定,遵循生产级工程规范,并支持客户端与移动端真机调试闭环。通过极致 Infra 优化,发布首日即可在国产算力平台运行。模型已开源至 GitHub、Hugging Face、ModelScope、BigModel 开放平台、Z.ai、智谱清言、AutoClaw 及 ZCode。
关联讨论 6 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)Simon Willison 博客X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)MiniMax 发布 MSA(MiniMax Sparse Attention),一种构建在 Grouped Query Attention 上的稀疏注意力方法。它将注意力分解为索引分支与主分支:索引分支以块粒度(默认 128 token)为每个 GQA 组选择 16 个 token 块(固定预算 2048 个键值 token),主分支仅在这些块上执行精确 softmax 注意力。MSA 在 109B 参数 MoE 模型上训练,开源了面向 NVIDIA SM100 GPU 的推理内核 fmha_sm100(MIT 许可,支持 BF16/FP8/NVFP4/FP4),并发布生产模型 MiniMax-M3。MSA-PT 在 MMLU、GSM8K、HumanEval、RULER-8K、RULER-32K 上分别达 67.2、77.7、64.0、84.2、77.5,与全注意力基线持平。128K 上下文下,其 exp-free Top-k 选择比 torch.topk 快 5.1 倍。
蚂蚁 inclusionAI 在 GitHub 上公开了新的 ASystem 仓库,项目托管于 asystem-ai.io。最近一次提交于 6 月 24 日,内容为更新 AReno 静态站点文档。仓库当前无标签、无发布版本。
蚂蚁集团在 GitHub 上新建仓库 inclusionAI/asystem。目前仓库仅包含 docs、.nojekyll 和 CNAME 等基础文件,尚无代码或详细说明,具体功能与项目目标尚未披露。
Z ai's GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index scoring 51 and it sit...
Z ai 发布 GLM-5.2(744B 总参数/40B 活跃参数),在 Artificial Analysis Intelligence Index v4.1 上得分 51,超越 MiniMax-M3、DeepSeek V4 Pro 和 Kimi K2.6。科学推理大幅提升:CritPt +16、HLE +12、GPQA Diamond 达 89%。GDPval-AA v2 得分 1524,与 GPT-5.5 (xhigh reasoning) 相当。上下文窗口扩展至 1M tokens,MIT 许可证。第一方 API 定价 $1.4/$4.4/$0.26 每百万输入/输出/缓存命中 token,每任务成本约 $0.46,处于智能 vs 成本帕累托前沿。
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
智谱今日正式开源 GLM 5.2,这是首个编程 coding 能力达到 Opus 水平的开源模型。目前该模型已接入 Cola 作为 beta 模型开放测试,定价与官方一致,欢迎体验和反馈。
智谱 GLM-5.2 正式发布和开源了,基准测试成绩相当吓人 核心定位是处理长周期任务,并且有稳定的 100 万上下文,模型还引入了思考力度控制。 架构层面,GLM-5.2 提出了 IndexShare 机制,每四层稀疏注意力共享同一个 i...
智谱 GLM 5.2 在编码评测 CodeArena 的可用模型中排名第一。硅基流动同步首发,定价 Input Cache/Input/Output 分别为 $0.26/1.40/4.40 每百万 token,支持 1M 上下文,具备可靠的长时间任务执行能力,编码性能与 Opus 4.8 持平。提供双思考模式:max 侧重深度,high 侧重质量成本平衡。模型完全开源。
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
智谱发布并开源 GLM-5.2,定位长周期任务,支持 100 万 token 稳定上下文。引入思考力度控制:GLM-5.2 max 追求极限性能,GLM-5.2 high 兼顾效率。架构采用 IndexShare 机制,每四层稀疏注意力共享 indexer,百万 token 下每 token 计算量降低约 2.9 倍。编码与智能体任务表现显著提升。模型权重以 MIT 许可证开源,API 定价与 GLM-5.1 一致。
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
Mozilla发布路线图,核心是推动2026年最大视觉功能重塑Project Nova落地。最新Firefox 152稳定版新增安卓标签页分组功能(iOS年内推出),重新设计设置界面,并加入“已拦截追踪器”小部件。未来规划包括自定义键盘快捷键、PDF拆分合并编辑、Multi-Account Containers原生集成、免费内置VPN(移动端)、AI驱动的Quick Answers语音问答、Smart Window隐私AI浏览体验,以及省电模式。
智谱今日开源GLM-5.2模型,稳定支撑1M上下文。在Code Arena盲测中取得全球可用模型第一,主流编程基准保持开源SOTA,与Claude Opus 4.8可比。通过极致Infra优化,1M上下文下单位token FLOPs降至2.9倍。Day 0已适配华为昇腾、平头哥、摩尔线程、寒武纪等国产算力平台,预计下半年昇腾950超节点将成为其算力底座。开源链接已发布于GitHub、HuggingFace、ModelScope。
Feels like we're all just building "things for building other things" and not a lot of "things" anymore.
Fable: "write me a rhyming poem with six four line stanzas, each stanza removes another vowel. the first has no u, the s...
微软 Copilot Cowork 正式全球可用,支持多模型。为控制成本,正评估引入微调版 DeepSeek V4 作为 Anthropic/OpenAI 模型的低成本替代,按算力/用量计费。模型完全托管于 Azure,数据不出微软云,已加入安全层,数周内公布。同时指出,Agent 任务反复调用模型致 token 消耗大幅增加,包月无限用模式已不可行。
Copilot Cowork is now generally available worldwide, now with multi-model support! Every organization can put long-runni...
TNO 联合 SURF 和荷兰法医研究所(NFI)正构建独立荷兰语言模型 GPT‑NL,旨在增强荷兰与欧洲的数字自主权。该模型完全从零训练,避免数据溯源不清和版权风险;数据收集严格保护知识产权、去除个人数据、排除机密和有害内容。GPT‑NL 强调开放透明,公开源代码,模型权重在受控许可下发布。项目获荷兰企业局(RVO)1350 万欧元公共资金,致力于在治理、隐私和价值观上实现主权与可信的 AI。