11月6日
00:59
Google DeepMind:Blog(RSS)
利用 AI 测绘、建模并理解自然

AI 模型正被用于绘制全球物种地图、保护森林生态,并收集世界各地鸟类声音数据,助力生物多样性监测与自然保护研究。

DeepMind论文/研究
11月5日
17:54
蚂蚁 inclusionAI:GitHub 新仓库
49
inclusionAI/dFactory:轻松高效的 dLLM 微调

inclusionAI 发布了 dFactory 平台,旨在简化去中心化大语言模型的微调过程。该平台通过自动化工作流和优化的资源调度,显著降低了技术门槛与计算成本。用户无需深厚专业知识,即可利用分布式计算资源对如 LLaMA 等模型进行高效定制。关键改进包括将典型微调任务时间缩短约 40%,并支持多节点协作训练,提升了模型迭代效率。

开源/仓库数据/训练部署/工程
11月4日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选74
通过代码执行提升MCP智能体效率

随着AI智能体通过模型上下文协议(MCP)连接的工具数量激增,传统预先加载所有工具定义并通过上下文传递中间结果的方法,导致处理速度变慢、成本增加。问题核心在于工具定义占用大量上下文空间,且中间结果(如完整会议记录)在多次工具调用间重复传递,额外消耗数万令牌。文章提出解决方案:将MCP服务器呈现为代码API,使智能体能按需加载工具,并在执行环境中处理数据,仅将精简结果传回模型,从而显著减少令牌消耗、提升效率并降低成本。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic 官方把 MCP 从「能连」推进到「连多了怎么办」,用代码执行替代直接工具调用,token 省 98.7% 这个数字不是吹的。做 Agent 工程的人如果还在暴力塞 tool definition,这篇是必读的架构升级指南。
00:00
LMSYS:Blog(Chatbot Arena 团队)
MiniMax M2 发布:从高效注意力回退全注意力的工业部署反思

MiniMax发布新一代旗舰模型M2,采用230B总参数、10B激活参数的MoE架构,已在SGLang平台提供首日支持。团队从M1的Lightning Attention回退至Full Attention,指出高效注意力机制虽能降低理论计算复杂度,但在实际工业部署中面临多重挑战:标准基准无法暴露多跳推理等深层能力缺陷,与前缀缓存、推测解码等系统兼容性不足,且受内存带宽限制难以兑现理论效率。MiniMax认为,开放场景部署中模型质量优先于计算效率。

智能体论文/研究部署/工程
11月3日
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选
在 NVIDIA DGX Spark 上优化 GPT-OSS:实现本地大模型部署

与 NVIDIA 合作,在 DGX Spark 上通过 SGLang 成功支持 GPT-OSS 20B 与 120B 模型,实现 20B 版本约 70 tokens/s、120B 版本约 50 tokens/s 的生成速度,达到目前最优水平。用户可通过 Docker 部署 SGLang 服务,接入 Open WebUI 实现本地聊天,或借助 LMRouter 转换请求格式以完全本地化运行 Claude Code。该方案使在 DGX Spark 上部署多百亿参数本地编码智能体成为现实。

智能体OpenAI教程/实践端侧

推荐理由:DGX Spark本地跑通Claude Code完全离线,隐私敏感开发者的新选择
11月1日
17:00
BAIR:Berkeley AI Research Blog
摆脱TD学习的强化学习新方法

伯克利BAIR团队提出基于"分而治之"范式的离线策略强化学习算法,彻底摆脱传统时序差分(TD)学习框架。该方法通过递归二分轨迹并组合子段价值估计,将Bellman递归次数从线性降至对数级,根本解决了TD学习在长程任务中的误差累积难题。相比n步TD学习,新算法无需调节步长参数,避免了高方差与次优性,在复杂长程任务中展现出良好的可扩展性。

数据/训练论文/研究
10月30日
18:03
Hugging Face:Blog(RSS)
精选83
Aligning to What? Rethinking Agent Generalization in MiniMax M2

MiniMax 在 Hugging Face 发布博客,探讨其 M2 智能体模型的泛化能力。文章核心在于重新思考智能体应“对齐”到什么标准或目标,以提升其在未见任务和环境中的通用性能。这涉及对模型训练范式和评估指标的反思,旨在突破当前智能体在特定任务上过拟合、难以泛化的局限。

智能体Hugging Face论文/研究

推荐理由:Agent 泛化是 AI 实用化关键,这篇重新思考可能带来新突破。
00:00
MiniMax:News(网页)
精选
MiniMax发布新一代语音模型Speech 2.6

MiniMax发布语音模型Speech 2.6,端到端延迟降至250毫秒内,支持实时对话。新增多语言特殊格式解析能力,可自动朗读URL、邮箱、电话、日期及金额,无需预处理。推出Fluent LoRA功能,即使源录音带口音也能保留音色并生成流畅语音,支持40余种语言。已被LiveKit、Vapi等平台及智能硬件采用。

智能体模型发布语音
关联讨论 1MiniMax:News(网页)
推荐理由:MiniMax发布Speech 2.6语音模型,支持Voice Agent场景,实现超低延迟与Fluent LoRA语音克隆优化。
00:00
Claude:Blog(网页)
精选
金融服务领域构建 AI 代理指南

Claude 发布金融服务 AI 代理构建指南,分享 NBIM、Brex 等机构实践。NBIM 员工每周节省数百小时,McKinsey 研究显示欺诈检测生产力可提升 200% 至 2000%。AI 代理能自主整合多源数据、执行跨系统操作,在合规框架下处理客户服务与风险分析,将传统分析工具升级为可独立完成交易的自主系统。

智能体Anthropic教程/实践

推荐理由:Anthropic官方分享金融AI智能体落地实践,含NBIM、Brex等真实案例与效率数据。
10月29日
22:31
Google DeepMind:Blog(RSS)
借助 AI for Math Initiative 加速科学发现

AI for Math Initiative 汇聚全球顶尖研究机构,率先探索 AI 在数学研究中的创新应用,加速科学发现。

DeepMindGoogle推理论文/研究
21:56
Hugging Face:Blog(RSS)
63
论全球计算格局的变迁

Hugging Face发布博客,分析了全球AI计算资源的分布与流动趋势。当前格局正从高度集中转向更为分散,开源模型与社区驱动的计算集群影响力增强。关键变化包括企业专用计算与公共云资源的比例调整,以及新兴地区计算中心的崛起。这一变迁直接影响了大型语言模型(如GPT、Claude、LLaMA)的开发成本与可及性,预示着未来AI创新将更依赖于多元化的计算基础设施。

现象/趋势部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang-Jax:面向TPU的开源推理引擎

SGLang团队发布基于Jax和XLA的开源推理引擎SGLang-Jax,专为原生TPU推理优化。该引擎采用纯Jax架构,集成Ragged Paged Attention v3、EAGLE推测解码及MoE内核优化,支持连续批处理与前缀缓存。关键性能指标显示,重叠调度器将Qwen3-32B批处理间隔从12毫秒压缩至38微秒,EPMoE策略带来3-4倍延迟加速。基准测试表明,其性能匹配或超越现有TPU推理方案。

开源/仓库部署/工程
10月28日
00:00
MiniMax:News(网页)
精选
MiniMax 发布 Hailuo 2.3 / 2.3 Fast 视频模型

MiniMax 推出 Hailuo 2.3 视频生成模型,在物理动作流畅度、艺术风格化(支持动漫、水墨、游戏 CG)及角色微表情方面显著提升,维持 Hailuo 02 原价,Fast 版本批量创作成本降低 50%。Hailuo Video Agent 同步升级为 Media Agent,支持多模态一键视频生成与分步自定义创作,已全平台上线并开放免费试用。

智能体模型发布视频
关联讨论 1MiniMax:News(网页)
推荐理由:MiniMax 发布 Hailuo 2.3 视频模型及 Media Agent,支持多模态一键生成
10月26日
02:14
Google DeepMind:Blog(RSS)
T5Gemma:全新的编码器-解码器 Gemma 模型系列

T5Gemma 是基于 Gemma 的编码器-解码器大语言模型新系列,采用双向编码器与自回归解码器架构,适用于翻译、摘要等序列到序列任务。

DeepMindGoogle模型发布
02:02
Google DeepMind:Blog(RSS)
精选
MedGemma:健康 AI 开发领域最强的开源多模态模型

谷歌 MedGemma 系列新增多模态模型,专为健康 AI 开发设计。作为该系列迄今最强的开源版本,新模型具备更强大的医疗场景理解能力,为开发者提供先进的医疗人工智能技术支持,助力构建更精准的健康医疗解决方案。

DeepMind多模态开源生态模型发布

推荐理由:DeepMind发布最强开放医疗多模态模型,支持开发者微调构建健康AI应用
01:34
Google DeepMind:Blog(RSS)
精选
Gemini 2.5 Flash-Lite 正式发布,可用于规模化生产

Gemini 2.5 Flash-Lite 结束预览,达到生产级可用状态。这款高性价比模型在轻量体积下提供高质量输出,支持 100 万 token 超长上下文和多模态能力。

Google多模态模型发布端侧
关联讨论 1Google DeepMind:Blog(RSS)
推荐理由:Google轻量模型Gemini 2.5 Flash-Lite正式版发布,百万上下文多模态兼顾成本效益
01:27
Google DeepMind:Blog(RSS)
《ANCESTRA》幕后:Veo 与真人实景拍摄相结合

与导演 Darren Aronofsky、Eliza McNitt 及超 200 人团队合作,采用 Veo AI 视频生成与真人实景拍摄结合的方式制作电影《ANCESTRA》。

DeepMindGoogle产品更新多模态
10月25日
03:06
00:04
美团 LongCat:HuggingFace 新模型
美团 LongCat-Video 项目

美团 LongCat-Video 项目秉持开源与开放科学理念,致力于推进并普及人工智能技术。该项目通过开放源代码的方式,旨在降低 AI 技术应用门槛,打破技术壁垒,促进视频领域人工智能技术的广泛传播与创新发展,体现了推动 AI 技术民主化与开源生态建设的长期愿景。

Hugging Face模型发布视频
10月24日
15:16
蚂蚁 inclusionAI:GitHub 新仓库
52
inclusionAI/TwinFlow

该研究提出了一种名为“自对抗流”的新方法,旨在驯化大规模少步训练。该方法通过引入一种内部对抗机制来优化流模型在有限训练步数下的性能,有望解决大模型训练中计算成本高昂的挑战。相关工作已被顶级机器学习会议ICLR 2026接收。

开源生态数据/训练论文/研究
11:17
Google DeepMind:Blog(RSS)
使用 Backstory 探索网络图片背景

实验性 AI 工具 Backstory 发布,支持查询网络图片的背景与原始出处,帮助用户追溯图像来源。

DeepMindGoogle产品更新多模态
11:12
Google DeepMind:Blog(RSS)
精选
带 Deep Think 的 Gemini 高级版本在 IMO 中正式达到金牌标准

集成 Deep Think 的 Gemini 高级版本在国际数学奥林匹克(IMO)中达到金牌水平。IMO 自1959年起每年举办,是全球最顶尖的青年数学家竞赛,各国派出6名精英学生角逐代数、组合、几何和数论领域的6道极难题目。

DeepMindGoogle推理模型发布
关联讨论 1Google DeepMind:Blog(RSS)
推荐理由:Gemini Deep Think在IMO数学竞赛达到金牌标准,推理能力获重大突破
10:58
Google DeepMind:Blog(RSS)
Aeneas 改变历史学家连接过去的方式

首个古代铭文语境化模型 Aeneas 发布,帮助历史学家解读、归属和修复残缺文本,革新历史文献研究方式。

DeepMindGoogle模型发布
10:30
Google DeepMind:Blog(RSS)
AI 助力生物声学研究,拯救濒危物种

新 Perch 模型帮助保护人员快速分析音频,监测从夏威夷蜜旋木雀到珊瑚礁的濒危物种,提升保护效率。

DeepMindGoogle论文/研究
10:21
Google DeepMind:Blog(RSS)
利用人工智能深度感知宇宙

利用人工智能技术,科学家能够从海量宇宙数据中提取深层信息,突破传统观测局限,揭示隐藏规律,从而以前所未有的深度感知和理解宇宙,持续拓展人类认知边界。

DeepMindGoogle多模态数据/训练
08:48
美团 LongCat:HuggingFace 新模型
精选
美团开源全模态模型LongCat-Flash-Omni

美团开源全模态模型LongCat-Flash-Omni,采用5600亿参数MoE架构(激活270亿),支持128K上下文与实时音视频交互。模型基于快捷连接MoE与零计算专家,配备轻量级编解码器及分块特征交错机制,通过课程式渐进训练提升效率。在OmniBench、WorldSense等基准测试中超越Qwen3-Omni与Gemini-2.5-Pro,在文档理解、语音识别及GUI控制等任务中达到领先水平。

Hugging Face多模态模型发布语音
关联讨论 1美团 LongCat:HuggingFace 新模型
推荐理由:美团开源 560B 参数多模态模型,27B 激活即可实现实时音视频交互
08:02
Google DeepMind:Blog(RSS)
发现流体力学百年难题的新解法

新方法可帮助数学家利用AI技术攻克数学、物理与工程领域的长期挑战,为流体力学百年难题提供全新解决思路。

DeepMind推理论文/研究
07:44
Google DeepMind:Blog(RSS)
强化 Frontier Safety Framework

正在强化 Frontier Safety Framework(FSF),旨在识别并降低先进 AI 模型的严重风险。

Google安全/对齐
07:05
Google DeepMind:Blog(RSS)
精选
CodeMender 发布:面向代码安全的 AI 智能体

CodeMender 是一款面向代码安全的 AI 智能体,利用先进 AI 技术自动修复关键软件漏洞。

智能体DeepMind产品更新编码
关联讨论 1X:Demis Hassabis (@demishassabis)
推荐理由:DeepMind 发布代码安全 AI Agent CodeMender,可自动修复关键软件漏洞
06:04
Google DeepMind:Blog(RSS)
将AI引入下一代聚变能源

与Commonwealth Fusion Systems (CFS)建立合作,将AI技术引入下一代聚变能源领域,致力于让清洁、安全、无限的聚变能源更快成为现实。

Google行业动态
02:52
Google DeepMind:Blog(RSS)
重新思考如何衡量 AI 智能

Game Arena 是新的开源平台,用于严格评估 AI 模型,支持在具备明确获胜条件的环境中对前沿系统进行一对一比较。

DeepMind评测/基准
02:50
Google DeepMind:Blog(RSS)
精选
Gemma 3 270M 发布:专为超高效 AI 打造的轻量模型

Gemma 3 系列新增 270M 参数模型,仅 2.7 亿参数,定位紧凑型超高效 AI 专业工具。

DeepMind开源生态模型发布端侧
关联讨论 1Google DeepMind:Blog(RSS)
推荐理由:Google 发布 270M 超小参数开源模型,端侧部署新选择
02:48
Google DeepMind:Blog(RSS)
Gemini 图像编辑功能迎来重大升级

Gemini 应用原生图像编辑功能迎来重大升级,用户现可通过更新后的工具以全新方式变换图像,获得更强大的创意编辑能力。

Google产品更新图像生成多模态
02:42
Google DeepMind:Blog(RSS)
VaultGemma:全球能力最强的差分隐私 LLM

VaultGemma 基于差分隐私技术从头训练,是目前能力最强的隐私保护大语言模型,在严格隐私约束下实现了顶尖性能。

DeepMind安全/对齐数据/训练模型发布
02:40
Google DeepMind:Blog(RSS)
精选
Gemini 2.5 Computer Use 模型发布

Gemini 2.5 Computer Use 模型基于 Gemini 2.5 Pro 构建,专门用于驱动能与用户界面交互的 agent,现已通过 API 以预览版形式提供。

智能体DeepMindGoogle多模态

推荐理由:Google 发布 Gemini 2.5 Computer Use 模型,支持 Agent 自主操作图形界面
02:38
Google DeepMind:Blog(RSS)
推出 Veo 3.1 及高级创意功能

Veo 3.1 正式发布,带来重大功能更新。此次升级为用户提供更强大的高级创意控制能力,让创作过程更加灵活高效,满足多样化的创意需求。

Google产品更新视频
02:22
00:00
Runway:Changelog(网页)
将工作流发布为应用

支持将自动化工作流打包发布为独立应用,提供从构建到分发的完整工具链。用户可将现有流程转化为可部署的产品,实现「所需即所得」的一站式创作体验。

产品更新视频
10月23日
17:42
美团 LongCat:HuggingFace 新模型
美团 LongCat 发布 Flash-Omni 模型

美团 LongCat 团队发布 LongCat-Flash-Omni 开源项目,致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,打破技术壁垒,但目前尚未披露具体模型架构、性能基准、参数规模及应用场景等详细技术规格。

Hugging Face多模态开源生态模型发布
08:00
OpenRouter:Announcements(RSS)
47
隐式缓存是提示词保留吗?

文章探讨了AI服务提供商采用的隐式缓存技术是否应被视为零数据保留策略。隐式缓存指服务商为提高响应速度与效率,在系统内部临时存储用户提示词与生成结果,而非明确告知用户。这引发了数据隐私与透明度争议,关键问题在于这种未声明的缓存行为是否违背了用户对数据立即删除的预期。客户需评估该技术是否满足其数据保留要求,尤其在处理敏感信息时。

安全/对齐行业动态部署/工程