Google DeepMind发布了基于Gemini的多Agent系统Co-Scientist,旨在实现科研流程自动化。该系统能够生成、辩论和验证假设,帮助科学家从高强度脑力劳动中解放出来。过去一年,它已在肝纤维化新靶点、ALS新疗法等复杂问题上与科学家合作探索出新方向。其定位并非取代科学家,而是作为“专职研究伙伴”。目前,其假设生成功能已通过Gemini for Science向个人研究者开放。
We believe AI can be a dedicated research partner to help discover the next breakthrough. Enter Co-Scientist: our latest...
商汤联合创始人兼首席科学家在2026 AI创新论坛指出,模型架构优化能显著降低单位智能所需的算力。其新发布的多模态模型SenseNova U1基于自研Neo-Unify架构,实践了这一理念,在生成信息图时实现了显著更低的计算成本,并已适配多款中国芯片。商汤强调持续通过应用与模型创新推动芯片发展,以创造商业价值与长期竞争力。
斯坦福研究人员发现,在评估合同法问题时,法律教授有75%的次数更倾向于选择AI给出的答案,而非同行教授的答案。该研究让教授们针对40个真实学生提问撰写答案,并对近3000个人类与AI的回答进行了盲测比较。结果不仅显示AI胜出频率高,而且教授们仅将3.5%的AI答案标记为“有害”,而对人类答案的有害标记率为12%。这表明大语言模型并非只是流畅,其表现常能达到教授向学生解释法律模糊性的教学标准。
MiniMax M3模型通过Live Session分享了核心信息。其MSA技术采用块级Top-K选择,保持真实、未压缩的KV缓存,使1M token上下文窗口高效运行。该技术将长上下文生成的注意力内核解码时间从约30%降至约5%,效率提升显著。M3是原生多模态模型,支持图像视频输入,可处理长程智能体任务及桌面操作,并具备视觉自评估迭代能力。模型在金融任务中展现出初级分析师水平。未来版本将聚焦更复杂的长程任务,并扩展金融、法律与生物领域。Together AI为其提供推理服务。
MiniMax M3 is live and Together AI is powering its inference 🚀 Tomorrow at 6pm PT we're going live on X Spaces with the...
微软发布了 MAI-Thinking-1,这是一款采用 MoE 架构的模型,拥有 35B 活跃参数和 1T 总参数。该模型从零开始在 30T tokens 上完成预训练,且未使用第三方模型蒸馏。微软称其迭代优化流程为“爬山机器”。在基准测试中,该模型于 AIME 2025 获得 97.0%,在 LiveCodeBench v6 获得 87.7%,在 SWE-Bench Pro 获得 52.8% 的成绩。
关联讨论 3 条The Verge:AI(RSS)The Decoder:AI News(RSS)X:Satya Nadella (@satyanadella)Mai-1 thinking: Mid size model, 45b active parameter, MoE, side by side with sonnet 4.6 0 distillation "Microsoft's firs...
Mustafa Suleyman, Microsoft AI: 7 new Microsoft Models, no end in sight when it comes to development, orders of magnitud...
微软在官网更新了 MAI 模型系列,重点发布了 MAI Code 1 Flash 和 MAI Thinking 1。MAI Thinking 1 拥有 35B 活跃参数和约 1T 总参数,采用 MoE 架构,其推理成本低于更大型模型,但在 SWE-Bench Pro 上的表现可与 Claude Opus 4.6 竞争。MAI Code 1 Flash 则专注于通过规划和推理来完成端到端的复杂编码任务。此外,MAI Image 2.5、MAI Voice 2 及 MAI Transcribe 1.5 也同步上线。
Moonshot AI创始人杨植麟最近放出了一个40分钟视频。 这位92年生、清华计算机本科第一、CMU博士、Transformer-XL和XLNet共同作者,前Google Brain和Meta研究员,坐在镜头前平静拆解了Kimi K2的...
Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...
A Lab note for Step 3.7 Flash launch. -- When Flash models bring speed, cost, and intelligence into the "usable" range a...
Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 196B MoE model, and built for ...
Make sure to join our live Spaces chat on MiniMax M3 starting in 4 hours. You can pre-submit questions by replying to th...
NVIDIA发布RTX Spark,一款3nm制程的SoC,整合了ARM CPU、Blackwell GPU及128GB统一内存。它被应用于超薄笔记本,可本地运行120B大模型,并在1440p分辨率下满帧运行3A游戏,拔电后性能不降。此举被视为PC行业竞争规则的转变,从比拼CPU性能转向比拼AI算力与CUDA软件生态,标志着NVIDIA对Wintel王朝的挑战。该方案绕开了苹果对CUDA的限制,并抢先在Windows平台复刻了ARM架构加完整GPU生态的路径,旨在争夺未来三十年的PC行业主导权。
MiniMax M3 is now available on AI/ML API! To test it, we asked several leading models to oneshot Doodle Jump from the sc...
英特尔计划在年底前推出一款新的AI数据中心芯片,主打低成本策略以与英伟达、AMD竞争。其代号“Crescent Island”的策略聚焦推理任务,采用空气冷却和LPDDR5内存以降低总体成本,而非追求极致性能。这是在Gaudi芯片未能成功突围后,英特尔选择进入一个对自身制造优势更有利的细分市场。
通义千问推出 Qwen3.7-Plus,这是一款统一视觉与语言能力的多模态智能体模型。它支持图形界面与命令行混合操作,可作为多功能编码智能体与生产力助手,并具备视觉感知、推理、定位与搜索增强问答能力。该模型设计为可跨多种智能体框架泛化。现在可通过阿里云百炼平台的 API 使用。
关联讨论 5 条IT之家(RSS)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:Kim (@kimmonismus)Qwen:Blog Retrieval(API)公众号:通义实验室(千问)该研究指出,在自我改进的AI智能体中,“更强模型总能写出更好进化器提示词”的直觉是错误的。工作区分了两种能力:产生更新的能力在不同模型间趋于平坦,而从更新中受益的能力呈倒U形曲线,在中等模型处达到顶峰。弱模型无法有效激活更新,强模型则因已处性能高位而获益甚微。因此,成本效益最佳的配置是:使用廉价的中等模型担任“进化器”,而将昂贵的强模型用作“求解器”。
Nemotron 3 Ultra is coming this week. ⌛️
MiniMax M3 scores 90.3% GPT 5.5 Scores 92.4% Just a 2.1% gap now at @convex. Incredible to see the open-source models cl...
🚀 We're launching MiniMax M3 from @MiniMax_AI on Novita AI as a Day-0 API launch partner. The first open-weights model ...
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)KwaiKeye开源了多模态大模型Keye VL 2.0-30B-A3B,采用Apache 2.0许可。该模型总参数为30B,但仅激活3B参数。其核心亮点是通过DeepSeek稀疏注意力技术实现了256K的上下文长度。该模型的视频理解能力表现出一个反直觉的特性:喂入的帧数越多,其准确率反而持续上升。在基准测试中,其表现已与Qwen3 VL、Gemini 3 Flash等模型相当。
Keye VL 2.0-30B-A3B 🔥 New multimodal model from @KwaiKeye ✨ 30B/3B active - Apache 2.0 ✨ 256K context via DeepSeek Spar...
NVIDIA在Computex上发布了Nemotron 3 Ultra,总参数达550B(激活参数55B),是目前最大的Nemotron 3模型。该模型在美国开放权重模型中智能性最强,在Artificial Analysis Intelligence Index评测中得分为48,超越了Gemma 4 31B(39分),但仍落后于月之暗面(Kimi)的K2.6(54分)。在推理速度方面,其在预发布端点上超过了300 tokens/s,远高于同级别中国模型通常的50-100 tokens/s。该模型将提供BF16权重及NVFP4量化版本以提升推理性能。
关联讨论 10 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)X:Artificial Analysis (@ArtificialAnlys)MiniMax M3 is now live on CREAO. Sparse-attention reasoning with up to 15.6× faster decoding at long context, built for ...
We have the first @DellTech + @nvidia Vera Rubin NVL72 @CoreWeave. Here we go! 🚀
Codex(由OpenAI发布)提供四个可选模型。其中,gpt-5.5作为质量优先的旗舰模型,适用于复杂编码、推理及知识工作,其定价较高,为输入$5.00、输出$30.00每百万tokens。主推文旨在帮助用户根据任务类型与成本考量进行选择。
http://x.com/i/article/2060676761914888194
供应链信息显示,Nvidia即将推出的N1X处理器设备未来两年出货量约1000万台,仍属面向需要设备端AI算力的性能用户的小众市场。2026年PC市场热点是MacBook Neo销量上调和可运行AI智能体的小型PC,但两者均与设备端AI算力无关。真正的设备端AI优势在于操作系统层面的隐私与深度整合,而当前Windows的支持尚不足。N1X设备能为需要本地运行大语言模型的用户,提供一个更平衡的选择,但能否驱动升级周期,关键仍在于Windows能否提供相应的应用与工作流支持。
小米MiMo-V2.5系列近期实现了API降价。其核心支撑是团队对推理系统进行了彻底的工程重构。模型基于Hybrid Sliding Window Attention架构,理论上可将KVCache存储压缩至全注意力模型的约1/7。为将此架构优势落地,团队重新设计了KVCache管理、层级缓存和prefix-cache tree,并深度优化了调度与Prefill/Decode流水线。经真实生产流量验证,有效KVCache容量提升了近5倍,服务端缓存命中率稳定在93%-95%。这些优化与MoE配置调优共同作用,显著降低了长上下文推理成本,从而支撑了本次降价。
Inference Optimizations Behind the MiMo-V2.5 Series API Price Reductions Read the full technical blog: https://mimo.xiao...