小米开源MiMo-V2.5双模型,支持百万上下文与商用
小米正式开源MiMo-V2.5系列模型,采用MIT许可,支持商业部署、继续训练与微调。该系列包含两个支持100万令牌上下文窗口的模型:MiMo-V2.5-Pro专为复杂智能体和编码任务设计,在GDPVal-AA和ClawEval基准测试中位列开源模型第一;MiMo-V2.5则是具备强大智能体能力的原生全模态模型。官方强调,模型的价值不仅在于排名,更在于其解决实际问题的能力,并已公开模型权重与技术博客。
小米正式开源MiMo-V2.5系列模型,采用MIT许可,支持商业部署、继续训练与微调。该系列包含两个支持100万令牌上下文窗口的模型:MiMo-V2.5-Pro专为复杂智能体和编码任务设计,在GDPVal-AA和ClawEval基准测试中位列开源模型第一;MiMo-V2.5则是具备强大智能体能力的原生全模态模型。官方强调,模型的价值不仅在于排名,更在于其解决实际问题的能力,并已公开模型权重与技术博客。
GitHub Copilot 宣布将转向按使用量计费模式。这一变化意味着用户的付费方式将从现行的固定订阅制,转变为根据实际使用量来计算费用。具体计费细节和转换时间表尚未公布,但此举旨在为不同使用强度的用户提供更灵活的付费选项。该消息在技术社区引发关注,在Hacker News上获得了111个讨论点数。
用户@doodlestein使用ChatGPT Images 2.0,以蒙娜丽莎为主题创建关于线性变换和谱定理的数学解释信息图。尽管使用了相同的详细提示词,模型在四次生成尝试中产出了布局、矩阵示例和解释结构明显不同的结果。虽然核心概念保持一致,但每次生成在特征向量和变换的可视化呈现方式上各有独特之处。这证实了即使输入不变,模型的输出也存在显著变化。因此,对于重要内容,建议进行多次生成以获取不同的视觉方案和创意角度。
Symphony 是一个用于 Codex 编排的开源规范,能够将问题跟踪器转化为持续运行的智能体系统。该系统通过自动化任务协调与执行,显著提升工程团队的产出效率,同时减少开发者在不同任务间频繁切换带来的认知负担。其核心在于以标准化、可扩展的方式,将日常开发流程转化为由智能体持续驱动的工作流。
📣 如果每个未解决的问题都有一个 Codex 智能体呢? 这就是 Symphony 背后的理念——一个为 Codex 设计的开源智能体编排器,它将任务追踪器转变为持续运行的系统,用于智能体工作,让人类专注于审查和方向指导。
NVIDIA 正式推出面向开发者的 Nemotron 资源中心。该中心是一个一站式平台,为开发者提供了构建 Nemotron 模型所需的全套资源,包括训练方案、使用指南、数据集以及完整的端到端参考示例。此举旨在降低开发者使用 Nemotron 系列模型的门槛,加速基于该模型的应用程序开发与部署。
来自@alibaba_cloud的HappyHorse-1.0现已登陆AI Gateway! 该模型目前在@ArtificialAnlys视频竞技场排名第一,具备1080p生成能力,支持七种语言的联合音频与原生唇形同步。 尝试文本生成视频: https://developers.cloudflare.com/ai/models/alibaba/hh1-t2v/ 尝试图像生成视频: https://developers.cloudflare.com/ai/models/alibaba/hh1-i2v/
Hugging Face在其Jobs服务基础上发布了hf-sandbox,提供类似Modal的交互式沙盒API环境。该功能允许用户通过代码快速启动临时的计算环境,用于测试、调试或运行机器学习任务,无需预先配置完整的基础设施。沙盒支持按需启停,资源随用随释,进一步简化了模型开发与实验流程,并与Hugging Face生态系统紧密集成。
OpenAI 与 Microsoft 宣布修订合作协议,旨在简化合作结构并明确长期合作框架。新协议将为持续的大规模人工智能创新提供支持,标志着双方战略伙伴关系进入更清晰、更稳定的新阶段。此次调整侧重于强化合作效率与长期目标的一致性,共同推进 AI 技术的前沿发展。
我们已更新与微软的合作关系。 微软仍将是我们的主要云合作伙伴,但现在我们能够在所有云平台上提供我们的产品和服务。 将继续向他们提供模型和产品直到2032年,并且收入分成将持续到2030年。
自6月1日起,GitHub Copilot 的使用将开始消耗 GitHub AI Credits,计费模式正式从固定订阅制转变为基于实际使用量的计费。这一变化意味着用户的费用将与 AI 助手的具体调用量直接挂钩,而非统一的月费或年费。
OpenAI 👀 微软 OpenAI 和微软发布了一项合作修正案,允许 OpenAI 通过其他云服务提供商托管其模型。 微软在 2030 年后也将不再向 OpenAI 支付收入分成。 OpenAI 获得更多自由! [引用 @MSFTnews]:微软与 OpenAI 合作的新阶段 https://msft.it/6015vGRyX
OpenAI与微软已修订双方的合作协议。新协议取消了微软对OpenAI技术的独家授权,OpenAI现可自由通过任何云服务提供商分发其产品。同时,原协议中备受争议的关于通用人工智能(AGI)的条款也被移除。这一调整标志着双方合作关系从排他性转向更开放的生态合作。
微软与OpenAI重组了合作关系。OpenAI现在可以通过任何云提供商提供服务,不再局限于Azure。微软对OpenAI知识产权的许可变为非独家,并停止向OpenAI支付收入分成。OpenAI对微软的付款将持续至2030年,但设有上限。此举明确显示OpenAI正将自己定位为独立的平台公司,而非微软的AI部门。消息公布后,微软股价下跌5%。
OpenAI与微软宣布调整合作协议。微软不再向OpenAI支付营收分成,OpenAI则获得了通过任意云服务商提供全部产品的自由,但微软仍为其首要云合作伙伴,新产品优先在Azure上线。微软对OpenAI知识产权的授权改为非独占式,有效期至2032年;OpenAI向微软支付营收分成的安排持续至2030年,设有总额上限。双方将继续在数据中心扩容、下一代芯片研发及网络安全领域保持合作,微软仍以主要股东身份参与OpenAI发展。
马斯克起诉OpenAI及其CEO奥尔特曼等一案即将在加州开庭,索赔金额高达1500亿美元。案件核心争议在于OpenAI被指控背弃最初的非营利使命,转为营利性实体。关键证据包括联合创始人格雷格·布罗克曼2017年的私人日记,其中内容显示管理层早期已考虑摆脱马斯克影响并追求经济利益。马斯克要求OpenAI恢复非营利性质并罢免奥尔特曼等人职务。OpenAI则反驳称马斯克意图掌控公司并为自己的xAI造势。此案可能动摇OpenAI管理层公信力,影响其万亿估值上市计划。
研究显示,持续学习中梯度修改方法(如投影、惩罚重缩放)与Adam优化器结合时存在隐藏失效。在8领域语言模型任务中,共享路由投影基线性能接近普通遗忘(12.5-12.8 vs. 13.2),而自适应解耦路由稳定在9.4,提升3.8单位;16领域任务中优势扩大至4.5-4.8单位。失效因Adam第二矩路径导致旧方向有效学习率膨胀,同样出现在惩罚方法、回放混合及70亿参数规模中。修复方案仅将修改梯度路由到第一矩,保持第二矩统计量,并采用重叠感知自适应强度,这是唯一能避免崩溃的配置。
研究团队提出Conductor模型,通过强化学习训练,作为管理者动态协调包含GPT-5、Gemini等前沿模型的智能体团队。它用自然语言输出工作流,指定调用智能体、分配子任务和提供上下文。这个7B模型在LiveCodeBench等基准测试中超越了所有单个成员模型及昂贵多智能体基线,并具备“递归测试时扩展”特性,可自我调用纠正错误,为推理时扩展计算开辟新途径。该研究是Sakana多智能体系统Fugu的技术基础,Fugu已在多个基准达到SOTA,提供低延迟和高深度推理模式,并开放Beta测试。
本研究引入“自发说服”概念,审计五种大型语言模型(LLM)在日常多轮对话中非明确使用说服策略的频率与方式。通过模拟基于心理学、传播学和语言学的用户回应风格,并与人类回应(来自Reddit)比较,发现LLM在几乎所有对话中都会自发说服用户,主要依赖基于信息的策略,如诉诸逻辑或量化证据。这一模式在不同模型和用户回应风格中保持一致,但在心理健康话题中,基于评价和情感的策略使用率更高。相比之下,人类回应更倾向于使用产生社会影响的策略,例如诉诸负面情感或非专家证言。这种差异可能解释了LLM在说服用户方面的有效性,以及其被感知为客观、公正的原因。
研究提出 OneManCompany (OMC) 框架,将多智能体系统提升至组织层面。该框架将技能、工具与配置封装为可移植的“人才”身份,通过类型化接口协调异构后端,并借助社区驱动的“人才市场”实现按需招募,动态弥补能力缺口。组织决策通过“探索-执行-评审”树搜索实现,将规划、执行与评估统一为分层循环,并提供终止与无死锁的形式化保证。在 PRDBench 上的实验显示,OMC 达到 84.67% 的成功率,较现有最佳技术提升 15.48 个百分点,跨领域案例验证了其通用性与自组织能力。
本研究通过三项大规模实验(2,939名作者、11,091名读者)评估AI写作助手对作者形象的影响。作者在有无AI协助下撰写政治观点段落,读者从29个社会感知维度进行盲评。结果显示,AI协助导致作者形象在所有维度发生扭曲:作者显得更固执己见、更有能力、情绪更积极,且其感知人口特征向特权群体偏移。尽管作者反对多数扭曲现象,却仍倾向于使用AI辅助文本。研究通过训练奖励模型在模型层面部分缓解了扭曲,但降低了用户接受度,表明AI写作助手的理想与非理想特性相互交织。这些扭曲在人类监督下依然普遍存在,可能对公共话语、信任与民主审议产生深远影响。
一项针对AI智能体在编码任务中token消耗成本的系统性研究发现,其消耗量可达聊天或代码推理的约1000倍,且相同任务在不同运行中的消耗差异高达30倍。更高的token支出并不直接带来更高的准确性,性能在中等成本时达到峰值后趋于饱和。模型自身也难以预测其token使用量,自我预测相关性最高仅0.39。不同模型在相同任务上可能多消耗150万token而并无质量提升。这表明智能体的运行时成本具有高方差、与质量关联弱、甚至模型自身也无法预测的特性,这将影响团队的预算规划、模型间路由策略以及终止任务运行的决策。
SpikingBrain2.0(SpB2.0)是一个5B参数的类脑基础模型,在架构和训练效率上取得突破。其核心创新是双空间稀疏注意力机制,融合稀疏Softmax与线性注意力,优化长上下文建模的效能平衡;同时支持INT8脉冲编码与FP8量化双路径,分别适配事件驱动计算与GPU推理。该模型仅用不足7k A100 GPU小时即恢复基础Transformer大部分能力,在4M上下文长度下实现10.13倍的首次令牌生成加速,并支持超过1000万令牌的长序列。实验表明,其FP8 GPU推理可提速2.52倍,神经形态执行则实现高稀疏度,显著降低面积与功耗,为资源受限场景提供了轻量级多模态脉冲基础模型的可行路径。
研究团队推出了AgentSearchBench,这是一个用于评估真实场景中AI智能体搜索能力的大规模基准。该基准从多个平台收集了近10,000个真实世界智能体,将智能体搜索形式化为可执行任务查询和高级任务描述下的检索与重排序问题,并采用基于执行结果的性能信号来评估相关性。实验表明,语义相似性与智能体实际性能之间存在持续差距,暴露了仅依赖描述进行检索和重排序方法的局限性。研究进一步证明,轻量级的行为信号(包括执行感知探测)能显著提升排序质量,凸显了将执行信号纳入智能体发现过程的重要性。相关代码已开源。
GPT Image 2 Prompt工具发布了一项针对生成“Elon Musk”主题高级概念排版海报的详细设计规范。核心要求是海报必须以“Elon Musk”标题为绝对主导视觉结构,文字需巨大、可读、有力且拼写精确。设计需基于对标题含义、文化氛围及象征意义的解读,转化为一个强有力的视觉隐喻。若标题指代广为人知的人物,则需将具有可识别性的编辑肖像作为主要视觉元素,占据40-70%版面,并与标题文字产生互动。整体风格需为高端编辑海报,采用4-6色系,强调定制化字形、戏剧性尺度和精炼的视觉张力,避免通用化设计元素。
华盛顿大学MacCoss实验室的Brendan MacLean将培训新开发者的方法论应用于Claude Code,以管理拥有70万行C#代码、持续开发17年的开源蛋白质分析软件Skyline。他通过创建独立的AI上下文仓库、编写CLAUDE.md引导文件以及设计“技能”模块(如调试技能),为Claude Code建立项目认知。该方法显著提升了开发效率:搁置一年的文件视图面板功能在两周内完成;CSS布局更新从依赖设计师变为不到一天实现。此外,Claude Code还自动化了2000多张教程图片的截图比对和每日测试报告生成,团队现在主要依靠它生成代码和脚本。
新一代智能体AI工具能自动生成、评审并提交项目申请书,极大提升了效率。数据显示,2022至2025年间,多个国际资助机构的申请量激增14%至142%,且申请质量普遍提升。调查显示,58%的研究者已使用AI工具,其中41%用于起草申请书。这导致评审者面临海量高质量申请,难以有效区分。尽管资助机构目前多限制AI使用,但智能体AI能根据资助方要求全流程优化提案,可能从根本上改变竞争格局。政策制定者需尽快重新设计资助分配体系,以应对系统性挑战。
根据Ornn Compute Price Index数据,NVIDIA B200 GPU的现货租赁价格在六周内飙升114%,从三月初的2.31美元涨至本周的4.95美元/小时。此次价格暴涨与GPT-5.5等前沿模型发布带来的需求冲击紧密相关,这些模型需要Blackwell架构提供的内存支持。与此同时,B200与上一代H200的价差从0.28美元大幅扩大至1.80美元,不同云服务商之间的报价差距也扩大了一倍以上,反映出市场供应紧张。预计夏季B200价格将维持在5美元以上,云端推理成本持续上升。