OpenAI开源了15亿参数的PII脱敏模型Privacy Filter,采用混合专家设计,每次仅激活约5000万参数,可在笔记本电脑等设备上运行。它能根据上下文识别姓名、地址等八类敏感信息,在基准测试中F1分数达97.43%。该模型作为本地预过滤层,帮助用户在文本发送至云端AI前脱敏数据,但高敏感场景仍需结合人工审核。
OpenAI开源了15亿参数的PII脱敏模型Privacy Filter,采用混合专家设计,每次仅激活约5000万参数,可在笔记本电脑等设备上运行。它能根据上下文识别姓名、地址等八类敏感信息,在基准测试中F1分数达97.43%。该模型作为本地预过滤层,帮助用户在文本发送至云端AI前脱敏数据,但高敏感场景仍需结合人工审核。
小米宣布未来三年在AI领域的投入将超过600亿元。其基座大模型MiMo开始收费后用户留存率超过35%,即将开源的MiMo-V2.5模型在AA智能与Agent指数上位列全球开源大模型并列第一,并几乎适配国内所有芯片。小米首代机器人VLA大模型团队仅用6个月完成开发,并判断机器人的“GPT3时刻”将在未来1-2年到来。在企业效率方面,小米预计通过全面拥抱Agent技术,整体效率将提升500%。此外,小米的智能助理Miclaw未来将与小爱同学全面融合,并贯通人车家全生态设备。
Nemotron 3 Nano Omni是该系列最新模型,首次原生支持音频、文本、图像和视频输入。通过架构、训练数据及方法的改进,其在所有模态上的准确性均超越前代Nemotron Nano V2 VL,尤其在真实文档理解、长音视频理解和智能体计算机使用方面表现领先。该模型基于高效的Nemotron 3 Nano 30B-A3B骨干网络,并融入创新的多模态令牌缩减技术,实现了比同类规模模型更低的推理延迟和更高的吞吐量。为促进后续研发,团队发布了BF16、FP8和FP4格式的模型检查点,以及部分训练数据和代码库。
OpenAI发布GPT-5.5,核心目标是增强模型自主规划与执行多步骤复杂任务的能力,减少人工干预。在多项基准测试中表现突出:在Terminal-Bench 2.0、FrontierMath Tier 4等复杂任务上超越GPT-5.4及Claude Opus等竞品;在GDPval知识工作与OSWorld-Verified真实电脑操作测试中也保持领先。其代码能力更优且效率更高,科研能力显著提升,甚至辅助发现了拉姆齐数的新证明。尽管模型更大更强,其响应速度与GPT-5.4持平。
关联讨论 22 条X:Testing Catalog (@testingcatalog)Simon Willison 博客X:swyx (@swyx)X:Greg Brockman (@gdb)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:宝玉 (@dotey)X:Sam Altman (@sama)X:Tibo (@thsottiaux)OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)Ethan Mollick:One Useful Thing(RSS)X:歸藏 (@op7418)X:OpenAI (@OpenAI)X:Satya Nadella (@satyanadella)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:Eric Mitchell (@ericmitchellai)X:Berry Xia (@berryxia)X:ChatGPT (@ChatGPTapp)IT之家(RSS)🚀 DeepSeek-V4 Preview is officially live & open-sourced! Welcome to the era of cost-effective 1M context length. 🔹 Dee...
关联讨论 5 条IT之家(RSS)X:Rohan Paul (@rohanpaul_ai)X:DeepSeek (@deepseek_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)Hacker News 热门(buzzing.cc 中文翻译)腾讯混元团队在重建基础设施后,推出首个MoE架构模型Hy3 preview,总参295B,支持256K上下文。团队确立能力体系化、评测真实性、性价比三大原则,推动模型向实用转型。评估显示,Hy3在复杂推理与长上下文任务上进入第一梯队,代码与智能体能力进步显著。其突出亮点是能深度挖掘非结构化对话中的隐含约束,并转化为结构化输出,体现了强大的实际应用潜力。
👋Hi /haɪ/, we're the Tencent Hy /haɪ/ team🐧 Today, we open source Hy3 preview (295B A21B), a leading reasoning and age...
关联讨论 3 条X:腾讯混元 (@TencentHunyuan)IT之家(RSS)X:karminski (@karminski3)DeepSeek V4详细的官方公告也发了: 模型参数 (a) Pro 版本:总参数 1.6T,激活参数 49B (b) Flash 版本:总参数 284B,激活参数 13B (c) 预训练数据量:均为 32T 模式区分(网页端与 APP)...
关联讨论 5 条IT之家(RSS)X:Rohan Paul (@rohanpaul_ai)X:DeepSeek (@deepseek_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)Hacker News 热门(buzzing.cc 中文翻译)阿里巴巴新发布的开源模型 Qwen3.6-27B 在多项编程基准测试中超越了其前代模型。该模型仅拥有 270 亿参数,而其前代模型的参数量是其 15 倍。这一结果表明,模型在代码能力上实现了显著的效率提升,以更小的规模取得了更优的性能。
关联讨论 5 条X:Artificial Analysis (@ArtificialAnlys)Simon Willison 博客Hacker News 热门(buzzing.cc 中文翻译)X:Rohan Paul (@rohanpaul_ai)The Decoder:AI News(RSS)一款新的开源OCR模型在olmocr基准测试中达到85.9%的SOTA性能。该模型参数量为40亿,由90亿参数精简而来,支持超过90种语言并附带基准测试。其核心能力包括保留完整的文档布局信息,能从图像和图表中提取并生成说明文字,同时对手写文本、数学公式、表单及表格具备强大的识别与解析支持。
autonovel是基于Ling-2.6-flash的AI写作工具,专为长篇小说创作优化。它能以200+ tokens/s的速度生成文本,大幅提升创作效率,并在上下文一致性、伏笔回收和人物性格保持方面表现突出,帮助作者从繁琐的码字劳动中解放,更专注于故事构思。目前提供免费体验额度。
后续来了兄弟们,卧槽真的太炸了,同样的任务,同样的配置,速度比Claude Sonnet 4.6还快 6 倍,成本低约 50 倍, openrouter 和 官方 API 均限时免费 1 周使用时间,白嫖的机会,冲啊兄弟们! 我上周那条讲E...
Super excited GPT-5.5 is rolling out to GitHub Copilot, M365 Copilot, Copilot Studio, and Foundry today. With deeper rea...
关联讨论 22 条X:Testing Catalog (@testingcatalog)Simon Willison 博客X:swyx (@swyx)X:Greg Brockman (@gdb)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:宝玉 (@dotey)X:Sam Altman (@sama)X:Tibo (@thsottiaux)OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)Ethan Mollick:One Useful Thing(RSS)X:歸藏 (@op7418)X:OpenAI (@OpenAI)X:Satya Nadella (@satyanadella)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:Eric Mitchell (@ericmitchellai)X:Berry Xia (@berryxia)X:ChatGPT (@ChatGPTapp)IT之家(RSS)该项目致力于通过开源与开放科学推动人工智能的发展与普及。团队正持续推进技术民主化进程,旨在让更广泛的群体能够接触并利用先进AI工具。其核心路径是依托开放协作模式,降低技术门槛,促进创新生态的构建。
美团新一代基础大模型LongCat-2.0-Preview已开放邀请测试,其总参数规模突破万亿,采用混合专家架构,整体能力被认为对标GPT-4。关键突破在于该模型完全基于国产化算力集群训练完成,标志着美团在此领域取得领先。此前,美团创始人王兴已披露公司持续投入数十亿美元保障算力供应。去年9月,美团曾开源基于相同架构、拥有5600亿参数的首款自研大模型LongCat-Flash。
小米于2026年4月22日发布MiMo V2.5 Pro模型,其在Artificial Analysis智能指数得分54,表现强劲。该模型在代理能力上领先,Agentic Index得分67%,优于Kimi K2.6等开源模型,这主要得益于在τ²-Bench和TerminalBench Hard上的优异表现。此外,其在前沿推理和指令遵循方面也有提升。模型具有1M上下文窗口,1T总参数,API定价具有成本效益,运行同一智能指数仅需462美元。不过,其在事实准确性指数上得分4,存在准确率较低的问题。模型采用MIT许可证,权重暂未公开,目前可通过小米官方API使用。
Deepseek v4 is a huge step upwards compared to DeepSeek 3, outperforms on SWE verified opus 4.6 and GPT-5.4 and sets a n...
Deepseek v4 is a huge step upwards compared to DeepSeek 3, outperforms on SWE verified opus 4.6 and GPT-5.4 and sets a n...
Structural Innovation & Ultra-High Context Efficiency 🔹 Novel Attention: Token-wise compression + DSA (DeepSeek Sparse ...
DEEEPSEEK 4 RELEASED!! Holy!! Lets go
Deepseek v4 pro Evals. Roughly on par with GPT-5.4 xhigh and opus 4.6 max
DeepSeek-V4 预览版发布,支持百万级上下文窗口,提供顶级长文本记忆能力,模型配置选择更灵活。
在独立评测中,GPT-5.5以3分优势超越Anthropic和Google的模型,重回性能榜首。其API定价大幅上涨,输入与输出费用分别达到每百万5美元和30美元,但token消耗减少了约40%。模型通过自我编写的算法进行了优化,使token生成速度提升超过20%。尽管知识准确率达到57%的历史新高,但其幻觉率也高达86%,显示出性能与可靠性之间的显著矛盾。
蚂蚁百灵发布万亿参数旗舰 Ling-2.6-1T,采用 MLA 与 Linear Attention Hybrid 架构,以“快思考”机制实现低 Token 开销高效推理。综合智能对标 GPT-5.4 (Non-Reasoning),在 AIME26 上显著领先其他非思考模型;在 SWE-bench Verified、TAU2-Bench、BFCL-V4 等 Agent 基准上达到开源 SOTA。支持 256K 超长上下文(MRCR 高分)并表现优异的 IFBench。现已通过 OpenRouter 和官方平台提供一周免费 API 调用,将于近期正式开源。
小米发布全链路语音大模型系列MiMo-V2.5,包含TTS(语音合成)与ASR(语音识别)两大核心。TTS系列包含三款模型:基础版内置多款音色并支持精细控制;VoiceDesign版可一句话生成新音色;VoiceClone版能通过少量样本高保真复刻音色。三者均支持通过自然语言指令和音频标签精细调度声音表现,已在小米MiMo开放平台限时免费。ASR模型已正式开源,在中英双语、方言、强噪音及多人对话等复杂场景下的识别性能达到业界领先水平。
DeepSeek发布新一代模型DeepSeek-V4,其核心突破在于实现了长达百万token的上下文窗口,并确保智能体能够有效利用这一扩展的上下文能力。该模型延续了通过开源与开放科学推动人工智能发展与普及的使命,标志着大模型在长上下文理解和实际应用方面迈出重要一步。
关联讨论 6 条Simon Willison 博客IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Rohan Paul (@rohanpaul_ai)X:DeepSeek (@deepseek_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)OPENAI 🚨: GPT-5.5 AND GPT-5.5 PRO HAVE BEEN SPOTTED ON OPENROUTER! - gpt-5.5-20260423 - gpt-5.5-pro-20260423 Soon 👀
针对智能体任务中Token消耗快速增长的问题,Ling-2.6-flash模型正式发布。该模型采用混合线性架构等技术进行系统性优化,旨在实现更高推理效率和更低使用成本。其推理速度在4卡H20条件下最快可达340 tokens/s,在Artificial Analysis评测中仅消耗约对比模型1/10的Tokens。模型在多个Agent相关基准测试中达到同尺寸SOTA水平,保持了强大的任务执行与工具调用能力。
关联讨论 5 条X:阿易 AI Notes (@AYi_AInotes)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)蚂蚁 inclusionAI:HuggingFace 新模型X:蚂蚁百灵 (@AntLingAGI)inclusionAI团队发布了LLaDA2.0-Uni模型。该版本在统一的多模态理解与生成能力上取得显著进展,支持图像、文本、音频等多种输入与输出模态。模型参数量达到约70B,在多项基准测试中,其综合性能较前代提升超过15%。此次发布延续了通过开源与开放科学来推动人工智能民主化的核心使命。
Qwen3.6-27B 开源发布,采用270亿稠密参数,无需MoE路由,部署门槛更低。编程能力全面超越前代旗舰Qwen3.5-397B-A17B MoE,在SWE-bench Verified(77.2)、SWE-bench Pro(53.5)、Terminal-Bench 2.0(59.3)、SkillsBench(48.2)等基准上领先,深度思考能力媲美超大参数模型。原生支持多模态,可处理图像、视频与文本,支持视觉推理、文档理解和视觉问答,具备视觉语言思考与非思考模式。开源权重已上线Hugging Face与ModelScope,API即将在阿里云百炼上线,兼容OpenAI与Anthropic协议,即时对话可通过Qwen Studio体验。
关联讨论 1 条公众号:通义实验室(千问)🚨 OpenAI just accidentally leaked all the internal models in Codex model picker Seem to be only on pro accounts
关联讨论 23 条X:小互 (@xiaohu)IT之家(RSS)X:Testing Catalog (@testingcatalog)Simon Willison 博客X:swyx (@swyx)X:Greg Brockman (@gdb)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:宝玉 (@dotey)X:Sam Altman (@sama)X:Tibo (@thsottiaux)OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)Ethan Mollick:One Useful Thing(RSS)X:歸藏 (@op7418)X:OpenAI (@OpenAI)X:Satya Nadella (@satyanadella)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:Eric Mitchell (@ericmitchellai)X:Berry Xia (@berryxia)X:ChatGPT (@ChatGPTapp)该模型由 inclusionAI 发布,属于 DR-Venus 系列,参数量为 40 亿,采用强化学习训练并已转换为 GGUF 格式,便于在本地设备高效运行。其推出延续了通过开源与开放科学推动人工智能技术发展与普及的使命,旨在降低先进 AI 技术的使用门槛,促进更广泛的社区参与和创新应用。
inclusionAI 团队开源了 DR-Venus-4B-RL 模型。这是一个基于强化学习技术微调的 40 亿参数语言模型,旨在通过开源与开放科学的方式推动人工智能的发展与普及。该模型的发布为研究社区提供了一个中等规模、经过指令与人类偏好对齐的可用模型,延续了其促进 AI 民主化的目标。
该团队正致力于通过开源与开放科学的方式,推动人工智能技术的进步与民主化。其核心目标是降低AI技术的门槛,促进更广泛的参与和创新,使先进AI工具能够被更多开发者和研究者所使用。这一举措旨在构建一个开放、协作的AI生态系统。