AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 979 条
全部一手资讯X论文
标签「模型发布」清除
向阳乔木@vista8 · 4月26日85

http://x.com/i/article/2048407268547522560 # OpenAI GPT-5.5官方介绍 [AI翻译重写] OpenAI 在 4 月 23 日发布了 GPT-5.5,4 月 24 日 API 正式开放。 每次大模型发布,都会有一堆跑分截图刷屏,然后大家看完就散了。 但这次读完OpenAI的博客原文,有几个地方值得认真拆开来说。 > https://openai.com/index/introducing-gpt-5-5/ ## 它到底想解决什么 先说一个很多人都有过的体验。 用 AI 做复杂任务,你得像个项目经理一样全程盯着它。 稍微多几个步骤,它就开始跑偏,或者干脆停下来问你"接下来怎么办"。 你花在"管理 AI"上的精力,有时候比自己动手还多。 GPT-5.5 想解决的,就是这个问题。 OpenAI 的原话是:给它一个乱糟糟的、多步骤的任务,它会自己规划、调用工具、检查结果、处理模糊情况,然后一直做下去,直到完成。 这个方向比跑分数字更值得关注。 跑分可以调参刷出来,但"能不能真的把一件复杂的事做完",才是实际工作里最重要的能力。 OpenAI 把这类能力叫做 Agentic,中文可以理解为"自主行动能力",也就是模型能像一个真正的执行者一样,自己规划步骤、调用外部工具、处理中途遇到的障碍,而不是每一步都等人指令。 ## 跑分数据,先看这几个关键的 这张表对比了 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro 六个模型。 几个重点数字: Terminal-Bench 2.0(测试复杂命令行工作流,需要规划、迭代和工具协调):GPT-5.5 拿到 82.7%,GPT-5.4 是 75.1%,Claude Opus 4.7 是 69.4%。提升幅度不小。 GDPval(测试 AI 在 44 种职业里完成知识工作的能力):GPT-5.5 是 84.9%,GPT-5.4 是 83.0%,Gemini 3.1 Pro 只有 67.3%。 OSWorld-Verified(测试模型能不能独立操作真实电脑界面,比如点击、输入、切换软件):GPT-5.5 是 78.7%,GPT-5.4 是 75.0%,Claude Opus 4.7 是 78.0%,基本持平。 FrontierMath Tier 4(顶级数学难题,人类专家解起来也很吃力):GPT-5.5 是 35.4%,GPT-5.4 是 27.1%,Claude Opus 4.7 是 22.9%,Gemini 3.1 Pro 只有 16.7%。这个提升幅度相当明显。 BrowseComp(测试模型在网上深度搜索和研究的能力):GPT-5.5 Pro 拿到 90.1%,是所有模型里最高的。 ## 代码能力:不只是"写代码更快" 这两张图有个很有意思的地方:GPT-5.5 的点在右上角(得分更高),但横轴的位置(token 消耗)并没有比 GPT-5.4 多,甚至更少。 更聪明,同时更省。 这在大模型里不常见,通常能力越强,消耗越大。 Expert-SWE 是 OpenAI 内部的评测基准,专门测那种"长周期编程任务",每道题的人类预计完成时间中位数是 20 小时。GPT-5.5 在这个测试上同样超过了 GPT-5.4。 > 视频地址:https://openai.com/index/introducing-gpt-5-5/?video=1185606271 演示里,有一个是从一张截图出发,让模型用 WebGL 和 Vite(两个前端开发工具)实现一个阿尔忒弥斯二号任务的 3D 轨道可视化 app,用的是 NASA 真实数据,还要支持交互操作和真实的轨道力学。 这种任务以前需要一个有经验的前端工程师花好几天。 两个真实测试者的反馈值得引用: Dan Shipper(Every 创始人)发布 app 后遇到了一个棘手 bug,调了好几天,最后让公司最好的工程师重写了部分系统才解决。 他拿 GPT-5.5 做了个回溯测试:把 bug 出现时的代码状态给模型,让它判断该怎么修。 GPT-5.4 做不到,GPT-5.5 给出了和那位工程师基本一致的方案。 他说 GPT-5.5 是"第一个让我感受到真正概念清晰度的编程模型"。 Pietro Schirano(MagicPath CEO)让 GPT-5.5 把一个有几百处前端改动和重构的分支,合并进一个同样有大量变更的主分支。 这种合并在工程上是噩梦级别的,人工做可能要花一整天。 模型大概用了 20 分钟,一次搞定。他说"感觉像是在和一个更高智能合作,甚至有一种尊重感"。 还有一个 NVIDIA 工程师说: > "失去 GPT-5.5 的使用权,感觉像是被截肢了。" Cursor 的联合创始人 Michael Truell 也给出了具体描述:GPT-5.5 比 GPT-5.4 更持久,在复杂的长任务里不会轻易停下来,这对他们用户最依赖的那类工作影响最大。 ## 知识工作:从"回答问题"到"帮你干活" GDPval 这个测试很有意思,它不是考数学或者写代码,而是测模型在 44 种真实职业里完成知识工作的能力,比如财务分析、法律文件、市场研究。 GPT-5.5 以 84.9% 的胜率领先,Gemini 3.1 Pro 只有 67.3%,差距相当大。 OSWorld-Verified 测的是模型能不能真正"用电脑",不是在对话框里聊天,而是看屏幕、点击、输入、在不同软件之间切换。 GPT-5.5 达到 78.7%,接近 Claude Opus 4.7 的 78.0%。 Tau2-bench Telecom 测的是复杂客服工作流,GPT-5.5 达到 98.0%,GPT-5.4 是 92.8%。 而且这个测试是在没有针对性调整提示词的情况下跑的,其他模型的数据是调整过提示词之后的结果,所以这个对比对 GPT-5.5 来说其实更有说服力。 OpenAI 内部的真实使用数据: - 超过 85% 的 OpenAI 员工每周在用 Codex,覆盖工程、财务、市场、数据科学等几乎所有部门。 - Finance 团队用它审查了 24,771 份 K-1 税务表格(K-1 是美国的一种合伙人税务申报表),共 71,637 页,比去年提前了两周完成,而且流程里排除了个人隐私信息。 - Comms 团队用它分析了六个月的演讲邀请数据,建立了一套评分和风险框架,低风险请求自动处理,高风险的还是走人工审核。 - Go-to-Market 团队有人用它自动生成每周业务报告,每周省了 5 到 10 小时。 ## 科研能力:这个方向有点超出预期 GeneBench 是一个专门测多阶段科学数据分析的基准,聚焦遗传学和定量生物学。 这类任务的特点是:数据可能有错误或歧义,模型要自己判断,还要正确使用现代统计方法,而且很多题目对应的是科学专家需要花好几天的项目。 GPT-5.5 在这里的提升幅度比其他测试更明显:从 GPT-5.4 的 19.0% 跳到了 25.0%,Pro 版更是到了 33.2%。 BixBench 是围绕真实生物信息学和数据分析设计的基准(生物信息学,Bioinformatics,是用计算机方法分析生物数据的学科,比如基因序列分析)。 GPT-5.5 达到 80.5%,GPT-5.4 是 74.0%,是目前有公开成绩的模型里最高的。 数学证明的案例值得单独说。 一个内部版本的 GPT-5.5 配合自定义工具,帮助发现了一个关于拉姆齐数的新证明。 拉姆齐数(Ramsey numbers)是组合数学里的核心研究对象。 组合数学研究离散对象怎么组合在一起,比如图、网络、集合、模式。 拉姆齐数问的是:一个网络要多大,才能保证某种有序结构必然出现?这类结果极少,技术难度很高。 这个证明后来在 Lean 里得到了验证。 Lean 是一个数学形式化验证工具,可以用计算机严格检验数学证明是否成立。 也就是说,不是模型"说"它发现了证明,是真的经过了独立验证的数学结论。 两个研究者的真实使用案例: 免疫学教授 Derya Unutmaz 用 GPT-5.5 Pro 分析了一个有 62 个样本、近 28,000 个基因的基因表达数据集,生成了详细研究报告,还挖出了关键问题和洞察。 他说这些工作,他的团队做可能要几个月。 数学助理教授 Bartosz Naskręcki 用 GPT-5.5 在 Codex 里,从一个提示词出发,11 分钟内构建了一个代数几何 app,可以可视化两个二次曲面的交线,并把结果转换成 Weierstrass 模型(一种椭圆曲线的标准形式,在数论研究里很常用)。 他后来还扩展了 app,加入了更稳定的奇点可视化和精确系数输出,可以直接用于后续研究。 他说,这类自定义数学可视化工具以前需要专门的软件才能实现,现在一个提示词就能搞定。 ## 推理效率:模型帮助优化了运行自己的基础设施 这部分是原文里最容易被忽略、但技术上最有意思的地方。 GPT-5.5 是一个更大、更强的模型,按常理应该更慢、更贵。 但 OpenAI 说它的单 token 延迟和 GPT-5.4 持平,也就是响应速度没有变慢。 怎么做到的? GPT-5.5 是专门为 NVIDIA GB200 和 GB300 NVL72 系统设计和训练的。 这是英伟达最新一代的 AI 推理硬件,专门为大规模语言模型推理优化。 但硬件只是一部分。他们还对推理系统做了大量软件层面的优化,其中最有意思的一个: 以前,每个请求在 GPU 上会被切成固定数量的块来处理,这样大请求和小请求可以在同一块 GPU 上运行。 但固定分块对所有流量形状都不是最优的。 Codex 分析了几周的生产流量数据,写出了自定义的启发式算法,动态决定怎么分块和负载均衡。 这个优化让 token 生成速度提升了 20% 以上。 也就是说,模型帮助优化了运行自己的基础设施。 这个递归关系有点微妙,但非常真实。 Artificial Analysis 的智能指数是由外部机构跑的 10 个评测的加权平均,包括编程、科学、推理等多个维度。 GPT-5.5 在这张图上的位置:智能指数最高,同时 token 成本处于中等水平,也就是 OpenAI 说的"顶级智能,一半的成本"。 ## 网络安全:能力越强,管控越严 这次发布在网络安全方向有专门的篇幅,值得单独说。 OpenAI 把 GPT-5.5 的生物化学和网络安全能力都评定为 High(高风险),但还没到 Critical(临界)级别。 这是他们内部 Preparedness Framework(准备框架,用来评估模型潜在风险等级的体系)里的分级。 CyberGym 测的是模型在网络安全任务上的能力:GPT-5.5 是 81.8%,GPT-5.4 是 79.0%,Claude Opus 4.7 是 73.1%。 CTF(Capture the Flag) 是网络安全领域的一种竞赛形式,参赛者需要找到系统漏洞、获取隐藏的"Flag"字符串。 这个内部测试用的是更难的 CTF 题目,GPT-5.5 达到 88.1%,GPT-5.4 是 83.7%。 OpenAI 的应对策略分三层: 第一层,加强管控。 针对高风险网络安全请求部署更严格的分类器,他们自己也承认"一开始可能会误伤一些正常用户",会持续调整。 第二层,开放可信访问。 推出 Trusted Access for Cyber 计划,从 Codex 开始,通过身份验证的用户可以获得更少限制的网络安全能力访问权限,用于合法的防御性工作。 负责保护关键基础设施的组织可以申请访问 GPT-5.4-Cyber(专门的网络安全版本),但需要满足严格的安全要求。 申请地址是 chatgpt.com/cyber。 第三层,和政府合作。 探索如何用 AI 支持负责保护关键基础设施的政府机构,包括数字系统、电网、供水系统等。 ## 长上下文能力:这个提升幅度很惊人 MRCR(Multi-Round Conversation Retrieval) 测的是模型在超长对话里找到正确信息的能力。 8 根针,意思是在对话里藏了 8 条关键信息,看模型能不能全找到。 在 512K 到 1M token 的超长上下文里,GPT-5.5 达到 74.0%,GPT-5.4 只有 36.6%,Claude Opus 4.7 是 32.2%。 翻倍的提升。 这意味着 GPT-5.5 在处理超长文档、超长对话时,信息检索能力远超前代。 Graphwalks 测的是在超长图结构数据里做推理(比如找路径、找父节点)。 在 1M token 的场景下,GPT-5.5 的 BFS(广度优先搜索)得分是 45.4%,GPT-5.4 只有 9.4%。 ## 抽象推理:ARC-AGI-2 的数字很有意思 ARC-AGI 是一个专门测试抽象推理和模式识别的基准,被认为是衡量"类人推理能力"的重要指标。 ARC-AGI-1(相对简单版本):GPT-5.5 是 95.0%,Gemini 3.1 Pro 是 98.0%,GPT-5.5 略低。 ARC-AGI-2(更难版本):GPT-5.5 是 85.0%,GPT-5.4 是 73.3%,Claude Opus 4.7 是 75.8%,Gemini 3.1 Pro 是 77.1%。GPT-5.5 在这里反而领先了。 ## 定价和可用性,说清楚 ChatGPT 里: - GPT-5.5 Thinking:Plus、Pro、Business、Enterprise 用户可用 - GPT-5.5 Pro(更难问题,更高精度):Pro、Business、Enterprise 用户可用 Codex 里: - GPT-5.5:Plus、Pro、Business、Enterprise、Edu、Go 计划可用 - 上下文窗口:400K token - Fast 模式:速度快 1.5 倍,价格是 2.5 倍 API(开发者接口): OpenAI 特别说明:虽然 GPT-5.5 比 GPT-5.4 贵,但因为完成同样任务用的 token 更少,实际总成本对大多数用户来说不会增加太多,在 Codex 里甚至可能更省。 ## 最后说一个更大的背景 这次发布有一句话值得反复读: > "过去一年,AI 在软件工程领域的渗透速度极快。GPT-5.5 想做的,是把这种渗透扩展到科学研究和更广泛的知识工作。" 软件工程是第一个被大规模改变的领域,因为代码是结构化的,对错容易验证,反馈循环很快。 科学研究更难,因为数据有噪声,结论需要专业判断,验证周期很长。 但从 GeneBench、BixBench、数学证明这些案例来看,模型正在从"回答科学问题"变成"参与科学过程"。 这两件事之间的距离,比看起来要大得多。 能不能真的做到,还需要时间验证。但方向已经很清楚了。

译OpenAI发布GPT-5.5,核心目标是增强模型自主规划与执行多步骤复杂任务的能力,减少人工干预。在多项基准测试中表现突出:在Terminal-Bench 2.0、FrontierMath Tier 4等复杂任务上超越GPT-5.4及Claude Opus等竞品;在GDPval知识工作与OSWorld-Verified真实电脑操作测试中也保持领先。其代码能力更优且效率更高,科研能力显著提升,甚至辅助发现了拉姆齐数的新证明。尽管模型更大更强,其响应速度与GPT-5.4持平。

Chubby♨️@kimmonismus · 4月26日32

It reads like they really made a vibe change with GPT-5.5. I can confirm that.

译读起来他们确实在GPT-5.5上做出了氛围变化。我可以确认这一点。

swyx 🇸🇬@swyx · 4月26日70

btw we are cooking something with @hhua_ (not final yet but keep calendar open after ICML in Seoul)

译DeepSeek团队正式推出并开源了DeepSeek-V4预览版模型,标志着高性价比的百万上下文长度时代到来。该系列包含两个模型:DeepSeek-V4-Pro拥有1.6万亿总参数和490亿活跃参数,性能媲美顶级闭源模型;DeepSeek-V4-Flash则拥有2840亿总参数和130亿活跃参数,主打快速、高效与经济。模型现已在官方平台通过专家模式和即时模式开放试用,API也已同步更新。完整的技术报告和模型权重已在Hugging Face平台发布,供社区研究和应用。

歸藏(guizang.ai)@op7418 · 4月25日38

GPT-5.5 真是太牛批了,除了超长程任务,其他能力上很多已经追平甚至超过 Opsu 4.7 了

Greg Brockman@gdb · 4月25日41

GPT-5.5 raises the ceiling of ambition for what you can do with AI:

译GPT-5.5 提升了人们对 AI 能力的期望上限: [引用 @_simonsmith]:Riley 最近的测试和各种关于 GPT-5.5 的帖子揭示了模型进展的某些方面。模型已经如此出色,你必须提高自己的期望,否则无法意识到它们变得有多强大。如果不提高期望,你会认为它们停滞不前。Riley 持续进行着极具挑战性的尝试,而 GPT-5.5 都能达成。

meng shao@shao__meng · 4月25日63

腾讯混元 26.02 重建预训练与强化学习基础设施后,发布了首个模型「Hy3 preview」,不仅是混元"最智能的模型",更标志着团队从"追榜"逻辑向实用主义的系统转型,模型采用 MoE 架构,总参数 295B / 激活参数 21B,支持 256K 上下文,采用快慢思考融合机制 # 三大原则定义"真实战斗力" 混元团队明确提出了重建后的三条核心原则,这决定了 Hy3 的评测与训练逻辑: · 能力体系化:拒绝"偏科"。即使是代码智能体单一应用,也需推理、长文、指令、对话、工具调用等能力深度协同 · 评测真实性:主动跳出易被刷榜的公开榜单,转而采用自建题目、最新考试(如 2025 生物学联赛、清华求真书院 26 春博资考)、人工评测、产品众测等方式 · 性价比追求:模型架构与推理框架深度协同设计,以降低任务成本,追求商业合理性 # 能力表现:推理与长文跃升,代码智能体进步最大 通过多组对比(vs Hy2、Gemini-3.1-Pro、GLM-5、Kimi-K2.5、GPT-5.4 xhigh)展示了 Hy3 的能力边界: 1. 复杂推理:进入第一梯队,但顶尖数学仍有差距 · 优势领域:FrontierScience-Olympiad(70.0)、IMO Answer Bench(84.3)、CHSBO 2025(87.8)、GPQA-Diamond(87.2)均达到或接近国际顶尖水平。 · 相对短板:在清华求真书院数学博资考上,Hy3(88.4)与 GPT-5.4 xhigh(99.3)存在明显差距;HLE 基准(30.0)也落后于 Gemini-3.1-Pro(44.4)等。 · 结论:基础理工科推理能力已具备强泛化性,但面对最高难度的纯数学推理时,与全球绝对顶尖模型仍有距离。 2. 上下文学习与指令遵循:自研基准,提升显著 · 团队基于业务场景灵感,自研了 CL-bench 和 CL-bench-Life 来评估上下文学习能力。 · 在 AdvancedIF(79.5)、AA-LCR(66.3)、LongBench v2(65.4)等标准长文任务上,Hy3 较前代 Hy2 提升明显,并进入第一梯队。 · 但在自研的 CL-bench(22.8)和 CL-bench Life(15.7)上,仍落后于 GPT-5.4 xhigh(26.7 / 19.2),说明超长上下文的复杂隐式推理仍是行业共同难题。 3. 代码与智能体:提升最为显著的方向 "提升最为显著的方向",在 SWE-Bench Verified、Terminal-Bench 2.0 以及 BrowseComp、WideSearch 等主流基准中取得了强竞争力的结果。 # 关键亮点:非结构化信息的隐性挖掘能力 官方展示的会议纪要排期案例极具代表性,体现了 Hy3 区别于传统指令遵循的核心优势: · 输入:一段口语化、多轮穿插、信息分散的对话(包含春分日期、新人介绍、请假安排、加班调休、工作日规则、开发流程依赖等)。 · 挑战:需识别隐含约束(如"20号春分上线"意味着硬 deadline,"下周一请假"需顺延工作日,"周六加班"可计入工期但周日休息)。 · 输出:将非结构化对话转化为严格符合格式要求、逻辑自洽的排期表格。 官方博客 https://hy.tencent.com/hy3-preview 下方信息卡绘制用的就是 Hy3 Preview 模型,Skills 和提示词在这: https://x.com/shao__meng/status/2035720327037108673?s=20

译腾讯混元团队在重建基础设施后,推出首个MoE架构模型Hy3 preview,总参295B,支持256K上下文。团队确立能力体系化、评测真实性、性价比三大原则,推动模型向实用转型。评估显示,Hy3在复杂推理与长上下文任务上进入第一梯队,代码与智能体能力进步显著。其突出亮点是能深度挖掘非结构化对话中的隐含约束,并转化为结构化输出,体现了强大的实际应用潜力。

歸藏(guizang.ai)@op7418 · 4月25日79

这才是那个 Deepseek 啊,Deepseek 限时 2.5 折! V4-Pro 百万 Token 输出只需要 6 块钱朋友们,这还要啥自行车

译DeepSeek推出V4模型限时2.5折优惠,其Pro版百万Token输出成本仅6元。模型分为Pro版(总参数1.6T)和Flash版(总参数284B),预训练数据均为32T。在应用中,专家模式对应Pro版,快速模式对应Flash版。测评显示其性能与Claude Opus 4.6持平,Agent能力与世界知识显著增强,并采用新注意力机制以降低计算需求。

Berryxia.AI@berryxia · 4月25日56

每个人都在忽略这个新的 OCR 模型! - 在 olmocr bench 上达到 85.9%(sota) - 支持 90+ 种语言,附带基准测试 - 40 亿参数模型(从 90 亿参数减少) - 完整布局信息 - 提取并为图像和图表添加说明 - 强大的手写、数学、表单、表格支持 100% 开源。

译一款新的开源OCR模型在olmocr基准测试中达到85.9%的SOTA性能。该模型参数量为40亿,由90亿参数精简而来,支持超过90种语言并附带基准测试。其核心能力包括保留完整的文档布局信息,能从图像和图表中提取并生成说明文字,同时对手写文本、数学公式、表单及表格具备强大的识别与解析支持。

阿绎 AYi@AYi_AInotes · 4月25日67

写长篇小说的兄弟们,autonovel 来了,200+tokens/s 极速生成,几十分钟就能出百万字长稿。 写过长篇的都懂,最折磨人的不是没灵感,是写着写着上下文崩了,伏笔忘了,人物突然 OOC,熬几个月才磨出几十万字。 autonovel 基于最新的 Ling-2.6-flash,专门针对长篇写作做了深度优化,从世界观设定角色构建大纲生成到正文精修全流程打通。 最狠的是它的上下文一致性和剧情推演能力,埋的伏笔能自己回收,人物性格全程在线,再也不用翻前面几百章找自己写过的设定。 200+tokens/s 的生成速度是真的离谱,手指刚离开键盘,屏幕上的字还在往上滚,喝杯水的功夫几千字就出来了。 以前写百万字初稿要熬大半年,现在几十分钟就能出完整框架,你只需要负责调整方向和打磨细节。 这才是 AI 真正能解放创作者生产力的地方,把你从重复的码字劳动里拽出来,专心去想真正值钱的故事。 感兴趣的兄弟评论区自取链接,趁现在刚上线还有免费额度可以体验。 #autonovel #Ling26flash #AI写作 #长篇小说 #网文写作

译autonovel是基于Ling-2.6-flash的AI写作工具,专为长篇小说创作优化。它能以200+ tokens/s的速度生成文本,大幅提升创作效率,并在上下文一致性、伏笔回收和人物性格保持方面表现突出,帮助作者从繁琐的码字劳动中解放,更专注于故事构思。目前提供免费体验额度。

Chubby♨️@kimmonismus · 4月25日39

By soon I expect them to mean may 18th-soon. Google I/o will probably have some nice surprises for us

译我预计他们说的“很快”是指5月18日前后。Google I/O大会可能会给我们带来一些惊喜

Greg Brockman@gdb · 4月25日72

gpt-5.5 is a big step up in performance, give it a try:

译gpt-5.5 在性能上实现大幅提升,试试看吧:

AK@_akhaliq · 4月25日74

DeepSeek-V4 paper is out on Hugging Face paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

译DeepSeek-V4 论文已在 Hugging Face 发布 paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

Artificial Analysis@ArtificialAnlys · 4月24日63

Xiaomi has just released MiMo V2.5 Pro which performed very strongly on Artificial Analysis Intelligence Index (54). It is one of the leading models on agentic index and is expected to open source its weights. @Xiaomi's MiMo V2.5 Pro shows an impressive improvement over MiMo V2 Pro (49), the previous generation of Xiaomi's flagship model family, which was released just over a month ago on March 19, 2026. MiMo V2.5 Pro will be open weights, but weights have not yet been released. With continued progress and an accelerated release cadence, Xiaomi, currently trails only OpenAI, Anthropic, Google, and Moonshot in intelligence Key takeaways: ➤ MiMo V2.5 Pro leads open weights models in agentic capabilities with a 67% Agentic Index score. This is higher than both Kimi K2.6 (66%) and MiniMax M2.7 (61%), driven by τ²-Bench (94%) and strong TerminalBench Hard performance (43%). This indicates the model would be more capable in agentic reasoning workflows. ➤ Other gains are made in frontier reasoning and instruction following. The model scores 34% on HLE (+6% from MiMo V2.0) and 80% on IFBench (+11% from MiMo V2.0). However, compared to the previous generation, we saw a small regression in CritPt (5% to 4%). ➤ MiMo V2.5 Pro's token efficiency remains competitive against peers in a similar intelligence tier, using ~92M output tokens for the Intelligence Index. This is more efficient than Kimi K2.6 (~170M) and GLM 5.1 (~110M). However, it does use 19% more than the previous generation MiMo V2 Pro (77M). ➤ Priced at $1.00/$3.00 per M input/output tokens on Xiaomi’s First Party API, MiMo V2.5 Pro is relatively cost-efficient for its intelligence tier. It costs only $462 to run the Artificial Analysis Intelligence Index, compared to $948 for Kimi K2.6 and $544 for GLM 5.1. ➤ MiMo V2.5 Pro scores 4 on the AA-Omniscience Index, a proprietary Artificial Analysis evaluation that measures factual accuracy and hallucinations. This is a slight regression from MiMo V2 Pro (5), though both models still trail proprietary frontier models. MiMo V2.5 demonstrates a relatively low hallucination rate (25%) but also low accuracy (23%). Additional model details: ➤ Context window: 1M tokens ➤ Parameters: 1T total, 42B active ➤ License: Open weights but not public yet. MIT License ➤ Release date: April 22, 2026 ➤ Availability: MiMo V2.5 Pro is available via Xiaomi's first-party API

译小米于2026年4月22日发布MiMo V2.5 Pro模型,其在Artificial Analysis智能指数得分54,表现强劲。该模型在代理能力上领先,Agentic Index得分67%,优于Kimi K2.6等开源模型,这主要得益于在τ²-Bench和TerminalBench Hard上的优异表现。此外,其在前沿推理和指令遵循方面也有提升。模型具有1M上下文窗口,1T总参数,API定价具有成本效益,运行同一智能指数仅需462美元。不过,其在事实准确性指数上得分4,存在准确率较低的问题。模型采用MIT许可证,权重暂未公开,目前可通过小米官方API使用。

Chubby♨️@kimmonismus · 4月24日61

Deepseek v4 real moat? Sota intelligence at ~1/3 of frontier labs prices

译Deepseek v4 真正的护城河?以约前沿实验室1/3的价格实现顶尖智能

Chubby♨️@kimmonismus · 4月24日61

Did Deepseek really wait until OpenAI released GPT-5.5 to steal the show?

译Deepseek 真的等到 OpenAI 发布了 GPT-5.5 才来抢风头吗?

Chubby♨️@kimmonismus · 4月24日49

1m Standard and ultra high context efficiency is what me excites me

译1m 标准与超高上下文效率是让我兴奋之处

Ethan Mollick@emollick · 4月24日54

And now a new DeepSeek model, and appears to be fully open weights. Good benchmarks, but with open models, that isn't always as meaningful. Should be live soon to actually try.

译现在又有了新的DeepSeek模型,而且似乎是完全开放权重的。基准测试成绩不错,但对于开源模型来说,这并不总是那么有意义。应该很快就能实际体验了。

Chubby♨️@kimmonismus · 4月24日63

Deepseek v4 pro Evals. Roughly on par with GPT-5.4 xhigh and opus 4.6 max

译Deepseek v4 pro 评测。大致与 GPT-5.4 xhigh 和 opus 4.6 max 相当

Chubby♨️@kimmonismus · 4月24日66

Deepseek v4 is a huge step upwards compared to DeepSeek 3, outperforms on SWE verified opus 4.6 and GPT-5.4 and sets a new record on Codeforces. Needs to be tested against opus 4.7 and GPT-5.5 tho and see if real world usage holds its promises. Big release! Sota open source model!

译Deepseek v4 相比 DeepSeek 3 是一次巨大的飞跃,在 SWE verified 上超越了 opus 4.6 和 GPT-5.4,并在 Codeforces 上创造了新纪录。 但仍需针对 opus 4.7 和 GPT-5.5 进行测试,并观察实际使用是否如其承诺般出色。 重大发布!顶尖的开源模型!

小互@xiaohu · 4月24日57

一张图了解 GPT 5.5 在 Artificial Analysis 独立评测里,GPT-5.5 重回第一,以 3 分优势打破和 Anthropic、Google 的三方僵局 API 定价每百万输入 5 美元、输出 30 美元,比 GPT-5.4 翻了一倍,但 token 消耗减少约 40% GPT-5.5 自己写算法优化了自己,让 token 生成速度提升超过 20% 知识准确率 57% 创史上新高,但幻觉率高达 86%...

译在独立评测中,GPT-5.5以3分优势超越Anthropic和Google的模型,重回性能榜首。其API定价大幅上涨,输入与输出费用分别达到每百万5美元和30美元,但token消耗减少了约40%。模型通过自我编写的算法进行了优化,使token生成速度提升超过20%。尽管知识准确率达到57%的历史新高,但其幻觉率也高达86%,显示出性能与可靠性之间的显著矛盾。

TestingCatalog News 🗞@testingcatalog · 4月24日59

OPENAI 🚨: GPT-5.5 IS AWAKENING 👀

译OPENAI 🚨: GPT-5.5 正在觉醒 👀

TestingCatalog News 🗞@testingcatalog · 4月23日69

OPENAI 🚨: GPT-5.5 AND GPT-5.5 PRO HAVE BEEN SPOTTED ON OPENROUTER! - gpt-5.5-20260423 - gpt-5.5-pro-20260423 Soon 👀

译OPENAI 🚨:GPT-5.5 和 GPT-5.5 PRO 已在 OPENROUTER 上被发现! - gpt-5.5-20260423 - gpt-5.5-pro-20260423 即将到来 👀

Chubby♨️@kimmonismus · 4月22日

Alibabas shipping-speed is insane. Qwen3.6 27b dense looks impressive tho

译阿里巴巴的发布速度快得离谱。 不过 Qwen3.6 27b dense 看起来挺强的。

TestingCatalog News 🗞@testingcatalog · 4月22日56

OPENAI 🚨: GPT-5.5 and a bunch of internal model names have been spotted on Codex recently, and this normally signals that OpenAI is preparing to release a new model. - oai-2.1 - arcanine - glacier-alpha - glacier-alpha-block-cy4 - glacier-alpha-block-cy3 Soon 👀 h/t @TheAhmadOsman

译OPENAI 🚨: GPT-5.5 和一系列内部模型名称最近在 Codex 上被发现,这通常意味着 OpenAI 正准备发布一个新模型。 - oai-2.1 - arcanine - glacier-alpha - glacier-alpha-block-cy4 - glacier-alpha-block-cy3 很快 👀 致谢 @TheAhmadOsman

Chubby♨️@kimmonismus · 4月22日

All of OpenAI’s internal models accidentally leaked within codex. GPT-5.5 release imminent, pretty save to say it’s coming Thursday

译OpenAI 的所有内部模型意外泄露在 Codex 中。GPT-5.5 即将发布,几乎可以肯定地说它将在周四到来。

Chubby♨️@kimmonismus · 4月21日

"something to show you", so they start with GPT Image gen 2 at 12pm PT (sadly 3AM in China, where i am right now :( And Spud (GPT 5.5) probably Thursday

译"有个东西要给你们看",所以他们将在太平洋时间中午12点发布 GPT Image gen 2(遗憾的是在我现在所在的中国是凌晨3点 :( 而 Spud(GPT 5.5)可能在周四

AK@_akhaliq · 4月21日56

Kimi K2.6 is out on Hugging Face https://huggingface.co/moonshotai/Kimi-K2.6

译Kimi K2.6 已在 Hugging Face 发布 https://huggingface.co/moonshotai/Kimi-K2.6

Chubby♨️@kimmonismus · 4月19日

what the heck. GPT-5.5 pro will be a qualitative leap. Absolutely insane.

译什么鬼。GPT-5.5 pro 将是一次质的飞跃。简直疯了。

Chubby♨️@kimmonismus · 4月19日

Some people say that GPT-5.5 is already rolling out for them, it’s being stealth tested. Initial testing from them say it outperforms Opus4.7 for them (don’t know in which tasks tho). Hopefully it’s not being released on Monday since I’ll be on a 13hour flight to china and would miss the release

译有人说 GPT-5.5 已经在向他们推出,正在进行秘密测试。他们的初步测试显示它比 Opus4.7 表现更好(但不知道是在哪些任务上)。 希望它不要在周一发布,因为我要坐 13 小时的飞机去中国,会错过发布。

TestingCatalog News 🗞@testingcatalog · 4月19日47

Grok 4.3 (beta) is now available to SuperGrok and X Premium+ users! Testing time 👀

译Grok 4.3(测试版)现已向 SuperGrok 和 X Premium+ 用户推出! 测试时间 👀

Artificial Analysis@ArtificialAnlys · 4月18日

ImagineArt 2.0 debuts at #9 on our Text to Image Leaderboards, delivering quality comparable to grok-imagine-image from xAI and Imagen 4 Ultra from Google! @ImagineArt_X 's 2.0 is the latest proprietary image model from ImagineArt, a popular AI creative studio app that provides users access to various image and video models in one place. ImagineArt 2.0 is currently available as an option in the ImagineArt Image Studio app, with an API for developers coming soon. See below for comparisons between ImagineArt 2.0 and other leading models in our Artificial Analysis Image Arena 🧵

译ImagineArt 2.0在文本到图像排行榜首登第9位,生成质量与xAI的grok-imagine-image及Google的Imagen 4 Ultra相当。作为ImagineArt推出的最新专有图像模型,该版本目前已集成于ImagineArt Image Studio应用,面向开发者的API即将上线。ImagineArt作为综合性AI创意平台,为用户提供多种图像与视频模型的一站式访问。

TestingCatalog News 🗞@testingcatalog · 4月17日

BREAKING 🚨: Grok 4.3 (beta) now appears on the Grok web with an Early Access label. Looks like we will see loads of releases from xAI in the coming days.

译突发 🚨:Grok 4.3 (beta) 现已出现在 Grok 网页版,带有 Early Access 标签。 看来未来几天我们将看到 xAI 发布大量产品。

Nathan Lambert@natolambert · 4月16日

Opus 4.7 has a new tokenizer. This means it's also a new base model. Glory days of pretraining still very much going.

译Opus 4.7 has a new tokenizer. 这意味着它也是一个新的 base model。 预训练的辉煌时期仍在继续。

Chubby♨️@kimmonismus · 4月16日

No GPT-5.5 tomorrow, fingers crossed however that Opus 4.7 will be released.

译明天没有 GPT-5.5,但祈祷 Opus 4.7 会发布。 [引用 @synthwavedd]:正如这些天似乎几乎总是如此,5.5 的发布已被推迟(不会是明天) 不过延迟不会太长,很快会有更多消息

Rohan Paul@rohanpaul_ai · 4月16日

Today’s edition of my newsletter just went out. 🔗 https://www.rohan-paul.com/p/google-just-launched-gemini-31-flash 🗞️ Google just launched Gemini 3.1 Flash TTS, a text-to-speech model that takes scene direction, speaker notes 🗞️ OpenAI just turned the Agents SDK into a long-running agent runtime with sandbox execution and direct control over memory and state. 🗞️ OpenAI unveils GPT-5.4-Cyber a week after Anthropic’s announcement of AI model 🗞️ Fortune published a piece. From Molotov cocktails to data center shutdowns, the AI backlash is turning revolutionary 🗞️ Google just turned Gemini in Chrome prompts into reusable one-click tools called Skills.

译Google 发布 Gemini 3.1 Flash TTS 语音模型及 Chrome Skills 工具,支持场景化语音合成与提示词复用。OpenAI 推出 GPT-5.4-Cyber 并升级 Agents SDK 为长期运行代理环境,支持沙盒执行与状态管理。与此同时,AI 技术遭遇强烈社会抵制,出现针对数据中心的激进行动。

TestingCatalog News 🗞@testingcatalog · 4月16日

Google released Gemini 3.1 Flash TTS with support for 70 different languages! > Available via a new audio playground in AI Studio and in the Gemini API!

译Google 发布了 Gemini 3.1 Flash TTS,支持 70 种不同语言! > 现可通过 AI Studio 中的全新音频 playground 和 Gemini API 使用! [引用 @Google]:使用 Gemini 3.1 Flash TTS 在 70 多种语言中生成细腻、引人入胜的音频体验——这是我们迄今为止最可控且最具表现力的文本转语音模型。🔊

AK@_akhaliq · 4月16日55

Nvidia released Lyra 2.0 on Hugging Face Explorable Generative 3D Worlds paper: https://huggingface.co/papers/2604.13036 model: https://huggingface.co/nvidia/Lyra-2.0

译NVIDIA 在 Hugging Face 上发布了 Lyra 2.0 可探索的生成式 3D 世界 论文: https://huggingface.co/papers/2604.13036 模型: https://huggingface.co/nvidia/Lyra-2.0

swyx 🐣@swyx · 4月15日

proud to see @excalidraw evangelism catching on at cog the insight here is more general than bugchecking: - All Engineering is about making tradeoffs - AI Engineering is about pushing AI Pareto Frontiers with any combo of model + harness at your disposal - Don't try to directly break a model frontier - instead you should first capabilitymaxx, then distil - this works ~basically every time [citation needed] - @appliedcompute is arms dealer to every Agent Lab doing this sort of thing rn, it's really fascinating to see this deployed on every high volume AI problem only 2 ways to make money in AI: bundling capabilities, and unbundling them!

译Cognition发布基于强化学习的bug检测模型SWE-check,在匹配前沿模型性能的同时实现10倍推理加速。作者提出AI工程的核心范式:通过模型与工具组合推动AI帕累托前沿,而非直接突破模型边界;应采用"先最大化能力再蒸馏"的策略。Applied Compute正为多家Agent Lab提供算力基础设施。AI领域仅存在两种商业模式:能力整合与能力拆分。

TestingCatalog News 🗞@testingcatalog · 4月15日

OpenAI is scaling GPT‑5.4‑Cyber to API customers with highest tiers. > GPT‑5.4‑Cyber is a model purposely fine-tuned for additional cyber capabilities and with fewer capability restrictions.

译OpenAI 正在向最高层级的 API 客户扩展 GPT‑5.4‑Cyber。 > GPT‑5.4‑Cyber 是一个专门微调用于额外网络能力且限制更少的模型。 [引用 @AndrewCurran_]:新模型:GPT‑5.4‑Cyber '今天我们正通过为愿意与 OpenAI 合作以验证自身为网络安全防御者的用户引入额外访问层级来扩展此计划。最高层级的客户将获得 GPT‑5.4‑Cyber 的访问权限,这是一个专门微调用于额外网络能力且限制更少的模型。' https://openai.com/index/scaling-trusted-access-for-cyber-defense/

Tibo@thsottiaux · 4月15日69

Today we are introducing GPT-5.4-Cyber and expanding our Trusted Access for Cyber (TAC) program. https://openai.com/index/scaling-trusted-access-for-cyber-defense/

译今天我们推出 GPT-5.4-Cyber 并扩展我们的网络安全可信访问(TAC)计划。 https://openai.com/index/scaling-trusted-access-for-cyber-defense/

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月26日
23:20
向阳乔木@vista8
精选85
OpenAI发布GPT-5.5,重点提升AI自主执行复杂任务能力

OpenAI发布GPT-5.5,核心目标是增强模型自主规划与执行多步骤复杂任务的能力,减少人工干预。在多项基准测试中表现突出:在Terminal-Bench 2.0、FrontierMath Tier 4等复杂任务上超越GPT-5.4及Claude Opus等竞品;在GDPval知识工作与OSWorld-Verified真实电脑操作测试中也保持领先。其代码能力更优且效率更高,科研能力显著提升,甚至辅助发现了拉姆齐数的新证明。尽管模型更大更强,其响应速度与GPT-5.4持平。

OpenAI推理模型发布编码

推荐理由:GPT-5.5 的核心叙事不是跑分,而是从「回答问题」到「把事做完」的范式切换。长上下文检索翻倍、代码任务更聪明且更省 token,这两个信号叠加在一起,做 Agent 和科研工具的人该认真评估了。
07:51
Chubby♨️@kimmonismus
32
读起来他们确实在GPT-5.5上做出了氛围变化。我可以确认这一点。

Sam Altman: 5.5 is so earnest "little engine that could" energy

OpenAI大佬观点模型发布
03:51
swyx 🇸🇬@swyx
精选70
DeepSeek团队正式推出并开源了DeepSeek-V4预览版模型,标志着高性价比的百万上下文长度时代到来。该系列包含两个模型:DeepSeek-V4-Pro拥有1.6万亿总参数和490亿活跃参数,性能媲美顶级闭源模型;DeepSeek-V4-Flash则拥有2840亿总参数和130亿活跃参数,主打快速、高效与经济。模型现已在官方平台通过专家模式和即时模式开放试用,API也已同步更新。完整的技术报告和模型权重已在Hugging Face平台发布,供社区研究和应用。

DeepSeek: 🚀 DeepSeek-V4 Preview is officially live & open-sourced! Welcome to the era of cost-effective 1M context length. 🔹 Dee...

DeepSeek开源生态模型发布

推荐理由:DeepSeek-V4 把 MoE 推到 1.6T 总参、49B 活跃,百万上下文 + 开源权重,这是开源阵营第一次在旗舰级闭源模型面前不落下风,做长上下文应用的团队该认真测一下了。
4月25日
23:58
歸藏(guizang.ai)@op7418
38
GPT-5.5 真是太牛批了,除了超长程任务,其他能力上很多已经追平甚至超过 Opsu 4.7 了
OpenAI大佬观点模型发布
23:24
Greg Brockman@gdb
41
GPT-5.5 提升了人们对 AI 能力的期望上限: 【引用 @_simonsmith】:Riley 最近的测试和各种关于 GPT-5.5 的帖子揭示了模型进展的某些方面。模型已经如此出色,你必须提高自己的期望,否则无法意识到它们变得有多强大。如果不提高期望,你会认为它们停滞不前。Riley 持续进行着极具挑战性的尝试,而 GPT-5.5 都能达成。

Simon Smith: Riley's recent tests and various posts about GPT-5.5 have revealed something about model progress. Models are already so...

OpenAI大佬观点模型发布
22:17
meng shao@shao__meng
63
腾讯混元发布首个重建基础设施后模型「Hy3 preview」

腾讯混元团队在重建基础设施后,推出首个MoE架构模型Hy3 preview,总参295B,支持256K上下文。团队确立能力体系化、评测真实性、性价比三大原则,推动模型向实用转型。评估显示,Hy3在复杂推理与长上下文任务上进入第一梯队,代码与智能体能力进步显著。其突出亮点是能深度挖掘非结构化对话中的隐含约束,并转化为结构化输出,体现了强大的实际应用潜力。

Tencent Hy: 👋Hi /haɪ/, we're the Tencent Hy /haɪ/ team🐧 Today, we open source Hy3 preview (295B A21B), a leading reasoning and age...

开源/仓库推理模型发布编码
21:36
歸藏(guizang.ai)@op7418
精选79
DeepSeek推出V4模型限时2.5折优惠,其Pro版百万Token输出成本仅6元。模型分为Pro版(总参数1.6T)和Flash版(总参数284B),预训练数据均为32T。在应用中,专家模式对应Pro版,快速模式对应Flash版。测评显示其性能与Claude Opus 4.6持平,Agent能力与世界知识显著增强,并采用新注意力机制以降低计算需求。

歸藏(guizang.ai): DeepSeek V4详细的官方公告也发了: 模型参数 (a) Pro 版本:总参数 1.6T,激活参数 49B (b) Flash 版本:总参数 284B,激活参数 13B (c) 预训练数据量:均为 32T 模式区分(网页端与 APP)...

DeepSeek推理模型发布

推荐理由:DeepSeek V4-Pro 百万 token 输出只要 6 块,这个定价直接把 Opus 4.6 级别的能力拉到了白菜价,做 Agent 和长上下文应用的产品人该重新算账了。
19:13
Berryxia.AI@berryxia
56
开源OCR模型性能突破,支持90余种语言与完整布局解析

一款新的开源OCR模型在olmocr基准测试中达到85.9%的SOTA性能。该模型参数量为40亿,由90亿参数精简而来,支持超过90种语言并附带基准测试。其核心能力包括保留完整的文档布局信息,能从图像和图表中提取并生成说明文字,同时对手写文本、数学公式、表单及表格具备强大的识别与解析支持。

多模态开源/仓库模型发布
19:11
阿绎 AYi@AYi_AInotes
67
长篇小说AI创作工具autonovel发布,基于Ling-2.6-flash实现极速生成

autonovel是基于Ling-2.6-flash的AI写作工具,专为长篇小说创作优化。它能以200+ tokens/s的速度生成文本,大幅提升创作效率,并在上下文一致性、伏笔回收和人物性格保持方面表现突出,帮助作者从繁琐的码字劳动中解放,更专注于故事构思。目前提供免费体验额度。

阿绎 AYi: 后续来了兄弟们,卧槽真的太炸了,同样的任务,同样的配置,速度比Claude Sonnet 4.6还快 6 倍,成本低约 50 倍, openrouter 和 官方 API 均限时免费 1 周使用时间,白嫖的机会,冲啊兄弟们! 我上周那条讲E...

智能体模型发布部署/工程
18:17
Chubby♨️@kimmonismus
39
我预计他们说的"很快"是指5月18日前后。Google I/O大会可能会给我们带来一些惊喜

Kol Tregaskes: New Gemini model "very, very soon"! Gemini 3.5 or 4? Google Cloud CEO: "We have a new version of Gemini coming very, ver...

Google模型发布行业动态
03:12
Greg Brockman@gdb
精选72
gpt-5.5 在性能上实现大幅提升,试试看吧:

Satya Nadella: Super excited GPT-5.5 is rolling out to GitHub Copilot, M365 Copilot, Copilot Studio, and Foundry today. With deeper rea...

OpenAI推理模型发布编码

推荐理由:GPT-5.5 本身是代际级更新,但这条推文只是转发 Nadella 的官宣,没有新数据或新角度。真正值得关注的是它已经铺进 Copilot 全线,做编码和办公场景的人今天就能摸到。
02:08
AK@_akhaliq
精选74
DeepSeek-V4 论文已在 Hugging Face 发布 paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
DeepSeek推理模型发布
关联讨论 1 条X:Artificial Analysis (@ArtificialAnlys)
推荐理由:DeepSeek-V4 论文终于落地,这是今年开源阵营最被期待的模型之一,做推理和开源部署的同行值得花时间啃一遍技术细节。
4月24日
14:19
Artificial Analysis@ArtificialAnlys
63
小米发布MiMo V2.5 Pro模型,智能与代理能力表现强劲

小米于2026年4月22日发布MiMo V2.5 Pro模型,其在Artificial Analysis智能指数得分54,表现强劲。该模型在代理能力上领先,Agentic Index得分67%,优于Kimi K2.6等开源模型,这主要得益于在τ²-Bench和TerminalBench Hard上的优异表现。此外,其在前沿推理和指令遵循方面也有提升。模型具有1M上下文窗口,1T总参数,API定价具有成本效益,运行同一智能指数仅需462美元。不过,其在事实准确性指数上得分4,存在准确率较低的问题。模型采用MIT许可证,权重暂未公开,目前可通过小米官方API使用。

智能体开源生态模型发布
13:24
Chubby♨️@kimmonismus
61
Deepseek v4 真正的护城河?以约前沿实验室1/3的价格实现顶尖智能

Chubby♨️: Deepseek v4 is a huge step upwards compared to DeepSeek 3, outperforms on SWE verified opus 4.6 and GPT-5.4 and sets a n...

DeepSeek开源生态模型发布编码
11:54
Chubby♨️@kimmonismus
61
Deepseek 真的等到 OpenAI 发布了 GPT-5.5 才来抢风头吗?

Chubby♨️: Deepseek v4 is a huge step upwards compared to DeepSeek 3, outperforms on SWE verified opus 4.6 and GPT-5.4 and sets a n...

DeepSeek开源生态模型发布编码
11:54
Chubby♨️@kimmonismus
49
1m 标准与超高上下文效率是让我兴奋之处

DeepSeek: Structural Innovation & Ultra-High Context Efficiency 🔹 Novel Attention: Token-wise compression + DSA (DeepSeek Sparse ...

DeepSeek模型发布部署/工程
11:24
Ethan Mollick@emollick
54
现在又有了新的DeepSeek模型,而且似乎是完全开放权重的。基准测试成绩不错,但对于开源模型来说,这并不总是那么有意义。应该很快就能实际体验了。
DeepSeek开源/仓库模型发布
11:24
Chubby♨️@kimmonismus
63
Deepseek v4 pro 评测。大致与 GPT-5.4 xhigh 和 opus 4.6 max 相当

Chubby♨️: DEEEPSEEK 4 RELEASED!! Holy!! Lets go

DeepSeek模型发布评测/基准
11:24
Chubby♨️@kimmonismus
66
Deepseek v4 相比 DeepSeek 3 是一次巨大的飞跃,在 SWE verified 上超越了 opus 4.6 和 GPT-5.4,并在 Codeforces 上创造了新纪录。 但仍需针对 opus 4.7 和 GPT-5.5 进行测试,并观察实际使用是否如其承诺般出色。 重大发布!顶尖的开源模型!

Chubby♨️: Deepseek v4 pro Evals. Roughly on par with GPT-5.4 xhigh and opus 4.6 max

DeepSeek开源生态模型发布编码
10:44
小互@xiaohu
57
GPT-5.5评测重回榜首,性能提升但幻觉率仍高

在独立评测中,GPT-5.5以3分优势超越Anthropic和Google的模型,重回性能榜首。其API定价大幅上涨,输入与输出费用分别达到每百万5美元和30美元,但token消耗减少了约40%。模型通过自我编写的算法进行了优化,使token生成速度提升超过20%。尽管知识准确率达到57%的历史新高,但其幻觉率也高达86%,显示出性能与可靠性之间的显著矛盾。

OpenAI模型发布评测/基准
02:21
TestingCatalog News 🗞@testingcatalog
59
OPENAI 🚨: GPT-5.5 正在觉醒 👀

TestingCatalog News 🗞: OPENAI 🚨: GPT-5.5 AND GPT-5.5 PRO HAVE BEEN SPOTTED ON OPENROUTER! - gpt-5.5-20260423 - gpt-5.5-pro-20260423 Soon 👀

OpenAI模型发布
4月23日
22:51
TestingCatalog News 🗞@testingcatalog
69
OPENAI 🚨:GPT-5.5 和 GPT-5.5 PRO 已在 OPENROUTER 上被发现! - gpt-5.5-20260423 - gpt-5.5-pro-20260423 即将到来 👀

AiBattle: GPT 5.5 and GPT 5.5 Pro spotted on OpenRouter Its coming

OpenAI模型发布行业动态
4月22日
22:46
Chubby♨️@kimmonismus
阿里巴巴的发布速度快得离谱。 不过 Qwen3.6 27b dense 看起来挺强的。

Qwen: 🚀 Meet Qwen3.6-27B, our latest dense, open-source model, packing flagship-level coding power! Yes, 27B, and Qwen3.6-27B...

开源生态模型发布编码
18:16
TestingCatalog News 🗞@testingcatalog
56
OPENAI 🚨: GPT-5.5 和一系列内部模型名称最近在 Codex 上被发现,这通常意味着 OpenAI 正准备发布一个新模型。 - oai-2.1 - arcanine - glacier-alpha - glacier-alpha-block-cy4 - glacier-alpha-block-cy3 很快 👀 致谢 @TheAhmadOsman

can: 🚨 OpenAI just accidentally leaked all the internal models in Codex model picker Seem to be only on pro accounts

OpenAI模型发布
关联讨论 2 条X:小互 (@xiaohu)IT之家(RSS)
14:44
Chubby♨️@kimmonismus
OpenAI 的所有内部模型意外泄露在 Codex 中。GPT-5.5 即将发布,几乎可以肯定地说它将在周四到来。

can: 🚨 OpenAI just accidentally leaked all the internal models in Codex model picker Seem to be only on pro accounts

智能体OpenAI模型发布编码
4月21日
23:44
Chubby♨️@kimmonismus
"有个东西要给你们看",所以他们将在太平洋时间中午12点发布 GPT Image gen 2(遗憾的是在我现在所在的中国是凌晨3点 :( 而 Spud(GPT 5.5)可能在周四

Sam Altman: Really excited for this week! Next up, we've got something to show you at 12 pm PT today.

OpenAI图像生成模型发布
00:04
AK@_akhaliq
56
Kimi K2.6 已在 Hugging Face 发布 https://huggingface.co/moonshotai/Kimi-K2.6
Hugging Face开源生态模型发布
4月19日
21:44
Chubby♨️@kimmonismus
什么鬼。GPT-5.5 pro 将是一次质的飞跃。简直疯了。

Chetaslua: Holy SHIIIIIIITTTTTTTTT @TheRealAdamG what did you guys created , this is insane GPT pro update created a masterpiece un...

OpenAI模型发布编码
17:44
Chubby♨️@kimmonismus
有人说 GPT-5.5 已经在向他们推出,正在进行秘密测试。他们的初步测试显示它比 Opus4.7 表现更好(但不知道是在哪些任务上)。 希望它不要在周一发布,因为我要坐 13 小时的飞机去中国,会错过发布。
OpenAI推理模型发布
15:48
TestingCatalog News 🗞@testingcatalog
47
Grok 4.3(测试版)现已向 SuperGrok 和 X Premium+ 用户推出! 测试时间 👀
xAI推理模型发布
4月18日
05:41
Artificial Analysis@ArtificialAnlys
ImagineArt 2.0跻身前十,对标Grok与Imagen 4 Ultra

ImagineArt 2.0在文本到图像排行榜首登第9位,生成质量与xAI的grok-imagine-image及Google的Imagen 4 Ultra相当。作为ImagineArt推出的最新专有图像模型,该版本目前已集成于ImagineArt Image Studio应用,面向开发者的API即将上线。ImagineArt作为综合性AI创意平台,为用户提供多种图像与视频模型的一站式访问。

图像生成模型发布
4月17日
17:48
TestingCatalog News 🗞@testingcatalog
突发 🚨:Grok 4.3 (beta) 现已出现在 Grok 网页版,带有 Early Access 标签。 看来未来几天我们将看到 xAI 发布大量产品。

Fandu: 🚨Grok 4.3 beta spotted on http://Grok.com

xAI模型发布
4月16日
22:48
Nathan Lambert@natolambert
Opus 4.7 has a new tokenizer. 这意味着它也是一个新的 base model。 预训练的辉煌时期仍在继续。
Anthropic数据/训练模型发布
05:43
Chubby♨️@kimmonismus
明天没有 GPT-5.5,但祈祷 Opus 4.7 会发布。 【引用 @synthwavedd】:正如这些天似乎几乎总是如此,5.5 的发布已被推迟(不会是明天) 不过延迟不会太长,很快会有更多消息

leo 🐾: as seems to almost always be the case these days, the 5.5 launch has been pushed back (it will not be tomorrow) not too ...

AnthropicOpenAI模型发布
05:43
Rohan Paul@rohanpaul_ai
谷歌 OpenAI 密集发新,AI 技术升级与社会抵制并存

Google 发布 Gemini 3.1 Flash TTS 语音模型及 Chrome Skills 工具,支持场景化语音合成与提示词复用。OpenAI 推出 GPT-5.4-Cyber 并升级 Agents SDK 为长期运行代理环境,支持沙盒执行与状态管理。与此同时,AI 技术遭遇强烈社会抵制,出现针对数据中心的激进行动。

智能体GoogleOpenAI模型发布
01:46
TestingCatalog News 🗞@testingcatalog
Google 发布了 Gemini 3.1 Flash TTS,支持 70 种不同语言! > 现可通过 AI Studio 中的全新音频 playground 和 Gemini API 使用! 【引用 @Google】:使用 Gemini 3.1 Flash TTS 在 70 多种语言中生成细腻、引人入胜的音频体验--这是我们迄今为止最可控且最具表现力的文本转语音模型。🔊

Google: Generate nuanced, engaging audio experiences across 70+ languages with Gemini 3.1 Flash TTS - our most controllable & ex...

Google模型发布语音
00:07
AK@_akhaliq
55
NVIDIA 在 Hugging Face 上发布了 Lyra 2.0 可探索的生成式 3D 世界 论文: https://huggingface.co/papers/2604.13036 模型: https://huggingface.co/nvidia/Lyra-2.0
多模态开源生态模型发布
4月15日
11:01
swyx 🐣@swyx
Cognition发布SWE-check并阐述AI工程新范式

Cognition发布基于强化学习的bug检测模型SWE-check,在匹配前沿模型性能的同时实现10倍推理加速。作者提出AI工程的核心范式:通过模型与工具组合推动AI帕累托前沿,而非直接突破模型边界;应采用"先最大化能力再蒸馏"的策略。Applied Compute正为多家Agent Lab提供算力基础设施。AI领域仅存在两种商业模式:能力整合与能力拆分。

Cognition: Today we're releasing SWE-check, a specialized bug detection model we RL-trained with @appliedcompute that matches front...

智能体模型发布编码
06:05
TestingCatalog News 🗞@testingcatalog
OpenAI 正在向最高层级的 API 客户扩展 GPT-5.4-Cyber。 > GPT-5.4-Cyber 是一个专门微调用于额外网络能力且限制更少的模型。 【引用 @AndrewCurran_】:新模型:GPT-5.4-Cyber '今天我们正通过为愿意与 OpenAI 合作以验证自身为网络安全防御者的用户引入额外访问层级来扩展此计划。最高层级的客户将获得 GPT-5.4-Cyber 的访问权限,这是一个专门微调用于额外网络能力且限制更少的模型。' https://openai.com/index/scaling-trusted-access-for-cyber-defense/

Andrew Curran: New model: GPT-5.4-Cyber 'Today we're expanding this program by introducing additional tiers of access for users willing...

OpenAI安全/对齐模型发布
06:05
Tibo@thsottiaux
69
今天我们推出 GPT-5.4-Cyber 并扩展我们的网络安全可信访问(TAC)计划。 https://openai.com/index/scaling-trusted-access-for-cyber-defense/
OpenAI安全/对齐模型发布
‹ 上一页
1…2122232425
下一页 ›