OpenAI发布GPT-5.5,核心目标是增强模型自主规划与执行多步骤复杂任务的能力,减少人工干预。在多项基准测试中表现突出:在Terminal-Bench 2.0、FrontierMath Tier 4等复杂任务上超越GPT-5.4及Claude Opus等竞品;在GDPval知识工作与OSWorld-Verified真实电脑操作测试中也保持领先。其代码能力更优且效率更高,科研能力显著提升,甚至辅助发现了拉姆齐数的新证明。尽管模型更大更强,其响应速度与GPT-5.4持平。
OpenAI发布GPT-5.5,核心目标是增强模型自主规划与执行多步骤复杂任务的能力,减少人工干预。在多项基准测试中表现突出:在Terminal-Bench 2.0、FrontierMath Tier 4等复杂任务上超越GPT-5.4及Claude Opus等竞品;在GDPval知识工作与OSWorld-Verified真实电脑操作测试中也保持领先。其代码能力更优且效率更高,科研能力显著提升,甚至辅助发现了拉姆齐数的新证明。尽管模型更大更强,其响应速度与GPT-5.4持平。
5.5 is so earnest "little engine that could" energy
🚀 DeepSeek-V4 Preview is officially live & open-sourced! Welcome to the era of cost-effective 1M context length. 🔹 Dee...
Riley's recent tests and various posts about GPT-5.5 have revealed something about model progress. Models are already so...
腾讯混元团队在重建基础设施后,推出首个MoE架构模型Hy3 preview,总参295B,支持256K上下文。团队确立能力体系化、评测真实性、性价比三大原则,推动模型向实用转型。评估显示,Hy3在复杂推理与长上下文任务上进入第一梯队,代码与智能体能力进步显著。其突出亮点是能深度挖掘非结构化对话中的隐含约束,并转化为结构化输出,体现了强大的实际应用潜力。
👋Hi /haɪ/, we're the Tencent Hy /haɪ/ team🐧 Today, we open source Hy3 preview (295B A21B), a leading reasoning and age...
DeepSeek V4详细的官方公告也发了: 模型参数 (a) Pro 版本:总参数 1.6T,激活参数 49B (b) Flash 版本:总参数 284B,激活参数 13B (c) 预训练数据量:均为 32T 模式区分(网页端与 APP)...
一款新的开源OCR模型在olmocr基准测试中达到85.9%的SOTA性能。该模型参数量为40亿,由90亿参数精简而来,支持超过90种语言并附带基准测试。其核心能力包括保留完整的文档布局信息,能从图像和图表中提取并生成说明文字,同时对手写文本、数学公式、表单及表格具备强大的识别与解析支持。
autonovel是基于Ling-2.6-flash的AI写作工具,专为长篇小说创作优化。它能以200+ tokens/s的速度生成文本,大幅提升创作效率,并在上下文一致性、伏笔回收和人物性格保持方面表现突出,帮助作者从繁琐的码字劳动中解放,更专注于故事构思。目前提供免费体验额度。
后续来了兄弟们,卧槽真的太炸了,同样的任务,同样的配置,速度比Claude Sonnet 4.6还快 6 倍,成本低约 50 倍, openrouter 和 官方 API 均限时免费 1 周使用时间,白嫖的机会,冲啊兄弟们! 我上周那条讲E...
New Gemini model "very, very soon"! Gemini 3.5 or 4? Google Cloud CEO: "We have a new version of Gemini coming very, ver...
Super excited GPT-5.5 is rolling out to GitHub Copilot, M365 Copilot, Copilot Studio, and Foundry today. With deeper rea...
小米于2026年4月22日发布MiMo V2.5 Pro模型,其在Artificial Analysis智能指数得分54,表现强劲。该模型在代理能力上领先,Agentic Index得分67%,优于Kimi K2.6等开源模型,这主要得益于在τ²-Bench和TerminalBench Hard上的优异表现。此外,其在前沿推理和指令遵循方面也有提升。模型具有1M上下文窗口,1T总参数,API定价具有成本效益,运行同一智能指数仅需462美元。不过,其在事实准确性指数上得分4,存在准确率较低的问题。模型采用MIT许可证,权重暂未公开,目前可通过小米官方API使用。
Deepseek v4 is a huge step upwards compared to DeepSeek 3, outperforms on SWE verified opus 4.6 and GPT-5.4 and sets a n...
Deepseek v4 is a huge step upwards compared to DeepSeek 3, outperforms on SWE verified opus 4.6 and GPT-5.4 and sets a n...
Structural Innovation & Ultra-High Context Efficiency 🔹 Novel Attention: Token-wise compression + DSA (DeepSeek Sparse ...
DEEEPSEEK 4 RELEASED!! Holy!! Lets go
Deepseek v4 pro Evals. Roughly on par with GPT-5.4 xhigh and opus 4.6 max
在独立评测中,GPT-5.5以3分优势超越Anthropic和Google的模型,重回性能榜首。其API定价大幅上涨,输入与输出费用分别达到每百万5美元和30美元,但token消耗减少了约40%。模型通过自我编写的算法进行了优化,使token生成速度提升超过20%。尽管知识准确率达到57%的历史新高,但其幻觉率也高达86%,显示出性能与可靠性之间的显著矛盾。
OPENAI 🚨: GPT-5.5 AND GPT-5.5 PRO HAVE BEEN SPOTTED ON OPENROUTER! - gpt-5.5-20260423 - gpt-5.5-pro-20260423 Soon 👀
GPT 5.5 and GPT 5.5 Pro spotted on OpenRouter Its coming
🚀 Meet Qwen3.6-27B, our latest dense, open-source model, packing flagship-level coding power! Yes, 27B, and Qwen3.6-27B...
🚨 OpenAI just accidentally leaked all the internal models in Codex model picker Seem to be only on pro accounts
关联讨论 2 条X:小互 (@xiaohu)IT之家(RSS)🚨 OpenAI just accidentally leaked all the internal models in Codex model picker Seem to be only on pro accounts
Really excited for this week! Next up, we've got something to show you at 12 pm PT today.
Holy SHIIIIIIITTTTTTTTT @TheRealAdamG what did you guys created , this is insane GPT pro update created a masterpiece un...
ImagineArt 2.0在文本到图像排行榜首登第9位,生成质量与xAI的grok-imagine-image及Google的Imagen 4 Ultra相当。作为ImagineArt推出的最新专有图像模型,该版本目前已集成于ImagineArt Image Studio应用,面向开发者的API即将上线。ImagineArt作为综合性AI创意平台,为用户提供多种图像与视频模型的一站式访问。
🚨Grok 4.3 beta spotted on http://Grok.com
as seems to almost always be the case these days, the 5.5 launch has been pushed back (it will not be tomorrow) not too ...
Google 发布 Gemini 3.1 Flash TTS 语音模型及 Chrome Skills 工具,支持场景化语音合成与提示词复用。OpenAI 推出 GPT-5.4-Cyber 并升级 Agents SDK 为长期运行代理环境,支持沙盒执行与状态管理。与此同时,AI 技术遭遇强烈社会抵制,出现针对数据中心的激进行动。
Generate nuanced, engaging audio experiences across 70+ languages with Gemini 3.1 Flash TTS - our most controllable & ex...
Cognition发布基于强化学习的bug检测模型SWE-check,在匹配前沿模型性能的同时实现10倍推理加速。作者提出AI工程的核心范式:通过模型与工具组合推动AI帕累托前沿,而非直接突破模型边界;应采用"先最大化能力再蒸馏"的策略。Applied Compute正为多家Agent Lab提供算力基础设施。AI领域仅存在两种商业模式:能力整合与能力拆分。
Today we're releasing SWE-check, a specialized bug detection model we RL-trained with @appliedcompute that matches front...
New model: GPT-5.4-Cyber 'Today we're expanding this program by introducing additional tiers of access for users willing...