do NOT sleep on GPT-5.5 Instant; new model smell, better memory, sharper context, and replies just feel different today....
do NOT sleep on GPT-5.5 Instant; new model smell, better memory, sharper context, and replies just feel different today....
Unconventional AI 发布首个图像生成模型 Un-0,其核心是一个模拟的耦合振荡器系统——一种物理计算基板。在 class-conditional ImageNet 64×64 上,Un-0 达到 FID 6.74,匹配此前领先常规图像生成方法的首次发布质量。模型将耦合强度矩阵 K 和频率 ω 作为可学习参数,通过库拉莫托振荡器方程演化。权重、训练与消融代码均已开源。Un-0 旨在验证物理动态系统能以约 1000 倍更高能效运行现代 AI 工作负载。
DeepReinforce 发布 Ornith-1.0 开源编码模型族,基于 Gemma 4 和 Qwen 3.5 后训练,提供 9B、31B、35B-MoE(每 token 激活约 3B 参数)和 397B-MoE 四个尺寸,均以 MIT 许可在 HuggingFace 开放。与固定人工设计框架的编码智能体不同,Ornith-1.0 在强化学习中联合优化框架与解决方案,并引入三层防御(固定信任边界、确定性监视器、冻结 LLM 裁判)防止奖励黑客。旗舰版 Ornith-1.0-397B 在 Terminal-Bench 2.1 上得分 77.5、在 SWE-Bench Verified 上得分 82.4,超越 Claude Opus 4.7(70.3)但低于 Claude Opus 4.8(85)和 GLM-5.2-744B(81.0)。支持 vLLM、SGLang 等推理框架,9B 模型(bf16 约 19GB)可部署在单张 80GB GPU 上。
Ornith-1.0 开源模型家族发布,专注智能体编程(Agentic Coding),覆盖 9B Dense、31B Dense、35B MoE 及 397B MoE 全参数规模。在 Agent Coding 基准上达开源顶尖:SWE-Bench Verified 82.4、SWE-Bench Pro 62.2、Terminal-Bench 2.1 77.5、NL2Repo 48.2、SWE Atlas 41.2 QnA、ClawEval 77.1。基于 gemma4 和 qwen3.5 后训练,采用强化学习联合优化任务脚手架(scaffold)与最终解决方案,让模型自主改进执行框架。全系列 MIT 开源,提供 GGUF 版本,支持 Ollama、Unsloth 等本地运行。
Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...
关联讨论 1 条X:Kim (@kimmonismus)gpt-5.6-preview has been spotted in an internal model-access route
DeepReinforce 发布 Ornith-1.0,一个 MIT 许可的开源智能体编码大语言模型家族,涵盖 9B Dense、31B Dense、35B MoE 及旗舰 397B MoE(17B 活跃参数)。旗舰模型在 SWE-Bench Verified 上取得 82.4,Terminal-Bench 2.1 上取得 77.5,均超越 Claude Opus 4.7;并在 SWE-Bench Pro(62.2)、Multilingual(78.9)等基准上达到开源同尺寸最佳。模型基于 Gemma 4 和 Qwen 3.5 后训练,采用新型自我改进策略:强化学习不仅生成解决方案,还联合优化任务特定的 scaffold(包含计划、记忆模式、工具节奏、错误处理等)。最小的 9B 模型也在 SWE-Bench Verified 上达到 69.4。全部模型以 MIT 许可证发布,支持商用与研究。
Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...
Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...
gpt-5.6-preview has been spotted in an internal model-access route
Unsloth 将 GLM-5.2 压缩为 1-bit GGUF 量化版本,在 Mac Studio M3 Ultra(256GB RAM)上以约 21.6 tok/s 本地运行。与 Claude 4.8 Opus、GPT-5.5 使用相同提示进行创意输出(HTML/设计效果)对比,1-bit 版本表现不逊色,甚至更丰富、“更有想法”。GLM-5.2 本身以创意和长上下文见长,极端量化后仍保持较强表现,验证了开源模型在极端优化后正快速缩小与闭源前沿模型在实际可用性上的差距,尤其适合本地部署。
1-bit GLM-5.2 GGUF vs. Claude 4.8 Opus vs. GPT-5.5 We gave 3 models the same prompt and compared one-shot outputs. The 1...
百度于6月22日开源 Unlimited OCR 模型,总参数量30亿,推理时仅激活5亿。模型延续 DeepSeek OCR 架构,编码端采用两级视觉编码并执行16倍 token 压缩,将1024×1024 PDF 图像压缩为256个视觉 token,缓解长文档解析越生成越慢问题。训练基于 DeepSeek OCR 检查点,冻结 DeepEncoder 后继续4000步,使用约200万份文档在8×16 A800 GPU上完成,单页与多页数据配比约9:1。在 OmniDocBench v1.5 上整体得分93.23(DeepSeek OCR 87.01,DeepSeek OCR 2 89.17),文本编辑距离0.038,公式 CDM 92.61,表格 TEDS 90.93,读序编辑距离0.045;v1.6 得分93.92。GitHub 已获 6.8K Star。
We have a new version of GPT-5.5 Instant for you, and it's much more fun to talk to. Our most-used model is now better a...
HappyHorse 1.1 is now available in ComfyUI as a Partner Node. Native audio. Multi-character consistency. Cinematic frami...
Happyhorse 1.1 from Alibaba is up on Replicate! -Text, image, and reference to video options with multilingual lip-sync ...
百度推出Unlimited OCR,一个3B参数的MoE模型,推理时仅激活500M参数。其核心创新Reference Sliding Window Attention(R-SWA)将KV缓存大小固定为Lm + n(n默认128),内存和延迟不随输出长度增长。模型基于DeepSeek OCR继续训练4000步,支持32K最大长度,通过DeepEncoder实现16倍token压缩。在OmniDocBench v1.5上整体得分93.23,超出DeepSeek OCR基线6.22分;v1.6得分93.92为最高。Base模式下吞吐达5580 TPS,比DeepSeek OCR提升12.7%,6000 token输出时延迟低35%。适用于整本书转录等场景,代码与权重已在HuggingFace开源。
同一事件,精选展示《无限制OCR:单次长时域解析》iLLaDA是一个8B参数的掩码扩散语言模型,采用完全双向注意力机制训练,预训练数据量达12T tokens,并在25B tokens的指令数据集上微调12个epoch。模型引入变长生成与置信度评分方法以提升效率和多选评测效果。相比LLaDA,iLLaDA-Base在BBH和ARC-Challenge上分别提升21.6和14.9个点,iLLaDA-Instruct在MATH和HumanEval上分别提升14.5和16.5个点。尽管是非自回归训练,iLLaDA仍在多个基准上与Qwen2.5 7B保持竞争力。模型权重和代码已开源。
OpenAI 6 月 25 日升级 GPT-5.5 Instant 模型,新版本更能洞察用户表达意图,理解问题背后的引申含义,并优化输出表达。处理复杂约束条件时更可靠,能更稳定地满足多条件任务。购物推荐和本地推荐方面表现更实用、更连贯,结果更贴近实际使用场景。付费用户即日起获得新版,免费用户明天接入。
You can now try GLM 5.2 in Cursor! Excited to see more useful open models, thank you to Fireworks for partnering here. R...
Google 将计算机使用(Computer use)作为内置工具集成至 Gemini 3.5 Flash,使开发者能构建跨浏览器、移动端和桌面环境的智能体。此前该功能仅作为独立模型在 Gemini 2.5 中提供,现已原生整合至主 Flash 模型。开发者可通过 Gemini API 及 Gemini Enterprise Agent Platform 调用。安全方面,模型采用针对性对抗训练降低提示注入风险,并新增两项可选企业级保护:要求用户确认敏感操作、检测到间接提示注入时自动停止。该能力在持续软件测试、跨应用知识工作等长周期企业自动化场景中表现更优。(198字)
关联讨论 2 条X:Google AI for Developers (@googleaidevs)Google DeepMind:Blog(RSS)OpenAI 更新了 ChatGPT 中广泛使用的 GPT-5.5 Instant 模型,目标提升对话质量,尤其在用户做决策、寻求建议或比较选项时。模型能更准确识别问题背后的根本目标,在多轮对话中保持上下文,对包含多个条件的复杂提示给出更完整回答。当用户提出异议或澄清时,模型调整得更有效,不再重复原有回答。本地商业和购物查询也有改进,模型更好利用位置数据,将推荐、商家信息和图片更连贯整合。整体响应感觉“更少模板化,更多精心设计”。
How can we train small agentic models that are highly capable of terminal use and coding? Announcing OpenThoughts-Agent ...
We have a new version of GPT-5.5 Instant for you, and it's much more fun to talk to. Our most-used model is now better a...
Qwen-AgentWorld是一个原生语言世界模型,端到端以环境建模为训练目标,而非事后适配。它在单一模型中模拟MCP、Search、Terminal、SWE、Web、OS、Android等7种Agent环境,并在AgentWorldBench上超越Claude Opus 4.8和GPT-5.4。两个探索方向:1)将世界模型用作可控Sim RL的环境模拟器,模拟环境训练的Agent在部分任务上超过真实环境训练;2)仅做环境预测(不进行Agent训练)的预测能力零微调迁移到多轮Agent任务,在多个benchmark上均有提升。已开源35B MoE版本及对应benchmark。
📣📣 Meet Qwen-AgentWorld - a native language world model that simulates 7 agent environments (MCP, Search, Terminal, SW...
同一事件,精选展示《Qwen-AgentWorld:面向通用智能体的语言世界模型》🚨 BREAKING: Claude Code v2.1.190 introduces several string changes that hint at preparations for a Fable 5 return, with...
Fugu-Ultra is now live on @OpenRouter! ⚡ We share a core vision with the OpenRouter team: the future of AI isn't a singl...
Krea 2 是一系列基础模型,兼顾审美多样性与创意控制。采用扩散 Transformer(DiT)架构,集成 iREPA、改进 VAE 和 Qwen3-VL,通过预训练、中期训练、SFT、偏好优化和 RL 多阶段流水线训练。构建提示词扩展器和风格参考系统,支持从文本和图像输入进行可控探索。模型权重与推理代码以宽松许可证开源。在 Artificial Analysis 文本到图像排行榜中位列前十,独立实验室模型中排名第二。
关联讨论 1 条X:Krea AI (@krea_ai)阿里云发布 Qwen-AgentWorld,一个原生语言世界模型,可在单一模型内模拟 7 种智能体环境(MCP、搜索、终端、SWE、Web、OS、Android),环境建模是其初始训练目标而非事后适配。该模型
Cola 刚刚上线了最新的 Seed 2.1 Pro 原生多模态模型,号称目前多模态最强模型。相比 2.0 版本,该模型显著增强了 coding 和 Agent 能力。具体评测细节可参考藏师傅的文章。体验地址:colaos.ai。
http://x.com/i/article/2069421203073490944
通义千问发布Qwen-AgentWorld,一款原生语言世界模型,可在单一模型中模拟MCP、搜索、终端、SWE、Web、OS、Android共7种智能体环境。环境建模即训练目标,非事后适配。该模型在AgentWorldBench上性能超越Claude Opus 4.8和GPT-5.4。研究分两条路径:一是构建环境模拟基础模型;二是探索世界模型增强智能体训练——可控Sim RL(以LWM为环境的智能体强化学习)优于真实环境训练,而LWM预热(预测环境的学习)即使不经任何智能体特定微调,也能将预测知识迁移至智能体任务。
关联讨论 4 条Hacker News 热门(buzzing.cc 中文翻译)HuggingFace Daily Papers(社区热门论文)公众号:通义实验室(千问)Qwen:Blog Retrieval(API)Mistral AI 推出 OCR 4 模型,专用于从 PDF、Word 文件和 PowerPoint 演示文稿等文档中提取文本。据公司称,该模型在盲测中有 72% 的测试案例表现优于竞争对手。
字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...
6 月 24 日,阿里巴巴千问发布 Qwen-AgentWorld,首个原生语言世界模型,提供 35B-A3B 与 397B-A17B 两种规模,单一模型覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大智能体交互领域。模型基于超 1000 万条真实环境交互轨迹,经 CPT → SFT → RL 三阶段训练。同步发布的 AgentWorldBench 评测中,Qwen-AgentWorld-397B-A17B 取得最高整体模拟质量,超越 GPT-5.4、Claude Opus 4.8 与 Gemini 3.1 Pro。模型与评测基准已开源,可从 Hugging Face 和 ModelScope 获取。