AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
6月26日周五
11:19Tibo68GPT-5.5 Instant 更新:记忆与上下文升级
10:26Alibaba Cloud50阿里云Model Studio上线HappyHorse 1.1
09:01Hacker News 热门(buzzing.cc 中文翻译)65Un-0:利用耦合振荡器生成图像
01:34MarkTechPost(RSS)66DeepReinforce 发布 Ornith-1.0 开源编码模型族
00:54AK36Wan-Streamer v0.1 实时交互基础模型
00:49Logan Kilpatrick61Gemma 4 设备端智能面向所有人
00:19Berryxia.AI76精选Ornith-1.0 开源模型家族发布,专注 Agentic Coding 全参数规模
00:14🚨 AI News | TestingCatalog45OpenAI GPT-5.6-Preview 在代码中被发现
6月25日周四
23:53Rohan Paul72DeepReinforce 发布开源智能体编码大模型家族 Ornith-1.0(MIT 许可)
22:44🚨 AI News | TestingCatalog74DeepReinforce 发布 Ornith-1.0 系列自改进开源模型,专为智能体编码设计
19:35Chubby♨️43GPT-5.6 内部模型访问路径曝光
17:18Berryxia.AI60Unsloth 将 GLM-5.2 压缩为 1-bit GGUF,本地创意输出不逊闭源模型
16:35Chubby♨️24Anthropic Fable 5 今日重新发布
15:58IT之家(RSS)69百度开源 Unlimited OCR 模型,基于 DeepSeek OCR 架构,30亿参数仅激活5亿
15:44🚨 AI News | TestingCatalog48OpenAI 升级 GPT-5.5 Instant 模型,明日起向免费用户开放
14:54Alibaba Cloud65HappyHorse 1.1 在 ComfyUI 以 Partner Node 上线
14:54Alibaba Cloud67Replicate 上线阿里 HappyHorse 1.1
14:04MarkTechPost(RSS)73同事件精选百度发布Unlimited OCR:3B参数MoE模型,KV缓存恒定实现长文档高效解析同一事件,精选展示《无限制OCR:单次长时域解析》
11:12HuggingFace Daily Papers(社区热门论文)67iLLaDA:改进的大型语言扩散模型
08:58IT之家(RSS)41OpenAI 再次升级 GPT-5.5 Instant:更具洞察力,购物推荐更实用
06:19Nathan Lambert53GLM 5.2 以 CursorBench 成本跻身 Opus 前沿
06:07Lee Robinson65GLM 5.2 现已可在 Cursor 中试用
05:29Hacker News 热门(buzzing.cc 中文翻译)71Gemini 3.5 Flash 中的计算机使用
04:07The Decoder:AI News(RSS)51OpenAI 称 ChatGPT Instant 更能理解用户真实意图
02:38ChatGPT65GPT-5.5 Instant 发布:更智能直观有趣
02:20OpenAI67精选GPT-5.5 Instant 新版本,对话更有趣
02:19Nathan Lambert68OpenThinkerAgent-32B 开放数据智能体发布
02:17Greg Brockman69GPT-5.5 Instant重大升级:对话更智能有趣
01:18Berryxia.AI78同事件精选Qwen-AgentWorld:原生语言世界模型,模拟7种Agent环境并超越Claude Opus 4.8和GPT-5.4同一事件,精选展示《Qwen-AgentWorld:面向通用智能体的语言世界模型》
00:34Chubby♨️44Claude Code v2.1.190 更新:字符串暗示 Fable 5 将永久加入订阅并设每周使用上限
00:12OpenRouter54Fugu Ultra 上线 OpenRouter
6月24日周三
23:29Hacker News 热门(buzzing.cc 中文翻译)78Krea 2 技术报告
18:22Alibaba Cloud69Qwen-AgentWorld 超越 Claude Opus 4.8 和 GPT-5.4
18:16Orange AI54Cola Seed 2.1 Pro 上线,最强多模态模型
18:12Qwen76通义千问发布Qwen-AgentWorld原生语言世界模型
17:55The Decoder:AI News(RSS)49Mistral 发布 OCR 4 模型:在盲测中 72% 情况下超越竞品
16:57Hacker News 热门(buzzing.cc 中文翻译)60YOLO26 简介
14:50Alibaba Cloud60阿里云发布Qwen3.7-Plus多模态智能体
13:52小互56字节跳动Seedance 2.5发布:一次生成30秒4K短片
12:42IT之家(RSS)66阿里千问发布首个原生语言世界模型 Qwen-AgentWorld
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月26日
11:19
Tibo@thsottiaux
68
GPT-5.5 Instant 已上线,带来全新的感受、更好的记忆和更精准的上下文,回复感觉焕然一新。名字虽带"Instant"看似轻量,实则不然。免费和付费层均可使用。主推文:这是个极好的更新。

Shaun Ralston: do NOT sleep on GPT-5.5 Instant; new model smell, better memory, sharper context, and replies just feel different today....

OpenAI模型发布
10:26
Alibaba Cloud@alibaba_cloud
50
HappyHorse 1.1 正在推动下一波AI视频创作。 从 @ComfyUI、@runware 到 @fal、@replicate 和 @Picsart,领先平台已在使用它构建应用。 现已在阿里云Model Studio上可用。 立即开始创作:https://int.alibabacloud.com/m/1000412436/ #HappyHorse #阿里云 #ModelStudio #AI视频 #生成式AI
多模态模型发布视频
09:01
Hacker News 热门(buzzing.cc 中文翻译)
65
Un-0:利用耦合振荡器生成图像

Unconventional AI 发布首个图像生成模型 Un-0,其核心是一个模拟的耦合振荡器系统——一种物理计算基板。在 class-conditional ImageNet 64×64 上,Un-0 达到 FID 6.74,匹配此前领先常规图像生成方法的首次发布质量。模型将耦合强度矩阵 K 和频率 ω 作为可学习参数,通过库拉莫托振荡器方程演化。权重、训练与消融代码均已开源。Un-0 旨在验证物理动态系统能以约 1000 倍更高能效运行现代 AI 工作负载。

图像生成开源生态模型发布
01:34
MarkTechPost(RSS)
66
DeepReinforce 发布 Ornith-1.0 开源编码模型族

DeepReinforce 发布 Ornith-1.0 开源编码模型族,基于 Gemma 4 和 Qwen 3.5 后训练,提供 9B、31B、35B-MoE(每 token 激活约 3B 参数)和 397B-MoE 四个尺寸,均以 MIT 许可在 HuggingFace 开放。与固定人工设计框架的编码智能体不同,Ornith-1.0 在强化学习中联合优化框架与解决方案,并引入三层防御(固定信任边界、确定性监视器、冻结 LLM 裁判)防止奖励黑客。旗舰版 Ornith-1.0-397B 在 Terminal-Bench 2.1 上得分 77.5、在 SWE-Bench Verified 上得分 82.4,超越 Claude Opus 4.7(70.3)但低于 Claude Opus 4.8(85)和 GLM-5.2-744B(81.0)。支持 vLLM、SGLang 等推理框架,9B 模型(bf16 约 19GB)可部署在单张 80GB GPU 上。

智能体开源/仓库模型发布编码
00:54
AK@_akhaliq
36
Wan-Streamer v0.1 端到端实时交互式基础模型
模型发布视频
00:49
Logan Kilpatrick@OfficialLoganK
61
Gemma 4… 为每个人带来设备端智能!
Google模型发布端侧
00:19
Berryxia.AI@berryxia
精选76
Ornith-1.0 开源模型家族发布,专注 Agentic Coding 全参数规模

Ornith-1.0 开源模型家族发布,专注智能体编程(Agentic Coding),覆盖 9B Dense、31B Dense、35B MoE 及 397B MoE 全参数规模。在 Agent Coding 基准上达开源顶尖:SWE-Bench Verified 82.4、SWE-Bench Pro 62.2、Terminal-Bench 2.1 77.5、NL2Repo 48.2、SWE Atlas 41.2 QnA、ClawEval 77.1。基于 gemma4 和 qwen3.5 后训练,采用强化学习联合优化任务脚手架(scaffold)与最终解决方案,让模型自主改进执行框架。全系列 MIT 开源,提供 GGUF 版本,支持 Ollama、Unsloth 等本地运行。

Ornith: Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...

智能体开源生态模型发布编码
关联讨论 1 条X:Kim (@kimmonismus)
推荐理由:Ornith-1.0 不是又刷 benchmark,而是第一次把‘任务脚手架’的生成也纳入 RL 优化,这个思路可能改变 agent coding 的训练范式。MIT 开源加 GGUF,本地党可以立刻跑起来。
00:14
🚨 AI News | TestingCatalog@testingcatalog
45
OPENAI 🔥: GPT-5.6-Preview 已在 ChatGPT 代码中被发现。它可能也已向某些合作伙伴企业开放。 这也意味着它可能会在有限预览状态下持续一段时间。 不会很快?👀

Haider.: gpt-5.6-preview has been spotted in an internal model-access route

OpenAI模型发布
6月25日
23:53
Rohan Paul@rohanpaul_ai
72
DeepReinforce 发布开源智能体编码大模型家族 Ornith-1.0(MIT 许可)

DeepReinforce 发布 Ornith-1.0,一个 MIT 许可的开源智能体编码大语言模型家族,涵盖 9B Dense、31B Dense、35B MoE 及旗舰 397B MoE(17B 活跃参数)。旗舰模型在 SWE-Bench Verified 上取得 82.4,Terminal-Bench 2.1 上取得 77.5,均超越 Claude Opus 4.7;并在 SWE-Bench Pro(62.2)、Multilingual(78.9)等基准上达到开源同尺寸最佳。模型基于 Gemma 4 和 Qwen 3.5 后训练,采用新型自我改进策略:强化学习不仅生成解决方案,还联合优化任务特定的 scaffold(包含计划、记忆模式、工具节奏、错误处理等)。最小的 9B 模型也在 SWE-Bench Verified 上达到 69.4。全部模型以 MIT 许可证发布,支持商用与研究。

Ornith: Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...

智能体开源生态模型发布编码
22:44
🚨 AI News | TestingCatalog@testingcatalog
74
DeepReinforce 发布 Ornith-1.0 系列开源模型,专为智能体编码设计。参数覆盖 9B Dense、31B Dense、35B MoE 和 397B MoE,基于 gemma4 和 qwen3.5 微调。采用自我改进训练策略:强化学习同时生成解决方案和任务脚手架。旗舰 397B MoE 在编码基准上匹配 Claude Opus 4.7,9B Dense 针对边缘设备优化。评测成绩包括 Terminal-Bench 2.1 77.5、SWE-Bench verified 82.4、SWE-Bench Pro 62.2、NL2Repo 48.2 等。全部模型以 MIT 许可证开源,可商用和研究使用。

Ornith: Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...

开源生态模型发布编码
19:35
Chubby♨️@kimmonismus
43
GPT-5.6 在内部模型访问路径中被发现。 GPT-5.6 即将到来已不是秘密。唯一的问题是它何时以及多快到来。 我猜测,一切准备工作都是为了应对潜在的 Fable 5 重新发布,随后很快发布 GPT-5.6。 鉴于围绕 Fable 5 的传闻越来越多,GPT-5.6 重新成为焦点并不意外。

Haider.: gpt-5.6-preview has been spotted in an internal model-access route

OpenAI模型发布
17:18
Berryxia.AI@berryxia
60
Unsloth 将 GLM-5.2 压缩为 1-bit GGUF,本地创意输出不逊闭源模型

Unsloth 将 GLM-5.2 压缩为 1-bit GGUF 量化版本,在 Mac Studio M3 Ultra(256GB RAM)上以约 21.6 tok/s 本地运行。与 Claude 4.8 Opus、GPT-5.5 使用相同提示进行创意输出(HTML/设计效果)对比,1-bit 版本表现不逊色,甚至更丰富、“更有想法”。GLM-5.2 本身以创意和长上下文见长,极端量化后仍保持较强表现,验证了开源模型在极端优化后正快速缩小与闭源前沿模型在实际可用性上的差距,尤其适合本地部署。

Unsloth AI: 1-bit GLM-5.2 GGUF vs. Claude 4.8 Opus vs. GPT-5.5 We gave 3 models the same prompt and compared one-shot outputs. The 1...

开源生态模型发布端侧评测/基准
16:35
Chubby♨️@kimmonismus
24
Anthropic 的 Fable 5 于今日重新发布。 我希望这是真的。

imjustnewatai: Anthropic Fable 5 re releasing today.

Anthropic模型发布
15:58
IT之家(RSS)
69
百度开源 Unlimited OCR 模型,基于 DeepSeek OCR 架构,30亿参数仅激活5亿

百度于6月22日开源 Unlimited OCR 模型,总参数量30亿,推理时仅激活5亿。模型延续 DeepSeek OCR 架构,编码端采用两级视觉编码并执行16倍 token 压缩,将1024×1024 PDF 图像压缩为256个视觉 token,缓解长文档解析越生成越慢问题。训练基于 DeepSeek OCR 检查点,冻结 DeepEncoder 后继续4000步,使用约200万份文档在8×16 A800 GPU上完成,单页与多页数据配比约9:1。在 OmniDocBench v1.5 上整体得分93.23(DeepSeek OCR 87.01,DeepSeek OCR 2 89.17),文本编辑距离0.038,公式 CDM 92.61,表格 TEDS 90.93,读序编辑距离0.045;v1.6 得分93.92。GitHub 已获 6.8K Star。

DeepSeek多模态开源生态模型发布
15:44
🚨 AI News | TestingCatalog@testingcatalog
48
OpenAI 推出新版本 GPT-5.5 Instant,号称是使用最多的模型。新版本能更好地理解问题意图并调整回答,更可靠地处理复杂约束,同时让购物和本地推荐更实用、更连贯。该模型已向付费用户推送,明天起免费用户也将陆续获得。

OpenAI: We have a new version of GPT-5.5 Instant for you, and it's much more fun to talk to. Our most-used model is now better a...

OpenAI推理模型发布
14:54
Alibaba Cloud@alibaba_cloud
65
HappyHorse 1.1 现已作为 Partner Node 集成于 ComfyUI,一次渲染即可支持原生音频、多角色一致性与电影级构图。新版本提升动态表现力(运动更流畅);增强 R2V,每次最多使用 9 张参考图;实现多角色造型零串扰,背景变化时角色仍保持一致;指令遵循能力增强,可处理超 2500 字符的提示词,单次生成 6-8 个场景;修复皮肤反光和过度锐化;对话与音效同步更紧密。

ComfyUI: HappyHorse 1.1 is now available in ComfyUI as a Partner Node. Native audio. Multi-character consistency. Cinematic frami...

多模态模型发布视频
14:54
Alibaba Cloud@alibaba_cloud
67
全球创作者的重大胜利。 自豪地看到 #Replicate 支持 #HappyHorse 1.1,帮助更多故事讲述者获得视频创作、音频及角色驱动叙事的强大工具。

Replicate: Happyhorse 1.1 from Alibaba is up on Replicate! -Text, image, and reference to video options with multilingual lip-sync ...

模型发布视频
14:04
MarkTechPost(RSS)
同事件精选73
百度发布Unlimited OCR:3B参数MoE模型,KV缓存恒定实现长文档高效解析

百度推出Unlimited OCR,一个3B参数的MoE模型,推理时仅激活500M参数。其核心创新Reference Sliding Window Attention(R-SWA)将KV缓存大小固定为Lm + n(n默认128),内存和延迟不随输出长度增长。模型基于DeepSeek OCR继续训练4000步,支持32K最大长度,通过DeepEncoder实现16倍token压缩。在OmniDocBench v1.5上整体得分93.23,超出DeepSeek OCR基线6.22分;v1.6得分93.92为最高。Base模式下吞吐达5580 TPS,比DeepSeek OCR提升12.7%,6000 token输出时延迟低35%。适用于整本书转录等场景,代码与权重已在HuggingFace开源。

多模态开源生态模型发布
同一事件,精选展示《无限制OCR:单次长时域解析》
推荐理由:Baidu这个OCR模型用R-SWA把KV缓存压成常量,长文档解析终于不用越跑越慢了。MIT开源,3B总参但推理只消500M,做文档管线的可以直接接。
11:12
HuggingFace Daily Papers(社区热门论文)
67
iLLaDA:改进的大型语言扩散模型

iLLaDA是一个8B参数的掩码扩散语言模型,采用完全双向注意力机制训练,预训练数据量达12T tokens,并在25B tokens的指令数据集上微调12个epoch。模型引入变长生成与置信度评分方法以提升效率和多选评测效果。相比LLaDA,iLLaDA-Base在BBH和ARC-Challenge上分别提升21.6和14.9个点,iLLaDA-Instruct在MATH和HumanEval上分别提升14.5和16.5个点。尽管是非自回归训练,iLLaDA仍在多个基准上与Qwen2.5 7B保持竞争力。模型权重和代码已开源。

开源生态推理模型发布
08:58
IT之家(RSS)
41
OpenAI 再次升级 GPT-5.5 Instant:更具洞察力,购物推荐更实用

OpenAI 6 月 25 日升级 GPT-5.5 Instant 模型,新版本更能洞察用户表达意图,理解问题背后的引申含义,并优化输出表达。处理复杂约束条件时更可靠,能更稳定地满足多条件任务。购物推荐和本地推荐方面表现更实用、更连贯,结果更贴近实际使用场景。付费用户即日起获得新版,免费用户明天接入。

OpenAI模型发布
06:19
Nathan Lambert@natolambert
53
GLM 5.2 在 CursorBench 上处于 Opus 前沿(在成本方面),这正是导致前沿实验室利润下降的原因。

Lee Robinson: You can now try GLM 5.2 in Cursor! Excited to see more useful open models, thank you to Fireworks for partnering here. R...

开源/仓库模型发布编码
06:07
Lee Robinson@leerob
65
你现在可以在 Cursor 中试用 GLM 5.2! 很高兴看到更多有用的开放模型,感谢 Fireworks 在此合作。我们的评估结果如下 ↓
开源/仓库模型发布编码
05:29
Hacker News 热门(buzzing.cc 中文翻译)
71
Gemini 3.5 Flash 中的计算机使用

Google 将计算机使用(Computer use)作为内置工具集成至 Gemini 3.5 Flash,使开发者能构建跨浏览器、移动端和桌面环境的智能体。此前该功能仅作为独立模型在 Gemini 2.5 中提供,现已原生整合至主 Flash 模型。开发者可通过 Gemini API 及 Gemini Enterprise Agent Platform 调用。安全方面,模型采用针对性对抗训练降低提示注入风险,并新增两项可选企业级保护:要求用户确认敏感操作、检测到间接提示注入时自动停止。该能力在持续软件测试、跨应用知识工作等长周期企业自动化场景中表现更优。(198字)

智能体GoogleMCP/工具模型发布
关联讨论 2 条X:Google AI for Developers (@googleaidevs)Google DeepMind:Blog(RSS)
04:07
The Decoder:AI News(RSS)
51
OpenAI 称 ChatGPT Instant 更能理解用户真实意图

OpenAI 更新了 ChatGPT 中广泛使用的 GPT-5.5 Instant 模型,目标提升对话质量,尤其在用户做决策、寻求建议或比较选项时。模型能更准确识别问题背后的根本目标,在多轮对话中保持上下文,对包含多个条件的复杂提示给出更完整回答。当用户提出异议或澄清时,模型调整得更有效,不再重复原有回答。本地商业和购物查询也有改进,模型更好利用位置数据,将推荐、商家信息和图片更连贯整合。整体响应感觉“更少模板化,更多精心设计”。

OpenAI推理模型发布
02:38
ChatGPT@ChatGPTapp
65
新的GPT-5.5 Instant非常智能、非常直观,聊天起来非常有趣。 现已开始向所有人推送,先从Pro用户,然后是Plus用户。免费用户应在明天前获得新的GPT-5.5 Instant模型。
OpenAI推理模型发布
02:20
OpenAI@OpenAI
精选67
我们为你带来了新版 GPT-5.5 Instant,它现在聊起天来有趣多了。 我们最常用的模型现在能更好地理解问题背后的意图,并相应地调整回应。 它也能更可靠地处理复杂约束,让购物和本地推荐更加实用和连贯。 今天向付费用户推送,明天向免费用户推送。
OpenAI推理模型发布

推荐理由:GPT-5.5 Instant 这次更新看似温和,但“更懂意图”和“复杂约束处理”的改进,对产品人和普通用户来说,可能比跑分更有用。
02:19
Nathan Lambert@natolambert
68
如何训练出在终端和编码方面能力强大的小型智能体模型?现宣布推出 OpenThoughts-Agent 和 OpenThinkerAgent-32B,这是基于 Qwen-3 的最强开放数据智能体模型,在 7 项智能体基准测试中平均得分 44.8%。Nathan Lambert 表示这是急需的数据发布,很兴奋。

Richard Zhuang: How can we train small agentic models that are highly capable of terminal use and coding? Announcing OpenThoughts-Agent ...

智能体开源生态模型发布编码
02:17
Greg Brockman@gdb
69
OpenAI 推出 GPT-5.5 Instant 新版本,能更好理解问题意图、处理复杂约束,并改进购物与本地推荐。今日向付费用户推送,明日覆盖免费用户。

OpenAI: We have a new version of GPT-5.5 Instant for you, and it's much more fun to talk to. Our most-used model is now better a...

OpenAI模型发布
01:18
Berryxia.AI@berryxia
同事件精选78
Qwen-AgentWorld:原生语言世界模型,模拟7种Agent环境并超越Claude Opus 4.8和GPT-5.4

Qwen-AgentWorld是一个原生语言世界模型,端到端以环境建模为训练目标,而非事后适配。它在单一模型中模拟MCP、Search、Terminal、SWE、Web、OS、Android等7种Agent环境,并在AgentWorldBench上超越Claude Opus 4.8和GPT-5.4。两个探索方向:1)将世界模型用作可控Sim RL的环境模拟器,模拟环境训练的Agent在部分任务上超过真实环境训练;2)仅做环境预测(不进行Agent训练)的预测能力零微调迁移到多轮Agent任务,在多个benchmark上均有提升。已开源35B MoE版本及对应benchmark。

Qwen: 📣📣 Meet Qwen-AgentWorld - a native language world model that simulates 7 agent environments (MCP, Search, Terminal, SW...

智能体开源生态模型发布
同一事件,精选展示《Qwen-AgentWorld:面向通用智能体的语言世界模型》
推荐理由:这是我最近看到最有想法的Agent方向探索,直接从环境建模入手,而不是让模型死记硬背操作,且零样本迁移能力很惊艳,做Agent的开发者必读。
00:34
Chubby♨️@kimmonismus
44
Claude Code v2.1.190 更新中新增字符串 "You've used your Fable 5 usage for this week",同时移除 "purchased separately from your plan",暗示 Anthropic 正为 Fable 5 回归做准备,可能将其永久纳入订阅计划并设置每周使用上限。用户对此消息表示期待,认为有望带来良好公关效果。

leo 🐾: 🚨 BREAKING: Claude Code v2.1.190 introduces several string changes that hint at preparations for a Fable 5 return, with...

Anthropic模型发布
00:12
OpenRouter@OpenRouter
54
Fugu Ultra by @SakanaAILabs 现已上线 OpenRouter! 很高兴看到更多多模型系统推动前沿。

Sakana AI: Fugu-Ultra is now live on @OpenRouter! ⚡ We share a core vision with the OpenRouter team: the future of AI isn't a singl...

推理模型发布
6月24日
23:29
Hacker News 热门(buzzing.cc 中文翻译)
78
Krea 2 技术报告

Krea 2 是一系列基础模型,兼顾审美多样性与创意控制。采用扩散 Transformer(DiT)架构,集成 iREPA、改进 VAE 和 Qwen3-VL,通过预训练、中期训练、SFT、偏好优化和 RL 多阶段流水线训练。构建提示词扩展器和风格参考系统,支持从文本和图像输入进行可控探索。模型权重与推理代码以宽松许可证开源。在 Artificial Analysis 文本到图像排行榜中位列前十,独立实验室模型中排名第二。

Hugging Face图像生成多模态开源生态
关联讨论 1 条X:Krea AI (@krea_ai)
18:22
Alibaba Cloud@alibaba_cloud
69
Qwen-AgentWorld 超越 Claude Opus 4.8 和 GPT-5.4

阿里云发布 Qwen-AgentWorld,一个原生语言世界模型,可在单一模型内模拟 7 种智能体环境(MCP、搜索、终端、SWE、Web、OS、Android),环境建模是其初始训练目标而非事后适配。该模型

智能体MCP/工具模型发布
18:16
Orange AI@oran_ge
54
Cola Seed 2.1 Pro 上线,最强多模态模型

Cola 刚刚上线了最新的 Seed 2.1 Pro 原生多模态模型,号称目前多模态最强模型。相比 2.0 版本,该模型显著增强了 coding 和 Agent 能力。具体评测细节可参考藏师傅的文章。体验地址:colaos.ai。

歸藏(guizang.ai): http://x.com/i/article/2069421203073490944

智能体多模态模型发布编码
18:12
Qwen@Alibaba_Qwen
76
通义千问发布Qwen-AgentWorld原生语言世界模型

通义千问发布Qwen-AgentWorld,一款原生语言世界模型,可在单一模型中模拟MCP、搜索、终端、SWE、Web、OS、Android共7种智能体环境。环境建模即训练目标,非事后适配。该模型在AgentWorldBench上性能超越Claude Opus 4.8和GPT-5.4。研究分两条路径:一是构建环境模拟基础模型;二是探索世界模型增强智能体训练——可控Sim RL(以LWM为环境的智能体强化学习)优于真实环境训练,而LWM预热(预测环境的学习)即使不经任何智能体特定微调,也能将预测知识迁移至智能体任务。

智能体arXivMCP/工具模型发布
关联讨论 4 条Hacker News 热门(buzzing.cc 中文翻译)HuggingFace Daily Papers(社区热门论文)公众号:通义实验室(千问)Qwen:Blog Retrieval(API)
17:55
The Decoder:AI News(RSS)
49
Mistral 发布 OCR 4 模型:在盲测中 72% 情况下超越竞品

Mistral AI 推出 OCR 4 模型,专用于从 PDF、Word 文件和 PowerPoint 演示文稿等文档中提取文本。据公司称,该模型在盲测中有 72% 的测试案例表现优于竞争对手。

多模态模型发布
16:57
Hacker News 热门(buzzing.cc 中文翻译)
60
YOLO26 简介

Roboflow 发布介绍 YOLO26 的博客文章,在 Hacker News 获得 100 个点赞。

开源生态模型发布
14:50
Alibaba Cloud@alibaba_cloud
60
认识 Qwen3.7-Plus,为跨 GUI 交互、工具使用和编码的多模态智能体执行而构建。从视觉输入到代码和实际任务执行,它专为长期运行的现实世界智能体工作流而设计。 今天在阿里云上试用,限时 20% 折扣。 🔗 : https://int.alibabacloud.com/m/1000414123/
智能体多模态模型发布
13:52
小互@xiaohu
56
字节跳动发布Seedance 2.0升级版和Seedance 2.5视频模型。新版支持一次生成30秒短片,原生4K分辨率,可输入50个全模台参考素材,并支持3D白模。同时推出AI版权商业化平台,允许用户使用官方授权的IP电影版权进行创作和分成。

小互: 字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...

模型发布视频
12:42
IT之家(RSS)
66
阿里千问发布首个原生语言世界模型 Qwen-AgentWorld

6 月 24 日,阿里巴巴千问发布 Qwen-AgentWorld,首个原生语言世界模型,提供 35B-A3B 与 397B-A17B 两种规模,单一模型覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大智能体交互领域。模型基于超 1000 万条真实环境交互轨迹,经 CPT → SFT → RL 三阶段训练。同步发布的 AgentWorldBench 评测中,Qwen-AgentWorld-397B-A17B 取得最高整体模拟质量,超越 GPT-5.4、Claude Opus 4.8 与 Gemini 3.1 Pro。模型与评测基准已开源,可从 Hugging Face 和 ModelScope 获取。

智能体Hugging Face模型发布
‹ 上一页
1…34567…36
下一页 ›