gpt-5.6-preview has been spotted in an internal model-access route
gpt-5.6-preview has been spotted in an internal model-access route
DeepReinforce 发布 Ornith-1.0,一个 MIT 许可的开源智能体编码大语言模型家族,涵盖 9B Dense、31B Dense、35B MoE 及旗舰 397B MoE(17B 活跃参数)。旗舰模型在 SWE-Bench Verified 上取得 82.4,Terminal-Bench 2.1 上取得 77.5,均超越 Claude Opus 4.7;并在 SWE-Bench Pro(62.2)、Multilingual(78.9)等基准上达到开源同尺寸最佳。模型基于 Gemma 4 和 Qwen 3.5 后训练,采用新型自我改进策略:强化学习不仅生成解决方案,还联合优化任务特定的 scaffold(包含计划、记忆模式、工具节奏、错误处理等)。最小的 9B 模型也在 SWE-Bench Verified 上达到 69.4。全部模型以 MIT 许可证发布,支持商用与研究。
Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...
Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...
gpt-5.6-preview has been spotted in an internal model-access route
Unsloth 将 GLM-5.2 压缩为 1-bit GGUF 量化版本,在 Mac Studio M3 Ultra(256GB RAM)上以约 21.6 tok/s 本地运行。与 Claude 4.8 Opus、GPT-5.5 使用相同提示进行创意输出(HTML/设计效果)对比,1-bit 版本表现不逊色,甚至更丰富、“更有想法”。GLM-5.2 本身以创意和长上下文见长,极端量化后仍保持较强表现,验证了开源模型在极端优化后正快速缩小与闭源前沿模型在实际可用性上的差距,尤其适合本地部署。
1-bit GLM-5.2 GGUF vs. Claude 4.8 Opus vs. GPT-5.5 We gave 3 models the same prompt and compared one-shot outputs. The 1...
We have a new version of GPT-5.5 Instant for you, and it's much more fun to talk to. Our most-used model is now better a...
HappyHorse 1.1 is now available in ComfyUI as a Partner Node. Native audio. Multi-character consistency. Cinematic frami...
Happyhorse 1.1 from Alibaba is up on Replicate! -Text, image, and reference to video options with multilingual lip-sync ...
OpenAI与Broadcom发布首款定制LLM推理芯片Jalapeño,九个月流片,工程样片已跑GPT‑5.3‑Codex‑Spark,能效比显著领先,计划2026年吉瓦级部署。Anthropic公开多智能体协作经验,提出需持久记忆、独立凭证、广泛信息访问,总结信息公开、角色分工、人类定目标、按可验证程度放权四条规范。阿里开源内部代码评审CLI——Open Code Review,一周5k星,采用“确定性工程+Agent”混合架构解决覆盖不全、位置漂移、效果不稳定问题。
You can now try GLM 5.2 in Cursor! Excited to see more useful open models, thank you to Fireworks for partnering here. R...
How can we train small agentic models that are highly capable of terminal use and coding? Announcing OpenThoughts-Agent ...
We have a new version of GPT-5.5 Instant for you, and it's much more fun to talk to. Our most-used model is now better a...
Qwen-AgentWorld是一个原生语言世界模型,端到端以环境建模为训练目标,而非事后适配。它在单一模型中模拟MCP、Search、Terminal、SWE、Web、OS、Android等7种Agent环境,并在AgentWorldBench上超越Claude Opus 4.8和GPT-5.4。两个探索方向:1)将世界模型用作可控Sim RL的环境模拟器,模拟环境训练的Agent在部分任务上超过真实环境训练;2)仅做环境预测(不进行Agent训练)的预测能力零微调迁移到多轮Agent任务,在多个benchmark上均有提升。已开源35B MoE版本及对应benchmark。
📣📣 Meet Qwen-AgentWorld - a native language world model that simulates 7 agent environments (MCP, Search, Terminal, SW...
同一事件,精选展示《Qwen-AgentWorld:面向通用智能体的语言世界模型》🚨 BREAKING: Claude Code v2.1.190 introduces several string changes that hint at preparations for a Fable 5 return, with...
Fugu-Ultra is now live on @OpenRouter! ⚡ We share a core vision with the OpenRouter team: the future of AI isn't a singl...
阿里云发布 Qwen-AgentWorld,一个原生语言世界模型,可在单一模型内模拟 7 种智能体环境(MCP、搜索、终端、SWE、Web、OS、Android),环境建模是其初始训练目标而非事后适配。该模型
Cola 刚刚上线了最新的 Seed 2.1 Pro 原生多模态模型,号称目前多模态最强模型。相比 2.0 版本,该模型显著增强了 coding 和 Agent 能力。具体评测细节可参考藏师傅的文章。体验地址:colaos.ai。
http://x.com/i/article/2069421203073490944
通义千问发布Qwen-AgentWorld,一款原生语言世界模型,可在单一模型中模拟MCP、搜索、终端、SWE、Web、OS、Android共7种智能体环境。环境建模即训练目标,非事后适配。该模型在AgentWorldBench上性能超越Claude Opus 4.8和GPT-5.4。研究分两条路径:一是构建环境模拟基础模型;二是探索世界模型增强智能体训练——可控Sim RL(以LWM为环境的智能体强化学习)优于真实环境训练,而LWM预热(预测环境的学习)即使不经任何智能体特定微调,也能将预测知识迁移至智能体任务。
关联讨论 4 条Hacker News 热门(buzzing.cc 中文翻译)HuggingFace Daily Papers(社区热门论文)公众号:通义实验室(千问)Qwen:Blog Retrieval(API)字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...
百度开源全新 Unlimited OCR 模型,采用参考滑动窗口注意力(R-SWA)技术。模型 3B 参数、500M 激活,在标准 32K 上下文下可一次前向推理处理数十页文档,无需切页。R-SWA 将原件与已写文字区分:原件全程保留,已写文字仅关注最近 128 个 token,使显存和算力不随页数增长,有别于传统 OCR 逐页清空拼接的方式。
VibeThinker是一个仅3B参数的推理模型,采用SFT+GRPO训练,在推理基准上与Opus 4.5几乎持平。在AIME26上达94.3,LiveCodeBench v6上80.2 Pass@1,近期未见过的LeetCode竞赛中接受率达96.1%,匹配或超越DeepSeek V3.2等大数个量级的旗舰系统。模型基于Qwen2.5-Coder 3B,经过硬样本筛选、多解监督训练、数学/代码/STEM可验证奖励强化学习、自蒸馏、指令聚焦RL及测试时答案检查方法CLR训练而成。
Made it to SF! The love for GLM-5.2 has been incredible. We are bringing team out for the AI Engineer World's Fair, wher...
2026年6月23日,Mistral AI发布非开源模型Mistral OCR 4,支持170种语言。核心能力包括为每个识别结果生成边界框、自动分类文本块(标题/正文/表格/页眉页脚)、附带置信度评分。定价$4/1000页。该模型不走长文档理解路线,而是提供结构化输出,使OCR从认字工具进化为文档理解引擎,下游开发者无需再做版面分析。
Introducing Mistral OCR 4. It creates structure with bounding boxes, block classification, and inline confidence scores ...
Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列,基于 FastVideo 的量化感知蒸馏(QAD)方案训练。在单张 NVIDIA GeForce RTX 5090 上,端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。
MaineCoon是一款22B参数的实时文本到音频-视频模型,专为实时AI角色设计。单H100 GPU可达47.5 FPS,成本低于0.001美元/秒;单RTX Pro 6000实现实时30 FPS。采用多阶段无强制流式训练(自采样、跨模态对齐、域偏好优化、强化在线策略蒸馏)及智能体流式推理框架,支持千秒级连续生成。双流扩散Transformer(视频+音频交叉注意力)保持表情、口型与声音同步,历史KV缓存和attention sink确保片段连贯。首帧小于1秒,生成与播放同步,不先制作完整视频再配音。
today, we release the open weights of Krea 2. welcome Krea 2 Raw and Krea 2 Turbo, an undistilled model from mid-trainin...
关联讨论 1 条Hacker News 热门(buzzing.cc 中文翻译)We ran OCR 4 head-to-head against the field. Independent annotators blindly ranked 600+ real-world documents across 12+ ...
We're open-sourcing Unlimited OCR - built to read long documents in one pass. With 3B total parameters and only 500M act...
OpenAI 正在测试名为 "Bidi 1" 的双向语音模型。它能在你说话时同时插话并保持收听,可在句子中间来回切换任务,处理打断和停顿的能力更强,还能更好地记忆对话上下文。目前模型仍有连续讲话长度上限,但在测试中可轻松数到 23 而不中断。据推文透露,OpenAI 正为网页版准备 Bidi 1:设置中将新增该语音模型选项,语音气泡颜色从蓝色变为黄色。该模型尚未上线,但预计很快就会推出。
BREAKING 🔥: OpenAI is preparing "Bidi 1" for the upcoming web release! > A new voice model will be available in setting...
字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...
字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...