字节跳动在火山引擎FORCE 2026原动力大会上官宣发布Seedream 5.0 Pro和Seedance 2.5,分别聚焦图像和视频的理解与生成。在OpenAI Sora关停、Google Veo迟迟不更新的背景下,图像视频生成赛道基本成为中国大厂的竞争阵地,包括字节跳动、阿里巴巴、快手等。
字节跳动在火山引擎FORCE 2026原动力大会上官宣发布Seedream 5.0 Pro和Seedance 2.5,分别聚焦图像和视频的理解与生成。在OpenAI Sora关停、Google Veo迟迟不更新的背景下,图像视频生成赛道基本成为中国大厂的竞争阵地,包括字节跳动、阿里巴巴、快手等。
百度在 HuggingFace 开源 Unlimited OCR 模型,核心卖点为 One-Shot Long-Horizon Parsing(单次长时解析),一次前向推理即可转录几十页 PDF 或图像。其创新机制 R-SWA(参考滑动窗口注意力)模拟人类抄写时的注意力模式——每个 token 看到完整图像,输出端只维护前 128 个状态,32K 上下文,KV Cache 大小恒定不随文档长度增长。技术报告披露灵感与 DeepSeek-OCR 架构有密切联系,核心贡献者中技术总监 YY 疑为近期从 DeepSeek 离职的研究者。模型已在 GitHub 和 HuggingFace 开放。
字节跳动在火山引擎上线豆包 Seed 2.1 系列模型,包括 Pro 和 Turbo 两个深度思考版本,以及 Seed-Evolving 迭代模型和角色模型。Pro 版本为面向 Coding 与 Agent 的旗舰模型,在 Coding 工程交付、Agent 长链路任务执行和多模态理解三大方向全面升级;Turbo 版本面向规模化生产,效果比肩 Pro
百度开源 Unlimited OCR 模型,仅3B参数、500M激活参数,在小参数量下实现极佳效果。推文提到其参考了滑动注意力窗口技术,并附带了技术解读和开源地址。
百度在 HuggingFace 开源 Unlimited-OCR 模型,核心创新 R-SWA 使解码时 KV Cache 恒定,不随页数增长。模型不逐页处理,一次前向推理即可转录多页 PDF,32K 上下文覆盖几十页。在 OmniDocBench 上获 93 分,比 DeepSeek-OCR 高 6 个百分点。技术报告致谢栏将 DeepSeek-OCR 排首位,暗示架构继承;同期 DeepSeek-V4 报告末 10 人标注“已离职”。模型已开源。
这速度真特么离谱啊!卧槽! 最新开源的Unlimited-OCR能一次性处理几百页文档,而且速度还很稳。 而这个模型来自百度刚刚在hugging face 发布,其核心创新是R-SWA(Reference Sliding Window At...
Wan-Streamer v0.1 是原生流式、端到端的交互基础模型,在单一 Transformer 中统一建模语言、音频和视频的输入与输出,序列表示为交错视觉、音频、文本 token,通过块因果注意力实现增量流式。无需外部 VAD、ASR、TTS、视频生成等模块,感知、推理、生成、响应时序等由单一模型联合学习。整套栈围绕流式化重新设计,支持 25 fps 下 160 ms 的流式单元。模型侧响应延迟约 200 ms,结合 350 ms 双向网络延迟后总交互延迟约 550 ms,实现亚秒级全双工音视频通信。
We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...
OpenAI 新模型 GPT-5.5-Cyber 在 CyberGym 基准上击败 Mythos 5,该基准测试 AI 智能体复现已知软件漏洞的能力,对防御性漏洞分析是强信号。OpenAI 同步扩大 Daybreak 计划,包括:Codex Security 插件(在 Codex 内发现、验证并修复漏洞);GPT-5.5-Cyber 完整版(供受信任防御者使用);Cyber Partner Program(赋能安全公司构建基于 OpenAI 能力的安防产品);Patch the Planet(与维护者合作保护关键开源项目)。本轮模型和计划属于“Trusted Access for Cyber”项目,不公开发布。OpenAI 旨在用 GPT-5.5-Cyber 作为 Codex 内的防御性安全工人,自动扫描代码、确认漏洞真实可达、编写补丁并测试,
We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...
关联讨论 2 条IT之家(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...
OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划,发布 GPT‑5.5‑Cyber 完整版和 Codex Security 插件更新。GPT‑5.5‑Cyber 在 CyberGym 上达 85.6%,超越 GPT‑5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁,支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交,超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划,联合 Trail of Bits、HackerOne 等,cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。
关联讨论 2 条IT之家(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)百度PaddlePaddle在HuggingFace发布Unlimited-OCR,核心创新R-SWA(Reference Sliding Window Attention)使解码时KV Cache保持恒定,避免随页数爆炸。该模型可一次性处理数百页文档,速度和稳定性优于逐页处理。在OmniDocBench上得分93%,比DeepSeek-OCR高出6个百分点。这使长文档OCR从“分块+拼接”变为端到端一镜到底,直接理解整篇文档结构与布局。
Unlimited-OCR 🔥New OCR from @PaddlePaddle It can parse hundreds of pages in a single pass while maintaining stable spee...
GLM-5.2 is the step change for open agents A capability threshold I've been carefully monitoring. https://www.interconne...
Z.ai 于 6 月 13 日向 GLM Coding Plan 成员发布 GLM-5.2,6 月 16 日开源 MIT 许可权重。该模型在 Arena 智能体排行榜上成为唯一与 OpenAI 和 Anthropic 最新模型匹敌的开放模型,匹配 Opus 4.8 无思考模式;在 Design Arena 中甚至超越 Claude Fable。作者认为这是自 DeepSeek R1 以来最受关注的开放模型发布,GLM-5.2 是首个在编码工具中作为通用智能体表现合格的开放权重模型。从 Claude Opus 4.5 发布(2025 年 11 月 24 日)到 GLM-5.2 发布(2026 年 6 月 16 日)间隔约 6.8 个月。
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》This Thursday 🤞 We already tested 5.6 pro a lot ( this model is special like with right prompt it can do anything) GPT-...
PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族,提供 tiny(1.5M)、small(7.7M)和 medium(34.5M)三级。medium 和 small 支持 50 种语言(简体/繁体中文、英文、日文及 46 种拉丁语系)。在官方多场景基准上,medium 检测 Hmean 86.2%,识别准确率 83.2%,较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块,可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。
6 月 22 日,生数科技多模态视频生成大模型 Vidu Q3 上线华为云 MaaS,面向企业营销、内容制作等行业提供视频生成服务。Vidu Q3 是全球首个“为剧而生”的视频大模型,支持 16 秒声画同出、1080P 画质,具备稳定多镜头叙事与精准切镜能力及多国语言文字渲染。本次上线两个版本:Vidu Q3 Turbo 极速版包含 T2V、I2V、H2V、R2V 四种能力,推理快、成本低;Vidu Q3 Pro 专业版包含 T2V、I2V、H2V 三种能力,画面细节最优,最高支持 4K 分辨率,适合广告大片等精品创作。
BREAKING: First Look at Sonnet 5 🚨 SVG of Nintendo Switch 2 This model is hella fast and it is impressive since I didn'...
6月22日,百川智能与清华大学联合发布医疗增强大模型Baichuan-M4。该模型在OpenAI提出的HealthBench及Hard、Professional三个榜单上同时位列世界第一,综合得分68.6,领先第二名GPT-5.5超10分,幻觉率仅3.3%。M4会主动追问症状细节并优先排查危急重症。在基于OSCE构建的动态问诊评测SCAN-bench中,M4初诊79.0、复诊74.7,全面领先GPT-5.5等模型。模型具备“全病程记忆”,长上下文临床记忆得分86.9;首创“证据锚定”循证引用,精度达90.0,远超GPT-5.5和OpenEvidence。
京东官方宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction,这是全球首个全栈开源的 interaction 模型和系统,获 vLLM-Omni day-0 原生支持。该模型具备三重突破:主动判断(持续观察视频流自主决定何时说话)、实时响应(面向正在发生的视频流即时响应)、适时智能体委托(复杂任务转交后台模型,前台继续观察)。支持摄像头、直播流、监控流等视频输入,以及语音输入输出、可视化界面、长期记忆和 vLLM 部署。在 58 个真人盲评案例中,对比豆包视频通话助手总体胜率 77.6%,对比 Gemini 视频通话助手总体胜率 87.9%。
同一事件,精选展示《京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"》Sakana AI 宣布推出 Fugu 和 Fugu Ultra 系统。Fugu 是一个多智能体编排模型,训练用于操控其他 LLM,通过单一模型 API 访问。其中 Fugu Ultra 在多项基准测试中性能匹敌 Claude Fable 5 和 Mythos 5,并宣称提供前沿能力且规避出口管制风险。该系统目前通过 API 提供服务,但暂不支持 EEA 地区。推文指出,编排式多模型系统将超越单一模型,使小型实验室和企业更易构建,并已促使 Meta、Apple、微软等巨头考虑采用竞争对手的模型搭建编排系统。
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...
阿里巴巴今日发布视频生成模型 HappyHorse 1.1,在动态表现力、主体一致性、指令遵循、视觉质感和音频能力等维度系统性升级。技术规格与 1.0 版本一致,单次生成 3 到 15 秒,支持 720p 和 1080p 分辨率及自由宽高比。HappyHorse 官网、阿里云百炼和千问云均已接入最新版本。同日,HappyHorse 联合虎鲸文娱集团启动“Horsepower”AI 影像大赛,优胜者可获百万商单合作,张纪中等担任评委。
瑞士AI倡议(EPFL、苏黎世联邦理工学院、CSCS合作)推出完全开放的基础模型Apertus,公开训练数据、代码、权重、方法和对齐原则。模型符合欧盟AI法案要求,支持1000+种语言,提供8B和70B参数版本。同时发布Apertus Mini,含16个小模型用于演示知识蒸馏与量化技术。技术报告已被ACL 2026接收。针对提契诺州微调的版本已用于内部AI翻译。瑞士电信为战略合作伙伴。
Genuinely impressed, almost shocked, at how good GLM-5.2 by @zai_org is at coding. This changes things.
People were flabbergasted by Fable 5, rightly so. But those who also think this will remain the best AI for a long time ...
科技媒体 testingcatalog 报道,OpenAI 有望下周推出 GPT-5.6 系列,涵盖 mini、标准版和 Pro 版。部分 Pro 订阅用户已可访问 GPT-5.6 Pro,理解力增强,前端/Web 开发认知有进步。性能方面,上下文窗口从 100 万 tokens 扩展至 150 万 tokens,优化了长周期编码能力和 Codex 响应速度。消息称在智能体编码中,GPT-5.6 已优于 Anthropic 的 Mythos 系列。定价上,OpenAI 当前 token 价格仅为 Anthropic 一半左右,计划进一步降价。
智谱 GLM 5.2 在 Design Arena 单轮 HTML 网页设计评测中首次登顶总分第一,超越 Claude Fable 5、Opus 4.6 和 Opus 4.7,比前代 GLM 5.1 提升 5 个名次。推理价格每百万 tokens 为 1.40/4.40 美元,远低于 Fable 5 的 10/50 美元。模型高效调用 chart.js、three.js 等第三方库,使用这些库的会话胜率提升 6.0 个百分点;91% 会话使用 TailwindCSS,51% 使用 font‑awesome,交互设计使胜率提升 1.2 个百分点(Fable 5 仅 57% 使用 TailwindCSS)。在布局、排版、视觉动画方面表现出色。
新浪微博研究人员发布VibeThinker-3B,一个仅3B参数的密集推理模型,基于Qwen2.5-Coder-3B,采用谱到信号后训练流水线(SFT、强化学习与自蒸馏),MIT开源。在AIME26上得分94.3,比肩DeepSeek V3.2(671B)和Kimi K2.5(1T);LiveCodeBench v6达80.2 Pass@1;2026年4月至5月LeetCode周赛与双周赛首次提交通过率96.1%。搭载CLR测试时缩放后AIME26升至97.1。BF16权重约6GB,单GPU可运行,推荐使用vLLM 0.10.1或SGLang ≥0.4.9.post6推理。
Liquid AI 本周发布两款 350M 参数检索模型:稠密双编码器 LFM2.5-Embedding-350M 和后期交互模型 LFM2.5-ColBERT-350M。二者基于 LFM2.5-350M-Base,通过将因果注意力改为双向注意力实现双向编码,支持阿拉伯语、德语、英语等 11 种语言的单语与跨语言搜索。在 NanoBEIR 多语言检索上,ColBERT 版 NDCG@10 为 0.605,Embedding 版为 0.577,均优于 Qwen3-Embedding-0.6B。在 MKQA-11 问答 Recall@20 上分别为 0.694 和 0.691。上下文窗口 32,768 tokens,文档调优至 512 tokens。提供 GGUF 格式,MacBook Pro M4 Max 上查询延迟低于 10 ms。模型以 LFM Open License v1.0 发布在 Hugging Face。
6月19日,银河通用推出全球首个人形机器人通用小脑GPT基础模型AstraBrain-WBC 0.5。该模型基于2万小时人类动作数据训练,参数规模达8040万,是行业首个达到GPT-1量级的人形机器人全身实时运控大模型。采用因果Transformer架构,将全身控制定义为连续序列预测问题。实验表明,训练数据从200万帧扩展至20亿帧时,成功率从83.26%提升至92.58%,零样本跟踪误差持续下降。
豆包实时语音模型3.0 API正式上线。支持全双工(同时听和说,可随时插话)和端到端(语音进、语音出,无转录),交互更快速自然。具备精准遵循指令能力,如设定“先不出声,聊到世界杯再加入”后安静待命。关键升级是支持自定义工具,可在实时对话中直接调用工具完成任务(预定日历、发邮件、总结文档、发起查询等),从“语音助手”向“语音 Agent”迈进。
GLM-5.2 delivers a substantial leap in app development capabilities, which also represent demanding long-horizon tasks. ...
OpenAI 升级 ChatGPT 医疗能力,新模型 GPT-5.5 Instant 在 HealthBench 及 HealthBench Professional 测试中达到最贵 Thinking 模型水平,成本大幅降低。该模型对所有免费用户开放(有使用限制),其回答在准确性、清晰度和完整性上优于医生书写的回答,过去两个月错误健康陈述减少 71%。超 260 名来自 60 个国家的医生审查了 70 多万条模型响应。每周有超 2.3 亿人通过 ChatGPT 咨询健康问题。OpenAI 还提供 ChatGPT for Clinicians 和 OpenAI for Healthcare 等专业工具。
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)X:Greg Brockman (@gdb)OpenAI:官网动态(RSS · 排除企业/客户案例)If you're wondering how people on your timeline seem to have access to GPT-5.6 Pro, it's now being stealth tested when 5...
OPENAI 🔥: GPT-5.6 model family is being prepared for the upcoming release, as GPT-5.6-Pro has been spotted in testing. ...
Two days into blind voting of voice models on our Humanness IndexTM, and xAI's Grok TTS model is at the top of the pack....
同一事件,精选展示《Grok 成为 Vapi 的默认语音引擎》OPENAI 🔥: GPT-5.6 model family is being prepared for the upcoming release, as GPT-5.6-Pro has been spotted in testing. ...