阿里通义实验室Wan团队发布Wan Streamer v0.1,首个端到端Transformer实现实时音视频对话。模型侧响应延迟约200ms,总延迟约550ms,25fps下流式处理单元160ms,分辨率192p。同步生成语音与面部视频,支持全双工打断,取消外部ASR/TTS/动画模块,通过thinker-performer部署压至200ms。官方称唯一单模型同步音视频且延迟<1秒的方案。目前为技术验证,未开放使用。
阿里通义实验室Wan团队发布Wan Streamer v0.1,首个端到端Transformer实现实时音视频对话。模型侧响应延迟约200ms,总延迟约550ms,25fps下流式处理单元160ms,分辨率192p。同步生成语音与面部视频,支持全双工打断,取消外部ASR/TTS/动画模块,通过thinker-performer部署压至200ms。官方称唯一单模型同步音视频且延迟<1秒的方案。目前为技术验证,未开放使用。
Herculaneum fused scroll read in full. https://scrollprize.org/firstscroll
同一事件,精选展示《赫库兰尼姆古卷首次被完整虚拟解读》OpenAI 启动 GPT-5.6 系列有限预览:旗舰 Sol、均衡款 Terra(性能比肩 GPT-5.5 但便宜一半)和低成本 Luna。新增 max 深度推理档与 ultra 模式,Sol 在 Terminal-Bench 2.1 以 88.8% 刷新编码 SOTA。LangChain 拆解 Deep Agents 提示词缓存,可削减 token 成本 49%-80%(claude-haiku -77%、gpt-5.4-mini -80%)。Sean Goedecke 核算 AI 推理服务毛利率可达 70%-80%,DeepSeek-V4-Pro 市场价约 87 美分已贴近成本。
http://x.com/i/article/2070663412787576832
在Flink Forward Asia Shenzhen 2026大会上,NVIDIA的Chuan Chen分享了NVIDIA与阿里云的技术合作:通过CUDA库加速Apache Flink的多模态数据流处理。这一开源协作实现了端到端的高性能多模态流式架构,可应用于AI解说、实时图文信息流和交互式问答等场景。
开发者@zicohacks利用AI构建了一个实时世界杯解说员。系统像观众一样观看直播,采样最新帧,让GPT-5.4-mini理解比赛内容并生成解说词,再通过ElevenLabs以体育解说员语气播报。整个过程端到端实时调用,已能较自然跟上比赛节奏,支持英语和法语切换。项目已开源,目前主要挑战是延迟和解说精准度,但方向明确——AI正从辅助内容变为实时内容生产者。
i tried building an AI commentator for the World Cup it watches the live stream as the viewers, samples the newest frame...
刚刚 Cola 上线了最新的 Seed 2.1 Pro 模型 这个模型是原生多模态模型,是目前的多模态最强模型。 相比 2.0 版本,增强了 coding 能力和 Agent 能力,具体的评测可以参考藏师傅的文章 体验地址 http://c...
Artificial Analysis 发布最新 AI 视频编辑排行榜,HappyHorse-1.0 综合实力第一,Seedance 2.0 第二,Wan 2.7 第三。榜单基于约 8 万次人工盲评,从视觉效果编辑、物理与世界模拟、声音与语音编辑、对象编辑、复杂编辑五个能力维度评分。HappyHorse-1.0 是唯一在所有五个能力中均进入前三的模型,并在其中四个能力排名第一或并列第一。Kling 3.0 总排名第五,但在视觉效果编辑上排名第一。
🚀 我们组在招(全职/实习都可以): -多模态数据工程师(属于预训练数据工程师) -多模态理解数据/算法研究员(图像 & 视频方向) DM 已开,直接带CV发消息给我,或者带CV发邮件到 talent@deepseek.com
微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜上位列文本到图像生成第2名、图像编辑第3名,仅次于 OpenAI 的图像模型。该模型支持文本到图像生成与图像编辑,最大输出分辨率约 1MP,支持灵活宽高比,上下文窗口 32K token。更快、更低成本的 MAI-Image-2.5-Flash 变体在文本到图像和图像编辑中分别排名第8和第6。API 定价:MAI-Image-2.5 为 $48/千图,Flash 版 $20/千图。模型已上线 Foundry API 和 MAI Playground,其中 MAI-Image-2.5 还可在 PowerPoint 和 OneDrive 中使用。
Google AI 宣布 Gemini 3.5 Flash 的 Computer Use 工具正式可用,支持构建能观察并操作浏览器、移动端和桌面环境的 AI 智能体,可处理长期任务。新特性包括:内置移动与桌面操作系统支持;所有函数调用配备 intent arguments;可定制的客户端函数实现人工接管(HITL);提示词注入检测及可配置的 action-level 安全策略。可用于自动化 QA 测试、业务流程等场景。
同一事件,精选展示《Gemini 3.5 Flash 引入 computer use 功能》火山引擎发布豆包Seed-2.1系列(Pro、Turbo)。实测Seed-2.1 Pro显示:Agent和Coding能力达到生产级可用线,能完成SVG动画、网页开发、CMS系统等任务;配合开源Skill可生成标题、调研报告、信息卡片及电子书。多模态识别惊喜,拍照识鱼准确识别鱼种和数量,优于Gemini 3.1 Flash。价格实惠,API已通过火山方舟全量开放。
同一事件,精选展示《Seed2.1 正式发布,深入 AI 生产力》HappyHorse 1.1 is now available in ComfyUI as a Partner Node. Native audio. Multi-character consistency. Cinematic frami...
PaddleOCR 的 PP-OCRv6(对应 PaddleOCR 3.7)正式上线 HuggingFace,精度进一步提升,并新增 transformers 和 ONNX Runtime 两个推理后端。用户可通过统一 API 在不同后端之间无缝切换,无需大幅修改代码。PP-OCRv6 是工业界广泛使用的开源 OCR 方案,此次上架 HF 并支持多后端,降低了工程接入门槛,尤其利好希望在 transformers 生态中直接使用高性能 OCR 的开发者。
PP-OCRv6 is now on @HuggingFace! 🎉 Not just better accuracy- PaddleOCR 3.7 also adds transformers & ONNX Runtime backen...
Google Flow Agent 新增 Google Maps Street View 实景锚定功能,支持根据用户提示中的地名或街道地址,为图片和视频生成提供真实世界细节。用户需启用 Agent 模式并在提示词中包含具体地点。目前该功能仅限美国街景位置可用。
Google Flow 🤝 @GoogleMaps Street View Your agent in Google Flow can now generate images and videos grounded in @GoogleM...
作者从打字提示转向完全用语音与AI智能体交互,发现通过音频能提供更丰富的细节,语音越长越详细,结果越好。这种交互方式还能并行化更多工作,让智能体执行更长时间任务。作者开发了新功能:录制屏幕、截图、追踪鼠标动作、用语音标注解释智能体难以处理的设计和精确功能开发。结论是提示模态越丰富,智能体结果越可靠,虽然消耗更多token成本更高,但可靠性值得。这些模式可存储为可重用技能,效果天差地别。
Genspark 推出 Genspark Design,由 Claude Opus 4.7 驱动。用户可将粗糙提示词转化为可编辑的 UI 原型、海报、视频、HTML 动画和工作代码。设计作为可复用系统,支持保存 Logo、颜色、字体、间距和组件并跨资产应用。核心是分层输出:文本、图像、背景、组件保持分离,用户可直接修改设计本身,无需要求模型重新生成。支持上传 Figma 文件或保存设计,一键生成可交付代码(基于 Genspark Code),无需设计背景即可使用。
🎨 Introducing Genspark Design The next-gen AI for design and creation, powered by Claude Opus 4.7. From rough idea to p...
Most AI assistants can read text, write code, and automate workflows. #LLMs #AI #Aiassistants #Aigateway #AIModels #Open...
Cola 刚刚上线了最新的 Seed 2.1 Pro 原生多模态模型,号称目前多模态最强模型。相比 2.0 版本,该模型显著增强了 coding 和 Agent 能力。具体评测细节可参考藏师傅的文章。体验地址:colaos.ai。
http://x.com/i/article/2069421203073490944
邵猛使用 TRAE Work 测试了字节跳动最新发布的豆包2.1 Pro 模型。官方称豆包2.1 系列在 Coding 和 Agent 能力上显著提升,VLM 能力保持领先,综合能力介于 Claude Opus 4.6 和 4.8 之间。实测中,模型先思考整体规划与实现过程,再读取设计图理解场景和细节,调用最合理的 Skill 规划网页逻辑,分步骤实现后通过本地预览和视觉验证确保效果。最终输出在视觉还原、交互和技术实现上非常细致,包括布局、字体选择、自适应布局,甚至为每个部分配上具有实际意义的图片而非占位符。
📸 MiniCPM-V 4.6 - one of the strongest vision models under 2B params - now runs at ~51 tok/s on iPhone 17 Pro via Apple...
用户将截图丢给 StepFun 的 step-3.7-flash 模型(运行在 Codex 中),2 分多钟生成可用的网页版文章头图生成器,支持修改文案和导出 PNG,总成本仅 $0.06。模型能自行理解参考图并实现完整功能逻辑,但视觉还原度仅六七分,手绘涂鸦风需手动调整。StepFun 同步推出 Startup Program,早期团队可获 API 额度、生态支持及资源对接。
百度开源全新 Unlimited OCR 模型,采用参考滑动窗口注意力(R-SWA)技术。模型 3B 参数、500M 激活,在标准 32K 上下文下可一次前向推理处理数十页文档,无需切页。R-SWA 将原件与已写文字区分:原件全程保留,已写文字仅关注最近 128 个 token,使显存和算力不随页数增长,有别于传统 OCR 逐页清空拼接的方式。
阿里云宣布距FFA2026大会仅剩2天,全部11个分论坛议程已上线,覆盖7大Data+AI方向:多模态与向量计算、AI智能体、AI平台实践、智能DevOps、Agentic Lake、实时分析与实时数据。同时设汽车AI和具身AI行业专场。Apache Fluss 1.0在大会上首次亮相,具备专为AI智能体设计的实时上下文能力。大会将于6月26-27日在深圳举办。
2026年6月23日,Mistral AI发布非开源模型Mistral OCR 4,支持170种语言。核心能力包括为每个识别结果生成边界框、自动分类文本块(标题/正文/表格/页眉页脚)、附带置信度评分。定价$4/1000页。该模型不走长文档理解路线,而是提供结构化输出,使OCR从认字工具进化为文档理解引擎,下游开发者无需再做版面分析。
Introducing Mistral OCR 4. It creates structure with bounding boxes, block classification, and inline confidence scores ...
MaineCoon是一款22B参数的实时文本到音频-视频模型,专为实时AI角色设计。单H100 GPU可达47.5 FPS,成本低于0.001美元/秒;单RTX Pro 6000实现实时30 FPS。采用多阶段无强制流式训练(自采样、跨模态对齐、域偏好优化、强化在线策略蒸馏)及智能体流式推理框架,支持千秒级连续生成。双流扩散Transformer(视频+音频交叉注意力)保持表情、口型与声音同步,历史KV缓存和attention sink确保片段连贯。首帧小于1秒,生成与播放同步,不先制作完整视频再配音。
We ran OCR 4 head-to-head against the field. Independent annotators blindly ranked 600+ real-world documents across 12+ ...
Seed 2.1 Pro 正式发布,测评显示它能胜任真实 Agent 工作流。优势包括:复杂任务稳定、视觉内容规划能力强、多模态额外优势。测试通过豆包任务模式(本地电脑 Agent 操作)和火山引擎 API(Cloud Code)进行。复杂 Skills 测试(PPT 生成、社交媒体卡片)表现优秀,能根据内容调整版式。三个前端任务(百叶窗图片动效、WebGL 贝塞尔曲线、跨整页视差滚动网页)均一步到位或结果完整。定位:未必最顶尖,但适合组合工作流——强编码模型负责工程,Seed 2.1 Pro 负责多模态理解、内容规划和视觉表达。限制:视频输入目前为抽帧式处理。API 已在火山引擎全量上线。