We're open-sourcing Unlimited OCR - built to read long documents in one pass. With 3B total parameters and only 500M act...
Ticks can be as small as a poppy seed. There are five ticks in this photo. Can you spot them? Learn more about protectin...
OpenAI 正在测试名为 "Bidi 1" 的双向语音模型。它能在你说话时同时插话并保持收听,可在句子中间来回切换任务,处理打断和停顿的能力更强,还能更好地记忆对话上下文。目前模型仍有连续讲话长度上限,但在测试中可轻松数到 23 而不中断。据推文透露,OpenAI 正为网页版准备 Bidi 1:设置中将新增该语音模型选项,语音气泡颜色从蓝色变为黄色。该模型尚未上线,但预计很快就会推出。
BREAKING 🔥: OpenAI is preparing "Bidi 1" for the upcoming web release! > A new voice model will be available in setting...
字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...
豆包正式发布基模Doubao-Seed-2.1-pro和turbo。Coding能力接近Opus 4.7,Agent工具调用及长程任务大幅进化,多模态保持国际领先。价格¥6/¥30每百万token,上下文256k。模型已在火山引擎、Trae、豆包上线,兼容所有Agent框架。豆包办公模式基于Seed-2.1-Pro升级,可执行文件访问、文档编辑等Agent任务,现场演示自动汇总210张发票至飞书多维表格。
关联讨论 4 条X:Vista (@vista8)公众号:数字生命卡兹克字节 Seed:Research Feed(网页内嵌数据)公众号:火山引擎豆包音频生成模型 Seed Audio 1.0 发布,区别于传统 TTS(文本转语音)的朗读式合成,该模型能根据想象生成人声、音乐、音效和环境音,并捕捉其中的微妙细节。作者称其为“声音模型的 Seedance 时刻”,类比香蕉首次将智能赋予图像,认为这是人类首次将智能赋予声音。
字节跳动推出 Seedance 2.0 升级版及 Seedance 2.5 视频生成模型,可一次生成 30 秒短片,原生支持 4K 分辨率,支持 50 个全模台参考素材输入及 3D 白模。同时发布 AI 版权商业化平台,允许用户使用官方授权的 IP 电影版权进行创作并参与分成。
字节已经发布了Seedance 2.5 了,直接起跳就是半个点,都不是0.1 说明这次的迭代应该蛮大的。 还挺期待的看看到底有哪些变化,应该有很多产品都会第一时间接入自家的产品了。 开始吧~·
百度在 HuggingFace 开源 Unlimited OCR 模型,核心卖点为 One-Shot Long-Horizon Parsing(单次长时解析),一次前向推理即可转录几十页 PDF 或图像。其创新机制 R-SWA(参考滑动窗口注意力)模拟人类抄写时的注意力模式——每个 token 看到完整图像,输出端只维护前 128 个状态,32K 上下文,KV Cache 大小恒定不随文档长度增长。技术报告披露灵感与 DeepSeek-OCR 架构有密切联系,核心贡献者中技术总监 YY 疑为近期从 DeepSeek 离职的研究者。模型已在 GitHub 和 HuggingFace 开放。
字节跳动今日在 2026 火山引擎大会上发布 Seedance2.5,同时推出全新豆包 Seed2.1 模型,声称能力达 Opus4.6 水平,以及新款图像模型 Seeddream 5.0。具体参数、性能分数及定价信息尚未公布。
百度开源 Unlimited OCR 模型,仅3B参数、500M激活参数,在小参数量下实现极佳效果。推文提到其参考了滑动注意力窗口技术,并附带了技术解读和开源地址。
百度在 HuggingFace 开源 Unlimited-OCR 模型,核心创新 R-SWA 使解码时 KV Cache 恒定,不随页数增长。模型不逐页处理,一次前向推理即可转录多页 PDF,32K 上下文覆盖几十页。在 OmniDocBench 上获 93 分,比 DeepSeek-OCR 高 6 个百分点。技术报告致谢栏将 DeepSeek-OCR 排首位,暗示架构继承;同期 DeepSeek-V4 报告末 10 人标注“已离职”。模型已开源。
这速度真特么离谱啊!卧槽! 最新开源的Unlimited-OCR能一次性处理几百页文档,而且速度还很稳。 而这个模型来自百度刚刚在hugging face 发布,其核心创新是R-SWA(Reference Sliding Window At...
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...
Google Interactions API 现已正式可用(GA),通过统一 /interactions 端点提供稳定 schema,同时支持模型推理与自主智能体。关键更新包括:Managed Agents — 单次 API 调用即可启动安全远程 Linux 沙箱进行代码执行与网页浏览,默认使用 antigravity-preview-05-2026 智能体或自定义指令;简化 schema — 每个操作作为独立 step 形成线性流;后台执行 — 设置 background=True 实现异步运行并轮询结果;扩展工具生态 — 原生支持 Computer Use、File Search、Google Maps,新增 Gemini API Docs MCP server 与 gemini-interactions-api Skill;媒体生成 — 基于 Google Search 的 Nano Banana 2 图像生成、Lyria 3 音乐生成及多说话人 TTS。
百度PaddlePaddle在HuggingFace发布Unlimited-OCR,核心创新R-SWA(Reference Sliding Window Attention)使解码时KV Cache保持恒定,避免随页数爆炸。该模型可一次性处理数百页文档,速度和稳定性优于逐页处理。在OmniDocBench上得分93%,比DeepSeek-OCR高出6个百分点。这使长文档OCR从“分块+拼接”变为端到端一镜到底,直接理解整篇文档结构与布局。
Unlimited-OCR 🔥New OCR from @PaddlePaddle It can parse hundreds of pages in a single pass while maintaining stable spee...
商汤SenseTime发布推文,感谢YouTuber xCreate对SenseNova U1模型的详细拆解,重点展示其文本-图像交错推理(text-image interleaved reasoning)和信息图表(infographic)生成能力。推文附有逐步指南,指导用户通过SenseNova Studio在线使用或本地运行模型。相关资源包括YouTube视频、HuggingFace模型集合、GitHub仓库及Discord社区链接。
This Thursday 🤞 We already tested 5.6 pro a lot ( this model is special like with right prompt it can do anything) GPT-...
BREAKING: First Look at Sonnet 5 🚨 SVG of Nintendo Switch 2 This model is hella fast and it is impressive since I didn'...
Bro it's June 2026. Stop hand editing your prompts. Hold down the dictation button and ramble for 10 minutes. Give the m...
无人机能生成AI实验室无法从网络抓取的真实数据。来自乌克兰的50万小时真实战斗无人机全动态视频(含烟雾、天气、地形、阴影、热信号及快速移动等复杂条件)正被打包用于AI模型训练。这类物理世界转换而成的标注视频将大幅缓解AI训练面临的数据墙问题。
据Bloomberg报道,苹果计划2027年推出三款产品:内部代号B798的带摄像头AirPods、第二代折叠屏iPhone及纪念iPhone诞生二十周年的特别版Pro机型。最激进的是AirPods,在耳机柄内置计算机视觉摄像头,可捕捉用户视野,苹果将其定位为“AI在身体上的下一个战场”,使耳机从音乐工具变为AI视觉接口。新CEO John Ternus的首要任务被指是重整苹果设计团队,为产品线变革铺路。
Power On: The No. 1 priority for new Apple CEO John Ternus should be revamping the company's design team and reprioritiz...
@aijoey 用 MiniCPM-V 4.6 搭建了视觉智能体安全监控 demo:四个 CCTV 实时画面,模型观察近期帧窗口,判断活动是否正常,仅在识别到真实事件时调用 raise_alert(reason, severity)。模型持续将场景分类为“常规/无紧急”,只在高速公路出现警车蓝灯时触发警报,推理为“警车蓝灯亮起,可能表示紧急情况”。该演示展示了小 VLM 超越图像描述、实现实际智能体行为的潜力。
Built a vision-agent security monitoring demo with MiniCPM-V 4.6. @OpenBMB Four CCTV style feeds run on a live clock. Mi...
GPT-5.6 Pro 预计下周四发布,泄露信息显示其三项关键能力:视觉复刻已近乎能完全复刻设计;SVG 3D 生成表现超越 Fable 5,支持浏览器内旋转缩放;Playwright 浏览器自动化可真实操作网页(点击、输入、跳转、抓取)。这三项能力表明 OpenAI 正将 GPT 从语言模型进化为能执行物理操作的 Agent——不仅能“思考”,还能打开浏览器、移动鼠标、复制设计并保存到桌面。
商汤 SenseNova U1 具备行业首创的文本-图像交错生成能力。用户上传客厅照片后,U1 可瞬间将其风格转变为温馨阅读角。该演示由 @eigi_and_ai 完成。U1 现已通过 SenseNova Studio、HuggingFace 模型库、GitHub 源码及 Discord 社区开放体验。
@FastCompany just published a great piece on @theworldlabs , @drfeifei , Marble, and the idea that spatial intelligence ...
主推文认为预防医学是AI最适合切入的医疗领域,因为超声波能精准锁定身体组织,使影像检查与治疗之间的界限模糊。AI驱动的超声波可先对全身进行扫描,发现异常后直接用声波进行刺激、消融、调节或修复,实现诊断与治疗的一体化。引用推文介绍了Midjourney Scanner技术,进一步呼应了这一趋势。
A technical dive inside our new "Midjourney Scanner"
ListenHub全面升级为AI创作者平台,已接入Seedance 2.0、HappyHorse、GPT Image 2、Nano Banana Pro等顶级的视频和图像模型,价格优惠。即日起进行为期一周的“618+端午节”限时福利:订阅月费或年费会员额外赠送50%积分;新用户注册即赠100积分;老用户每日签到免费获得2张生图额度。活动限时7天,逾期需等到黑五。
面壁智能 MiniCPM-V 4.6 演示工业仪表读取,模型需同时理解指针角度、刻度范围、单位、数字显示、液位比例等视觉信号,输出结构化 JSON(pressure_bar, temp_c, flow_lpm, level_pct)。测试使用合成控制面板,评分标准为 pass(满量程5%内)、drift(10%内)、miss。数字显示和液位较易,模拟指针更困难。该方案通过摄像头+视觉模型低成本改造传统仪表,无需更换硬件,在工厂、数据中心等场景有巨大应用潜力。
been testing MiniCPM-V 4.6 locally on my DGX Spark this demo is an industrial gauge reader i generated a synthetic contr...
Midjourney 宣布成立 Midjourney Medical,进军医疗硬件领域,计划制造基于超声波和水耦合介质的全身扫描舱。该设备无需辐射或强磁场,配备 50 万个微型传感器阵列,60 秒内完成全身层析成像,理论速度比传统 MRI 快近 100 倍。公司还将在旧金山开设 Midjourney Spa,融合扫描、泡澡、桑拿、冷水浴,鼓励像按摩一样轻松完成定期扫描。目标全球部署 5 万台,每月 10 亿次扫描。Elon Musk 回复“Cool”。首家研究型 Spa 预计 2027 年底开业。
Announcing a new division of Midjourney called "Midjourney Medical"
🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...
swyx 记录 Midjourney 医疗产品发布,与会者将其比作初代 iPhone 和特斯拉发布。该产品旨在将医学成像质量提升 40-100 倍,实现“扫描器官像称体重”。Midjourney 仅以每年 1000 万美元研发预算支撑这一创新,质疑其他机构的研发效率。今年 MJ 另有 7 个副项目计划发布。Nature 论文及 biohub 播客佐证更好数据驱动更好科学。swyx 认为技术+使命足够强,监管等障碍会自行解决。
[AINews Jun 17] Midjourney Medical: scan your organs like you step on a scale https://www.latent.space/p/ainews-midjourn...