AIHOT

4月29日

22:01

向阳乔木@vista8

用户已体验新版AI识图功能，对其处理速度表示震惊。但质疑网页端为何将"识图模式"设为独立标签页，认为这种交互设计不自然，希望未来能整合到所有模式中。同时，用户关注API何时能支持识图功能，强调这对开发者至关重要。引用推文"Now， we see you. 👀"暗示了模型已具备视觉感知能力，是此次功能升级的核心背景。

多模态大佬观点

22:00

Baidu Inc.@Baidu_Inc

Baidu Create 2026 即将到来，议程满满当当！除了主论坛，我们的旗舰级开发者大会还设有AI基础设施、智能体开发、实际应用等专题论坛--现场更有丰富内容等你探索。来看一看👇

行业动态

21:59

歸藏(guizang.ai)@op7418

Deepseek 的多模态模型全量了。目前可以在网页版的识图模式尝试，看起来是一个单独的多模态模型

DeepSeek多模态模型发布

21:56

meng shao@shao__meng

商汤 SenseNova-U1 架构创新：统一语言视觉表征

商汤开源的 SenseNova-U1 模型在架构上实现关键突破。传统多模态模型多采用“语言模型 + 视觉编码器 + VAE”的拼接方式，视觉信息需先翻译再输入 LLM。U1 基于 NEO-Unify 架构，直接移除翻译层，使语言和视觉在同一表征空间中运行。因此，模型能在单次推理中同步完成图像理解、推理和生成等任务，而非分步处理，提升了多模态交互的效率和连贯性。

多模态大佬观点开源生态

21:55

Tencent Hy@TencentHunyuan

精选67

腾讯开源Hy-MT1.5-1.8B-1.25bit翻译模型，440MB体积支持手机离线运行

腾讯开源了Hy-MT1.5-1.8B-1.25bit翻译模型，其参数量为18亿，经量化后仅440MB，可在手机上完全离线运行。该模型支持33种语言、5种方言及1056个翻译方向，包括藏语、蒙古语等少数语言。在标准测试中，其性能媲美商业翻译API和2350亿参数的大模型。通过量化至1.25比特，模型内存占用从FP16格式的3.3GB大幅降低，比之前的1.67比特方法体积缩小25%、速度提升约10%，且无精度损失。该模型已在国际机器翻译竞赛中获得30项第一，并部署于腾讯多个产品中。

Hugging Face开源生态模型发布端侧

推荐理由：440MB的模型能在手机上跑33种语言翻译，还宣称比谷歌翻译强，这个量化技术让离线翻译不再是‘能看不能用’，出差党可以试试看。

21:49

TestingCatalog News 🗞@testingcatalog

SenseTime开源了基于NEO-Unify架构的多模态图像生成模型SenseNova-U1。该架构完全摒弃了传统视觉编码器和VAE，原生地将理解、推理和生成统一为一个系统。该系列模型（8B和A3B参数）在开源模型中效率领先，以紧凑尺寸提供商业级性能与出色成本效益。其特色功能包括原生生成图文交织内容，适用于制作指南等实用场景；并擅长高密度信息渲染，能生成知识插图、海报、PPT和漫画等丰富结构的布局。模型已在Hugging Face和GitHub等平台开源。

图像生成多模态开源生态模型发布

21:47

向阳乔木@vista8

DeepSeek 的识图模式速度好快啊！这是新出的吗？上传图片，让反推提示词，秒出~

DeepSeek产品更新多模态

21:44

阿绎 AYi@AYi_AInotes

Browserbase发布浏览器Agent"黑匣子"工具，开启工程化可靠性的关键一步

Browserbase推出的/browser-trace工具，解决了Agent网页自动化调试的核心痛点。它能无感地完整记录Agent（如Claude）操作网页的全过程，涵盖数千个CDP事件、DOM快照、网络请求及JS异常，并自动生成交互式HTML报告。这相当于为浏览器Agent创建了“黑匣子”和可观测性系统，将浏览器从黑箱执行器转变为透明、可查询、可复现的系统，为Agent的工程化可靠性奠定了坚实基础。

智能体产品更新部署/工程

21:42

向阳乔木@vista8

精选71

OpenAI开源Symphony：为每个任务分配AI代理的项目管理系统

OpenAI开源项目Symphony旨在解决人类管理多个AI编码代理时的注意力瓶颈。其核心思路是将项目管理工具（如Linear）的任务看板作为控制中枢，为每个任务自动分配并运行一个独立的AI代理（基于Codex），直至完成。人类仅在“人工审查”节点介入，实现了从微观管理到任务级分配的转变。系统允许大粒度任务，代理能自主拆解依赖、创建新任务，并保证持续运行。初步数据显示，该方法能显著提升开发效率。

智能体GitHubOpenAI开源生态

关联讨论 3 条

推荐理由：Symphony 把 AI 代理管理从盯着终端变成了管理看板，对每个任务自动分配代理，这个思路会让所有用 AI 编程的团队重新思考工作流程，做工程落地的建议都看看。

21:39

Xiaomi MiMo@XiaomiMiMo

精选60

小米MiMo-V2.5-Pro在最新Arena排行榜中实现多项突破

小米MiMo-V2.5-Pro模型在最新Arena排行榜中表现卓越。在Text Arena（Expert）榜单中，它位列全球第六，同时是开源模型与中文模型的双料第一，其所属实验室全球排名第三。该模型在Text Arena（Overall）总榜中排名开源全球第二，在Code Arena（WebDev）前端开发榜单中位列开源全球第三。此外，它在Text Arena的四个关键子类别（Hard Prompts、英文Hard Prompts、指令遵循与长查询）中均获得开源全球第一。这些成绩均基于真实用户偏好与社区盲投评估，体现了模型在复杂任务上的强大综合能力。

开源生态推理模型发布

推荐理由：小米MiMo-V2.5-Pro冲到Arena开源第一，虽然排名更新晚了几天，但这是国产模型在硬核评测里最好的成绩，做选型的现在该认真看看小米。

21:38

Ethan Mollick@emollick

是的，仅仅让学生"使用AI来学习"会损害学习效果（一个有用的助手并非导师），但在随机试验中，使用被提示扮演导师角色的AI，尤其是在教师支持下，似乎对学习产生了显著的积极影响。https：//papers.ssrn.com/sol3/papers.cfm？abstract_id=6423358

大佬观点论文/研究

21:15

Greg Brockman@gdb

terminal 近二十年来一直是我操作电脑的主要界面。现在换成了 Codex 应用。

OpenAI大佬观点部署/工程

21:06

阿绎 AYi@AYi_AInotes

Agent工程化关键进展：可观测性与成本效率成核心

Browserbase推出/browser-trace工具，通过完整记录CDP事件、DOM快照、网络请求与日志，为浏览器Agent提供了类似“黑匣子”的可观测性，解决了Agent执行过程不透明、难以调试复现的核心痛点。与此同时，蚂蚁发布的Ling-2.6-1T模型将token效率作为首要目标，以约四分之一成本达到接近GPT-5.4非推理水平的综合智能。这两项进展共同指向Agent工程化的关键：可靠的可观测性与可负担的生产成本，标志着行业竞赛正从参数规模转向真实生产落地能力。

阿绎 AYi：说个暴论，2026 年 AI 行业的转折点，不是 GPT-5.5，也不是 o3，是蚂蚁@AntLingAGI 刚刚发布的 Ling-2.6-1T。我用 Li…

智能体产品更新部署/工程

21:04

ginobefun@hongming731

AI转型阻力：组织中年心智与技术青春期的冲突

杨斌教授在演讲中指出，企业在推进AI转型时，真正的阻力并非技术壁垒，而是“中年组织心智”与“青春期技术”之间的剧烈冲突。中年组织心智表现为追求即期绩效、线性稳进和厌恶不确定性，而青春期技术则快速迭代、充满未知。这种组织心智与技术要求的不匹配，使得企业在适应AI等新兴技术时面临根本性挑战。

现象/趋势部署/工程