AIHOT

4月29日

08:06

宝玉@dotey

微软开源的VibeVoice-ASR是一个9B参数语音转文字模型，采用MIT协议。其核心优势在于单次可处理长达60分钟的连续音频，并直接输出带说话人、时间戳的结构化文本，原生支持50多种语言及中英混说。实测在128GB内存的MacBook Pro上，其4-bit量化版转录一小时音频约需9分钟，但预填充阶段内存峰值达61.5GB，要求设备内存至少64GB。模型存在单次60分钟时长限制，且对录音环境变化敏感，但为播客、会议等长音频转录提供了简化流程。

Microsoft开源生态教程/实践语音

07:51

Berryxia.AI@berryxia

Google Gemma 官方教你本地跑 Coding Agent！本地完美组合来了： • Pi Agent • Gemma 4 26B 模型 • LM Studio / Ollama / llama.cpp 等 serving engine 完全离线运行、零 API 费用、100% 隐私保护、零延迟！本地开发者 Agentic 开发神器！附 @patloeber 详细一步步搭建教程👇 https：//patloeber.com/gemma-4-pi-agent/

智能体Google教程/实践端侧

07:46

Berryxia.AI@berryxia

OpenBMB发布的MiniCPM-o 4.5是一个仅90亿参数的多模态模型，实现了从传统轮询交互到实时、原生全双工流式交互的范式突破。其Omni-Flow框架能在统一时间线上毫秒级同步处理视频、音频和文本流，无需外部语音检测即可同时感知与响应。该模型在多模态基准测试中表现接近Gemini 2.5 Flash，并专为边缘AI设计，支持完全离线运行，提供Windows/macOS一键安装（仅需12G显存），保障100%数据隐私，同时开源权重并提供免费社区API。

GitHub多模态开源生态模型发布

07:31

Chubby♨️@kimmonismus

天啊。数千台 RobotEra L7 人形机器人将进驻 10 多个物流中心，执行分拣任务。而人们依然认为他们的蓝领工作很安全。

具身智能行业动态

07:28

dax@thdxr

我在这里看到的关于软件未来的每一个预测，都只是程序员们为逃避产品工作而找的借口。

大佬观点现象/趋势编码

07:20

小互@xiaohu

智能终端工具Warp 宣布开源

智能终端工具Warp宣布开源，并引入由云端AI（Oz）驱动的协作开发模式，该AI可负责代码编写、测试等任务，开发者主要进行审核。OpenAI成为首位赞助商，其GPT模型驱动开源仓库的智能体工作流。产品改进包括支持Kimi、MiniMax、通义千问等多款开源AI模型，具备自动选择最优模型功能；提供高度可定制的界面，支持从纯终端到完整AI开发环境；新增配置文件，便于跨设备迁移和程序化控制。

智能体OpenAI产品更新开源生态

07:19

dax@thdxr

这是每次会话的平均花费随着每个新模型的发布，人们的花费越来越多

推理现象/趋势

07:14

ginobefun@hongming731

老代码、AI工具与组织治理的融合趋势

当前，遗留代码、AI工具与组织治理正加速融合。Anthropic将Claude Code作为“新员工”引入拥有70万行代码的17年老项目；Thoughtworks推动提示词成为可版本化、可审查的一等交付物；NVIDIA致力于构建统一的全模态主干模型。随着AI已具备代码生成能力，工程挑战的核心正从“生成”转向“治理”，关键在于让AI持续理解项目上下文、使其输出可复用，并推动多模态技术落地生产环境。

AnthropicMCP/工具多模态现象/趋势

07:11

宝玉@dotey

OpenAI与AWS扩大合作，模型与工具登陆Amazon Bedrock平台

OpenAI宣布与AWS深化合作，将GPT-5.5等模型、Codex编程工具及Bedrock托管智能体引入Amazon Bedrock平台，以限量预览形式上线。企业客户现可直接在AWS环境中调用OpenAI模型，复用现有安全、合规与账单体系，加速AI应用落地。Codex配置简便，支持多端使用，周活用户超400万。此次合作使Bedrock集齐Claude、LLaMA等主流模型，增强了AWS在云端AI竞争中的优势。

智能体OpenAI产品更新部署/工程

关联讨论 6 条

06:57

小互@xiaohu

Adobe 把8款创意工具的打包接进 Claude

Adobe 将 Photoshop、Lightroom、Illustrator 等八款核心创意工具集成至 Claude。用户现可通过 AI 助手直接调用这些工具，执行调色、抠图、扩图等图像处理，套用模板设计、剪辑视频、获取 Stock 授权素材，以及搜索、总结和整理创意文件。此举旨在简化创意工作流程。

AnthropicMCP/工具产品更新多模态

06:52

Rohan Paul@rohanpaul_ai

圣地亚哥一位眼科医生佩戴Apple Vision Pro完成了白内障手术。该头显将数字显微镜的实时3D影像和患者数据直接叠加在他的视野中。无需再转头查看单独的显示器。

多模态端侧行业动态

06:49

Rohan Paul@rohanpaul_ai

彭博社：美国食品药品监督管理局计划通过人工智能实时检查试验数据来加速药物测试。这可能将通常流程缩短数月或数年。该机构将追踪关于新药是否有效且保持安全的高层级信号。它不会收集所有患者数据。通常开发一种药物需要10到12年，其中45%是文书工作时间。

政策/监管部署/工程

06:48

Berryxia.AI@berryxia

GPT2 真的成精了！的确！小小东老哥整的这套提示词很不错，推荐大家！【引用 @xiaoxiaodong01】：http：//x.com/i/article/2048438511788007424

教程/实践

06:39

Rohan Paul@rohanpaul_ai

科技巨头6000亿美元AI竞赛迎收益测试，云业务成焦点

科技巨头的AI竞赛投资达6000亿美元，正通过季度收益评估回报。Alphabet、Microsoft、Meta和Amazon的业绩将测试AI投资效果，云业务是关键指标，预测AWS增长近25%，Azure 40%，Google Cloud 50.1%。Microsoft面临压力，股价下跌约12%，且仅3.3%的4.5亿企业用户付费使用Copilot，显示其AI商业化挑战。

Microsoft行业动态

06:35

Rohan Paul@rohanpaul_ai

GPT-5.5 Pro在Epoch AI的ECI指数中获得159分，创下该综合能力评分的新纪录，表明其在多项测试中的整体模型能力目前领先。ECI指数旨在通过整合多个基准测试来评估模型的广泛推理能力，避免单一测试易被针对性优化的问题。此外，GPT-5.5 Pro与GPT-5.5共同解决了两个此前未有模型能处理的Tier 4级别难题。

OpenAI推理评测/基准

06:31

Berryxia.AI@berryxia

SATO实现从点云直接生成高质量3D网格

3D网格生成领域出现重大突破，新方法SATO能够直接从点云生成完整的网格模型。其核心技术在于采用了基于条带的标记化方法，从而实现了极其干净、结构清晰的边缘流。该模型在生成过程中原生集成了UV分割，简化了后续纹理贴图流程。此外，SATO的一个显著优势是单个模型能同时支持生成三角网格和四边形网格，提供了更高的灵活性和应用潜力。

多模态论文/研究

06:28

OpenAI Developers@OpenAIDevs

你可以要求Codex将现有仓库更新至GPT-5.5。

OpenAI产品更新编码

06:26

Berryxia.AI@berryxia

我靠！兄弟们？Warp 都要开源了！官方宣布Warp 正式全面开源啦！🔥 知名现代终端 + Agentic 开发环境 Warp 现在完全开源！ • 代码、Roadmap、贡献流程全部开放 • GitHub：https：//github.com/warpdotdev/warp • Oz AI agents（GPT 驱动）负责 coding、planning、testing • OpenAI Devs 担任 founding sponsor 开发者福音！欢迎社区一起共建下一代终端工具 🚀 【引用 @warpdotdev】：Warp is now open-source.

智能体OpenAI开源/仓库

06:22

Berryxia.AI@berryxia

NVIDIA发布高效开源多模态模型Nemotron 3 Nano Omni

NVIDIA 重磅发布！🚀 Nemotron 3 Nano Omni 多模态开源模型来了！ 🔥 30B 参数 🔥 256K 超长上下文 🔥 最高效开放多模态模型（语言+视觉+语音+视频+音频一体化） 🔥 专为 subagents / Agentic 任务设计 🔥 完全开源（权重 + 数据 + 配方），领跑多项榜单可通过 NVIDIA NIM API 免费试用！完美驱动多代理工作流。

智能体多模态开源生态模型发布

关联讨论 3 条

06:20

Berryxia.AI@berryxia

Apple Vision Pro辅助完成全球首例白内障手术

纽约眼科医生Eric Rosenberg于2025年10月使用Apple Vision Pro结合ScopeXR混合现实平台，完成了全球首例由该设备辅助的白内障手术，并已成功实施数百例。该应用提供了3D立体显微视野、实时数据叠加和远程专家协作功能，标志着空间计算技术正式进入手术室。主推文同时指出，国内沈阳和北大医院此前已有使用AVP进行手术的案例，因此此次并非严格意义上的“全球首例”。

多模态现象/趋势端侧

06:20

elvis@omarsar0

从技能文本到技能结构

SKILL.md文件将调用接口、执行流程和工具副作用混合在自然语言中，导致技能发现和风险评估脆弱。新研究提出SSL三层类型化JSON表示：调度层处理调用信号，结构层管理执行场景，逻辑层定义原子动作和资源使用，基于Schank和Abelson的脚本理论。通过LLM规范化器转换现有文件，技能发现MRR从0.573提升至0.707，风险评估宏观F1从0.744提升至0.787。研究发布了6,184技能语料库、403任务查询和500风险标记技能，强调随着技能注册表扩展，需结构化表示以提升管理效率。

智能体MCP/工具开源/仓库论文/研究

06:16

Luma@LumaLabsAI

每个伟大的创意都始于草图。现在它不必止步于此。上传你的参考图，设定美学风格，看着Luma Agents将你的草图转化为完整的渲染视觉。建筑。产品设计。角色。任何概念，任何风格，皆可渲染就绪。赋予它生命 → https：//app.lumalabs.ai/？seed=984aa029-e3fb-42a6-bcfa-f157330bfdcc

产品更新图像生成

关联讨论 1 条

06:13

Berryxia.AI@berryxia

由前GitHub CTO Jason Warner创立的Poolside AI团队开源了其首个权重模型Laguna XS.2。该模型采用33B总参数、3B激活参数的MoE架构，专为Agentic Coding和长时序任务设计，可在单张GPU上运行，并采用Apache 2.0开源协议。团队同时发布了当前最强版模型Laguna M.1以及Agent Harness，标志着其在智能编码代理赛道成为新的竞争者。

智能体开源生态模型发布编码

06:10

Berryxia.AI@berryxia

微软World-R1唤醒视频模型3D理解能力

微软World-R1通过强化学习直接“唤醒”现有视频模型的3D理解能力，无需修改模型架构、额外视频训练数据或增加推理成本。其核心方法是将相机轨迹嵌入扩散过程的噪声中，并利用Depth Anything 3和Qwen3-VL作为3D几何评判器。通过周期性解耦训练，模型能在保持建筑刚性的同时让旗帜自然飘动。仅使用3千条文本提示完成训练，该技术被视为视频生成迈向真实世界模拟的关键一步。

Microsoft论文/研究

05:50

Chubby♨️@kimmonismus

Sigma：一款完全私密的AI浏览器，可在您的设备上本地运行智能体。 -无需云端。 -数据不会离开您的设备。 -开源 Qwen、Gemma、Nemotron--全部直接在浏览器中运行。这才是浏览器AI应有的发展方向！【引用 @Sigma_Browser】：搭载OpenClaw智能体的私密AI浏览器，基于免费本地模型运行在浏览器中直接使用Qwen、Gemma或Nemotron运行您的智能体开源。私密。在您的本地设备上运行

智能体开源/仓库端侧

05:48

Peter Steinberger 🦞@steipete

我将试用 https：//github.com/brunoborges/ghx，因为我经常遇到 GitHub 速率限制问题。那里的团队尽力提供帮助，甚至将我们迁移到企业版，但代理程序仍然猛烈冲击他们的 API。

智能体开源/仓库编码

05:38

Replit ⠕@Replit

这个周末准备好享受构建的乐趣了吗？

其他

05:31

TestingCatalog News 🗞@testingcatalog

Claude Code 现在可以在完成任务时通过推送通知提醒您。 Claude 推送 👀

AnthropicMCP/工具产品更新

05:31

TestingCatalog News 🗞@testingcatalog

Anthropic 发布了面向创意工作的 Claude 新连接器。新连接器包括：Adobe Creative Cloud、Ableton、Splice、Canva Affinity、SketchUp、Resolume、Autodesk Fusion 以及 Blender。

AnthropicMCP/工具产品更新

05:29

Chubby♨️@kimmonismus

作者推崇将AI智能体完全本地化运行的浏览器模式，认为这是浏览器AI应有的发展方向。这种模式的核心在于隐私保护与开源，所有数据处理均在用户设备本地完成，无需依赖云端，确保数据不外泄。当前，已有如Sigma Browser等产品实现了这一理念，支持在浏览器内直接运行Qwen、Gemma、Nemotron等开源模型。作者对此表示高度赞赏，并表达了强烈的合作意愿。

智能体产品更新开源生态端侧

05:27

AK@_akhaliq

Nvidia发布了Nemotron 3 Nano Omni 在Hugging Face上为其制作了一个gradio应用

多模态开源/仓库端侧

05:12

Rohan Paul@rohanpaul_ai

Sigma推出开源私有AI浏览器，本地模型驱动智能体直接操作网页

Sigma发布了一款开源私有AI浏览器，其核心是将本地大语言模型（如Qwen、Gemma、Nemotron）与Chromium浏览器深度集成。该浏览器通过内置的OpenClaw智能体，能直接读取页面内容、理解用户意图，并执行点击、输入、总结等自动化操作，从而将浏览器从被动查看工具转变为能直接处理任务的AI工作界面。此举旨在解决多数AI浏览器需将数据发送至远程服务器导致的延迟和隐私风险，所有计算均在用户本地设备完成，确保了隐私安全和响应速度。