4月29日
08:06
宝玉@dotey
62
微软开源VibeVoice-ASR语音识别模型,支持长音频与说话人分离

微软开源的VibeVoice-ASR是一个9B参数语音转文字模型,采用MIT协议。其核心优势在于单次可处理长达60分钟的连续音频,并直接输出带说话人、时间戳的结构化文本,原生支持50多种语言及中英混说。实测在128GB内存的MacBook Pro上,其4-bit量化版转录一小时音频约需9分钟,但预填充阶段内存峰值达61.5GB,要求设备内存至少64GB。模型存在单次60分钟时长限制,且对录音环境变化敏感,但为播客、会议等长音频转录提供了简化流程。

Microsoft开源生态教程/实践语音
07:20
小互@xiaohu
53
智能终端工具Warp 宣布开源

智能终端工具Warp宣布开源,并引入由云端AI(Oz)驱动的协作开发模式,该AI可负责代码编写、测试等任务,开发者主要进行审核。OpenAI成为首位赞助商,其GPT模型驱动开源仓库的智能体工作流。产品改进包括支持Kimi、MiniMax、通义千问等多款开源AI模型,具备自动选择最优模型功能;提供高度可定制的界面,支持从纯终端到完整AI开发环境;新增配置文件,便于跨设备迁移和程序化控制。

智能体OpenAI产品更新开源生态
07:14
ginobefun@hongming731
50
老代码、AI工具与组织治理的融合趋势

当前,遗留代码、AI工具与组织治理正加速融合。Anthropic将Claude Code作为“新员工”引入拥有70万行代码的17年老项目;Thoughtworks推动提示词成为可版本化、可审查的一等交付物;NVIDIA致力于构建统一的全模态主干模型。随着AI已具备代码生成能力,工程挑战的核心正从“生成”转向“治理”,关键在于让AI持续理解项目上下文、使其输出可复用,并推动多模态技术落地生产环境。

AnthropicMCP/工具多模态现象/趋势
07:11
宝玉@dotey
60
OpenAI与AWS扩大合作,模型与工具登陆Amazon Bedrock平台

OpenAI宣布与AWS深化合作,将GPT-5.5等模型、Codex编程工具及Bedrock托管智能体引入Amazon Bedrock平台,以限量预览形式上线。企业客户现可直接在AWS环境中调用OpenAI模型,复用现有安全、合规与账单体系,加速AI应用落地。Codex配置简便,支持多端使用,周活用户超400万。此次合作使Bedrock集齐Claude、LLaMA等主流模型,增强了AWS在云端AI竞争中的优势。

智能体OpenAI产品更新部署/工程
关联讨论 6IT之家(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)
06:57
小互@xiaohu
53
Adobe 把8款创意工具的打包接进 Claude

Adobe 将 Photoshop、Lightroom、Illustrator 等八款核心创意工具集成至 Claude。用户现可通过 AI 助手直接调用这些工具,执行调色、抠图、扩图等图像处理,套用模板设计、剪辑视频、获取 Stock 授权素材,以及搜索、总结和整理创意文件。此举旨在简化创意工作流程。

AnthropicMCP/工具产品更新多模态
06:39
Rohan Paul@rohanpaul_ai
47
科技巨头6000亿美元AI竞赛迎收益测试,云业务成焦点

科技巨头的AI竞赛投资达6000亿美元,正通过季度收益评估回报。Alphabet、Microsoft、Meta和Amazon的业绩将测试AI投资效果,云业务是关键指标,预测AWS增长近25%,Azure 40%,Google Cloud 50.1%。Microsoft面临压力,股价下跌约12%,且仅3.3%的4.5亿企业用户付费使用Copilot,显示其AI商业化挑战。

Microsoft行业动态
06:31
Berryxia.AI@berryxia
50
SATO实现从点云直接生成高质量3D网格

3D网格生成领域出现重大突破,新方法SATO能够直接从点云生成完整的网格模型。其核心技术在于采用了基于条带的标记化方法,从而实现了极其干净、结构清晰的边缘流。该模型在生成过程中原生集成了UV分割,简化了后续纹理贴图流程。此外,SATO的一个显著优势是单个模型能同时支持生成三角网格和四边形网格,提供了更高的灵活性和应用潜力。

多模态论文/研究
06:28
06:22
Berryxia.AI@berryxia
60
NVIDIA发布高效开源多模态模型Nemotron 3 Nano Omni

NVIDIA 重磅发布!🚀 Nemotron 3 Nano Omni 多模态开源模型来了! 🔥 30B 参数 🔥 256K 超长上下文 🔥 最高效开放多模态模型(语言+视觉+语音+视频+音频一体化) 🔥 专为 subagents / Agentic 任务设计 🔥 完全开源(权重 + 数据 + 配方),领跑多项榜单 可通过 NVIDIA NIM API 免费试用!完美驱动多代理工作流。

智能体多模态开源生态模型发布
关联讨论 3HuggingFace Daily Papers(社区热门论文)Nathan Lambert:Interconnects(RSS)Hugging Face:Blog(RSS)
06:20
Berryxia.AI@berryxia
45
Apple Vision Pro辅助完成全球首例白内障手术

纽约眼科医生Eric Rosenberg于2025年10月使用Apple Vision Pro结合ScopeXR混合现实平台,完成了全球首例由该设备辅助的白内障手术,并已成功实施数百例。该应用提供了3D立体显微视野、实时数据叠加和远程专家协作功能,标志着空间计算技术正式进入手术室。主推文同时指出,国内沈阳和北大医院此前已有使用AVP进行手术的案例,因此此次并非严格意义上的“全球首例”。

多模态现象/趋势端侧
06:20
elvis@omarsar0
62
从技能文本到技能结构

SKILL.md文件将调用接口、执行流程和工具副作用混合在自然语言中,导致技能发现和风险评估脆弱。新研究提出SSL三层类型化JSON表示:调度层处理调用信号,结构层管理执行场景,逻辑层定义原子动作和资源使用,基于Schank和Abelson的脚本理论。通过LLM规范化器转换现有文件,技能发现MRR从0.573提升至0.707,风险评估宏观F1从0.744提升至0.787。研究发布了6,184技能语料库、403任务查询和500风险标记技能,强调随着技能注册表扩展,需结构化表示以提升管理效率。

智能体MCP/工具开源/仓库论文/研究
06:10
Berryxia.AI@berryxia
66
微软World-R1唤醒视频模型3D理解能力

微软World-R1通过强化学习直接“唤醒”现有视频模型的3D理解能力,无需修改模型架构、额外视频训练数据或增加推理成本。其核心方法是将相机轨迹嵌入扩散过程的噪声中,并利用Depth Anything 3和Qwen3-VL作为3D几何评判器。通过周期性解耦训练,模型能在保持建筑刚性的同时让旗帜自然飘动。仅使用3千条文本提示完成训练,该技术被视为视频生成迈向真实世界模拟的关键一步。

Microsoft论文/研究
05:31
05:12
Rohan Paul@rohanpaul_ai
59
Sigma推出开源私有AI浏览器,本地模型驱动智能体直接操作网页

Sigma发布了一款开源私有AI浏览器,其核心是将本地大语言模型(如Qwen、Gemma、Nemotron)与Chromium浏览器深度集成。该浏览器通过内置的OpenClaw智能体,能直接读取页面内容、理解用户意图,并执行点击、输入、总结等自动化操作,从而将浏览器从被动查看工具转变为能直接处理任务的AI工作界面。此举旨在解决多数AI浏览器需将数据发送至远程服务器导致的延迟和隐私风险,所有计算均在用户本地设备完成,确保了隐私安全和响应速度。

智能体产品更新开源生态端侧
05:09
ChatGPT@ChatGPTapp
31
终于
OpenAI产品更新