SenseNova宣布开源其U1 Lite系列模型。该系列基于NEO-unify架构,原生统一了多模态理解与生成能力。其核心优势包括:在开源模型中具备领先的效率,紧凑的8B和A3B模型在保持商业级性能的同时实现了优异的成本效益;支持原生的图像-文本交织生成,单一模型即可在单次流程中生成连贯交织的图文内容,适用于制作指南等实用场景;并拥有高密度信息渲染能力,擅长为知识图解、海报、PPT、漫画等信息密集型格式生成结构丰富的版式。模型已在Hugging Face、GitHub等平台发布。
SenseNova宣布开源其U1 Lite系列模型。该系列基于NEO-unify架构,原生统一了多模态理解与生成能力。其核心优势包括:在开源模型中具备领先的效率,紧凑的8B和A3B模型在保持商业级性能的同时实现了优异的成本效益;支持原生的图像-文本交织生成,单一模型即可在单次流程中生成连贯交织的图文内容,适用于制作指南等实用场景;并拥有高密度信息渲染能力,擅长为知识图解、海报、PPT、漫画等信息密集型格式生成结构丰富的版式。模型已在Hugging Face、GitHub等平台发布。
inclusionAI团队宣布推出Ling-2.6-flash-int4模型,作为其通过开源与开放科学推动人工智能技术进步与普及的重要举措。该版本延续了团队降低AI应用门槛、促进技术民主化的核心使命,以轻量化技术方案进一步优化模型性能与部署效率。
gpt-5.5 prompt for codex seems to have a duplicated line trying to get it to not talk about creatures? Never talk about ...
Symphony 是一个用于 Codex 编排的开源规范,能够将问题跟踪器转化为持续运行的智能体系统。该系统通过自动化任务协调与执行,显著提升工程团队的产出效率,同时减少开发者在不同任务间频繁切换带来的认知负担。其核心在于以标准化、可扩展的方式,将日常开发流程转化为由智能体持续驱动的工作流。
inclusionAI 团队发布了 Ling-2.6-flash-fp8 模型,致力于通过开源与开放科学推动人工智能的发展与普及。该版本采用 FP8 精度优化,显著提升了推理效率并降低了计算资源消耗,是其在推进技术民主化进程中的最新实践。
inclusionAI发布了Ling-2.6-flash模型。该模型是其开源语言模型系列的最新成员,旨在通过开源与开放科学推动人工智能的进步与民主化。此次发布延续了团队降低AI技术使用门槛、促进更广泛社区参与开发的使命。
One more thing: OpenClaw 2026.4.26 is stacked because the Clawtributors showed up hard. Bug reports, fixes, edge cases, ...
Nick Levine、David Duvenaud 和 Alec Radford 发布了 talkie,这是一个基于1931年前历史英文文本训练的130亿参数语言模型。其基础版本在2600亿token的已过版权数据上训练,而指令微调版本则用于驱动聊天界面。该版本借助Claude等现代模型生成合成数据进行训练,可能导致年代错位的知识污染。项目旨在探索此类模型预测未来、超越知识截止点进行发明等能力,并希望最终构建一个完全由复古模型自举的训练流程。模型采用Apache 2.0许可。
Talkie是一款参数规模为130亿的复古风格语言模型,其设计灵感源于1930年代的语言特征与表达方式。该模型通过模拟特定历史时期的语料与文风,在文本生成中呈现出独特的复古韵味。项目已在官网发布,并在Hacker News社区获得102点热度关注。这一尝试展示了语言模型在风格化与历史语境模拟方面的技术拓展。
小米 MiMo -V2.5 系列模型全部开源 采用宽松的 MIT 协议,允许自由商用、二次训练与微调,无需额外授权。 同时他们还推出了Orbit 100T Token 计划。 这个太牛批了!如果你有自己 Vibe Coding 一些东西可以...
小米正式开源MiMo-V2.5系列模型,采用宽松的MIT协议,允许自由商用、二次训练与微调。该系列包含两个支持100万token上下文窗口的模型:专为复杂Agent和编码任务设计、在多项评测领先的MiMo-V2.5-Pro,以及具备强大Agent能力的原生全模态模型MiMo-V2.5。同时,小米推出Orbit 100T Token计划,包含面向AI开发者的“百万亿Token创造者激励计划”,提供最高价值659元的Credits,以及面向Agent框架团队的“Agent生态共建计划”,为其用户提供MiMo token限免支持。
Xiaomi MiMo-V2.5 is now officially open-sourced! MIT License, supporting commercial deployment, continued training, and ...
OpenAI开源了gpt-realtime-1.5的官方语音控制组件,允许用户直接用自然语音控制应用UI状态,而非仅进行语音转文本。该组件是一个完整的React参考实现,开发者可快速集成。其核心在于工具由应用预定义,模型只能调用这些受限动作,确保了安全可控。这标志着语音正从输入层升级为顶层控制层,为设计、驾驶等双手操作场景提供了新的交互可能,是交互范式的重要转折。
You can build interactive applications with gpt-realtime-1.5, so users can control app state more naturally with voice. ...
研究指出,当前GUI智能体的核心瓶颈在于系统设计,而非模型能力,表现为假性成功和死循环等问题。VLAA-GUI框架通过三个模块应对:STOP验证器确保任务真正完成,RECOVER循环中断器打破重复操作,SEARCH代理直接获取外部知识。在OSWorld基准测试中,该框架助力Opus 4.6模型取得77.5%的成功率,首次超越人类水平(72.4%);在WindowsAgentArena上,结合Gemini 3.1 Flash也以61.0%创下新纪录。这表明,精心的系统设计与强大的模型能力同等重要。
🚀 GUI agents are advancing fast - yet they still stumble on surprisingly simple things: • declare success too early • g...
小米正式开源MiMo-V2.5系列模型,包含专注于代码代理的1T参数MoE模型MiMo-V2.5-Pro,以及支持多模态代理的310B参数MoE模型MiMo-V2.5,两者均支持1M上下文长度。其架构核心采用混合注意力、多Token预测和稀疏MoE技术,以支撑万亿参数规模下的高效长文处理。后训练基于MOPD范式,通过多教师策略蒸馏提升模型综合能力。同时,小米推出100T Token的创造者激励计划,为开发者提供免费计算资源以鼓励创新。模型已在Hugging Face平台开源。
Just dropped two open-source models: MiMo-V2.5-Pro (Code Agent, 1T total) and MiMo-V2.5 (Multimodal Agent, 310B total). ...
微软于2026年1月发布开源语音转文本模型VibeVoice,采用MIT许可证并内置说话人日志功能。社区提供的4位量化MLX版本约5.71GB。实测在128GB内存的M5 Max MacBook Pro上,使用mlx-audio工具处理一段60分钟音频耗时约8分45秒,峰值内存占用达30.44GB。模型默认支持最长25分钟音频,通过调整参数可处理至多1小时音频,输出为带时间戳和说话人ID的JSON格式,便于用Datasette Lite浏览分析。
小米正式开源MiMo-V2.5系列模型,采用MIT许可证,允许商业部署、持续训练和微调。两个模型均支持100万token上下文窗口:MiMo-V2.5-Pro专为复杂Agent和编码任务设计,在开源模型的GDPVal-AA和ClawEval基准测试中排名第一;MiMo-V2.5是原生多模态模型,具备强大的Agent能力。小米强调,模型的价值不应仅由排行榜衡量,而应取决于其解决实际问题的能力。
Xiaomi MiMo-V2.5 is now officially open-sourced! MIT License, supporting commercial deployment, continued training, and ...
Xiaomi MiMo-V2.5 is now officially open-sourced! MIT License, supporting commercial deployment, continued training, and ...
OpenClaw 2026.4.25 🦞 🔊 TTS got serious 🧩 Plugins start faster 📊 OTEL can see the weird stuff 🛠️ Browser + install/u...
开发者在测试多个Chatbot客户端时,发现普遍不支持上传音视频文件进行对话,这给全模态大模型的测试带来了不便。因此,他选择了一个开源Chatbot UI项目,并计划用Codex对其进行改造以适配需求。该开源项目参考了ChatGPT、Grok、Gemini和Perplexity等主流产品的界面,设计了多个不同的机器人对话界面,目前在GitHub上已获得近1万颗星。
微软开源了40亿参数的TRELLIS.2模型,可将单张图片在3秒内转换为具备完整PBR材质(粗糙度、金属度、不透明度)的专业级3D资产。该模型生成的并非粗糙网格,而是直接可用于生产流程的高质量模型,能够准确处理开放表面、空心结构以及复杂几何体,显著提升了图像到3D内容的生成效率与实用性。
开源项目Stash发布,为AI代理提供长期记忆与上下文管理能力。它通过独立存储和检索对话历史,使开发者无需依赖特定API即可为应用添加持久化记忆功能。该项目已在GitHub开源,并获Hacker News社区关注,降低了构建复杂AI代理的门槛。
Obscura是一个用Rust编写的轻量级无头浏览器引擎,专为AI Agent自动化和大规模网络爬取优化。其核心优势在于极致的性能与资源效率,内存占用仅30MB,页面加载约85毫秒,远超Headless Chrome。项目采用务实架构,复用Servo的DOM与V8引擎,并构建独立网络层。关键特性包括深度反检测的“隐身模式”,能随机化指纹并拦截追踪域名;通过兼容Chrome DevTools Protocol,实现与Puppeteer/Playwright生态无缝对接。此外,它内置了DOM转Markdown等专为AI Agent优化的功能,旨在作为高效的常驻网页感知端点。
A Rust dev just killed Headless Chrome. It's called Obscura. The open-source headless browser purpose-built for AI agent...
腾讯混元团队在重建基础设施后,推出首个MoE架构模型Hy3 preview,总参295B,支持256K上下文。团队确立能力体系化、评测真实性、性价比三大原则,推动模型向实用转型。评估显示,Hy3在复杂推理与长上下文任务上进入第一梯队,代码与智能体能力进步显著。其突出亮点是能深度挖掘非结构化对话中的隐含约束,并转化为结构化输出,体现了强大的实际应用潜力。
👋Hi /haɪ/, we're the Tencent Hy /haɪ/ team🐧 Today, we open source Hy3 preview (295B A21B), a leading reasoning and age...
项目“Wuphf”是一个受卡帕西风格启发的大语言模型维基系统,支持Markdown格式和Git版本控制。其核心特点是可由用户设定的AI代理自动维护和更新内容,实现了知识库的持续自主管理。该项目已在GitHub开源,并在Hacker News上获得了100点热度。
一款新的开源OCR模型在olmocr基准测试中达到85.9%的SOTA性能。该模型参数量为40亿,由90亿参数精简而来,支持超过90种语言并附带基准测试。其核心能力包括保留完整的文档布局信息,能从图像和图表中提取并生成说明文字,同时对手写文本、数学公式、表单及表格具备强大的识别与解析支持。
WUPHF 是一个为 AI 员工设计的协作办公平台,通过一个命令即可启动,在本地提供 Web 界面。它将不同角色的 AI 智能体置于一个共享的虚拟办公室中,使其可见、可争论并协作完成任务。平台为每个智能体提供私人笔记,团队共享一个基于 Markdown 和 Git 的本地维基,智能体可自主将可靠信息同步至团队知识库。项目目前处于 1.0 版本前的预发布阶段,默认使用 Claude Code,支持通过命令行参数灵活配置。
开源项目“Browser Harness”发布,旨在赋予大型语言模型(LLM)在浏览器中自主完成任意任务的能力。该工具通过提供一个可编程的浏览器控制框架,使LLM能够像人类一样操作网页,执行点击、输入、导航等复杂交互。此举有望突破当前AI代理在自动化网络操作方面的限制,扩展LLM的实际应用场景。该项目已在GitHub开源,并在Hacker News社区获得100点热度关注。
一个GitHub项目演示了将IBM Quantum量子计算后端替换为Linux系统的伪随机数生成器/dev/urandom。实验表明,使用经典随机源替代后,在特定量子线路模拟任务中仍能产生与量子后端相似的输出结果,其保真度达到约0.5。该项目以讽刺手法质疑当前某些量子计算演示的实际效用,暗示其可能并未展现出超越经典随机过程的明显优势。
开源工具Hyperbrowser能在约25秒内深度解析并克隆网站(如Anthropic官网)的完整设计系统,自动提取颜色、字体、间距等样式,并总结设计语言,生成结构化文档。这标志着设计正从依赖手艺的“像素级模仿”转变为可快速解析、复制的结构化数据,大幅降低了借鉴成熟设计系统的门槛,未来竞争焦点可能转向对设计DNA的快速吸收与再创造。
该项目致力于通过开源与开放科学推动人工智能的发展与普及。团队正持续推进技术民主化进程,旨在让更广泛的群体能够接触并利用先进AI工具。其核心路径是依托开放协作模式,降低技术门槛,促进创新生态的构建。
Gas City 是 Gas Town 的彻底重写版本,作为构建自定义智能体工厂的 SDK 于本周发布 v1.0.0。它将技术栈解构为可组合的、声明式的 “pack” 构建块,用于部署任意拓扑的协作智能体团队。系统默认包含一个完整的 “Gas Town” pack,可作为原版的直接替代品。Gas City 基于 MEOW 栈和 Dolt 构建,提供智能体身份、消息传递、上下文、状态等开箱即用的服务,并暴露 Factory Worker API,完全开源并采用 MIT 许可证。
Infisical团队开源了Agent Vault,这是一个专为AI代理设计的凭证代理与存储库。该项目旨在安全地管理AI代理在运行时所使用的API密钥、数据库密码等敏感凭证,防止其直接暴露在代码或环境中。Agent Vault作为代理与外部服务之间的中间层,集中处理身份验证,从而提升安全性并简化凭证管理流程。该项目已在GitHub发布,并在Hacker News上获得了101点关注度。
开源项目 openclaw-managed-agents 提供了类似 OpenAI Workspace Agent 的功能,核心特点是支持接入任意大模型(如 Claude、GPT、Gemini 等)并可自托管于自有服务器,成本可低至每月4欧元。其采用独立 Docker 沙箱架构,确保每个用户会话隔离运行,实现凭证安全与互不影响,且子 agent 调用过程全程可观测。该方案适用于为企业搭建可灵活切换模型的 AI Agent 服务、为 SaaS 产品添加隔离的 AI 助手、构建社交平台机器人或运行内部受控、仅能访问指定 API 的安全 Agent。
we built an open-source version of workspace agents - any model, self-hosted - per-session sandbox - credential isolatio...
现有文档OCR主要针对纯文本或Markdown,丢弃了使LaTeX对科学出版至关重要的结构和可执行属性。研究将科学PDF重建为可编译LaTeX的页面级任务,并为此引入了基准测试TexOCR-Bench和大规模训练语料TexOCR-Train。TexOCR-Bench采用多维评估套件,联合评估转录保真度、结构忠实度和端到端可编译性。利用TexOCR-Train,通过监督微调和强化学习训练了一个20亿参数的TexOCR模型,其强化学习的可验证奖励源自直接强制执行可编译性和引用完整性的LaTeX单元测试。在TexOCR-Bench上对21个前沿模型的实验表明,现有系统经常违反关键文档不变性,包括一致的章节结构、正确的浮动体放置和有效的标签-引用链接,这损害了编译可靠性和下游可用性。分析进一步揭示,带有可验证奖励的强化学习相比仅用监督微调能带来一致改进,尤其在结构和编译指标上。