OpenAI 推出专为生命科学领域打造的推理模型 GPT-Rosalind,旨在加速研究人员从假设到实验的转化流程。该模型目前处于严格管控的访问阶段。作为针对生命科学研究场景优化的 AI 系统,GPT-Rosalind 试图缩短科研周期,帮助科学家更快验证理论假设。
中国国家安全委员会将 Meta 斥资 20 亿美元收购 AI 初创公司 Manus 的交易定性为"阴谋性"企图,指责其旨在掏空中国技术基础。据《金融时报》报道,该委员会由习近平领导,目前已禁止 Manus 创始人离境。这一罕见定性标志着北京对关键技术外流的国家安全审查显著升级,该笔巨额收购面临重大政治阻碍。
LLaDA2.0-Uni是一个统一的多模态模型,具备对世界的理解与生成能力。该模型通过整合视觉、语言等多模态信息,实现了跨模态的语义理解和内容生成。其架构支持从图像理解到文本生成、跨模态检索等复杂任务,标志着多模态人工智能向更通用、统一的方向演进。
datasette 发布 1.0a28 版本,主要修复 1.0a27 引入的兼容性缺陷。更新包括:修复 execute_write_fn() 回调函数参数命名错误导致的异常;database.close() 方法现可关闭写入连接;新增 datasette.close() 方法用于释放所有数据库资源;内置 pytest 插件自动清理测试实例,防止文件描述符耗尽。此次更新多数代码由 Claude Code 配合 Claude Opus 4.7 完成。
一名开发者利用胶带、旧相机和数控机床,自制了一款名为AutoProber的AI驱动硬件"黑客手臂"。该项目已开源在GitHub(gainsec/autoprober),相关技术展示在Hacker News上获得104个积分关注。这一低成本解决方案通过人工智能控制机械臂,展示了如何利用现成材料构建自动化硬件安全测试工具。
Google 正式发布 Android CLI 命令行工具,允许开发者通过任意代理构建 Android 应用,官方数据显示构建速度较传统方式提升 3 倍。该工具为 Android 应用开发提供了更高效的构建方案,支持灵活的代理配置,能够显著缩短开发迭代周期,提升整体开发效率。
C-GenReg是一种无需训练的3D点云配准框架,利用世界基础模型将输入几何转换为多视图一致的RGB图像,借助视觉基础模型(VFM)在图像域提取密集对应关系,再通过深度图映射回3D空间。该方法采用"Match-then-Fuse"概率冷融合策略,将生成RGB分支与原始几何分支的对应后验进行融合,无需额外学习即可提供校准置信度。作为零样本即插即用方案,C-GenReg所有模块均无需微调,在室内3DMatch、ScanNet及室外Waymo基准测试中展现出卓越的跨域泛化能力,并首次在真实室外LiDAR数据上实现生成式配准。
首次系统研究表明,对音频大语言模型进行良性微调会严重破坏安全对齐,使越狱成功率(JSR)从个位数飙升至87.12%。通过分解嵌入空间接近性的语义与声学维度,发现脆弱性取决于模型架构如何处理音频输入。研究提出两种防御措施:基于嵌入距离的数据过滤和推理时文本系统提示,均无需修改架构即可将JSR降至接近零。机制分析揭示,微调选择性抑制了晚期拒绝电路,而冻结编码器保留了原始表示。
研究团队发布Stargazer基准测试环境,用于评估AI智能体在径向速度时间序列数据上的物理模型拟合能力。该环境包含120个任务(含20个真实档案案例),分三个难度等级,涵盖单行星到复杂多行星系统场景。对8个前沿智能体的测试显示,尽管智能体能实现良好的统计拟合,却频繁无法恢复正确的物理参数,且增加测试时计算仅带来边际收益,过度token使用往往反映递归失败循环而非有效探索。
研究团队发布"Mind's Eye"基准测试,涵盖8项视觉认知任务,依据"抽象-关系-转换"(A-R-T)分类体系评估多模态大语言模型的流体推理能力。结果显示,人类参与者准确率达80%,而顶尖模型不足50%。错误分析揭示,现有模型在视觉注意力分配、内部感知操作和底层概念抽象方面存在明显缺陷,表明当前多模态大语言模型的视觉空间推理能力仍显著落后于人类水平。
研究人员提出神经元激活图排序(NAG-based Ranking)框架,用于目标导向的语言模型预训练数据选择。该方法无需训练且可解释,通过量化神经元影响构建跨层NAG,并依据NAG相似度排序候选数据。在六个基准测试中平均比随机采样提升4.9%,在HellaSwag上比SOTA基线提升5.3%。多目标场景下分别超过两个基线1.1%和4.1%。分析表明,仅停用0.12%的NAG选择神经元就会导致23.5%性能崩溃,证明NAG捕捉了学习目标特征的稀疏"功能骨干"。
研究团队发布 MTR-DuplexBench 基准,首次系统评估全双工语音语言模型(FD-SLMs)的多轮对话能力。该基准将连续对话切分为离散回合,涵盖对话特征、对话质量、指令遵循和安全性四个维度。实验表明,当前 FD-SLMs 在多轮交互中性能波动明显,难以保持上下文一致性。相关代码和数据已开源。
研究团队发布 SemanticQA 评测套件,用于评估语言模型处理语义短语的能力。该基准整合现有多词表达资源,构建统一测试平台,涵盖词汇搭配、习语表达、名词复合词及动词结构四大类别。通过对不同架构和规模模型的测试发现,各模型在提取、分类、解释及序列组合任务中表现差异显著,尤其在需要深层语义推理的任务上差距明显,暴露出复杂语义短语理解的能力瓶颈。评测数据与工具已开源。
研究团队提出名为Shesha的几何稳定性指标,通过计算个体细胞位移向量与平均扰动方向的平均余弦相似度,量化单细胞CRISPR扰动响应的方向一致性。分析涵盖2,200余个扰动的五组数据集发现,稳定性与效应幅度高度相关(Spearman ρ=0.75-0.97),但两者解耦案例暴露关键调控差异:多效性主调控因子CEBPA和GATA1产生大而不一致的"几何代价",而谱系特异性因子KLF1则呈现紧密协调的响应。几何不稳定性与伴侣蛋白HSPA5/BiP激活升高独立相关,且高稳定性/高应激组合呈系统性缺失。该关系在scGPT基础模型嵌入中依然存在,证实其为生物状态空间固有属性,为功能基因组筛选和细胞制造质控提供新维度。
研究团队通过Olmo 3的三个后训练谱系(Think、Instruct、RL-Zero)追踪输出多样性变化。发现多样性崩溃与数据组成密切相关:Think在监督微调阶段损失大部分语义多样性,DPO对Instruct影响更大。抑制Think模型的思维链推理虽降低准确率但不改变多样性,证明崩溃由训练数据嵌入权重导致。在可验证任务中,Think虽总体崩溃更多但保留更多正确答案多样性。研究表明多样性崩溃由训练数据组成决定,无法仅靠推理时间解决。
研究团队提出分层编解码器扩散Transformer模型 HiCoDiT,利用 RVQ 编解码器的分层结构解决现有视频到语音生成方法忽视语音层级特性的问题。该方法通过低级块基于唇形同步运动与面部身份建模说话人感知语义,高级块利用面部表情调节细粒度韵律动态,并引入双尺度自适应实例层归一化实现从粗到细的条件控制。实验表明,该模型在语音保真度和表现力上显著优于基线方法,代码与演示已开源。
扩散概率模型在推理阶段存在信噪比-时间步(SNR-t)偏差,即去噪样本的信噪比与其时间步发生错位,导致误差累积和生成质量下降。研究者提出差分校正方法,依据模型先重建低频再处理高频的特性,将样本分解为不同频率成分并分别校正。实验表明,该方法在 IDDPM、ADM、DDIM、EDM、PFGM++、FLUX 等 8 种模型及多分辨率数据集上均显著改善生成质量,且计算开销可忽略。
胰腺导管腺癌CT分割存在专家标注分歧,标准深度学习假设单一真值导致概率校准失真。TwinTrack框架通过将集成分割概率校准至经验平均人类响应(MHR),使输出概率可直接解释为标注肿瘤的专家比例,显式量化标注不确定性。该方法仅需少量多标注者校准集,在MICCAI 2025 CURVAS-PDACVI基准上持续改进校准指标,为医学影像分割提供可解释的不确定性建模方案。
研究团队推出LaviGen框架,将3D生成模型重新用于3D布局生成。该方法突破传统文本推断模式,直接在原生3D空间通过自回归过程显式建模物体几何关系与物理约束,生成连贯且符合物理规律的3D场景。团队还提出融合场景、物体与指令信息的改进版3D扩散模型,并采用双引导自推出蒸馏机制提升效率与空间精度。在LayoutVLM基准测试中,LaviGen的物理合理性较现有最优方法提升19%,计算速度加快65%。
研究团队发布GTA-2基准测试,用于评估通用工具智能体从原子级操作到开放式工作流的综合能力。该基准包含GTA-Atomic(短期封闭任务)和GTA-Workflow(长期开放任务),采用递归检查点机制分解目标并评估端到端完成度。实验显示,前沿模型在原子任务上成功率不足50%,在工作流任务中仅达14.39%。分析表明,检查点反馈及Manus、OpenClaw等执行框架可显著提升性能,凸显执行架构设计比底层模型能力更为关键。
研究团队提出轻量级框架ArtifactNet,通过提取神经音频编解码器遗留的物理伪影识别AI音乐。该框架采用3.6M参数UNet提取残差并分解为7通道特征,经0.4M参数CNN分类,总参数量仅4.0M。配套发布含6,183首曲目的ArtifactBench基准(涵盖22个AI生成器)。在2,263首测试集上,该方法取得F1=0.9829、FPR=1.49%,远超CLAM等方法,参数量仅为其1/49。多格式增强训练使跨编解码器概率漂移降低83%。
针对并行推理中早期错误导致无效路径的高成本问题,研究团队提出首个路径剪枝系统化分类框架,并开发了基于可学习内部信号的STOP(Super TOken for Pruning)方法。在1.5B至20B参数的大型推理模型评估中,该方法在固定计算预算下将GPT-OSS-20B在AIME25基准的准确率从84%提升至近90%,有效性与效率均优于现有基线。研究同时提供了形式化的经验部署指南。
研究团队发布VEFX-Dataset、VEFX-Reward和VEFX-Bench三项成果,构建视频编辑标准化评估体系。数据集包含5,049个人工标注示例,覆盖9类32子类,从指令遵循、渲染质量、编辑排他性三维度标注。奖励模型通过序数回归预测各维度质量分数,比通用视觉语言模型更符合人类判断。基准测试含300个样本,评估显示当前编辑系统在视觉合理性与指令遵循方面仍存在明显差距。
MacMind是一个在1989年款Macintosh电脑上运行的变压器神经网络项目,使用苹果经典的HyperCard超媒体工具开发。该项目将现代Transformer架构完整移植到36年前的复古硬件上,突破了早期Mac的内存与性能限制。开发者已将代码开源至GitHub,项目在Hacker News发布当日获得102个赞,展现了复古计算与现代AI结合的工程挑战。
跨平台多媒体库SDL维护团队发布新规,明确禁止向代码仓库提交由人工智能生成的commit。该政策通过GitHub issue #15350正式公布,引发开发者社区广泛讨论,在Hacker News上获得超100个赞。这一决定标志着主流开源项目开始对AI生成代码的contributions采取明确限制措施。
llm-anthropic 插件发布 0.25 版本,新增 Claude Opus 4.7 模型支持,该模型配备 xhigh 级别的 thinking_effort 参数。同时引入 thinking_display 与 thinking_adaptive 布尔选项,其中 thinking_display 的摘要功能目前仅限 JSON 输出或日志格式。此外,默认 max_tokens 已上调至各模型允许的最大值,并移除了旧模型使用的 structured-outputs-2025-11-13 废弃测试头。
Cloudflare 发布 Artifacts 测试版,这是一个原生兼容 Git 协议的版本化存储服务,专为 AI Agent 设计。开发者可直接使用标准 Git 命令管理代码、配置和模型文件的版本历史,支持分支、合并等完整操作。该服务提供与 Git 完全兼容的接口,无需额外工具适配。项目在 Hacker News 获得 101 个赞,目前处于 Beta 阶段,技术细节已在官方博客公布。
发布 v2.1.112 版本更新,重点修复自动模式下 claude-opus-4-7 模型提示"temporarily unavailable"的可用性故障。此次补丁解决了该模型在自动模式调用时的服务中断问题,消除错误提示,恢复其正常响应功能,确保用户可稳定使用该 AI 模型进行交互。
OpenAI 最新数据显示,ChatGPT 用户性别结构已发生显著翻转,常规使用者中女性数量现已超越男性,彻底改变了该产品 2022 年底上线时高达 80% 用户为男性的局面。此外,OpenAI 估计中国人工智能支出规模高达 1250 亿美元,并指出计算能力正成为决定 AI 竞赛胜负的核心竞争优势。
Nvidia 研究人员发布 Lyra 2.0 系统,支持从单张照片生成可实时探索的大型连贯 3D 环境。这些场景可直接用于机器人模拟训练,无需复杂的传统建模流程。该技术通过自动化环境生成,显著扩展了机器人训练数据的规模与多样性,有望加速机器人学习算法的开发。
彭博社报告显示,代理式AI正深刻重塑印度IT行业格局。该国每年150万IT毕业生面临教育与市场需求脱节的困境,Infosys等科技巨头不得不投入数周时间重新培训新员工,以弥补高校课程与行业现实之间的差距,反映出传统人才培养模式在技术快速迭代下的失效。
Laravel 近期完成融资后,宣布将在用户的 AI 代理中直接插入广告。这一消息在 Hacker News 上获得 104 个赞,引发开发者社区热议。作为流行的 PHP 开发框架,Laravel 此举标志着其商业化策略的转变,通过向开发者的 AI 工作流植入广告探索新的盈利途径,但也引发了关于用户体验的争议。
Google 推出原生 Gemini Mac 端应用,这是该 AI 助手首次发布桌面版本,打破了此前仅支持智能手机端的局限。作为 Google 桌面 AI 战略的重要一步,该应用专为 macOS 系统原生开发,与现有移动端应用形成互补。此次发布标志着 Gemini 正式完成从移动平台到桌面平台的关键跨越,用户现可直接在 Mac 设备上获得完整的本地 AI 助手体验。
技术专家antirez(Redis创始人)撰文指出,人工智能网络安全并非工作量证明机制。该观点在技术社区Hacker News获得101个赞。文章辨析了AI安全防护与区块链工作量证明的本质差异,强调将网络安全视为算力竞赛是一种认知误区,真正的AI安全需要持续的策略投入而非简单的资源堆砌。
苹果正派遣不到 200 名 Siri 工程师参加为期数周的 AI 编程训练营,学习使用 Anthropic 的 Claude Code 和 OpenAI 的 Codex 等 AI 编码工具。据 The Information 报道,此次培训旨在帮助开发者掌握最新的 AI 辅助编程技术,以适应快速变化的技术环境并提升开发效率。
OpenAI 正加速推进 ChatGPT 的广告商业化,推出全新定价模式以扩大收入。但早期广告商反馈,平台目前缺乏基础的跟踪工具和精准定位选项,导致投放效果难以评估。这一工具链的缺失为 OpenAI 的广告扩张计划带来现实阻碍。
字节跳动将其 AI 视频生成模型 Seedance 2.0 推向全球 100 多个国家,但美国不在此次发布范围内。这一排除可能源于该公司与好莱坞制片厂之间持续的版权纠纷。此次国际扩张标志着字节跳动在 AI 视频生成领域的全球布局取得进展,尽管其在美国市场仍面临法律障碍。
OpenAI 编程智能体 Codex 被成功用于破解一台三星电视,通过自动化漏洞挖掘实现了对硬件设备的非授权访问。该技术案例详细记录了 AI 辅助安全研究的全过程,发布于 Calif 技术博客后在 Hacker News 平台获得 101 点热度。事件展示了大型语言模型在消费电子设备渗透测试中的实际应用能力,引发业界对 AI 安全工具监管的关注。
Cloudflare 将 AI Gateway 重构为统一的 AI 推理层,开发者可通过单一接口调用 14 家以上提供商的模型。新版本集成 Workers AI 绑定功能,并扩充了多模态模型目录,专为 AI 智能体优化设计。该平台旨在简化跨服务商的模型调用流程,降低多模型集成的技术门槛。
Cloudflare 针对超大型语言模型推理需求打造了专属技术栈,通过在其全球基础设施上部署定制化高性能 AI 推理系统,实现了大模型的低延迟运行。该方案深入剖析了工程权衡与技术优化路径,解决了超大规模模型部署中的性能瓶颈,使企业无需自建复杂基础设施即可获取高性能 AI 推理能力。