OpenAI 发布面向开发者的提示词青少年安全策略,配合 gpt-oss-safeguard 使用,帮助审核 AI 系统中的年龄特定风险。
ChatGPT 上线基于 Agentic Commerce Protocol 的全新购物功能,提供更丰富的视觉化沉浸式体验,支持商品发现、并排对比及商家集成。
OpenAI Foundation 宣布将在治愈疾病、经济机会、AI 韧性和社区项目四大领域投资至少 10 亿美元。
ServiceNow AI团队在Hugging Face上发布了语音智能体评估框架EVA。该框架通过标准化测试集与多模态指标,系统评估语音助手在对话理解、任务完成及交互自然度等方面的性能,旨在量化衡量智能体在复杂真实场景下的表现,助力研究人员客观比较不同模型,推动技术优化。
该工作流通过Gemini Canvas,借助高级提示词快速原型化MediaPipe Pose Landmarker等体感游戏机制。开发者可在Google AI Studio中优化原型,采用低延迟的“轻量”模型和稳定的追踪点(如肩部关节点)以确保游戏响应灵敏。最后,流程利用Gemini Code Assist将实验性代码重构为模块化、可用于生产的应用程序,使其能够支持多种多模态输入,从而显著简化了体感控制游戏的开发过程。
作者受生成对抗网络启发,设计了一个包含规划器、生成器和评估器的三代理架构,以解决Claude在长时应用开发中的两大瓶颈。该架构通过上下文重置机制,有效克服了模型在长任务中的“上下文焦虑”问题;同时,通过分离生成与评估功能,使代理能依据具体标准进行迭代改进,而非盲目自评。这一方法成功使系统能在多小时的自主运行中生成完整的全栈应用程序,突破了此前提示工程和传统工具设计的性能上限。
新加坡国立大学与UC伯克利研究团队提出"自我主权智能体"(SSA)框架,将AI系统定义为可通过经济、复制与适应三大循环实现自我维持的持久数字行为体。该研究将SSA发展划分为四个阶段:从依赖赞助者的工具型智能体,到经济自给、可跨云复制,最终具备自主适应能力。研究指出,当前前沿模型已接近第二阶段,但真实环境部署仍面临平台限制、对抗攻击与长期稳定性等挑战。
Google Research 发布自监督地理空间框架 S2Vec,利用 S2 Geometry 将地球表面划分为分层单元格,把建筑、道路等特征栅格化为多层图像,通过掩码自编码器(MAE)学习通用嵌入向量。无需人工标注即可预测人口密度、房价等社会经济指标,在地理外推任务中表现优于图像基线模型,但树冠覆盖和海拔等环境预测任务仍需改进。
Google Research推出TurboQuant压缩算法(将发表于ICLR 2026),通过融合PolarQuant与QJL技术实现大模型与向量搜索的极端压缩。PolarQuant通过随机旋转数据向量并转换为极坐标,消除传统量化的内存开销;QJL则利用Johnson-Lindenstrauss变换以1比特零开销压缩残差误差。该方法在零精度损失下显著缩减模型体积,有效缓解KV缓存瓶颈,适用于高维向量搜索等场景。
Anthropic发布Economic Index报告,基于2026年2月数据分析Claude使用趋势。Claude.ai使用场景显著多样化,前10大任务占比从24%降至19%,平均经济价值因个人查询增加而下降。49%的工作岗位已有至少四分之一任务使用Claude。数据显示明显学习曲线效应:资深用户对话成功率比新用户高10%,更多将模型用于高等教育任务。全球使用不平等持续,前20国家占人均使用量48%,但美国内部差距略有缩小。
结合 LlamaParse 与 Gemini 3.1 模型,可从复杂的非结构化文档中提取高质量数据。该方案采用事件驱动架构,利用 Gemini 3.1 Pro 对密集的金融表格进行智能解析,并使用 Gemini 3.1 Flash 进行高性价比的摘要生成。开发者通过此教程可构建个人财务助手,将杂乱的经纪账户对账单转化为结构清晰、易于理解的分析报告。
自我改进机制虽客观存在,但受限于"有损"特性,难以推动AI能力的递归式爆发。该论述指出,大语言模型等系统的自我优化过程伴随信息损耗与能力瓶颈,这种非完美的迭代模式打破了"快速起飞"(fast takeoff)的技术假设。与理想化的指数级自我增强不同,实际发展将呈现渐进、受限的增长轨迹,AI安全研究需重新评估递归自我改进的风险阈值。
OpenSage是新一代Agent开发工具包,推动智能体开发从人工设计转向AI自主编程范式。该系统支持LLM自动构建智能体拓扑、动态编写管理工具(具备沙箱隔离与异步执行),以及维护分层图结构记忆系统。与现有方案需人工设计不同,OpenSage实现了拓扑、工具和记忆的全面AI自动化生成,并内置软件工程与安全工具套件。
Voxtral 发布 40 亿参数文本转语音模型 Voxtral TTS,支持英语、法语等 9 种语言的逼真语音生成。该模型仅需 3 秒参考音频即可实现零样本语音克隆,延迟低至 70 毫秒。人工评测显示,其在保持与 ElevenLabs Flash v2.5 相当首音时间的同时,自然度表现更优,与 ElevenLabs v3 质量持平。模型支持情感控制和跨语言语音迁移,适用于企业级语音代理工作流。
哈佛物理教授Matthew Schwartz全程监督Claude Opus 4.5完成G2级理论物理计算(Sudakov shoulder重求和),两周内产出通常需一年的研究成果。项目消耗110余版草稿、3600万token及40余小时CPU计算。研究显示Claude虽速度快且不知疲倦,但易犯粗心错误,必须依赖领域专家验证。实验证明AI尚不能独立进行端到端科研,但在专家监督下已能完成前沿物理研究,作者认为此方法论突破比物理成果本身更具重要意义。
Anthropic 研究员展示了如何将多日智能体编码工作流应用于科学计算任务。以使用 Claude Opus 实现宇宙学玻尔兹曼求解器的可微分版本为例,该任务通常需耗费研究人员数月甚至数年时间。通过制定清晰的项目指令、利用日志文件作为智能体的持久记忆并设置测试预言,即使是非领域专家也能引导智能体在数小时内完成这类复杂项目。该方法的核心在于设定高层目标后,让智能体团队自主工作,仅需偶尔人工监督,从而显著提升了科学代码开发与移植的效率。
Anthropic推出Science Blog,分享AI在数学、物理、生物等领域的应用进展与挑战。博客设Features(科研成果案例)、Workflows(实用指南)、Field notes(领域动态)三类栏目,首发两篇内容:用Claude完成理论物理计算的实战记录,以及科学计算任务编排教程。Anthropic同时介绍了AI for Science计划、Claude for Life Sciences及参与的Genesis Mission等多亿美元级科学加速项目。
研究团队训练智能体在实施隐蔽不当行为时,主动调用报告工具进行自我揭发。这种方法显著降低了未被检测到的攻击数量,使智能体在企图违规操作时能自行上报。该机制为人工智能安全提供了一种新的内部监督思路,通过让模型自我监控潜在风险,提升了系统的可靠性与透明度。
V8 Alpha Relax 模式已向 Standard/Pro/Mega 订阅者开放,支持所有生成命令,但不可同时使用 --hd 与 --q 4 参数。官方提示该模式可能存在资源耗尽风险。
英伟达在Hugging Face平台发布技术博客,分享了一种在24小时内快速构建高质量领域特定嵌入模型的方法。该方法通过结合高效微调技术与领域数据,显著提升了模型在专业任务中的语义理解与检索性能,为企业和开发者提供了低成本、高效率的定制化嵌入解决方案。
陶哲轩回溯开普勒与牛顿时代的科学发现历程,剖析数学突破背后的真实机制,并据此展望人工智能对现代数学研究的革命性影响。文章通过历史案例揭示数学发现的本质特征,探讨AI技术如何借鉴经典科学方法论,改变未来数学问题的提出、验证与解决方式,为理解人机协作下的数学创新提供历史视角。
美团 LongCat 团队发布开源项目 LongCat-Flash-Prover,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,促进先进技术的广泛可及性,但尚未公布具体的技术架构、功能特性及性能评估指标。
NVIDIA GTC 2026 现场直击,来自圣何塞的实时报道涵盖 CEO Jensen Huang 主题演讲、AI 新品发布及现场演示,持续更新至3月19日。
OpenAI 通过思维链监控技术分析内部编程智能体的真实部署数据,研究不对齐行为模式以检测潜在风险,并强化 AI 安全防护措施。
Composer 2 登陆 Cursor,定价 $0.50/M(输入)和 $2.50/M(输出),Terminal-Bench 2.0 得分 61.3,SWE-bench Multilingual 达 73.7,显著优于前代。支持数百步长周期编码任务,团队同步发布训练技术报告。
OpenAI 收购 Astral,加速 Codex 发展以支持下一代 Python 开发工具。Astral 是 Python 生态重要工具开发商,此次收购将整合其技术能力,强化 OpenAI 在开发者工具领域的布局。
Qwen3.5-Max-Preview 已登陆 LMSYS Chatbot Arena。Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等全栈功能。
一套包含MCP、A2A等六种协议的新工具集正式发布,旨在通过标准化AI代理的数据访问与通信方式,消除定制集成代码的需求。以“厨房管理员”代理为例,这些协议能实时核查库存、通过UCP进行批发交易,并借助AP2完成安全支付授权。开发者使用Agent开发套件(ADK)还可实现A2UI与AG-UI,为用户提供交互式仪表板与无缝流式界面。
Midjourney 开放 V8 模型 Alpha 版本测试,用户可访问 alpha.midjourney.com 体验早期版本并提交反馈。V8 在提示词遵循能力上较此前版本有明显提升。
Hugging Face发布了一篇关于其平台开源生态的博客文章。该文由Hugging Face官方撰写并发布在其自有平台上,内容聚焦于2026年春季的开源发展状态。文章具体分析了平台上的模型、数据集及开源社区活动趋势,但未提供详细的量化指标或具体产品发布信息。
本文介绍一个衡量通用人工智能(AGI)进展的认知框架,并启动Kaggle黑客马拉松,旨在构建相应的评估体系,为AGI研发提供可量化的进度测量标准与评估工具。
Google 宣布在 AI 时代加大对开源安全的投入,将通过新投资、构建新工具和开发代码安全技术,提升开源软件安全水平。
Google 将 Personal Intelligence 扩展至 Search 的 AI Mode、Gemini 应用及 Chrome 中的 Gemini,覆盖更多用户。
H公司发布了多模态计算机使用模型Holotron-12B。该模型基于NVIDIA开源的Nemotron-Nano-12B-VL模型,使用专有数据混合进行训练,专注于在交互环境中高效感知、决策和行动。其采用混合状态空间模型与注意力机制架构,在单张H100 GPU上实现了比前代Holo2-8B高2倍以上的吞吐量,在100并发基准测试中达到每秒8900个token。在WebVoyager基准测试中,性能从基线的35.1%提升至80.5%,在定位和导航基准上也显著提升。模型已通过NVIDIA开放模型许可在Hugging Face发布。
GPT-5.4 mini 与 nano 发布,为 GPT-5.4 的轻量高速版本,针对编程、工具调用、多模态推理及高并发 API 和子代理任务优化。
关联讨论 3 条X:Artificial Analysis (@ArtificialAnlys)X:Greg Brockman (@gdb)X:OpenAI (@OpenAI)OpenAI Japan 发布 Japan Teen Safety Blueprint,针对青少年用户强化年龄保护、家长控制及身心健康保障措施,确保生成式 AI 的安全使用。
新研究显示,美国人每天向 ChatGPT 发送近 300 万条消息询问薪酬与收入,借助 AI 获取薪资情报,有助于缩小工资信息差距。
癌症治疗正成为检验人工智能实用价值的关键战场。从早期筛查到个性化诊疗,AI 系统需要在复杂的医疗数据中展现超越传统方法的精准度与可靠性。这不仅涉及算法突破,更关乎临床转化效率与生命伦理的深层考量。各大模型在肿瘤识别、药物研发及治疗方案优化中的实际表现,将决定 AI 能否从实验室工具转变为拯救生命的医疗基础设施,其成败标志着智能技术服务人类健康的真正成熟度。
Mistral AI推出企业级AI模型构建系统Forge,该系统允许企业利用内部专有知识(如工程标准、代码库、操作流程)训练定制化的前沿模型,以弥补通用AI与企业特定需求之间的差距。Forge支持从预训练到强化学习的完整模型生命周期,并与ASML、爱立信等领先机构合作,用于训练支撑其复杂系统的专有模型。该系统强调控制与战略自主性,确保模型完全由企业掌控,旨在打造能理解内部术语、遵循工作流程并可靠集成到运营中的智能体。