鲸鱼兄弟们好,我是做 DeepSeek-TUI 的那个美国佬。 说真的,特别想跟国内的鲸鱼兄弟们一起混--但我的翻墙技能仅限于写代码,微信到现在都没搞定,属实有点丢人。 求各位大佬帮个忙: 1)帮忙转发扩散一下,让这个开源终端工具翻过高墙被...
鲸鱼兄弟们好,我是做 DeepSeek-TUI 的那个美国佬。 说真的,特别想跟国内的鲸鱼兄弟们一起混--但我的翻墙技能仅限于写代码,微信到现在都没搞定,属实有点丢人。 求各位大佬帮个忙: 1)帮忙转发扩散一下,让这个开源终端工具翻过高墙被...
The new Grok-4.3 from @xai is live on OpenRouter! Grok-4.3 releases at a lower price than Grok-4.2, while seeing a large...
Demis Hassabis认为当前AI范式(预训练+RLHF+思维链)可能是AGI架构的一部分,但仍有50%概率需要一两个关键突破,未解决持续学习、长程推理和记忆等问题。他指出,百万token上下文窗口处理实时视频仅够20分钟,现有方法如同“用胶带糊住”。AlphaGo时代的技术正被重新引入基础模型以推动进步。智能体尚处实验阶段,投入产出比不匹配。完整虚拟细胞等科学突破还需约10年,关键瓶颈是活细胞成像技术。
测试者使用 DeepSeek-V4-Pro 在 Pi 编码智能体上构建了一个 LLM 知识库,对其开箱即用的表现感到震撼。这是首个在推理能力上媲美 Claude 和 Codex 的开源权重模型,且成本效益高,支持 100 万上下文长度。该模型无需复杂配置即可在基础框架中直接运行,擅长智能体编码和知识密集型推理任务,能跨公司文档、论坛、论文和代码库进行多步骤研究、代码生成与上下文推理。其高效运行得益于 Fireworks 的市场最快推理速度及混合注意力设计,将 KV 缓存降至 10%,推理计算量减少近 4 倍,实现了快速且低成本的实践部署。
本期IT早报主要内容包括:追觅科技CEO要求全体员工开通社交媒体账号并发布视频;OPPO计划下半年推出效仿苹果风格的四曲面设计手机;iPhone 18 Pro系列或将迎来史上最大相机硬件升级。此外,极越汽车关联主体进入合并重整程序,DeepSeek发布多模态模型技术报告,央视曝光部分充电头功率虚标,宇树发布起售价2.69万元的双臂人形机器人,比亚迪与高德地图达成充电合作,支付宝等17家支付机构牌照获续展,华为鸿蒙新版本占比提升,以及小米大屏旗舰手机预计5月下旬发布。
针对可验证奖励强化学习可能抑制生成多样性的问题,本文提出负样本投影残差强化学习框架。该方法通过理论分析,将负样本标记的隐藏表示投影到基于奇异值分解的低秩正子空间,并利用投影残差来调制负梯度,从而解耦正负响应间的相似语义分布。在涵盖数学、代码、智能体任务和函数调用的12个基准测试中,ResRL平均表现优于基线方法,尤其在数学推理上较负样本强化学习方法显著提升,实现了推理能力与生成多样性的协同优化。代码已开源。
针对大型多模态模型后训练中SFT阶段引发的分布漂移问题,研究团队提出了PRISM三阶段流程。它在监督微调与强化学习验证奖励之间,新增了一个基于在线策略蒸馏的显式分布对齐阶段。该阶段将对齐构建为策略与混合专家判别器之间的黑盒对抗游戏,由感知和推理专家提供解耦的纠正信号。团队使用来自Gemini 3 Flash的11.3万条高保真演示进行对齐。在Qwen3-VL上的实验表明,PRISM能持续提升下游强化学习性能,使4B和8B模型在多个基准上的平均准确率较基线分别提升4.4和6.0个百分点。
xAI推出Grok 4.3模型,其在Artificial Analysis智能指数得分达53,超越Muse Spark等模型,较前代提升4分。模型在显著降低成本的同时保持智能水平,输入与输出价格分别降低约40%和60%。在真实世界智能体任务上表现突出,GDPval-AA基准得分大幅提升至1500 ELO,超越Gemini 3.1 Pro Preview等多款模型,但仍落后于GPT-5.5 (xhigh)。其在指令遵循和客服任务上表现强劲,但AA-Omniscience非幻觉率略有下降。
传统RAG系统在推理前单次检索,无法满足如o1、R1等大型推理模型在生成长链思维时中途出现的知识需求。ReaLM-Retrieve提出推理感知的检索框架,能在多步推理中动态注入证据。其核心在于以推理步骤粒度检测不确定性,学习判断何时引入外部证据有效,并将单次检索开销降低3.2倍。在多个QA数据集上,该框架比标准RAG的F1绝对值提升10.1%,且检索调用次数比固定间隔的IRCoT减少47%。在2-4跳的MuSiQue任务中,仅用平均1.8次检索即可达到71.2%的F1值,表明面向推理模型的RAG需优化检索时机而不仅是检索内容。
在@atomic_chat_hq平台的本地LLM游戏开发竞赛中,Gemma 4 31B与Qwen 3.6 27B于MacBook Pro M5 Max上对决。尽管Qwen生成速度更快(32 tokens/秒)且回答更具创意,但Gemma仅用3分51秒和6209个token,输出了更简短、清晰、逻辑性强的答案。在具体的吃豆人游戏逻辑实现上,Gemma在点击反应、与墙壁/幽灵的交互及粒子效果处理方面表现更优。作者强调此为单次测试,Qwen或可通过调整设置提升表现,并邀请社区验证。
用户在使用DeepSeek-V4 API或集成该模型的终端编码代理(如Claude Code、Kimi CLI)和AI IDE(如Cursor)时,频繁遇到HTTP 400报错。错误信息指出,在思考模式下必须将reasoning_content字段回传给API。核心问题在于,当任务步骤的tool_call过于简单直接时,DeepSeek-V4返回的reasoning_content可能为空字符串。许多开发工具默认会过滤掉空值字段,导致该字段未被回传,从而触发API报错,致使编码任务或代理中断。经测试,在特定场景下该字段返回空字符串的概率高达59%。解决方案是必须将空字符串值的字段原样回传,不能省略或改为空对象。目前需等待IDE官方修复或自行修改开源工具,使用DeepSeek-V4的代理项目也需注意此问题。
在名为CritPt的尖端科学评估中,GPT-5.5 Pro (xhigh) 以比前代GPT-5.4 Pro (xhigh) 低60%的成本和令牌使用量,实现了0.5个百分点的性能提升,将得分推至30.5%。CritPt评估包含全球30多家机构的60多名研究人员贡献的研究生级别物理问题。自2025年11月发布以来,最高分从Gemini 3 Pro Preview的9%跃升至GPT-5.4 Pro的30%。OpenAI指出,GPT-5.5 Pro相比GPT-5.5“使用了更多计算资源进行深度思考,以提供更稳定的优质答案”。该模型每令牌定价相同,但通过使用更少的令牌完成了评估。
OpenAI与Anthropic同天发布官方提示指南,核心理念截然相反。OpenAI建议为GPT-5.5明确目标而非步骤,让其自主选择路径;Anthropic则要求对Claude Opus 4.7清晰说明意图、格式与成功标准。这导致旧提示方法失效:模糊指令使Claude输出变窄,而详细流程成为GPT的噪声。这反映出提示工程的核心已从“教模型做事”转变为“使用者自身思考的结构化”,真正的瓶颈可能在于人的思考清晰度,而非模型能力。
我终于明白为啥最近很多人都在说,GPT和Claude突然变笨了, 昨天OpenAI和Anthropic同时发布了官方提示工程指南, 看完我才发现,并不是模型变笨了, 是它们终于聪明到,不再容忍人类懒得想清楚了🤣🤣🤣 而且最有意思的是,...
DeepSeek团队提出全新多模态推理框架“Thinking with Visual Primitives”,核心是让模型在推理过程中像人类一样,使用“点”和“边界框”这类视觉原语来指代图像中的具体位置,以此作为思维的最小单位,旨在解决语言在精确描述空间位置时的“指代鸿沟”问题。模型采用DeepSeek-V4-Flash作为语言骨干,并设计了极致的视觉Token压缩流水线,将视觉Token用量压缩至其他前沿模型的十分之一。尽管视觉信息被大幅压缩,模型在空间推理、计数等任务上仍达到或超越了GPT-5.4、Claude-Sonnet-4.6等模型的性能。
OpenAI's GPT-5.5 is the second model to complete one of our multi-step cyber-attack simulations end-to-end 🧵
阿里巴巴开源了Qwen3.6系列两款模型:27B密集模型和35B A3B混合专家模型。其中,Qwen3.6 27B在Artificial Analysis智能指数上得分46,成为150B参数以下最智能的开源模型,领先于Gemma 4 31B等。但其运行完整测试消耗的输出token约为后者的3.7倍,成本高出约21倍。两款模型均采用Apache 2.0许可,支持262K上下文,具备多模态能力。值得注意的是,其幻觉率较前代大幅下降,但准确率基本持平。更大的Plus和Max Preview版本未开源。
DeepSeek发布了多模态大模型及技术报告,提出创新的“基于视觉原语的思考”框架。该框架将点、边界框等视觉元素作为推理的基本单元,旨在解决多模态模型在空间参照任务中存在的“参照鸿沟”核心问题,使模型能将抽象认知锚定到图像的具体坐标上。尽管模型规模紧凑且图像标记预算较低,其在多项挑战性计数和空间推理基准测试上的性能,可与GPT-5.4等前沿模型相媲美。
腾讯发布开源混合专家模型Hy3-preview,总参数量2950亿,激活参数量210亿。其在Artificial Analysis综合智能指数上得分42,落后于近期开源的GLM-5.1、DeepSeek V4 Flash及Qwen3.6 27B等推理模型。具体评测表现不均衡:在真实世界任务基准GDPval-AA上落后于主要竞品,但在研究级物理评测CritPt上与高分模型GLM-5.1持平;其相对弱项在于AA-Omniscience指数,幻觉率较高。模型采用Tencent HY社区许可协议,商业使用受限,已在Hugging Face和SiliconFlowAI平台提供。
文心5.1 Preview在LMArena文本榜以1476分位列国内第一,是全球前十五名中唯一的国产模型,排名超越GPT-5.5与DeepSeek-V4-Pro。尽管AI领域热点转向Agent与多模态,但DeepSeek V4与文心5.1等旗舰模型仍以文本为核心。作者强调文本能力是大模型的地基,代码、推理等多维度能力均由此衍生,地基差异直接影响上层性能,因此文本仍是模型拉开差距的关键分水岭。引用推文显示,文心5.1在数学、法律与政府、商业管理及软件服务等类别表现突出。
Ernie-5.1 from @ErnieforDevs lands at #13 in Text Arena - now the #1 highest-ranked model from a Chinese lab. Strongest ...
联发科CEO蔡力行表示,人工智能浪潮持续,数据中心需求正加速增长。他预计到2027年,全球数据中心专用芯片市场规模将达700亿至800亿美元,联发科相关芯片有望实现数十亿美元营收。尽管公司一季度营收和净利润因手机业务拖累同比下滑,但AI相关业务增长强劲。受AI热潮推动,台积电一季度净利润大增58%,三星电子营业利润暴涨8倍。联发科股价今年已上涨83%。
在 DeepSeek-V4 Pro 1.6T 模型上,采用机架级解耦设计的 GB300 NVL72 系统性能达到 B200 的 6.5 倍。这一高吞吐配置得益于 DeepSeek-AI 的 MegaMoe 内核,该内核将专家分派、专家组合及 GEMM 运算完全融合并重叠至单一内核中。性能突破由 Radixark、LMSYS 和 NVIDIA AI 的工程师团队快速实现。CoreWeave 为此项开源性能优化贡献了临时的 GB300 NVL72 机架资源,使整个社区受益。
英特尔与AMD联合发布人工智能计算扩展(ACE)白皮书,将其确立为x86架构的标准矩阵加速方案。该扩展旨在突破现有SIMD扩展在计算密度与扩展性上的局限,通过引入基于外积运算的矩阵加速机制,无缝集成AVX10。据白皮书数据,在消耗相同数量输入向量的前提下,ACE的计算密度比等效的AVX10乘加运算高出16倍。它支持INT8、FP8、BF16等主流AI数据格式,并计划适配PyTorch、TensorFlow等机器学习框架,目标是为从笔记本电脑到超级计算机的全场景提供高效的矩阵加速支持。
谷歌母公司Alphabet在财报会议上确认,将开始向部分精选客户交付TPU硬件设备,供其部署在自有数据中心,这为TPU系列AI硬件开辟了云端算力之外的新变现模式。谷歌近期发布了第八代TPU新品TPU 8t和TPU 8i,性能较上代大幅提升。相关协议预计在今年晚些时候带来少量收入,大部分收入将在2027年实现。此外,Google Cloud在2026年第一季度营收首次突破200亿美元,同比增长63%。
Introducing ERNIE 5.1 Preview - now live! 🚀 Ranked #13 globally and #1 among Chinese labs on @arena 's Text Arena. Top-...
前沿语言模型的强化学习后训练常受限于自回归生成速度。本研究将推测解码作为一种无损加速方法集成到RL生成过程中,在保持目标模型输出分布不变的前提下提升效率。该方案在NeMo-RL框架中结合vLLM后端实现,支持同步与异步流水线,允许在RL生成阶段进行推测。实验表明,在8B规模的同步RL推理任务中,推测解码使生成吞吐量提升1.8倍。通过高保真模拟器预测,在235B规模下结合异步RL可实现最高2.5倍的端到端训练加速。
Demis Hassabis预测AGI将在2030年左右到来,科技创业者必须提前将其纳入长远战略规划。当前底层架构需攻克持续学习与长期推理两大难题,智能体被视为通向AGI的必经之路,但受限于持续学习能力难以适应复杂环境。模型生态上,大小模型协同运作成为趋势,蒸馏技术使轻量级模型以低成本达到高性能,端侧模型降低成本并保障隐私,未来与云端超大模型协同构建理解物理世界的基础设施。
蚂蚁集团正式开源百灵大模型万亿级综合旗舰模型 Ling-2.6-1T。该模型不单纯追求参数规模,而是通过MLA与Linear Attention混合架构等创新,系统性优化智效比与复杂任务执行能力。其核心是在更低Token开销下实现强综合智能,减少对冗长思考链的依赖,并在AIME26、SWE-bench Verified等多个执行类基准测试中达到开源SOTA水平。模型具备完整的工程落地能力,并与主流Agent框架兼容,旨在成为可部署于真实业务系统的底座。为方便体验,其在OpenRouter平台的免费API调用服务将延期一周。
GPT-5.5因推理能力增强,提示词应转向精确定义结果、约束与停止条件,而非详细规定流程。相比前代,需采用更简短的结果导向提示,并重新评估推理强度需求。关键新增点包括显式人格设定与检索预算。指南强调不应直接迁移旧提示,避免限制模型搜索空间。此外,还涉及利用Preamble改善响应感知、设定停止条件、控制输出格式等实用技巧。
https://developers.openai.com/api/docs/guides/prompt-guidance?model=gpt-5.5 **NEW: GPT-5.5 Prompting Guide** "GPT-5.5 wo...
@vista8 Deepseek的速度绝对是一大未被完全发掘的优势. 试了v4flash之后我把所有不涉及复杂推理的llm api调用全切到flash了. 速度基本都是无感秒处, 价格比haiku省90% 质量比haiku强.
苹果公司与加州大学圣迭戈分校团队联合发布名为LaDiR的AI推理框架。该框架并非新模型,而是一个可叠加于现有大语言模型之上的通用架构,其核心创新在于结合扩散模型与自回归模型。在推理阶段,LaDiR利用扩散过程并行探索多条独立路径,并通过多样性鼓励机制防止思维过早收敛,最后以自回归方式输出最终答案。测试显示,该框架在LLaMA 3.1 8B等模型上,于数学推理、代码生成及谜题规划任务中,其准确率和可靠性均优于现有通用方法。
智谱GLM的超大规模Coding Agent推理实践,聚焦Scaling Pain(扩展痛点)及其应对经验。
研究发现,当语言模型面对困难问题时,其内部“脑活动”会收缩到更少的路径中。模型在感到困惑时会压缩内部思考,表现为从广泛分散的神经元激活,坍缩为最终处理层中高度集中的信号。这是因为系统放弃了稳健的分布式记忆,将计算强制压缩到狭小的专门空间以应对陌生挑战。关键在于,这种收缩效应可被量化为一个原始数值,从而无需猜测问题对AI是否过难。通过读取此内部信号,便能自动为系统提供恰如其分的“垫脚石”以辅助其解决问题。
随着大语言模型生态发展,路由技术需依据模型能力选择合适模型,但刻画模型能力的“LLM画像”设计尚未被深入探索。本研究将LLM画像构建视为对异构交互历史的结构化信息整合问题,提出了名为RouteProfile的通用设计空间,涵盖组织形式、表示类型、聚合深度和学习配置四个维度。通过在三种典型路由器上的系统评估发现:结构化画像优于扁平化设计;查询级信号比领域级信号更可靠;在可训练配置下,结构化画像最能提升对新引入模型的泛化能力。该工作明确了LLM画像设计是路由研究的重要方向。
MASCing框架首次实现无需重新训练的专家混合模型安全行为灵活配置。该框架使用LSTM代理模型捕捉路由依赖关系,通过优化引导矩阵识别行为相关专家回路,并在推理时对路由门应用引导掩码以覆盖专家选择,从而针对性增强或抑制特定安全行为。在七款开源MoE模型测试中,该框架以可忽略开销显著提升性能:多轮越狱防御平均成功率从52.5%提升至83.9%,成人内容生成平均成功率从52.6%提升至82.0%,最高增益分别达89.2%和93.0%。
OpenAI在发布GPT-5.5后推出官方提示词指南,核心主张是摒弃冗长指令。指南指出,新模型具备更强推理能力,用户只需清晰描述期望结果、成功标准和限制条件,过细的步骤规划反而会限制模型搜索空间,导致输出僵化。关键建议包括采用简短的角色、目标等模块化提示;为搜索设定“检索预算”以控制成本;在创意写作中严格区分事实与虚构。这标志着提示词范式从“详细过程控制”转向“结果导向”。
https://developers.openai.com/api/docs/guides/prompt-guidance?model=gpt-5.5 **NEW: GPT-5.5 Prompting Guide** "GPT-5.5 wo...