DeepSeek团队提出全新多模态推理框架“Thinking with Visual Primitives”,核心是让模型在推理过程中像人类一样,使用“点”和“边界框”这类视觉原语来指代图像中的具体位置,以此作为思维的最小单位,旨在解决语言在精确描述空间位置时的“指代鸿沟”问题。模型采用DeepSeek-V4-Flash作为语言骨干,并设计了极致的视觉Token压缩流水线,将视觉Token用量压缩至其他前沿模型的十分之一。尽管视觉信息被大幅压缩,模型在空间推理、计数等任务上仍达到或超越了GPT-5.4、Claude-Sonnet-4.6等模型的性能。
关联讨论 2 条X:歸藏 (@op7418)DeepSeek:GitHub 新仓库当前AI Agent产品的交互主要分为两类:一是以Agent为中心,如Cursor的Agent模式和Codex,界面以对话列表指挥AI为主,手动修改为辅;二是以人操作为主、Agent为辅助,如GitHub Copilot,在传统软件界面旁增设侧边栏。设计者需首先明确软件是以Agent为核心还是辅助,否则易导致交互混乱。有观点指出,交互形式三年多来革新缓慢,关键在于缺乏对Agent从“无状态”到“有状态”处理的基础设施支持,状态机抽象有望推动交互设计丰富化。
为什么从gpt到现在已经三年多了 还是这种交互 侧边栏会话记录+对话详情+artifact 再多一点儿可能再分一个层级出四栏 或者上下再分层级tab 之所以没…
Claude Code 对提交内容中提及“OpenClaw”的请求采取了限制措施,会直接拒绝处理或收取额外费用。这一政策变化源于相关社区讨论,并在 Hacker News 上获得了超过 127 个关注点。该调整表明平台正对特定关键词关联的提交实施更严格的管控或成本规则。
GitHub Copilot CLI 提供了交互与非交互两种主要使用模式。交互模式允许用户通过对话式指令逐步构建和调整命令,适合探索性任务。非交互模式则支持直接输入完整指令快速执行,适用于自动化脚本或已知命令。理解这两种模式的区别能帮助开发者更高效地利用该工具,提升命令行工作效率。
阿里巴巴开源了Qwen3.6系列两款模型:27B密集模型和35B A3B混合专家模型。其中,Qwen3.6 27B在Artificial Analysis智能指数上得分46,成为150B参数以下最智能的开源模型,领先于Gemma 4 31B等。但其运行完整测试消耗的输出token约为后者的3.7倍,成本高出约21倍。两款模型均采用Apache 2.0许可,支持262K上下文,具备多模态能力。值得注意的是,其幻觉率较前代大幅下降,但准确率基本持平。更大的Plus和Max Preview版本未开源。
Google Research强调通过开源软件和开放数据集推动现代科学发展,秉持负责任、包容和严谨的开放科学原则。其Transformer架构重塑了自动语言处理,专业模型正推动医学、基因组学、神经科学、气候与能源等跨学科领域的突破。团队通过API、学术出版物、会议及全球合作伙伴关系,构建协作生态系统,旨在加速全球科学进步与创新。
毫无编程经验的项目经理Kostiantyn Vlasenko,借助Claude Code在72小时内独立开发出压力管理应用Respiro,并于六周后成功上线苹果应用商店。该应用能通过手机实时检测用户压力信号,并即时引导呼吸练习。其架构由15个以上并行运作的专用子智能体构成,涵盖设计、开发、审查等模块。Claude协助完成了从技术选型、代码重构到苹果账号注册、服务集成乃至界面调试等一系列复杂操作,甚至支持了后续的市场推广工作。
Stripe在年度大会上宣布一系列战略更新,以迎接AI Agent主导交易的新经济时代。CEO指出,经济正经历“平台重构”,未来多数交易将由Agent完成,这使得“开发者优先”战略至关重要。核心发布包括Link AI钱包,允许Agent使用安全令牌代用户购物,并新增Pix、UPI及稳定币支持。同时,Machine Payments协议增加了微支付和循环支付功能。此外,Checkout Studio、Adaptive Pricing订阅版、新款终端硬件T600以及Treasury的多币种扩展等产品,共同标志着Stripe正从支付基础设施向Agent时代的经济层全面演进。
关联讨论 1 条X:Berry Xia (@berryxia)微星尚未发布的Claw 8 EX AI+掌机在意大利电商平台提前上架,确认将搭载Intel Arc G3 Extreme处理器,揭示了英特尔掌机处理器的命名规则。该型号面向意大利市场,标价1599欧元(约12796元人民币)。设备配备8英寸120Hz高刷触控屏、32GB+1TB存储、Wi-Fi 7和80Wh大电池,预装Windows 11系统,并提供“虚空紫”配色及旅行包。
Unitree正式推出双臂人形机器人,售价为4290美元,标志着人形机器人进入“平民化”新阶段。该机器人高123厘米,具备15-31个自由度,集成了双目立体视觉、阵列麦克风和扬声器,支持自然语言交互。其双臂灵活,末端执行器可快速更换,并支持拖拽示教和底层全开放SDK,便于开发。设计轻量紧凑,目标应用场景涵盖工业装配、实验室操作乃至未来家务,旨在为科研、教育及创业等领域提供可及的人形机器人平台。
三星电子和SK海力士两大存储巨头相继预警,由人工智能基础设施建设拉动的存储芯片严重短缺局面将至少持续至2027年,甚至可能延续到2030年。短缺的核心是高带宽内存(HBM),其制造难度大、产能受限,需求增速远超产能扩建速度。资源向高利润的AI存储产品倾斜,已开始影响服务器、PC等普通DRAM的供给。尽管厂商正大幅投资扩产,但产能爬坡需时数年,难以追上AI需求增长。此次短缺推动厂商业绩飙升,三星半导体部门2026年第一季度营业利润达53.7万亿韩元,其中约94%来自AI存储芯片。
SenseNova U1 Lite Series是新一代原生统一的多模态模型,在紧凑的8B/A3B规模下提供商业级性能。其核心能力包括复杂信息图生成,具备强语义完整性和像素级精度;高布局一致性,实现准确可靠的文本渲染;以及行业首创的连续图像-文本生成,支持统一推理和一致视觉风格。该模型现已完全开源,相关代码和资源可通过GitHub、Hugging Face等平台获取。
Qwen开源了Qwen-Scope,这是一个为Qwen模型家族设计的稀疏自编码器完整套件,旨在将SAE特征转化为实用工具。该套件提供四大核心功能:在推理方面,可直接操纵模型内部特征以控制输出,无需依赖提示工程;在数据方面,能用极少样本对目标数据进行分类和合成,增强模型的长尾能力;在训练方面,能精准追溯代码切换和重复生成等问题的根源并进行修复;在评估方面,可通过分析特征激活模式来智能筛选基准测试,减少冗余。Qwen希望社区能利用此工具深入探索模型内部机制并开发更多应用。
机械革命为其耀世18 Pro游戏本推出新配置,搭载Ultra 270HX Plus处理器和5070 12GB显卡,配备16GB内存与1TB存储。该机型将于5月1日10点开售,标价11999元,享受政府补贴后到手价10499元。新品主打轻薄设计,最薄处21.85毫米,重2.8公斤,支持215W整机性能释放。屏幕为18英寸,拥有2560×1600分辨率、180Hz刷新率和500尼特亮度。接口齐全,包括雷电4、全功能USB-C、HDMI 2.1等,并采用铝镁合金机身与1.8毫米长键程键盘。
DeepSeek发布了多模态大模型及技术报告,提出创新的“基于视觉原语的思考”框架。该框架将点、边界框等视觉元素作为推理的基本单元,旨在解决多模态模型在空间参照任务中存在的“参照鸿沟”核心问题,使模型能将抽象认知锚定到图像的具体坐标上。尽管模型规模紧凑且图像标记预算较低,其在多项挑战性计数和空间推理基准测试上的性能,可与GPT-5.4等前沿模型相媲美。
Qwen团队推出开源稀疏自编码器套件Qwen-Scope,将SAE特征转化为实用工具。该套件支持四大应用方向:无需提示工程即可通过直接操控内部特征引导模型输出;用极少样本对目标数据进行分类与合成,提升长尾能力;追踪代码切换和重复生成问题的根源并进行修复;通过分析特征激活模式优化评测基准并减少冗余。团队希望社区利用Qwen-Scope深入探索Qwen模型内部机制,并开发出超越现有研究范围的应用。相关资源已开放。
开发者Theo实验发现,Anthropic的官方工具Claude Code会主动扫描用户Git仓库的近期提交记录。一旦检测到包含“openclaw”字符串(无论出现在JSON、文件名或注释中),便会触发“out of extra usage”错误,导致请求被拒绝或强制额外收费。这证实了Anthropic有意通过字符串匹配规则,打压第三方工具OpenClaw,旨在将用户锁定在其自家产品中。此举与其此前宣称的“不做监控”形象相悖,被社区批评为反竞争行为,并引发了用户转向开源替代方案的强烈呼声。
KTC在京东上架新款27英寸Mini LED显示器M27P6S,售价2999元。该显示器采用2304分区Mini LED背光Fast IPS面板,支持双模切换:4K分辨率下刷新率为160Hz,1080P分辨率下可达320Hz。其HDR峰值亮度为1400尼特,响应时间2ms,色域覆盖99% sRGB、99% DCI-P3和97% Adobe RGB。支架支持多向调节,接口包括双HDMI 2.1、DP 1.4、支持65W供电的USB-C以及两个USB-A 3.0接口。
Meta公司因解雇通过智能眼镜看到用户性行为内容的审核员工而引发争议。这些员工负责审查Ray-Ban Stories智能眼镜用户上传的视频,工作中会接触到此类私密内容。部分员工因心理压力提出投诉后遭解雇,引发对Meta工作条件与员工权益的质疑。该事件涉及约200名内容审核员,凸显了科技公司在处理用户生成内容时面临的伦理与劳工保护问题。
神经科技初创公司Neurable宣布,将授权其非侵入式脑机接口耳机技术给消费产品制造商,旨在整合到耳机、帽子等现有硬件中,应用于健康、游戏及生产力领域。该公司已与音频品牌合作推出售价约700美元的脑扫描耳机,可监测用户专注度。然而,该技术面临噪声干扰和信号衰减问题,实际效果待验证。此外,Neurable与美国军方有研究合作,其敏感数据的使用与伦理问题引发关注。
用户惊叹于GPT在效果空间理解方面的强大能力,尝试使用其文生图功能复现经典游戏《纪念碑谷》的风格场景,仅一次尝试便成功生成兼具静谧感与孤独美的图像。推文强调GPT能够准确捕捉并传递特定的美学氛围,同时作者已将生成所用的提示词公开分享供他人尝试。
DeepSeek-VL论文指出,多模态训练会损害语言模型的语言能力,使用100%视觉数据训练将导致语言benchmark性能断崖式崩塌。研究确定最佳训练配方为70%纯文本数据与30%多模态数据结合,并强调视觉与语言模态之间存在固有竞争关系,这种竞争无法通过参数调整来规避。论文结论突显了平衡多模态数据比例对维持模型语言性能的关键作用。
Glean推出自研的智能搜索专用模型Waldo,旨在将企业AI任务中的“检索规划”与“深度推理”分离。Waldo基于NVIDIA Nemotron 3 Nano构建,作为前置环节运行,专门负责调用Glean Search、员工搜索和Web搜索等工具进行检索规划,并将检索到的上下文直接交给前沿大模型进行综合作答。这种架构避免了让昂贵的前沿模型处理机械的搜索任务,使单次调用延迟降低至约250毫秒,比默认推理模型快10倍以上。集成后,系统端到端延迟降低约50%,Token消耗减少约25%,且约一半查询可走“快路径”无需调用完整前沿模型。该设计印证了专用小模型在处理重复性任务上的效率优势,是智能体AI架构的重要演进。