5月1日
00:30
向阳乔木@vista8
61
DeepSeek提出"视觉原语"多模态推理框架,用"指"的方式思考

DeepSeek团队提出全新多模态推理框架“Thinking with Visual Primitives”,核心是让模型在推理过程中像人类一样,使用“点”和“边界框”这类视觉原语来指代图像中的具体位置,以此作为思维的最小单位,旨在解决语言在精确描述空间位置时的“指代鸿沟”问题。模型采用DeepSeek-V4-Flash作为语言骨干,并设计了极致的视觉Token压缩流水线,将视觉Token用量压缩至其他前沿模型的十分之一。尽管视觉信息被大幅压缩,模型在空间推理、计数等任务上仍达到或超越了GPT-5.4、Claude-Sonnet-4.6等模型的性能。

DeepSeek多模态推理论文/研究
关联讨论 2X:歸藏 (@op7418)DeepSeek:GitHub 新仓库
00:28
宝玉@dotey
56
Agent产品交互的两类主流模式与设计关键

当前AI Agent产品的交互主要分为两类:一是以Agent为中心,如Cursor的Agent模式和Codex,界面以对话列表指挥AI为主,手动修改为辅;二是以人操作为主、Agent为辅助,如GitHub Copilot,在传统软件界面旁增设侧边栏。设计者需首先明确软件是以Agent为核心还是辅助,否则易导致交互混乱。有观点指出,交互形式三年多来革新缓慢,关键在于缺乏对Agent从“无状态”到“有状态”处理的基础设施支持,状态机抽象有望推动交互设计丰富化。

Yangyi为什么从gpt到现在已经三年多了 还是这种交互 侧边栏会话记录+对话详情+artifact 再多一点儿可能再分一个层级出四栏 或者上下再分层级tab 之所以没…

智能体现象/趋势
00:12
Hacker News 热门(buzzing.cc 中文翻译)
49
如果您的提交中提到了"OpenClaw",Claude Code 会拒绝请求或收取额外费用

Claude Code 对提交内容中提及“OpenClaw”的请求采取了限制措施,会直接拒绝处理或收取额外费用。这一政策变化源于相关社区讨论,并在 Hacker News 上获得了超过 127 个关注点。该调整表明平台正对特定关键词关联的提交实施更严格的管控或成本规则。

Anthropic编码行业动态
00:09
GitHub Blog
精选59
GitHub Copilot CLI 入门指南:交互模式与非交互模式

GitHub Copilot CLI 提供了交互与非交互两种主要使用模式。交互模式允许用户通过对话式指令逐步构建和调整命令,适合探索性任务。非交互模式则支持直接输入完整指令快速执行,适用于自动化脚本或已知命令。理解这两种模式的区别能帮助开发者更高效地利用该工具,提升命令行工作效率。

GitHub教程/实践编码

推荐理由:如果你总在 Copilot CLI 的交互和非交互模式之间犯迷糊,这篇官方教程算是清晰的速查手册,初学者花五分钟就能搞清楚。
00:03
NotebookLM@NotebookLM
精选64
Google的Gemini应用正式向移动端免费和付费用户推出Notebooks功能,并即将扩展至更多欧洲国家。该功能允许用户在Gemini应用内直接访问所有个人未共享的笔记本,并能将与该AI的对话内容作为新笔记本或现有笔记本的资料来源。此次发布首先面向网页端的Google AI Ultra、Pro和Plus订阅用户,后续将逐步推广至移动端、更多欧洲地区及免费用户。
Google产品更新
关联讨论 2X:Gemini (@GeminiApp)X:NotebookLM (@NotebookLM)
推荐理由:NotebookLM 正式成为 Gemini 的原生笔记,聊天记录能直接纳入知识库,这步整合让 Gemini 从一个对话工具开始走向个人知识中枢,Google 生态用户应该高兴。
00:01
Artificial Analysis@ArtificialAnlys
64
阿里发布Qwen3.6系列开源模型,27B版本成150B参数以下最强开源模型

阿里巴巴开源了Qwen3.6系列两款模型:27B密集模型和35B A3B混合专家模型。其中,Qwen3.6 27B在Artificial Analysis智能指数上得分46,成为150B参数以下最智能的开源模型,领先于Gemma 4 31B等。但其运行完整测试消耗的输出token约为后者的3.7倍,成本高出约21倍。两款模型均采用Apache 2.0许可,支持262K上下文,具备多模态能力。值得注意的是,其幻觉率较前代大幅下降,但准确率基本持平。更大的Plus和Max Preview版本未开源。

多模态开源生态推理评测/基准
00:00
Replit ⠕@Replit
精选64
介绍Replit Slides! 不到一分钟就制作了整个演示文稿,无需手动操作任何一张幻灯片。只需描述你的需求,通过聊天进行迭代修改,然后导出为PowerPoint、Google Slides或PDF格式(或发布实时链接)。幻灯片功能面向Core和Pro用户开放。🎯
产品更新
关联讨论 1X:Replit (@Replit)
推荐理由:Replit Slides 把做 PPT 这件事变成了聊天,从描述到导出全链路打通,适合需要快速出 pitch deck 的人,虽然不算 AI 重磅,但对创业者很香。
00:00
Google Research:Blog(网页)
51
通过全球合作与开放资源催化科学影响力

Google Research强调通过开源软件和开放数据集推动现代科学发展,秉持负责任、包容和严谨的开放科学原则。其Transformer架构重塑了自动语言处理,专业模型正推动医学、基因组学、神经科学、气候与能源等跨学科领域的突破。团队通过API、学术出版物、会议及全球合作伙伴关系,构建协作生态系统,旨在加速全球科学进步与创新。

Google开源生态行业动态
00:00
Claude:Blog(网页)
精选64
零基础项目经理借助Claude Code,六周内独立开发并上线压力管理应用

毫无编程经验的项目经理Kostiantyn Vlasenko,借助Claude Code在72小时内独立开发出压力管理应用Respiro,并于六周后成功上线苹果应用商店。该应用能通过手机实时检测用户压力信号,并即时引导呼吸练习。其架构由15个以上并行运作的专用子智能体构成,涵盖设计、开发、审查等模块。Claude协助完成了从技术选型、代码重构到苹果账号注册、服务集成乃至界面调试等一系列复杂操作,甚至支持了后续的市场推广工作。

智能体Anthropic教程/实践

推荐理由:一个零编程经验的项目经理,用 Claude Code 六周做完压力管理 App 并上架。关键不在技术,而在「管人经验拿来管 AI agent」的思路,对非技术背景的创业者太有参考价值。
4月30日
23:56
23:30
Berryxia.AI@berryxia
62
Stripe Sessions 推动 Agent 经济迈向新高度

Stripe在年度大会上宣布一系列战略更新,以迎接AI Agent主导交易的新经济时代。CEO指出,经济正经历“平台重构”,未来多数交易将由Agent完成,这使得“开发者优先”战略至关重要。核心发布包括Link AI钱包,允许Agent使用安全令牌代用户购物,并新增Pix、UPI及稳定币支持。同时,Machine Payments协议增加了微支付和循环支付功能。此外,Checkout Studio、Adaptive Pricing订阅版、新款终端硬件T600以及Treasury的多币种扩展等产品,共同标志着Stripe正从支付基础设施向Agent时代的经济层全面演进。

智能体产品更新开源生态
关联讨论 1X:Berry Xia (@berryxia)
23:20
IT之家(RSS)
16
微星 Intel Arc G3 Extreme 掌机 Claw 8 EX AI+ 规格现身意大利电商

微星尚未发布的Claw 8 EX AI+掌机在意大利电商平台提前上架,确认将搭载Intel Arc G3 Extreme处理器,揭示了英特尔掌机处理器的命名规则。该型号面向意大利市场,标价1599欧元(约12796元人民币)。设备配备8英寸120Hz高刷触控屏、32GB+1TB存储、Wi-Fi 7和80Wh大电池,预装Windows 11系统,并提供“虚空紫”配色及旅行包。

行业动态
23:09
Berryxia.AI@berryxia
52
Unitree发布双臂人形机器人,售价4290美元开启平民化时代

Unitree正式推出双臂人形机器人,售价为4290美元,标志着人形机器人进入“平民化”新阶段。该机器人高123厘米,具备15-31个自由度,集成了双目立体视觉、阵列麦克风和扬声器,支持自然语言交互。其双臂灵活,末端执行器可快速更换,并支持拖拽示教和底层全开放SDK,便于开发。设计轻量紧凑,目标应用场景涵盖工业装配、实验室操作乃至未来家务,旨在为科研、教育及创业等领域提供可及的人形机器人平台。

产品更新具身智能
23:05
IT之家(RSS)
56
三星和 SK 海力士纷纷警告:AI 导致的内存短缺问题可能持续至 2027 年及以后

三星电子和SK海力士两大存储巨头相继预警,由人工智能基础设施建设拉动的存储芯片严重短缺局面将至少持续至2027年,甚至可能延续到2030年。短缺的核心是高带宽内存(HBM),其制造难度大、产能受限,需求增速远超产能扩建速度。资源向高利润的AI存储产品倾斜,已开始影响服务器、PC等普通DRAM的供给。尽管厂商正大幅投资扩产,但产能爬坡需时数年,难以追上AI需求增长。此次短缺推动厂商业绩飙升,三星半导体部门2026年第一季度营业利润达53.7万亿韩元,其中约94%来自AI存储芯片。

行业动态部署/工程
23:01
SenseTime@SenseTime_AI
59
SenseNova U1 Lite系列:小规模多模态模型开源发布

SenseNova U1 Lite Series是新一代原生统一的多模态模型,在紧凑的8B/A3B规模下提供商业级性能。其核心能力包括复杂信息图生成,具备强语义完整性和像素级精度;高布局一致性,实现准确可靠的文本渲染;以及行业首创的连续图像-文本生成,支持统一推理和一致视觉风格。该模型现已完全开源,相关代码和资源可通过GitHub、Hugging Face等平台获取。

图像生成多模态模型发布
23:00
Berryxia.AI@berryxia
59
🚀 Qwen 重磅开源 Qwen-Scope!

Qwen开源了Qwen-Scope,这是一个为Qwen模型家族设计的稀疏自编码器完整套件,旨在将SAE特征转化为实用工具。该套件提供四大核心功能:在推理方面,可直接操纵模型内部特征以控制输出,无需依赖提示工程;在数据方面,能用极少样本对目标数据进行分类和合成,增强模型的长尾能力;在训练方面,能精准追溯代码切换和重复生成等问题的根源并进行修复;在评估方面,可通过分析特征激活模式来智能筛选基准测试,减少冗余。Qwen希望社区能利用此工具深入探索模型内部机制并开发更多应用。

Hugging Face开源/仓库开源生态
22:42
IT之家(RSS)
9
机械革命耀世 18 Pro 游戏本可选 270HX Plus + 5070 12GB,到手 10499 元

机械革命为其耀世18 Pro游戏本推出新配置,搭载Ultra 270HX Plus处理器和5070 12GB显卡,配备16GB内存与1TB存储。该机型将于5月1日10点开售,标价11999元,享受政府补贴后到手价10499元。新品主打轻薄设计,最薄处21.85毫米,重2.8公斤,支持215W整机性能释放。屏幕为18英寸,拥有2560×1600分辨率、180Hz刷新率和500尼特亮度。接口齐全,包括雷电4、全功能USB-C、HDMI 2.1等,并采用铝镁合金机身与1.8毫米长键程键盘。

其他
22:39
IT之家(RSS)
精选72
DeepSeek 公布多模态模型技术报告

DeepSeek发布了多模态大模型及技术报告,提出创新的“基于视觉原语的思考”框架。该框架将点、边界框等视觉元素作为推理的基本单元,旨在解决多模态模型在空间参照任务中存在的“参照鸿沟”核心问题,使模型能将抽象认知锚定到图像的具体坐标上。尽管模型规模紧凑且图像标记预算较低,其在多项挑战性计数和空间推理基准测试上的性能,可与GPT-5.4等前沿模型相媲美。

DeepSeek多模态推理论文/研究

推荐理由:DeepSeek 把视觉概念直接变成推理单元,绕开了语言描述空间的先天模糊,在空间推理上把自家紧凑模型拉到和 GPT-5.4 一个水平,做多模态应用的人值得细读。
22:39
Qwen@Alibaba_Qwen
精选73
Qwen-Scope开源套件发布:稀疏自编码器助力模型内部特征操控

Qwen团队推出开源稀疏自编码器套件Qwen-Scope,将SAE特征转化为实用工具。该套件支持四大应用方向:无需提示工程即可通过直接操控内部特征引导模型输出;用极少样本对目标数据进行分类与合成,提升长尾能力;追踪代码切换和重复生成问题的根源并进行修复;通过分析特征激活模式优化评测基准并减少冗余。团队希望社区利用Qwen-Scope深入探索Qwen模型内部机制,并开发出超越现有研究范围的应用。相关资源已开放。

Hugging Face开源/仓库开源生态数据/训练

推荐理由:可解释性工具从学术走向工程,Qwen-Scope 把内部特征操控、数据合成、问题溯源打包成套装,做模型调试和长尾优化的团队值得立刻上手试试。
22:39
阿绎 AYi@AYi_AInotes
54
Anthropic被曝检测Git提交以限制第三方工具,引发社区不满

开发者Theo实验发现,Anthropic的官方工具Claude Code会主动扫描用户Git仓库的近期提交记录。一旦检测到包含“openclaw”字符串(无论出现在JSON、文件名或注释中),便会触发“out of extra usage”错误,导致请求被拒绝或强制额外收费。这证实了Anthropic有意通过字符串匹配规则,打压第三方工具OpenClaw,旨在将用户锁定在其自家产品中。此举与其此前宣称的“不做监控”形象相悖,被社区批评为反竞争行为,并引发了用户转向开源替代方案的强烈呼声。

Anthropic开源/仓库行业动态
22:35
IT之家(RSS)
16
KTC 推出"M27P6S"显示器:4K 160Hz/1080P 320Hz 双模 Mini LED,2999 元

KTC在京东上架新款27英寸Mini LED显示器M27P6S,售价2999元。该显示器采用2304分区Mini LED背光Fast IPS面板,支持双模切换:4K分辨率下刷新率为160Hz,1080P分辨率下可达320Hz。其HDR峰值亮度为1400尼特,响应时间2ms,色域覆盖99% sRGB、99% DCI-P3和97% Adobe RGB。支架支持多向调节,接口包括双HDMI 2.1、DP 1.4、支持65W供电的USB-C以及两个USB-A 3.0接口。

其他
22:20
Hacker News 热门(buzzing.cc 中文翻译)
43
Meta因目睹智能眼镜用户发生性行为的员工遭解雇而陷入争议

Meta公司因解雇通过智能眼镜看到用户性行为内容的审核员工而引发争议。这些员工负责审查Ray-Ban Stories智能眼镜用户上传的视频,工作中会接触到此类私密内容。部分员工因心理压力提出投诉后遭解雇,引发对Meta工作条件与员工权益的质疑。该事件涉及约200名内容审核员,凸显了科技公司在处理用户生成内容时面临的伦理与劳工保护问题。

Meta端侧行业动态
22:18
22:17
IT之家(RSS)
44
初创公司 Neurable"秀肌肉":宣称一副耳机就能读取你的脑信号

神经科技初创公司Neurable宣布,将授权其非侵入式脑机接口耳机技术给消费产品制造商,旨在整合到耳机、帽子等现有硬件中,应用于健康、游戏及生产力领域。该公司已与音频品牌合作推出售价约700美元的脑扫描耳机,可监测用户专注度。然而,该技术面临噪声干扰和信号衰减问题,实际效果待验证。此外,Neurable与美国军方有研究合作,其敏感数据的使用与伦理问题引发关注。

行业动态
22:15
22:13
Berryxia.AI@berryxia
61
GPT效果空间理解力惊人,一键生成纪念碑谷风格场景

用户惊叹于GPT在效果空间理解方面的强大能力,尝试使用其文生图功能复现经典游戏《纪念碑谷》的风格场景,仅一次尝试便成功生成兼具静谧感与孤独美的图像。推文强调GPT能够准确捕捉并传递特定的美学氛围,同时作者已将生成所用的提示词公开分享供他人尝试。

图像生成教程/实践
22:12
向阳乔木@vista8
60
DeepSeek-VL论文揭示多模态训练最佳配方:70%文本+30%多模态

DeepSeek-VL论文指出,多模态训练会损害语言模型的语言能力,使用100%视觉数据训练将导致语言benchmark性能断崖式崩塌。研究确定最佳训练配方为70%纯文本数据与30%多模态数据结合,并强调视觉与语言模态之间存在固有竞争关系,这种竞争无法通过参数调整来规避。论文结论突显了平衡多模态数据比例对维持模型语言性能的关键作用。

DeepSeek多模态数据/训练论文/研究
22:08
meng shao@shao__meng
57
Glean发布专用搜索规划模型Waldo,优化AI代理工作流

Glean推出自研的智能搜索专用模型Waldo,旨在将企业AI任务中的“检索规划”与“深度推理”分离。Waldo基于NVIDIA Nemotron 3 Nano构建,作为前置环节运行,专门负责调用Glean Search、员工搜索和Web搜索等工具进行检索规划,并将检索到的上下文直接交给前沿大模型进行综合作答。这种架构避免了让昂贵的前沿模型处理机械的搜索任务,使单次调用延迟降低至约250毫秒,比默认推理模型快10倍以上。集成后,系统端到端延迟降低约50%,Token消耗减少约25%,且约一半查询可走“快路径”无需调用完整前沿模型。该设计印证了专用小模型在处理重复性任务上的效率优势,是智能体AI架构的重要演进。

MCP/工具产品更新搜索