AIHOT

5月1日

00:30

向阳乔木@vista8

DeepSeek团队提出全新多模态推理框架“Thinking with Visual Primitives”，核心是让模型在推理过程中像人类一样，使用“点”和“边界框”这类视觉原语来指代图像中的具体位置，以此作为思维的最小单位，旨在解决语言在精确描述空间位置时的“指代鸿沟”问题。模型采用DeepSeek-V4-Flash作为语言骨干，并设计了极致的视觉Token压缩流水线，将视觉Token用量压缩至其他前沿模型的十分之一。尽管视觉信息被大幅压缩，模型在空间推理、计数等任务上仍达到或超越了GPT-5.4、Claude-Sonnet-4.6等模型的性能。

DeepSeek多模态推理论文/研究

关联讨论 2 条

00:28

宝玉@dotey

Agent产品交互的两类主流模式与设计关键

当前AI Agent产品的交互主要分为两类：一是以Agent为中心，如Cursor的Agent模式和Codex，界面以对话列表指挥AI为主，手动修改为辅；二是以人操作为主、Agent为辅助，如GitHub Copilot，在传统软件界面旁增设侧边栏。设计者需首先明确软件是以Agent为核心还是辅助，否则易导致交互混乱。有观点指出，交互形式三年多来革新缓慢，关键在于缺乏对Agent从“无状态”到“有状态”处理的基础设施支持，状态机抽象有望推动交互设计丰富化。

Yangyi：为什么从gpt到现在已经三年多了还是这种交互侧边栏会话记录+对话详情+artifact 再多一点儿可能再分一个层级出四栏或者上下再分层级tab 之所以没…

智能体现象/趋势

00:26

OpenAI Developers@OpenAIDevs

学生们正在学习使用Codex进行构建，并通过构建来学习。以下是@UCBerkeley的学生在@joinHandshake举办的Codex Creator Challenge中构建的作品。

OpenAI教程/实践

00:12

Hacker News 热门（buzzing.cc 中文翻译）

如果您的提交中提到了"OpenClaw"，Claude Code 会拒绝请求或收取额外费用

Claude Code 对提交内容中提及“OpenClaw”的请求采取了限制措施，会直接拒绝处理或收取额外费用。这一政策变化源于相关社区讨论，并在 Hacker News 上获得了超过 127 个关注点。该调整表明平台正对特定关键词关联的提交实施更严格的管控或成本规则。

Anthropic编码行业动态

00:09

GitHub Blog

精选59

GitHub Copilot CLI 入门指南：交互模式与非交互模式

GitHub Copilot CLI 提供了交互与非交互两种主要使用模式。交互模式允许用户通过对话式指令逐步构建和调整命令，适合探索性任务。非交互模式则支持直接输入完整指令快速执行，适用于自动化脚本或已知命令。理解这两种模式的区别能帮助开发者更高效地利用该工具，提升命令行工作效率。

GitHub教程/实践编码

推荐理由：如果你总在 Copilot CLI 的交互和非交互模式之间犯迷糊，这篇官方教程算是清晰的速查手册，初学者花五分钟就能搞清楚。

00:07

Noam Brown@polynoamial

在1亿个标记之后，性能仍在持续提升。我们在这里看到的并非能力上限。报告指出："TLO上的性能随着推理计算量的增加而持续扩展，我们尚未在最佳模型中观察到性能平台期。" 【引用 @AISecurityInst】：OpenAI的GPT-5.5是第二个端到端完成我们多步骤网络攻击模拟的模型🧵

OpenAI安全/对齐推理

00:03

NotebookLM@NotebookLM

精选64

Google的Gemini应用正式向移动端免费和付费用户推出Notebooks功能，并即将扩展至更多欧洲国家。该功能允许用户在Gemini应用内直接访问所有个人未共享的笔记本，并能将与该AI的对话内容作为新笔记本或现有笔记本的资料来源。此次发布首先面向网页端的Google AI Ultra、Pro和Plus订阅用户，后续将逐步推广至移动端、更多欧洲地区及免费用户。

Google产品更新

关联讨论 2 条

推荐理由：NotebookLM 正式成为 Gemini 的原生笔记,聊天记录能直接纳入知识库,这步整合让 Gemini 从一个对话工具开始走向个人知识中枢，Google 生态用户应该高兴。

00:01

Artificial Analysis@ArtificialAnlys

阿里发布Qwen3.6系列开源模型，27B版本成150B参数以下最强开源模型

阿里巴巴开源了Qwen3.6系列两款模型：27B密集模型和35B A3B混合专家模型。其中，Qwen3.6 27B在Artificial Analysis智能指数上得分46，成为150B参数以下最智能的开源模型，领先于Gemma 4 31B等。但其运行完整测试消耗的输出token约为后者的3.7倍，成本高出约21倍。两款模型均采用Apache 2.0许可，支持262K上下文，具备多模态能力。值得注意的是，其幻觉率较前代大幅下降，但准确率基本持平。更大的Plus和Max Preview版本未开源。

多模态开源生态推理评测/基准

00:00

Replit ⠕@Replit

精选64

介绍Replit Slides！不到一分钟就制作了整个演示文稿，无需手动操作任何一张幻灯片。只需描述你的需求，通过聊天进行迭代修改，然后导出为PowerPoint、Google Slides或PDF格式（或发布实时链接）。幻灯片功能面向Core和Pro用户开放。🎯

产品更新

关联讨论 1 条

推荐理由：Replit Slides 把做 PPT 这件事变成了聊天，从描述到导出全链路打通，适合需要快速出 pitch deck 的人，虽然不算 AI 重磅，但对创业者很香。

00:00

Google Research：Blog（网页）

通过全球合作与开放资源催化科学影响力

Google Research强调通过开源软件和开放数据集推动现代科学发展，秉持负责任、包容和严谨的开放科学原则。其Transformer架构重塑了自动语言处理，专业模型正推动医学、基因组学、神经科学、气候与能源等跨学科领域的突破。团队通过API、学术出版物、会议及全球合作伙伴关系，构建协作生态系统，旨在加速全球科学进步与创新。

Google开源生态行业动态

00:00

Claude：Blog（网页）

精选64

零基础项目经理借助Claude Code，六周内独立开发并上线压力管理应用

毫无编程经验的项目经理Kostiantyn Vlasenko，借助Claude Code在72小时内独立开发出压力管理应用Respiro，并于六周后成功上线苹果应用商店。该应用能通过手机实时检测用户压力信号，并即时引导呼吸练习。其架构由15个以上并行运作的专用子智能体构成，涵盖设计、开发、审查等模块。Claude协助完成了从技术选型、代码重构到苹果账号注册、服务集成乃至界面调试等一系列复杂操作，甚至支持了后续的市场推广工作。

智能体Anthropic教程/实践

推荐理由：一个零编程经验的项目经理，用 Claude Code 六周做完压力管理 App 并上架。关键不在技术，而在「管人经验拿来管 AI agent」的思路，对非技术背景的创业者太有参考价值。

4月30日

23:56

Ethan Mollick@emollick

无论好坏，对由少数（相当大型的）公司提供的闭源模型进行监管是容易的。而对于可由一系列去中心化参与者提供的开源模型，如何监管则不那么容易设想。推测这很快将成为重要的政策讨论。

大佬观点政策/监管

23:56

Tibo@thsottiaux

今天感觉很有编程状态

OpenAI其他

23:42

TestingCatalog News 🗞@testingcatalog

Manus AI宣布推出Cloud Computer，这是一种作为基础设施的、7x24小时持续运行的云端计算机。用户可通过它托管Discord和Telegram的持久运行机器人，构建持久知识库，部署并托管任何开源工具，运行定时网络爬虫，以及使用命令行开发者工具。该服务现已面向付费个人用户开放网页版和移动版访问，团队计划即将推出。

智能体产品更新部署/工程

23:30

Berryxia.AI@berryxia

Stripe Sessions 推动 Agent 经济迈向新高度

Stripe在年度大会上宣布一系列战略更新，以迎接AI Agent主导交易的新经济时代。CEO指出，经济正经历“平台重构”，未来多数交易将由Agent完成，这使得“开发者优先”战略至关重要。核心发布包括Link AI钱包，允许Agent使用安全令牌代用户购物，并新增Pix、UPI及稳定币支持。同时，Machine Payments协议增加了微支付和循环支付功能。此外，Checkout Studio、Adaptive Pricing订阅版、新款终端硬件T600以及Treasury的多币种扩展等产品，共同标志着Stripe正从支付基础设施向Agent时代的经济层全面演进。

智能体产品更新开源生态

关联讨论 1 条