5月1日
00:13
Artificial Analysis@ArtificialAnlys
64
阿里发布Qwen3.6系列开源模型,27B版本成150B参数以下最强开源模型

阿里巴巴开源了Qwen3.6系列两款模型:27B密集模型和35B A3B混合专家模型。其中,Qwen3.6 27B在Artificial Analysis智能指数上得分46,成为150B参数以下最智能的开源模型,领先于Gemma 4 31B等。但其运行完整测试消耗的输出token约为后者的3.7倍,成本高出约21倍。两款模型均采用Apache 2.0许可,支持262K上下文,具备多模态能力。值得注意的是,其幻觉率较前代大幅下降,但准确率基本持平。更大的Plus和Max Preview版本未开源。

多模态开源生态推理评测/基准
4月30日
23:10
阿绎 AYi@AYi_AInotes
54
Anthropic被曝检测Git提交以限制第三方工具,引发社区不满

开发者Theo实验发现,Anthropic的官方工具Claude Code会主动扫描用户Git仓库的近期提交记录。一旦检测到包含“openclaw”字符串(无论出现在JSON、文件名或注释中),便会触发“out of extra usage”错误,导致请求被拒绝或强制额外收费。这证实了Anthropic有意通过字符串匹配规则,打压第三方工具OpenClaw,旨在将用户锁定在其自家产品中。此举与其此前宣称的“不做监控”形象相悖,被社区批评为反竞争行为,并引发了用户转向开源替代方案的强烈呼声。

Anthropic开源/仓库行业动态
23:10
Berryxia.AI@berryxia
61
GPT效果空间理解力惊人,一键生成纪念碑谷风格场景

用户惊叹于GPT在效果空间理解方面的强大能力,尝试使用其文生图功能复现经典游戏《纪念碑谷》的风格场景,仅一次尝试便成功生成兼具静谧感与孤独美的图像。推文强调GPT能够准确捕捉并传递特定的美学氛围,同时作者已将生成所用的提示词公开分享供他人尝试。

图像生成教程/实践
22:43
Qwen@Alibaba_Qwen
精选73
Qwen-Scope开源套件发布:稀疏自编码器助力模型内部特征操控

Qwen团队推出开源稀疏自编码器套件Qwen-Scope,将SAE特征转化为实用工具。该套件支持四大应用方向:无需提示工程即可通过直接操控内部特征引导模型输出;用极少样本对目标数据进行分类与合成,提升长尾能力;追踪代码切换和重复生成问题的根源并进行修复;通过分析特征激活模式优化评测基准并减少冗余。团队希望社区利用Qwen-Scope深入探索Qwen模型内部机制,并开发出超越现有研究范围的应用。相关资源已开放。

Hugging Face开源/仓库开源生态数据/训练

推荐理由:可解释性工具从学术走向工程,Qwen-Scope 把内部特征操控、数据合成、问题溯源打包成套装,做模型调试和长尾优化的团队值得立刻上手试试。
22:43
22:13
向阳乔木@vista8
50
DeepSeek开源视觉语言模型DeepSeek-VL,聚焦真实场景应用

DeepSeek团队开源视觉语言模型DeepSeek-VL,包含1.3B和7B两个版本,旨在缩小开源模型与GPT-4V在真实场景中的差距。模型从数据、架构、训练三方面优化:数据构建上,采用从真实用户需求倒推的分类体系,并包含70%纯文本以保持语言能力;架构上创新采用SigLIP与SAM-B的混合视觉编码器,分别处理语义与细节特征;训练采用三阶段策略及模态平衡技术,缓解多模态训练对语言能力的侵蚀。

DeepSeek多模态开源生态现象/趋势
22:13
向阳乔木@vista8
60
DeepSeek-VL论文揭示多模态训练最佳配方:70%文本+30%多模态

DeepSeek-VL论文指出,多模态训练会损害语言模型的语言能力,使用100%视觉数据训练将导致语言benchmark性能断崖式崩塌。研究确定最佳训练配方为70%纯文本数据与30%多模态数据结合,并强调视觉与语言模态之间存在固有竞争关系,这种竞争无法通过参数调整来规避。论文结论突显了平衡多模态数据比例对维持模型语言性能的关键作用。

DeepSeek多模态数据/训练论文/研究
22:11
Artificial Analysis@ArtificialAnlys
56
腾讯发布开源推理模型Hy3-preview,综合评分42分落后于近期同类模型

腾讯发布开源混合专家模型Hy3-preview,总参数量2950亿,激活参数量210亿。其在Artificial Analysis综合智能指数上得分42,落后于近期开源的GLM-5.1、DeepSeek V4 Flash及Qwen3.6 27B等推理模型。具体评测表现不均衡:在真实世界任务基准GDPval-AA上落后于主要竞品,但在研究级物理评测CritPt上与高分模型GLM-5.1持平;其相对弱项在于AA-Omniscience指数,幻觉率较高。模型采用Tencent HY社区许可协议,商业使用受限,已在Hugging Face和SiliconFlowAI平台提供。

开源/仓库推理模型发布评测/基准
21:11
歸藏(guizang.ai)@op7418
49
主推文抱怨内容被盗,而引用推文展示Codex AI的强大能力:仅根据用户对类似《杀戮尖塔》游戏的中国风格要求,便能自动生成从代码到素材的完整可玩游戏。这突显了人工智能在创造性任务中的自主原创性,与盗窃行为形成鲜明对比,引发对科技赋能内容创作的关注。

歸藏(guizang.ai)我操,Codex 太牛逼了! 自己给我做了一个类似于《杀戮尖塔》的爬塔游戏,从代码到素材全是自己搞。 我就跟他说了一个要做类似《杀戮尖塔》的游戏,要中国风格…

OpenAI大佬观点编码
20:10
ginobefun@hongming731
51
京东广告发布GRAM架构,用大模型知识工程突破推荐瓶颈

京东广告团队推出GRAM架构,旨在通过大模型原生知识工程解决传统CTR模型的瓶颈。该架构构建了毫秒级查询的级联知识图谱,将商品属性与业务规则作为“事实护栏”注入,以杜绝AI幻觉,确保推荐符合现实。它颠覆了依赖历史数据的冷启动模式,即使零销量新品也能通过知识网络的高维特征关联实现精准分发。同时,GRAM将企业内隐知识结构化作为上下文,使大模型能进行复杂的深度决策,而非仅计算曝光。

教程/实践数据/训练部署/工程
19:11
歸藏(guizang.ai)@op7418
57
Codex成功创建了类似《杀戮尖塔》的完整游戏关卡演示,细节精细,除声音外近乎完美。演示中的主要场景和角色素材由GPT-Image生成,其余素材由开发者自行收集。项目方宣布,安装包将于今晚或明天发布,同时整个代码将开源。

歸藏(guizang.ai)太猛了,Codex 做类《杀戮尖塔》游戏完整关卡演示! 现在非常细了,除了没有声音以外,其他的都相当完美了! 主要的场景和角色素材是 GPT-Image 生…

OpenAI开源/仓库编码
18:10
Berryxia.AI@berryxia
55
文心5.1 Preview登顶国内文本榜,揭示文本能力仍是AI模型关键分水岭

文心5.1 Preview在LMArena文本榜以1476分位列国内第一,是全球前十五名中唯一的国产模型,排名超越GPT-5.5与DeepSeek-V4-Pro。尽管AI领域热点转向Agent与多模态,但DeepSeek V4与文心5.1等旗舰模型仍以文本为核心。作者强调文本能力是大模型的地基,代码、推理等多维度能力均由此衍生,地基差异直接影响上层性能,因此文本仍是模型拉开差距的关键分水岭。引用推文显示,文心5.1在数学、法律与政府、商业管理及软件服务等类别表现突出。

大佬观点推理模型发布
17:41
向阳乔木@vista8
52
开发者利用Codex成功生成了一个类《杀戮尖塔》游戏的完整关卡演示。该演示目前已经相当完善,主要缺陷仅在于缺少声音。演示中的核心视觉素材,如主要场景和角色,是由GPT-Image生成的,其余素材则由开发者自行补充。这一成果展示了AI在游戏内容生成方面的强大潜力。

歸藏(guizang.ai)太猛了,Codex 做类《杀戮尖塔》游戏完整关卡演示! 现在非常细了,除了没有声音以外,其他的都相当完美了! 主要的场景和角色素材是 GPT-Image 生…

OpenAI图像生成现象/趋势
17:10
歸藏(guizang.ai)@op7418
46
Codex展示了其强大的游戏开发能力,仅根据"制作类似《杀戮尖塔》的中国风格游戏"的简单指令,便自主完成了从代码编写到素材整合的完整可玩关卡。主要场景和角色素材由GPT-Image生成,其余素材由Codex自行寻找。最终成果是一个除声音外相当完善的游戏演示,凸显了AI在理解复杂指令并执行完整项目上的巨大潜力。

歸藏(guizang.ai)我操,Codex 太牛逼了! 自己给我做了一个类似于《杀戮尖塔》的爬塔游戏,从代码到素材全是自己搞。 我就跟他说了一个要做类似《杀戮尖塔》的游戏,要中国风格…

OpenAI图像生成教程/实践编码
16:39
Rohan Paul@rohanpaul_ai
47
移除人为瓶颈,实现AI完全自主以提升效率

Andrej Karpathy指出,要最大化利用现有AI工具,关键在于将自身从交互循环中移除,避免成为持续提示的瓶颈。他主张构建完全自主的系统,通过最大化token吞吐量来实现高效率运作。核心目标是提升个人杠杆率:仅需偶尔投入极少量的token,就能驱动系统自动完成大量工作,从而使人从重复性操作中解放出来,专注于更高层次的决策与设计。

智能体大佬观点现象/趋势
16:09
SemiAnalysis@SemiAnalysis_
53
GB300 NVL72 在 DeepSeek-V4 Pro 上性能超 B200 6.5 倍

在 DeepSeek-V4 Pro 1.6T 模型上,采用机架级解耦设计的 GB300 NVL72 系统性能达到 B200 的 6.5 倍。这一高吞吐配置得益于 DeepSeek-AI 的 MegaMoe 内核,该内核将专家分派、专家组合及 GEMM 运算完全融合并重叠至单一内核中。性能突破由 Radixark、LMSYS 和 NVIDIA AI 的工程师团队快速实现。CoreWeave 为此项开源性能优化贡献了临时的 GB300 NVL72 机架资源,使整个社区受益。

DeepSeek推理评测/基准
16:09
meng shao@shao__meng
62
OpenAI 把 Responses API 提速 40%:为什么 Agent 时代,API 本身成了瓶颈?

OpenAI 最新工程博客指出,随着 GPT-5/5.2 及 Codex-Spark 等模型推理速度大幅提升(目标超1000 TPS),传统请求-响应 API 框架的固定开销成为 Agent 工作流的主要瓶颈。为此,OpenAI 为 Responses API 引入了 WebSocket 模式,通过保持长连接、在内存中缓存对话状态和已渲染 token,实现了跨工具调用的状态复用,避免了每次交互都重复预处理完整历史。此举使端到端延迟降低最多 40%,让 Codex-Spark 能稳定实现 1000 TPS 并峰值达 4000 TPS,显著提升了 Vercel AI SDK、Cline 和 Cursor 等集成的体验。

智能体OpenAI教程/实践部署/工程
14:40
Berryxia.AI@berryxia
48
免费自定义工具监控标的更新,替代昂贵商业软件

作者推荐一种自定义工具,用于监控关注标的(如招标信息)的更新并自动推送通知。相比商业工具“招标助手”的高昂价格,自制工具更具自定义性和便利性,且完全免费。基于引用推文中@berryxia提供的文章,该工具附有详细教程,用户可免费注册和使用,实现高效信息追踪。

智能体教程/实践
14:37
阿绎 AYi@AYi_AInotes
49
Cursor推出Agent Kanban:看板即编程,开发者退居监控者

Cursor推出的Agent Kanban并非完整产品,而是一个鼓励开发者自行搭建的参考实现。其核心变革在于改变了开发者与代码的交互模式:从亲自编写,到用prompt指挥AI,如今演变为将任务抛入看板,由Agent自主认领、执行并更新状态,开发者则退居幕后监控进度,使任务待办列表本身成为一种“编程语言”。尽管当前原型存在运行时限、失败率等限制,且缺乏结果审核机制,但其关键启示在于促使开发者重新思考:为何还要亲自处理那些机械、可被清晰描述的重复杂任务。

智能体现象/趋势编码
13:09
Sam Altman@sama
39
对齐失败
Anthropic产品更新大佬观点安全/对齐
12:39
12:15
宝玉@dotey
66
OpenAI调查模型为何频说"哥布林"与"小精灵"

OpenAI技术博客深入调查了其模型(从GPT-5.1到GPT-5.4)输出中“goblin”和“gremlin”等奇幻生物词汇异常激增的现象。根源在于ChatGPT的“Nerdy”性格定制功能:其奖励模型在训练中无意间高奖励了包含此类词汇的“俏皮”表达。尽管该性格仅占全部回复的2.5%,却贡献了超66%的“goblin”出现次数,并通过强化学习的反馈循环污染了模型的整体输出,形成了“tic词”。OpenAI已下架该性格并调整训练数据,但此案例揭示了微小的奖励信号在AI训练中可能被意外放大和泛化的核心难题。

OpenAI安全/对齐数据/训练论文/研究