AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
7月1日周三
01:28Claude:Blog(网页)72精选Claude Code 入门:智能体循环
01:20fofr22Nano Banana 2 Lite 加速提示探索与迭代
01:03OpenAI:官网动态(RSS · 排除企业/客户案例)41OpenAI 发布 Genebench-Pro 基准测试:10个案例研究详解
01:00OpenAI Developers45OpenAI数据基础设施发现硬件与18年开源bug
00:50fofr52Omni Flash模型编辑能力令人惊叹
00:50fofr73Google 发布 gemini-skills,基于 Omni API 快速搭建 AI 智能体
00:50fofr32Omni Flash 图像编辑能力惊艳登场
00:42Dwarkesh Patel:Podcast & Blog(RSS)61精选Grant Sanderson 谈 AI 与数学的未来
00:37Hacker News 热门(buzzing.cc 中文翻译)68Claude Code 通过隐写术在请求中嵌入环境标记
00:30宝玉59Claude Code 宣传视频翻车:效率数据亮眼但用户感受差
00:13OpenAI:官网动态(RSS · 排除企业/客户案例)62精选OpenAI Signals 数据揭示 ChatGPT 全球采用趋势
6月30日周二
23:56jason15AI工程师演讲吸引6000人实时观看
23:51凡人小北55Cloudflare 新增 Browser Rendering 远程 Chromium 抓取功能
23:29Hugging Face:Blog(RSS)49专业化为何不可避免
23:23Peter Steinberger 🦞48Peter Steinberger澄清:OpenClaw未被OpenAI收购,希望获得建设性帮助
23:21凡人小北20OpenClaw移动端上线,用户称仅耗token
23:19Chubby♨️51Acti 智能体键盘发布:每个文本字段中的隐形智能体
22:35elvis24开放模型扩展的推荐阅读
22:30宝玉65微服务架构下AI Agent的系统设计与编码实践
22:21凡人小北70做Agent自动化系统时,一个很容易踩的坑:把"放行信号"写在调用者也能写的地方
21:30公众号:数字生命卡兹克58国产AI两个"万亿"里程碑:美团LongCat-2.0发布,寒武纪市值破万亿
21:26Ethan Mollick40捕获AI智能体价值需组织设计
19:19向阳乔木21豆包生成有嘴Hello Kitty吓哭女儿
19:02IT之家(RSS)48谷歌前工程负责人用Claude Code开发维基百科搜索引擎Zettair,未手动写一行代码
18:19Chubby♨️34Claude Sonnet 5 传闻:与 Fable 5 捆绑引发担忧
17:29Rohan Paul56Coinbase实验默认使用中国开源模型GLM 5.2与Kimi 2.7
17:28Berryxia.AI17兄弟们,下班前学习下。 OPC 和个体户的区别! 别以为没区别啊!敲黑板,认真学啊! 【引用 @berryxia】:卧槽!来咯~ 我终于特么弄懂你们天天吹的循环工程了!!!
17:24歸藏(guizang.ai)29A社封号邮件含追踪器遭用户怒斥
17:02IT之家(RSS)57TrendForce:AI需求排挤产能,晶圆代工成熟制程涨价预计延伸至2027年
16:37Hacker News 热门(buzzing.cc 中文翻译)43Moondream Photon 通过流水线解码消除 GPU 气泡,提升 35% 吞吐量
16:29Rohan Paul59花旗研究:中国模型token价格低至18美分,企业转向成本控制引AI定价压力
15:59Rohan Paul45中国太阳能发电规模揭示AI算力的物理瓶颈
15:55jason4OpenAI 艺术资助计划设想
15:29Rohan Paul47Perplexity CEO 及分析师:中国数据中心建设快,美国 AI 面临最坏情境
15:28Emad44中国策略:降智能成本至能源成本,输出超美
15:02IT之家(RSS)55AI 老板 500 天模拟经营:多数模型亏惨,Claude Fable 5 独占鳌头
15:02IT之家(RSS)53优必选创始人周剑:机器人将替代手机,成为AI最核心的交互终端
14:48向阳乔木17OODA循环:AI竞争的核心是迭代速度
14:36karminski-牙医60SGLang DSpark实测:1.81倍加速,预测3个token
14:33SemiAnalysis56Nvidia下半年数据中心收入预期高20% Rubin大幅爬坡
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月1日
01:28
Claude:Blog(网页)
精选72
Claude Code 入门:智能体循环

Claude Code 团队将智能体循环定义为 agent 重复工作直到满足停止条件的过程,并划分出四种主要类型:turn-based 循环(用户提示触发,Claude 自行判断完成或需更多上下文)、goal-based 循环(通过 /goal 命令设定可验证完成标准与最大轮次)、time-based 循环(通过 /loop 按时间间隔重复执行,可用 /schedule 移至云端)、以及 proactive 循环(基于事件或计划自动运行,无人实时参与)。文章还介绍了如何编写 SKILL.md 文件将人工验证步骤编码,让 Claude 进行端到端自检,减少 turn-based 循环中的手动操作。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic把agentic loops从模糊概念变成四种可复制的模式,附带SKILL.md和命令示例,Claude Code用户读完就能设计更自主的编码流程。
01:20
fofr@fofrAI
22
我很喜欢使用 Nano Banana 2 Lite。它能让我非常快速地浏览大量提示和想法。更快的成果,更快的迭代,更快的探索。
图像生成大佬观点
01:03
OpenAI:官网动态(RSS · 排除企业/客户案例)
41
OpenAI 发布 Genebench-Pro 基准测试:10个案例研究详解

OpenAI 推出 GeneBench-Pro 生物医学基准测试,包含 10 个案例研究。每个案例提供原始提示词、数据集和支持材料,覆盖体细胞肿瘤学(结构变异指导的肿瘤治疗获益-风险决策)、功能基因组学(CRISPR 靶点验证:lncRNA 转录本或基因组位点)和统计遗传学(连锁遗传位点中蛋白质药物靶点优先排序)等方向,要求模型输出 JSON 格式分析结果。

OpenAI教程/实践评测/基准
01:00
OpenAI Developers@OpenAIDevs
45
⚙️ 我们在数据基础设施中调试了一整年的崩溃,发现了一个硬件问题,以及另一个在开源代码中隐藏了18年未被注意的问题。 以下是我们的追踪过程: http://openai.com/index/core-dump-epidemiology-data-infrastructure-bug/
OpenAI教程/实践部署/工程
00:50
fofr@fofrAI
52
Omni Flash 是个聪明的模型。看那湿润的手、水波、折射、阴影、音效 🤯 我很期待看到大家用它做什么,现在它已在 API 中可用。这个模型的编辑能力是为酷炫的流程而生的。
图像生成大佬观点视频
00:50
fofr@fofrAI
73
Google 通过 Gemini Omni API 发布 gemini-skills 技能包,支持视频编辑、文生视频、图片参考视频生成、首帧生成视频,并提供预处理输入视频为 10 秒 720p、音频剥离、视频检查等辅助工具。同作者展示 Omni Flash 模型编辑能力:输入"将桌子改成浅水池",模型输出湿手、水波、折射、阴影及音效。该 API 已开放,可用于构建视频编辑流水线。

fofr: Omni Flash is a smart model. The way the hand is wet, the water ripples, the refraction, the shadows, the sound effects ...

智能体Google教程/实践视频
00:50
fofr@fofrAI
32
Omni Flash 模型具有出色的图像编辑能力,能够将桌子变为浅水池,并逼真呈现手部湿润、水波、折射、阴影和音效。该模型现已通过 API 提供,其编辑能力非常适合实现炫酷的流水线。

fofr: Omni Flash is a smart model. The way the hand is wet, the water ripples, the refraction, the shadows, the sound effects ...

Google图像生成视频评测/基准
00:42
Dwarkesh Patel:Podcast & Blog(RSS)
精选61
Grant Sanderson 谈 AI 与数学的未来

3Blue1Brown 创办人 Grant Sanderson 正在制作记录 AI 在数学领域进展的新项目。他在与 Dwarkesh Patel 的对谈中指出,AI 在 IMO 获金牌并不等于 AGI,只是又一个被攻克的基准。即使 AI 未来解决千禧年大奖难题,仍可能存在大量人类任务无法被自动化。对话还探讨了概念突破验证周期可长达一个世纪、Riemann 假设的 AI 证明能否被人类理解、AI 能否在已有文献间发现隐藏联系,以及现实经济任务难以套用强化学习环境等话题。

大佬观点推理现象/趋势

推荐理由:这次对谈没有停留在AI刷数学题的喜报上,而是追问了‘验证循环’和‘定义生成’两个终极难题。Grant Sanderson的视角让人重新思考AI的进展究竟缺什么,数学家未来的角色会是什么。
00:37
Hacker News 热门(buzzing.cc 中文翻译)
68
Claude Code 通过隐写术在请求中嵌入环境标记

Claude Code 客户端在向 Anthropic API 发送请求时,利用日期分隔符(- 或 /)和撇号字符('、’、ʻ、ʹ)嵌入环境信息。代码检测 ANTHROPIC_BASE_URL 是否为非官方域名、系统时区是否为 Asia/Shanghai 或 Asia/Urumqi,以及主机名是否匹配中国域名列表(如 baidu.com)或 AI 实验室关键词(deepseek、zhipu 等)。这些列表通过异或 91 的 base64 解码得到。此举旨在标记通过代理、镜像等非官方通道发起的请求,以便 Anthropic 识别来源。

Anthropic安全/对齐编码
00:30
宝玉@dotey
59
Claude Code 宣传视频翻车:效率数据亮眼但用户感受差

Claude Code 宣传视频以 Spotify 为例,展示工程侧耀眼数据:每天 4500 次生产部署、73% PR 由 AI 辅助、工程师同时运行 5-10 个 Claude 会话、在 2000 万行 monorepo 中跑 agent,代码迁移加入验证后成功率从 25% 提升至 80%。但用户和知名开发者批评这些数字未转化为产品体验提升——Spotify bug 增多、播客功能失效、界面多年停滞。AI 宣传只堆效率指标,忽视用户真实感受,暴露了当前 AI Agent 价值衡量的根本矛盾。

ClaudeDevs: Boris sat down with Spotify VP of Engineering Niklas Gustavsson. Spotify ships 4,500 production deploys a day, and 73% o...

Anthropic现象/趋势编码
00:13
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选62
OpenAI Signals 数据揭示 ChatGPT 全球采用趋势

OpenAI Signals 数据显示,用户注册六个月后日均消息量增加50%,尝试任务种类翻倍。自2023年7月以来,各大洲活跃用户均大幅增长,非洲和亚洲增速最快,低人类发展指数国家增长尤为显著。用户群体更加多元化,女性名字用户已占全球多数,巴西、哥伦比亚、波兰和纳米比亚等国女性用户显著多于男性。非英语用户占活跃用户半数以上,领先语言为西班牙语、葡萄牙语和阿拉伯语;乌兹别克语、哈萨克语和缅甸语用户占比增长百分比最大。

OpenAI现象/趋势

推荐理由:OpenAI 首次公开用户行为数据,显示使用深度和广度随时间增长、非洲与亚洲增速最快,对做全球化产品的同行是个重要信号。
6月30日
23:56
jason@jxnlco
15
真不可思议,AI工程师是我第一次公开演讲。 而现在有6000人在线收看。
其他
23:51
凡人小北@frxiaobei
55
Cloudflare 新增 Browser Rendering 远程 Chromium 抓取功能

Cloudflare 新增 Browser Rendering,提供远程 Chromium 抓取。Workers Paid $5/月含 10 小时浏览器/天。作者将 AI 公司官网抓取从 Jina Reader 迁至 Cloudflare,实际日耗约 3 分钟,99%+ 余量未用,避免了 Jina 免费层耗尽后的 402 静默失败问题,价格从 token 计费变为 $5 封顶可预测。结合 Pages、Workers、D1、R2、KV、Tunnel 及 Claude Code/OpenClaw + GitHub 自动构建,一人一套 Agent 即可将产品从 0 跑到上线,基础设施成本近乎免费。

凡人小北: Cloudflare 基本已经成了个人开发者/出海独立建站/轻量创业项目的免费全家桶。 Pages 管前端部署(虽然官方不主推了,但是倾向于很多静态也方式),Workers 管后端逻辑,D1 管数据库,R2 管存储,KV 管缓存和短链,Tu...

智能体现象/趋势部署/工程
23:29
Hugging Face:Blog(RSS)
49
专业化为何不可避免

Dharma AI 团队引述 Goldfeder、Wyder、LeCun 和 Shwartz-Ziv 于 2026 年发表的论文,从优化理论、生物学和竞争市场论证专业化的必然性。Wolpert-Macready 无免费午餐定理表明,通用优化算法在所有问题上平均表现相同,实际优势来自专门适配;有限资源下,集中资源于有限任务集的系统必然优于平均分配的通用系统。生物学中的特化权衡与市场竞争也指向同一结论:最大化适应性在于精确拟合特定环境,而非追求通用性。

数据/训练现象/趋势
23:23
Peter Steinberger 🦞@steipete
48
Peter Steinberger澄清:OpenClaw未被OpenAI收购,希望获得建设性帮助

针对用户Cristian嘲讽“被OpenAI收购、拿到无限token却做出劣质应用”的推文,Peter Steinberger回应:OpenClaw未被收购,它是OpenClaw Foundation下的独立开源项目,由社区构建;OpenAI仅赞助token用量,他本人恰好在OpenAI工作。当前iOS和Android应用尚不完善,但已实现安全配对和推送通知并通过App Review。他表示当天收到约30条类似批评,希望得到建设性帮助,而非空耗注意力。

cristian rus: imagine getting acquired by @OpenAI, get unlimited AI tokens and still drop this slop abomination

OpenAI大佬观点开源生态
23:21
凡人小北@frxiaobei
20
OpenClaw现已登陆iOS和Android,终于推出原生移动应用,可将Agent装进口袋,随时管理频道、任务和回复。用户@小北体验后评价:"继续加油吧!这个软件唯一的价值就是消耗了一大堆token。"

OpenClaw🦞: OpenClaw is now on iOS + Android 🦞 📱 Native mobile apps, finally 💬 Agents in your pocket 🔔 Channels, tasks, replies ...

智能体其他
23:19
Chubby♨️@kimmonismus
51
Acti 智能体键盘发布:每个文本字段中的隐形智能体

Acti (@openacti1) 推出 Agentic Keyboard(智能体键盘),定位为继 2007 年苹果玻璃键盘后的下一次变革。它不是语法修正或语音转写工具,而是在每个文本字段中嵌入隐形智能体。用户输入内容后按住即可运行,结果直接返回,无需离开当前对话。支持将自定义工作流绑定到技能键并即时触发。推文作者认为这是今年智能体领域最有趣的创新之一,称键盘是 AI 理想的载体形式。

Young: The last major keyboard moment was in 2007, when Apple put the keyboard on glass. Nearly 20 years later, we're introduci...

智能体大佬观点
22:35
elvis@omarsar0
24
推荐阅读,如果你正在使用开放模型进行扩展。 顺便说一句,你应该思考如何使用开放权重模型进行扩展。

elvis: http://x.com/i/article/2071684582336782336

开源生态教程/实践
22:30
宝玉@dotey
65
微服务架构下AI Agent的系统设计与编码实践

建议将所有微服务放在一个workspace(monorepo或虚拟monorepo),让Agent同时看到schema、API和实现代码。文档采用分层结构:根目录AGENTS.md索引各服务职责,每个服务内写清bounded context。优先用OpenAPI spec等机器可读规格自动生成文档。协议测试(contract test)是精准活文档,能验证服务间交互。验证环节各服务提供mock server或基于OpenAPI的模拟服务,Agent在本地跑contract test形成“写代码→跑测试→自我修正”闭环。可进一步引入consumer-driven contract testing(如Pact)。

智能体教程/实践
22:21
凡人小北@frxiaobei
70
做Agent自动化系统时,一个很容易踩的坑:把"放行信号"写在调用者也能写的地方

将放行信号放在PR评论等可被调用者写入的通道存在风险。AI review贴评论,monitor回读“High: None”即自动合并,但任何有评论权限的人或Agent都能伪造结果。安全门禁的信任结果应走进程内闭环(如returncode、内存状态),评论仅供查看,不可作为门禁依据。

智能体安全/对齐教程/实践
21:30
公众号:数字生命卡兹克
58
国产AI两个"万亿"里程碑:美团LongCat-2.0发布,寒武纪市值破万亿

今天,美团发布LongCat-2.0,1.6万亿参数、100万上下文,全流程在5万张国产算力卡上完成训练和推理,英伟达含量为零,是首个在纯国产算力集群上从零跑通的万亿参数大模型。同日,寒武纪市值突破1万亿人民币,成为科创板首家万亿市值公司。两个“万亿”里程碑叠加Claude封号背景。作者测试显示LongCat-2.0的Agent和Coding能力约在Claude Opus 4.6水平。

数据/训练现象/趋势
21:26
Ethan Mollick@emollick
40
未来会出现的一个常见挑战是:如何让组织从更强大的AI智能体中捕获收益。高人力资本公司需要设计好组织,以便从其高质量员工中受益。同样,捕获高能力AI的价值也需要类似的组织设计。
大佬观点现象/趋势
19:19
向阳乔木@vista8
21
女儿说昨天做了一个噩梦,她让豆包生成Hello Kitty,发现居然有嘴巴。😂😂😂 刚查了下,发现是正版是没嘴。。。
其他图像生成
19:02
IT之家(RSS)
48
谷歌前工程负责人用Claude Code开发维基百科搜索引擎Zettair,未手动写一行代码

谷歌前工程负责人休·威廉姆斯借助Anthropic的编程助手Claude Code,开发出可正常运行的搜索引擎Zettair,为150万个维基百科条目建立索引。该引擎支持搜索自动补全、关键词摘要片段、相关搜索推荐、热门话题榜单以及AI生成的内容摘要。威廉姆斯未手动编写一行代码,但底层检索框架源自其21世纪初参与研发的信息检索系统。他认为,Claude Code只有在深厚专业技术功底的配合下才能发挥最佳效果,经验丰富的工程师永远是最出色的“指导者”。

Anthropic大佬观点搜索编码
18:19
Chubby♨️@kimmonismus
34
Claude Sonnet 5 的早期准备工作再次被观测到,发布在即。有传闻称 Sonnet 5 将与 Fable 5(可能需 ID 验证)一同重新发布。这引发担忧:无法访问 Fable 5 的地区(如欧洲)用户可能只能获得更弱的 Sonnet 5。

M1: Early preparations for Claude Sonnet 5 have been spotted again. Seems imminent.

Anthropic大佬观点行业动态
17:29
Rohan Paul@rohanpaul_ai
56
Coinbase CEO Brian Armstrong透露,Coinbase正通过其LLM网关实验默认使用中国开源模型GLM 5.2和Kimi 2.7,并根据提示词难度路由执行。他表示前沿模型适合规划,但用于执行可能"过度杀伤"。该决策背后引用前Meta PM及Perplexity CEO Aravind Srinivas观点:中国在数据中心建设速度、电力、许可、人力和专业知识方面均具显著优势。

Rohan Paul: Opinion from a former Meta PM. And this is from Aravind Srinivas of Perplexity "China can build data centers a lot faste...

大佬观点开源生态推理
17:28
Berryxia.AI@berryxia
17
兄弟们,下班前学习下。 OPC 和个体户的区别! 别以为没区别啊!敲黑板,认真学啊! 【引用 @berryxia】:卧槽!来咯~ 我终于特么弄懂你们天天吹的循环工程了!!!

Berryxia.AI: 卧槽!来咯~ 我终于特么弄懂你们天天吹的循环工程了!!!

其他
17:24
歸藏(guizang.ai)@op7418
29
用户@juransir 因账号被封后爆料,称A社(未具名AI公司)在通知邮件中嵌入追踪器,可监控用户打开邮件时的地理位置。该用户表示,此前因账号存活而隐忍未发,封号后终于公开指责A社"心术不正",并预言其终将遭报应。主推文@归藏 转引此帖,感叹"这么离谱"。事件未涉及具体模型版本、技术参数或价格数字,核心争议集中在AI厂商对用户隐私的潜在侵犯与封号沟通方式的争议。

居然sir: 账号没被封的时候一直忍住没骂过 A 社,这下被封了可以放心开骂了。 通知邮件里还装追踪器,看我在什么位置打开的邮件。 全球 AI 厂就属你丫最心术不正,还整天搁那装大尾(yǐ) 巴狼。 早晚得遭报应。❤️

Anthropic行业动态
17:02
IT之家(RSS)
57
TrendForce:AI需求排挤产能,晶圆代工成熟制程涨价预计延伸至2027年

AI Server、General Purpose Server与Edge AI需求升温,晶圆代工产能向AI倾斜。八英寸制程受惠于Power订单增量及台积电、三星减产,产能利用率与代工价格强势拉升。十二英寸成熟制程因台积电减产、Power IC订单强劲、AI排挤及原物料通膨,涨价氛围已形成,部分制程在2026年第二至第三季调涨5-10%,并意图2027年全面调涨。消费电子成本压力下客户协商暂缓2026年下半年涨价,但2027年价格调升仍难以避免。

现象/趋势部署/工程
16:37
Hacker News 热门(buzzing.cc 中文翻译)
43
Moondream Photon 通过流水线解码消除 GPU 气泡,提升 35% 吞吐量

Moondream 推理引擎 Photon 在 NVIDIA B200 上实现约 33ms 近实时 VLM 推理。其利用流水线解码技术,将 GPU 计算与 CPU 任务重叠,消除传统循环中 GPU 空闲等待的“GPU 气泡”,使解码吞吐量提升高达 35%。文章详述三种关键机制:乒乓缓存槽位避免缓冲冲突、前向计算与采样解耦实现受约束解码、以及已结束请求的清理流程(zombies)。

推理教程/实践部署/工程
16:29
Rohan Paul@rohanpaul_ai
59
花旗研究:中国模型token价格低至18美分,企业转向成本控制引AI定价压力

花旗研究数据显示,中国模型每百万token收费低至18美分,而顶级模型均价4美元。OpenRouter上开源模型处理占比从1月34%升至6月65%,DeepSeek等中国模型因低价受关注。Gartner预测AI编码成本2028年将超普通开发者薪资。按用量付费使企业从“选最强模型”转向成本控制,OpenAI和Anthropic面临逐任务比价压力。前Meta PM及Perplexity CEO指出,中国能更快建设数据中心,电力、许可、人力、专业能力均不成问题,进一步压低成本。

Rohan Paul: Opinion from a former Meta PM. And this is from Aravind Srinivas of Perplexity "China can build data centers a lot faste...

DeepSeek开源生态现象/趋势
15:59
Rohan Paul@rohanpaul_ai
45
推文展示贵州山区绵延至地平线的太阳能板群,将裸露岩体转化为太瓦时量级的电力。引用观点指出,AI规模化发展受制于电力、矿产与磁铁供应链等物理输入,而中国在电力冗余以及数据中心与芯片依赖的关键矿物和磁材供应链上拥有主导优势。这一基础设施差距正成为AI竞争的核心变量。

Rohan Paul: AI at scale is constrained by physical inputs, and China has more slack in electricity plus dominant control over severa...

数据/训练现象/趋势
15:55
jason@jxnlco
4
如果 OpenAI 有一个艺术资助项目,那会是什么样子?
OpenAI其他
15:29
Rohan Paul@rohanpaul_ai
47
前 Meta PM 转引 Perplexity CEO Aravind Srinivas 称,中国建数据中心速度远快于美国,电力、许可、人力、专业能力均无问题。分析师 @quxiaoyin 进一步指出美国 AI 最坏情境:1)中国开源模型持续抢占市场份额,中国主导模型层;2)模型在华为芯片上训练和推理优化,而非 NVIDIA,中国同时主导芯片层;3)美国数据中心建设跟不上算力、存储与能源需求,中国持续出口推理与训练层。出口管制非正确策略,美国应投资开源模型、争取中国模型使用 NVIDIA,并尽快投资核电。

Xiaoyin Qu: The worst case scenario for USA AI: 1. Chinese open sources keep gaining market share. China owns the model layer. 2. Th...

大佬观点开源生态现象/趋势
15:28
Emad@EMostaque
44
中国的策略非常简单。 将智能成本降至能源成本 输出超过美国 巨型训练集群的专注是一个巨大的干扰
大佬观点数据/训练行业动态
15:02
IT之家(RSS)
55
AI 老板 500 天模拟经营:多数模型亏惨,Claude Fable 5 独占鳌头

普林斯顿大学发布 CEO-Bench 基准测试,模拟创业公司 500 天经营,启动资金 100 万美元,评估 AI 模型担任 CEO 的能力。多数模型在 500 天后破产。最佳单次运行中,Claude Fable 5 期末现金达 4715 万美元,是唯一多次运行均高于初始余额的模型;Claude Opus 4.8 为 2778 万美元,GPT-5.5 为 2130 万美元。Grok 4.20 平均仅存活 28 天,DeepSeek V4 Pro 和 Gemini 3 Flash 亦全部破产。基于规则的基准模型最终余额为 1580 万美元。

智能体Anthropic推理评测/基准
15:02
IT之家(RSS)
53
优必选创始人周剑:机器人将替代手机,成为AI最核心的交互终端

在2026年度全球发布会上,优必选创始人周剑指出,机器人将替代手机成为AI最核心的交互终端,用户用自然语言下达指令即可获得服务与情感陪护,交互方式从手动变为口述,奠定机器人在家庭的终端入口地位。同日,优必选宣布超仿生人形机器人优世界U1系列订单已突破1万台,力争今年交付。该机器人主打情感陪伴,分男女两款,各搭载88个高自由度运动关节。作为对比,2025年全年优必选全尺寸具身智能人形机器人总销量为1079台。

具身智能大佬观点
14:48
向阳乔木@vista8
17
OODA循环:AI竞争的核心是迭代速度

推文引用摩根大通CEO杰米·戴蒙的说法,他曾用OODA循环(观察-定向-决策-行动)评估复杂业务场景。该模型由美国空军上校约翰·博伊德在1970年代初提出,用于解释空战中如何快速做出正确判断。作者认为,未来大模型或AI组织的竞争本质也是如此——谁自我迭代循环得更快,谁就能赢得优势。

现象/趋势
14:36
karminski-牙医@karminski3
60
SGLang DSpark实测:1.81倍加速,预测3个token

SGLang的DSpark在PR中放出实测数据,可预测3个token(数学类3.37,日常对话3,代码3.52)。1K长度prompt下加速比达1.81倍,8卡B200速度297 token/s(无DSpark为164 token/s)。单并发提升最高,超过8并发仅1.2‑1.3倍。TPOT仅2.9‑5.2ms,延迟可忽略。该PR(#29538)尚未合并。

开源/仓库推理部署/工程
14:33
SemiAnalysis@SemiAnalysis_
56
Nvidia下半年数据中心收入预期高20% Rubin大幅爬坡

SemiAnalysis 指出,Nvidia 今年下半年将迎来大幅增长,其加速器模型估计 Nvidia 数据中心计算收入在 FY2027 下半年比共识预期高 20%。Rubin 芯片因早期 HBM4 问题已解决且前端晶圆供应充足,将实现大幅爬坡。这些估计基于供应链(包括材料、制造、组件、服务器集成商到超大规模和前沿实验室)的全面研究。

现象/趋势
‹ 上一页
1…56789…50
下一页 ›