AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
6月24日周三
04:10OpenAI:官网动态(RSS · 排除企业/客户案例)46OpenAI 联合创立 Appia Foundation,推动 AI 评估标准与信任层建设
03:59Chubby♨️50Anthropic联合创始人:递归自我改进2028年到来
03:18Simon Willison 博客59OPFS + Pyodide 测试 UI
02:37MarkTechPost(RSS)51如何使用NVIDIA Canary-1B-v2进行ASR、翻译和自动SRT字幕导出
02:26Hugging Face:Blog(RSS)64精选在 Transformers.js 中实验提议的跨源存储 API
02:12AYi45开源AI投资系统:18位智能体模仿巴菲特芒格等大师
02:12AYi28holy shit😭 AI视频脸崩镜头乱的死穴被这个玩法直接干没了, 角色全程不崩,运镜精准到帧, 独立创作者直接能拍院线级镜头!
01:50elvis61Latitude:开源AI智能体可观测性工具
01:47swyx 🔜 @aiDotEngineer19AIE演讲者会议前宣布创办公司
01:20elvis38Vercel eve框架:一切皆文件,快速构建智能体
01:19Yuchen Jin4Julien_c和Natolambert别背叛我们
01:14Claude:Blog(网页)42Claude Tag 的 Agent Identity 访问模型
01:12AYi64YC CEO Garry Tan 批评 Dropbox 存储限制:AI 数据海啸将至
01:10Meta Engineering Blog(RSS)45Meta 如何为 AI 眼镜设计超窄钢壳电池
01:08jason13Codex可用于几乎所有事情
01:02Hacker News 热门(buzzing.cc 中文翻译)63人工智能的可负担性危机
00:49François Chollet43符号学习将带来接近最优的AI
00:42Ethan Mollick47Mythos模型风险与开源AI风险增大
00:27The Verge:AI(RSS)58Midjourney转向全身扫描仪引专家质疑
00:16Microsoft Research48微软研究播客探讨AI超越自动化工具新可能
00:07jason16Codex Billboard 链接上线
00:00Berkeley RDI:Blog(AI 安全与评测)82精选恶意CDN仍潜伏GitHub Pages,AI让情况恶化
6月23日周二
23:50elvis27GLM-5大规模RL基础设施详解
23:49François Chollet44Token三种模式:最大、最小、最小-最大
23:46Nathan Lambert32Nathan Lambert 为新书新增 7.4 小时讲座视频:聚焦 on-policy 蒸馏与合成数据
23:32向阳乔木68网友用AI总结新智元标题规律并发布生成Skill
23:27The Verge:AI(RSS)59Fitbit Air 以更聪明的方式应对 AI 健康乱局
23:20SenseTime18商汤科技发布基于 Office Raccoon 和 SenseNova-Skills 的 2026 世界杯小组赛预测引擎
23:17gabriel42AI测试应成为编码应用一等特性
23:16Berryxia.AI68a16z领投Impeccable,Paul Bakaus创立Renaissance Geek
23:16Berryxia.AI43满血GLM5.2本地部署成2026年新炫富方式
23:15Nathan Lambert44Nathan Lambert 新讲座:名义合成数据,实为知识蒸馏文献巡礼
23:13歸藏(guizang.ai)49Seed 2.1 Pro 测评:胜任 Agent 工作流
23:13歸藏(guizang.ai)42豆包 Seed 2.1 Pro 补齐 Agent 与 Coding 短板
23:12AYi64日本Fugu:0.6B参数的AI项目经理
23:02向阳乔木25看看这个skill生成的标题,是不是有新智元的味道了😂
23:00公众号:昆仑万维(天工)49DramaWave张薇:AI拍剧代替的是流程,不是故事 | 上海电视节白玉兰论坛
22:26Hacker News 热门(buzzing.cc 中文翻译)48《The Coming Loop》--Hacker News 热门文章
22:16Berryxia.AI42Berry Xia质疑Fugu性能接近GLM 5.2宣传:实际差距明显且成本高17倍
22:15Runway23Runway:世界成为AI新中心
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月24日
04:10
OpenAI:官网动态(RSS · 排除企业/客户案例)
46
OpenAI 联合创立 Appia Foundation,推动 AI 评估标准与信任层建设

OpenAI 联合创立了由 Linux 基金会托管的 Appia Foundation,旨在开发开放模块化规范,将国际标准与既有框架转化为 AI 价值链中的实用评估标准,并构建第三方合规验证的信任层。该工作与 OpenAI 此前发布的民主治理蓝图、Preparedness Framework 及 Frontier Governance Framework 一脉相承,强调国家能力与国际合作相互加强。OpenAI 还参与了 ISO/IEC JTC 1/SC 42、NIST 人工智能联盟、Frontier Model Forum 等多个标准化组织,并与美国 CAISI 及英国 AISI 合作开展前沿评估实践,推动评估方法与安全防护的实质性改进。

OpenAI安全/对齐行业动态
03:59
Chubby♨️@kimmonismus
50
递归自我改进:Anthropic联合创始人Jack Clark表示,这一现象可能到2028年出现。 AI系统可以帮助发明自己的继任者--比如Claude 10构建Claude 11,以此类推--有可能"无需任何研究人员参与"。
Anthropic大佬观点现象/趋势
03:18
Simon Willison 博客
59
OPFS + Pyodide 测试 UI

Simon Willison 使用 Claude Code for web 构建了一个 OPFS + Pyodide 测试 UI,用于验证 Datasette Lite(基于 Pyodide 和 WebAssembly 在浏览器中运行的 Python Datasette 应用)能否通过 Origin Private File System(OPFS)编辑用户计算机上的持久 SQLite 文件,并在不同浏览器中测试其可行性。

教程/实践端侧
02:37
MarkTechPost(RSS)
51
如何使用NVIDIA Canary-1B-v2进行ASR、翻译和自动SRT字幕导出

该教程通过Python使用NVIDIA Canary-1B-v2构建语音识别与翻译管线:先安装NeMo ASR工具包和音频依赖,在GPU上加载模型;将音频处理为16 kHz单声道格式后,执行英语ASR,将语音翻译为25种语言,生成词级和时间段时间戳,导出SRT字幕文件,并支持长文本转录、批处理与推理速度基准测试。

教程/实践语音
02:26
Hugging Face:Blog(RSS)
精选64
在 Transformers.js 中实验提议的跨源存储 API

Transformers.js 在浏览器中运行 AI 模型时,不同来源的 Web 应用会重复下载并缓存相同的模型资源(如 Xenova/whisper-tiny.en)和 Wasm 运行时文件(如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm),即使资源 URL 相同,浏览器因 Network Isolation Key 隔离缓存,单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案,旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现,但可通过 Chrome 扩展注入 polyfill 进行实验。

Hugging Face开源生态教程/实践部署/工程

推荐理由:这个Chrome提案让不同网站的AI模型共享缓存,对用Transformers.js的Web开发者是切实的性能改进,但还只是早期实验。
02:12
AYi@AYi_AInotes
45
开源AI投资系统:18位智能体模仿巴菲特芒格等大师

一个4.6万星标、8千次分叉的MIT协议开源项目,提供免费AI投研系统。输入股票代码后,18位分别模仿巴菲特、芒格、木头姐、格雷厄姆等流派的智能体会自动抓取实时财报、新闻,依据各自投资哲学独立分析,风控模块排查仓位风险,最终由组合经理输出买卖持有结论,推理链完全透明。内置回测引擎、可视化网页界面,支持云模型或通过Ollama完全本地运行,核心基础数据永久免费,无需API密钥。

AYi: http://x.com/i/article/2069024565901119488

智能体开源/仓库开源生态
02:12
AYi@AYi_AInotes
28
holy shit😭 AI视频脸崩镜头乱的死穴被这个玩法直接干没了, 角色全程不崩,运镜精准到帧, 独立创作者直接能拍院线级镜头!
现象/趋势视频
01:50
elvis@omarsar0
61
DAIR.AI 创始人 Elvis Saravia 推荐开源(MIT 许可)工具 Latitude,用于 AI 智能体可观测性。将 Latitude 指向 Claude Code 配置后,可实时查看哪些任务消耗 token 预算,观察智能体行为、捕获重复失败及其频率与原因,并在编辑器中直接修复。引用推文指出:公司最被低估的数据源是 AI 智能体对话,Latitude 能捕捉这些被浪费的数据。免费试用地址:latitude.so。

cesar.wtf: Most underrated data source in a company: your AI agent's conversations. Your agent talks to more customers than any emp...

智能体教程/实践部署/工程
01:47
swyx 🔜 @aiDotEngineer@swyx
19
恭喜@jxmnop!这么多AIE演讲者在会议前宣布成立公司。

Engram: http://x.com/i/article/2069463677733142528

现象/趋势
01:20
elvis@omarsar0
38
Vercel 的 eve AI 智能体框架将所有内容(工具、技能、评估)都视为文件,让你能快速上手构建 AI 智能体。如果你喜欢 TypeScript,也会喜欢它。快去试试吧!

elvis: I'm digging the eve agentic framework from Vercel. I like that everything is files, from the tools to the skills to the ...

智能体大佬观点
01:19
Yuchen Jin@Yuchenj_UW
4
不可能。 @julien_c 和 @natolambert,别背叛我们。
其他行业动态
01:14
Claude:Blog(网页)
42
Claude Tag 的 Agent Identity 访问模型

Claude Tag 推出 agent identity(智能体身份)访问模型,让 Claude 在共享频道中以独立身份工作,而非模拟某个用户。管理员在工作区级配置连接器、仓库访问、技能插件和固定指令等权限,每个频道可覆盖继承的基线设置。私有频道拥有独立身份,记忆和访问不跨频道流转;公共频道共享工作区级身份。该模型为自主多玩家 AI 场景设计,允许频道成员通过 Claude 访问已授权工具和数据,同时通过按身份撤销简化权限管理。

智能体Anthropic教程/实践部署/工程
01:12
AYi@AYi_AInotes
64
YC CEO Garry Tan 批评 Dropbox 存储限制:AI 数据海啸将至

YC CEO Garry Tan 指出 Dropbox 不支持大于 3TB 的套餐已过时,AI 产生的“实际可用”数据将指数级增长。核心变化:数据从人创造变为“人+AI 共同创造”,一次 agent 工作流就能生成大量结构化高质量数据;存储价值从容量转向管理智能(语义搜索、向量数据库等);AI 将边际成本打至极低,反而催生更多高质量数据。重度用户(开发者、研究员、创作者)将最先撞上 3T 天花板并迁移。作者认为这是给创业者的信号:谁能替个人和小团队接住可用数据爆炸,谁就能抓住下一波工具浪潮。

Garry Tan: Dropbox should really support larger than 3TB plans - it's not 2015 anymore. The amount of data we are throwing off and ...

数据/训练现象/趋势
01:10
Meta Engineering Blog(RSS)
45
Meta 如何为 AI 眼镜设计超窄钢壳电池

Meta 工程团队为 Ray-Ban Meta 等智能眼镜开发了宽度仅 7mm 的钢壳电池。传统软包电池难以塑形且空间利用率低,Meta 改用叠片式电极结构以降低阻抗、避免多任务时电压骤降,并将公差控制在约 100 微米以释放更多体积。Gen2 电池容量从 160 mAh 提升至 210 mAh,但续航翻倍主要来自软硬件系统级效率优化。Oakley Meta Vanguards 双电池面临交叉充电与启动关机时序难题,而 Meta Ray-Ban Display 则搭载了最大的 248 mAh 钢壳电池以支持屏幕持续供电。该超窄方案正推广至其他硬件形态。

Meta教程/实践端侧
01:08
jason@jxnlco
13
codex用于(几乎)所有事情

Theo - t3.gg: Weirdest Amazon Prime day to date. Front page is full of absolute slop. Had to spend hours digging and filtering to find...

OpenAI其他
01:02
Hacker News 热门(buzzing.cc 中文翻译)
63
人工智能的可负担性危机

本文标题为《人工智能的可负担性危机》,指出当前人工智能领域的成本持续攀升,已引发业界对可负担性的广泛担忧。该文章出自 blog.dshr.org,并在 Hacker News 上获得 100 个点赞。随着 AI 技术的推进,成本问题正成为制约其普及的关键因素,文章的核心观点围绕这一危机展开讨论。尽管原文未提供具体数据,但标题本身已点明了 AI 成本持续上升所带来的紧迫挑战。

数据/训练现象/趋势
00:49
François Chollet@fchollet
43
2040年的AI将不再基于我们今天使用的技术栈。它将更接近最优。当前的技术栈有3-4个数量级的数据低效和4-5个数量级的计算低效。 接近最优的AI将由符号学习实现。
大佬观点推理
00:42
Ethan Mollick@emollick
47
所有Mythos级别的模型都可能引发类似风险。 随着未来6-12个月左右开源Mythos级AI的发布(假设中国允许),这些风险只会更大。 政府对哪些风险感到担忧缺乏明确性,可能正在减缓准备工作。
安全/对齐开源生态政策/监管
00:27
The Verge:AI(RSS)
58
Midjourney转向全身扫描仪引专家质疑

上周,以图像生成闻名的Midjourney宣布进军医疗成像,推出沉浸式水浴超声扫描仪。用户站上平台沉入水中,环形水下传感器发出声波,号称60秒完成全身扫描,效果“堪比MRI但像水疗一样随意”。公司称使用AI和专用芯片处理海量数据并实现无损压缩加速处理,计划先投放水疗中心而非作为诊断设备。多位放射科和成像专家表示质疑,称目前图像分辨率低、与MRI等效的说法毫无依据,该概念并非全新且缺乏公开证据。专家强调从原型到临床价值验证仍有很长的路。

其他行业动态
00:16
Microsoft Research@MSFTResearch
48
在微软研究播客上,微软的 Jaime Teevan、Jenna Butler、Jake Hofman 和 Rebecca Janssen 探讨了,将 AI 视为不仅仅是自动化人们已能完成任务的工具,可能会如何打开新的可能性。https://msft.it/6011vo8cX
Microsoft大佬观点现象/趋势
00:07
jason@jxnlco
16
给你!可能来自 @itsjessyin https://codex-billboard.vercel.app/
OpenAI编码评测/基准
00:00
Berkeley RDI:Blog(AI 安全与评测)
精选82
恶意CDN仍潜伏GitHub Pages,AI让情况恶化

UC Berkeley研究人员发现,近2000个GitHub Pages站点(18000+页面,累计530K+星标)仍在加载来自polyfill.io及其关联恶意CDN的脚本。这些CDN由已被OFAC制裁的Funnull Technology Inc.(现更名Triad Nexus)运营,2024年被出售后开始条件性注入恶意载荷,劫持移动用户、跳转欺诈站点、伪造认证弹窗窃取凭证。扫描12000+站点确认786个加载polyfill.io,1191个加载其他Funnull CDN。更严峻的是,所有测试的大语言模型在生成前端代码时仍推荐这些被污染的CDN URL,包括CyC2018/CS-Notes(184K⭐)、microsoft/AirSim(18K⭐)等知名项目及多所大学课程页面。

GitHub安全/对齐开源生态编码

推荐理由:polyfill.io等恶意CDN仍在GitHub Pages上感染近2000个站点,更可怕的是所有测试的AI模型都还会推荐这些链接,AI编码的便利正在变成供应链投毒的加速器。
6月23日
23:50
elvis@omarsar0
27
一篇博客文章汇总了在 GLM-5 上进行强化学习所需的所有基础设施组件。主推文作者强烈推荐阅读,并认为这对自我改进智能体发展至关重要。

elie: every infra piece you need to know to do RL on GLM-5 https://www.primeintellect.ai/blog/rl-at-1t-scale

智能体教程/实践数据/训练
23:49
François Chollet@fchollet
44
休闲:Token 最大化 紧张:Token 最小化 元:Token 最小-最大化
大佬观点现象/趋势
23:46
Nathan Lambert@natolambert
32
Nathan Lambert 为新书新增 7.4 小时讲座视频,内容涵盖从 2015 年 Hinton 知识蒸馏论文到当下多教师 on-policy 蒸馏(OPD、MOPD、OPSD)。视频重点讲解了使 on-policy distillation 适配主流 RL 框架所需的 3-4 项核心公式改动,并回顾了合成数据如何逐步占领训练后数据研究领域。此外还介绍了 Constitutional AI、AI 反馈以及将评分准则作为奖励等主流方法。时间线:00:00 合成数据兴起,10:50 师生蒸馏背景,24:47 on-policy 蒸馏,37:11 Constitutional AI,45:50 评分准则与结论。

Nathan Lambert: New lecture for the book! Nominally about synthetic data, but mostly is a walk through of the distillation literature fr...

教程/实践数据/训练
23:32
向阳乔木@vista8
68
网友用AI总结新智元标题规律并发布生成Skill

网友Vista通过AI分析新智元标题风格,总结出中位长度32字、标点使用率近八成、数字出现率56.7%、英文名出现率90.8%等规律,并发布名为joeseesun/qiaomu-xinzhiyuan-title的Skill,可用npx skills add安装,生成类似标题。

向阳乔木: 看看这个skill生成的标题,是不是有新智元的味道了😂

GitHub教程/实践编码
23:27
The Verge:AI(RSS)
59
Fitbit Air 以更聪明的方式应对 AI 健康乱局

售价 99 美元的 Fitbit Air 是一款轻便手环,续航出色(一个月仅充电三次,45 分钟可充至 85%),支持心率、睡眠、血氧、准备度等指标。核心亮点是与 Google Health 绑定的 AI 健康教练,基于 Gemini 驱动,每日推送睡眠与准备度总结及行动建议,可解读数据趋势并生成旅行健身计划,但不提供诊断。该教练需 $99/年 Premium 订阅,且不独占于 Air。作者认为多数 AI 健康功能是“糟糕的贴金捞钱”,但 Google Health Coach 是其中最接近不糟糕的一款,前提是用户愿意投入大量精力进行引导。

Google评测/基准
23:20
SenseTime@SenseTime_AI
18
商汤科技发布基于 Office Raccoon 和 SenseNova-Skills 的 2026 世界杯小组赛预测引擎

商汤科技利用 Office Raccoon 与 SenseNova-Skills 构建数据驱动预测引擎,用于 2026 年世界杯小组赛结果预测。引擎整合 FIFA 排名、Elo 评分、Transfermarkt 球队身价、WinnersAndWhiners 赔率、RotoWire 战术分析、FootballBerry 排名及 ESPN 市场数据,并从长期阵容能力、近期状态、阵容完整度、战术适应性四个维度评估各队。相关项目已开源:SenseNova-Skills 的 GitHub 仓库(含 Hermes Agent 与 OpenClaw 安装指南)及 Office Raccoon 官网已公布。

GitHubMCP/工具行业动态
23:17
gabriel@gabriel1
42
显然,每个PR都会带来100%覆盖的AI应用测试,它会尝试界面中的每个按钮以确保其按预期工作。 为什么编码应用不把AI测试作为一等特性?如果AI自己尝试应用,80%的问题都是显而易见的。
大佬观点编码
23:16
Berryxia.AI@berryxia
68
a16z领投Impeccable,Paul Bakaus创立Renaissance Geek

Paul Bakaus宣布创立Renaissance Geek,旗下设计工具Impeccable获a16z领投融资(Anish Acharya主导),并与GitHub合作——Impeccable预装在GitHub Copilot应用中。他认为AI拉高了创作下限,但优秀作品仍依赖人类意图、迭代与品味;Impeccable只剥离“设计泔水”而非输出品味。设计正从Figma迁入浏览器生产环境,Impeccable让用户用自然语言指导Agent实时修改生产代码,推出Live Mode实现主动人机交互。他定义“文艺复兴极客”为跨学科的T型通才,AI将放大这类人的能力。

GitHub现象/趋势
23:16
Berryxia.AI@berryxia
43
网友分享一张AI生成图,图中Exo集群的网线、C口、电源线等硬件细节明显错误,暴露了图片是AI所作。引用推文指出,2026年最新炫富方式不再是豪车名表,而是在家部署一个满血GLM5.2模型集群。

Max For AI: 我觉得现在豪车、名表或者什么首饰的炫富方式已经过时了。 2026年的方式是:我在我家部署了一个满血GLM5.2🫡

图像生成教程/实践
23:15
Nathan Lambert@natolambert
44
Nathan Lambert 新讲座:名义合成数据,实为知识蒸馏文献巡礼

Nathan Lambert 为其新书发布讲座(7.4 小时),名义上关于合成数据,实则系统梳理知识蒸馏文献——从 Hinton 2015 年论文到现今主流的 on-policy 蒸馏(OPD/MOPD/OPSD)。他重点分析了使 on-policy 蒸馏落地所需的 3-4 个核心数学改动。讲座还回顾了合成数据逐步取代后训练数据研究的历史,并介绍了 Constitutional AI、rubrics 等流行方法。提供章节时间戳(00:00–45:50)。

安全/对齐教程/实践数据/训练
23:13
歸藏(guizang.ai)@op7418
49
Seed 2.1 Pro 测评:胜任 Agent 工作流

Seed 2.1 Pro 正式发布,测评显示它能胜任真实 Agent 工作流。优势包括:复杂任务稳定、视觉内容规划能力强、多模态额外优势。测试通过豆包任务模式(本地电脑 Agent 操作)和火山引擎 API(Cloud Code)进行。复杂 Skills 测试(PPT 生成、社交媒体卡片)表现优秀,能根据内容调整版式。三个前端任务(百叶窗图片动效、WebGL 贝塞尔曲线、跨整页视差滚动网页)均一步到位或结果完整。定位:未必最顶尖,但适合组合工作流——强编码模型负责工程,Seed 2.1 Pro 负责多模态理解、内容规划和视觉表达。限制:视频输入目前为抽帧式处理。API 已在火山引擎全量上线。

智能体多模态编码评测/基准
23:13
歸藏(guizang.ai)@op7418
42
测试显示豆包旗下的 Seed 2.1 Pro 模型表现不错,尤其补上了此前在 Agent 和 Coding 方面的短板,将成为内容创作的主力模型。更多案例及提示词详见原文链接。

歸藏(guizang.ai): http://x.com/i/article/2069421203073490944

智能体编码评测/基准
23:12
AYi@AYi_AInotes
64
日本Fugu仅0.6B参数,本质是AI项目经理,自动拆分任务,从顶级模型池挑选选手,分配思考、执行、验证三种角色,多轮协作合成答案。API调用与普通模型无异,编排策略由训练习得。跑分超越Claude和GPT,绕过scaling law军备竞赛。缺点包括黑箱、复杂任务延迟高、简单题成本更高。信号意义在于多智能体编排从实验室玩具正式变为可用生产力工具,orchestration layer新赛道开启。

AYi: 全网都在吹日本Fugu跑分超GPT,但我敢说99%的人没看懂它真正炸场的地方。 首先这玩意儿根本不是什么超大单体大模型, 它全身上下只有0.6B参数,本职工作就其实就是个AI项目经理, 简单任务自己处理,复杂任务自动拆分,从全球顶级模型池里...

智能体大佬观点推理
23:02
向阳乔木@vista8
25
看看这个skill生成的标题,是不是有新智元的味道了😂
教程/实践
23:00
公众号:昆仑万维(天工)
49
DramaWave张薇:AI拍剧代替的是流程,不是故事 | 上海电视节白玉兰论坛

昆仑万维旗下短剧业务DramaWave内容负责人张薇在6月22日上海电视节白玉兰论坛上分享海外微短剧市场洞察。DramaWave采取付费和免费双轨运营,海外月活用户超亿,年度经常性收入达6亿美金。AI技术极大提升了内容产能——男频玄幻类AI短剧填补了真人拍摄成本高、难度大的空白,平台目前一个月可上线200余部AI剧。张薇指出,AI作为工具代替的是制作环节而非故事内核,99%的观众只关心故事是否好看。合作模式包括成品剧上传、合拍等,平台持续欢迎好剧本。

现象/趋势视频
22:26
Hacker News 热门(buzzing.cc 中文翻译)
48
《The Coming Loop》--Hacker News 热门文章

自 lucumr.pocoo.org 发布题为《The Coming Loop》的文章,在 Hacker News 上获得 103 个点赞。

大佬观点现象/趋势编码
22:16
Berryxia.AI@berryxia
42
Berry Xia质疑Fugu性能接近GLM 5.2宣传:实际差距明显且成本高17倍

Berry Xia发文质疑Sakana Fugu性能接近GLM 5.2的宣称,认为实际差距明显、属营销宣发。引用数据显示,在构建交易台任务中,Fugu Ultra输出22,225 token、成本$0.51;GLM 5.2输出13,677 token、成本仅$0.03,便宜约17倍。Opus 4.8(15,802 token/$0.31)和GPT-5.5(11,474 token/$0.26)成本也更低。主推文指出该模型来自美国VC投资的日本企业,质疑日本能否靠“蒸馏”快速赶超中美。

atomic.chat: Sakana Fugu surprisingly performed near GLM 5.2 level but 17× more expensive! We gave the same prompt to 4 models: build...

AnthropicOpenAI大佬观点评测/基准
22:15
Runway@runwayml
23
人类心智不再是AI的中心。我们的世界才是。
现象/趋势
‹ 上一页
1…2122232425…50
下一页 ›