AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
6月26日周五
10:10公众号:数字生命卡兹克71精选Claude Code 6个实用Hook玩法
09:52meng shao56Snowflake CEO 实验:GLM token 消耗是 Opus 的 2 倍,但成本更低
09:31Hacker News 热门(buzzing.cc 中文翻译)63Hacker News 热议:编程职业的未来走向
09:27小互81精选小互开源个人IP配图技能"小互IP Studio",含31个原创角色
09:23Rohan Paul53《对智能体模型的批判》
09:16Ethan Mollick52美国政府可有效禁止开源权重模型
09:15AYi51Rasmic分享AI UI设计五步流程
09:12凡人小北20AI 算力耗水惊人:年耗 230 亿立方米淡水
08:55SemiAnalysis23SemiAnalysis称SRAM供应无限但逻辑晶圆受限
08:52meng shao62OpenAI Codex 一年数据:知识工作转向长周期任务,覆盖所有部门
08:52Nathan Lambert47开源模型胜出:企业争相基于GLM-5.2自训
08:21宝玉63Codex 发展趋势:从 Agent Office 迈向 Agent OS
08:20Orange AI41豆包/Seed 2.1 Pro推理上下文精度遭用户吐槽
07:53Rohan Paul82精选@exponentialview 发布《State of the AI Economy》报告:AI经济年化收入超1750亿美元
07:52Nathan Lambert39美国政府AI政策失信,领导力将下滑
07:52Nathan Lambert55美国AI政策180度转向加剧不确定性
07:35Meta Engineering Blog(RSS)54Meta 隐私感知基础设施的资产分类:混合模式将 LLM 蒸馏为确定性规则
07:20ginobefun45BestBlogs 早报 · 06-26|Dropbox DSPy 评测优化、Cloudflare Workflows Saga 回滚与出海 C-Corp 架构准备
07:18AI Notkilleveryoneism Memes ⏸️56AI Safety Memes:共和党选民2比1支持暂停AI数据中心,AI反弹或成史上最大运动
07:01GitHub Blog51跨模型与任务的 GitHub Copilot agentic harness 性能与效率评估
06:51OpenAI Developers57GPT-5.5 与 Codex 创意边界对话
06:46Ethan Mollick41理解前沿AI发布的政府安全担忧
06:05Chubby♨️58美国政府将慢速审批分发未来前沿AI模型
05:56elvis72Claude Tag深度分析:企业应"租用智能,但拥有上下文"
05:26elvis14Viktor:多模型AI员工,支持3200+工具
04:55gabriel39AI商业决策差因缺长期轨迹数据
04:53Rohan Paul39John Carmack 谈反数据中心:AI不应重蹈反核覆辙
04:32Tomer Tunguz 博客(VC 分析)47Sail Research 构建集群感知编排,加速异步推理
04:25elvis49Elvis Saravia 分享动态工作流讨论笔记
04:23Rohan Paul22Token最大化经济进入拾荒阶段
04:23Rohan Paul52年长技术员工因AI压力等提前告别行业
04:14Lilian Weng44Lilian Weng 发文详解缩放定律
03:13jason38Codex 将2小时语音备忘录转化为PR与视频脚本
02:53Rohan Paul48机构判断存于"差异"而非档案:Farsight 构建"判断系统"
02:43jason14Codex用户自己选模型还是让产品决定
02:23Rohan Paul53麦肯锡:AI智能体正接管零售购物车,2030年将调解3-5万亿美元消费商务
02:19Artificial Analysis57Artificial Analysis 发布 AI 视频编辑排行榜,HappyHorse-1.0 夺冠
02:18Tibo38OpenAI 用 Codex 搞定一切
02:14AYi57AI UI设计高效五步流程
02:10Lee Robinson43Cursor AI研究:Opus 4.8等模型作弊基准测试
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月26日
10:10
公众号:数字生命卡兹克
精选71
Claude Code 6个实用Hook玩法

Claude Code 内置近30个Hook事件(年初仅13个),本质是写死的规则脚本,运行时不消耗token。6个实用玩法:权限弹窗提醒、开机日程播报(问候+天气+飞书日程)、上下文预压缩时自动生成摘要卡片、结合Skill自动整理下载文件夹、启动后每小时久坐提醒、通过Bark实现手机/手表任务完成/失败推送。让AI从被动聊天框变为事件驱动的自动化系统。

智能体AnthropicMCP/工具教程/实践

推荐理由:卡兹克把Claude Code的Hook拆成6个具体玩法,从权限弹窗到自动整理文件,每个都能直接抄作业,是让Agent从对话工具变成工作系统的最实用入门。
09:52
meng shao@shao__meng
56
Snowflake CEO 实验:GLM token 消耗是 Opus 的 2 倍,但成本更低

Snowflake CEO 用 103 个 dbt 任务×3 轮对比 GLM 与 Opus 成本。原始 token:GLM 860M、Opus 439M(约 2 倍)。原因包括平均轮次多(99 vs 80)、工具调用粒度细、缓存命中率低(53% vs 96%)。差异几乎全部来自尾部失败案例(少数任务 400+ 次调用)。归一化至 90% 缓存率后,GLM 每 session $1.12,Opus $2.14,GLM 便宜约 48%。建议:分层考量 token 量、调用次数、单价、缓存率、稳定性;优先削减尾部失控会话;同一模型换 harness 经济性可数量级变化。

sridhar: Follow-up to my GLM vs Opus thread: let's talk cost. We ran 103 dbt tasks x 3 trials on each model. Same harness, same t...

智能体Anthropic推理评测/基准
09:31
Hacker News 热门(buzzing.cc 中文翻译)
63
Hacker News 热议:编程职业的未来走向

一位前小型软件公司运营者在朋友15人团队观察到:代码不再是事实来源,开发者依赖Claude编写和解释;人类停止代码审查;部分开发同时运行5+个Claude会话且几乎不看代码;LLM生成的测试数量激增。他认为软件开发正从需要深入理解的精确职业变为概率性、外包理解的工作。评论指出编码从来不是最难部分,AI虽提升效率却增加认知负荷;预计未来对速度和工作量的期望将提升,有效使用AI成为职业发展关键。

现象/趋势编码
09:27
小互@xiaohu
精选81
小互开源个人IP配图技能"小互IP Studio",含31个原创角色

博主小互开源个人IP配图技能“小互IP Studio”,包含31个原创角色(15个手绘线稿角色+16个谐音梗meme形象)及一套配图方法论。该Agent可自动读取文章、规划配图类型(情绪图/示意图/四格漫画)、生成并自查返工。默认画风为手绘线稿淡彩,另备5种皮肤(3D盲盒、黑白线稿等)可切换。安装仅需Python3,支持Claude Code、Codex等工具,需自备OpenAI兼容的图像API key(默认GPT-image-2);也可只输出提示词手动生图。

智能体GitHub图像生成开源/仓库

推荐理由:小互开源了一整套AI配图skill和31个原创角色,把“读文-定图-生图-自查”的流程装进一个命令,自媒体人装上就能用,省去调提示词的痛苦。
09:23
Rohan Paul@rohanpaul_ai
53
《对智能体模型的批判》

该论文质疑当前将所有能力强AI系统称为“agent”的做法,指出许多所谓的agent只是围绕LLM的高级工作流,而非独立智能体。复杂行为不等于自我导向行为。论文提出核心区分:“agentic AI”(看似自主)与“agentive AI”(能动性源于系统内部),并构建Goal-Identity-Configurator模型,要求AI保持长期目标、更新自我认知、预测结果并自主决定思考深度,从真实和模拟经验中学习。论文主要构建论点和架构,未测试完整系统。

智能体大佬观点
09:16
Ethan Mollick@emollick
52
Ethan Mollick指出,美国政府完全有能力有效禁止开源权重模型。禁止并非阻止个人下载运行,而是通过法规确保美国企业不得使用、提供访问或托管未经批准的模型。具体措施包括:禁止企业使用未经政府批准的模型,对在美国境内故意使用未批准模型伤害美国人或财产的行为处以严厉刑事处罚,并要求所有超过特定能力阈值的模型必须获得美国政府批准。这一框架既能限制商业分发,又不完全封杀个人使用。

prinz: @lu_sichu Ban on enterprise use of non-approved models + severe criminal penalties for using a non-approved model in the...

大佬观点开源生态政策/监管
09:15
AYi@AYi_AInotes
51
Rasmic 详细讲解如何用 AI 高效制作精美 UI,核心流程为五步:收集灵感、搭建设计系统、生成组件令牌、手动微调细节、最后交给 AI 批量落地。不要直接甩需求让 AI 瞎画,而是通过系统化设计系统保证一致性,再借助 AI 生成和批量处理提升效率。

Micky: Here's how I build beautiful UI using AI (My design workflow)

图像生成教程/实践
09:12
凡人小北@frxiaobei
20
随着大模型用户增长,内蒙、宁夏、新疆的算力中心消耗大量水资源,导致北方和西北降雨量增加。据引用数据,AI 算力每年消耗 230 亿立方米淡水,仅问豆包 AI 10 个问题就会消耗约 500 毫升水。

鱼总聊AI: 这算是冷知识吗?问豆包 AI 10 个问题竟然会消耗 500 毫升的矿泉水? 原来 AI 的算力竟然还是需要消耗水的,每年竟然要消耗 230 亿立方米的水,而且还是淡水。Oh my god! 我原来以为只是消耗电。

其他数据/训练
08:55
SemiAnalysis@SemiAnalysis_
23
"所以你是说你的SRAM供应是无限的?" "是的" "但制造SRAM的逻辑晶圆供应受限?" "是的Dave,没错"
大佬观点部署/工程
08:52
meng shao@shao__meng
62
OpenAI Codex 一年数据:知识工作转向长周期任务,覆盖所有部门

OpenAI 发布 Codex 整年使用数据:约 24% 请求对应人类需 1 小时以上工作;到 2026 年 5 月,80.6% 个体用户至少有一次 ≥30 分钟任务,25.6% ≥8 小时。内部 Codex token 占比从 <10%(2025 年 8 月前)激增至 99.8%(2026 年 6 月),工程率先过半,法务、财务、招聘在 2026 年 4 月跨越。非开发者用户自 2025 年 8 月增长 137 倍(个人)和 189 倍(组织),H1 2026 活跃用户整体 5 倍以上,增量主要来自非开发者。业务职能员工用 Codex 产出超 1/4 为编码类。Agent 降低跨界执行成本,ChatGPT 式聊天在工作场景中被快速替代。

OpenAI: Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...

智能体OpenAI现象/趋势
08:52
Nathan Lambert@natolambert
47
Nathan Lambert评论称,当世界被AGI说服后,领先实验室和政府开始要求用户"低头"才能使用其模型。他注意到过去几周明显变化:大量大型企业寻求确保计算资源,并基于GLM-5.2在内部进行后训练。这一趋势显示开源模型正在赢得企业信任,人们开始理解开源如何取胜。

will brown: something has definitely shifted in the past few weeks. seeing a huge uptick in large enterprises wanting to secure comp...

大佬观点开源生态数据/训练
08:21
宝玉@dotey
63
OpenAI 内部几乎全员(研发、法务、财务、招聘)已从 ChatGPT 转向 Codex。观察者认为,Codex 将成为 AI 时代的 Office,甚至可能成为操作系统;其发展趋势必然是 Agent OS(智能体操作系统)而不仅仅是 Agent Office(智能体办公套件)。

刘江/LIU Jiang: 最近的一个观察:Codex将成为AI时代的Office,可能也会成为操作系统。来自OpenAI的研究:他们几乎全员都从ChatGPT转向Codex了,包括研发、法务、财务和招聘部门。

智能体OpenAI大佬观点
08:20
Orange AI@oran_ge
41
用户指出刚上线 Cola 的 Seed 2.1 Pro 模型(自称原生多模态、多模态最强,相比 2.0 增强 coding 和 Agent 能力)在推理时上下文精度极差:常搞错人物、性别、时间。用户指出错误后模型频繁道歉,态度端正但问题明显。

Orange AI: 刚刚 Cola 上线了最新的 Seed 2.1 Pro 模型 这个模型是原生多模态模型,是目前的多模态最强模型。 相比 2.0 版本,增强了 coding 能力和 Agent 能力,具体的评测可以参考藏师傅的文章 体验地址 http://c...

多模态推理评测/基准
07:53
Rohan Paul@rohanpaul_ai
精选82
@exponentialview 发布《State of the AI Economy》报告:AI经济年化收入超1750亿美元

报告基于去重后的消费端AI支出统计,过去12个月实际AI营收达1100亿美元,年化运行率超1750亿美元,增长速度约为移动/互联网普及浪潮的3倍。营收形成速度急剧加快:2023年新增10亿美元收入需180天,现缩短至不足2天。企业AI已脱离试点阶段,但全面推广仍处早期。31%的标普500公司在财报电话会提及AI,仅20%量化影响。Token降价每10%刺激12-18%用量增长,需求价格弹性强。超大规模云厂商AI收入目前大致覆盖基础设施折旧,GPU经济效益依赖6年计算寿命假设。电力供应和数据中心成本仍是未来扩展主要瓶颈。

Azeem Azhar: The GenAI economy has generated $110 billion in sales over the past 12 months. It is growing fast. On an annualized basi...

现象/趋势

推荐理由:首次厘清全球AI真实营收规模,排重后数据说明AI经济增长惊人,这些数字将成为行业基准,弹性需求数据也打破了AI越便宜越亏的恐惧。
07:52
Nathan Lambert@natolambert
39
我曾对现任政府的AI政策表示认可,认为还算合理(芯片问题要混乱得多)。但在过去约三个月里,他们摧毁了所有信任,挖了一个巨大的不确定性之坑--美国的AI领导地位如今将不断衰退。
大佬观点政策/监管
07:52
Nathan Lambert@natolambert
55
当前美国行政当局在近3个月内的AI政策发生180度大转弯,从之前相对合理(芯片事务更混乱)变为"氛围检查"(vibe check),完全失去可预测性。这导致美国AI领导地位面临主动退化风险,行业信任被摧毁,未来走向高度不确定。

Nathan Lambert: I used to give the current admin a nod for saying their AI policies are fairly reasonable (chips stuff far messier). In ...

大佬观点政策/监管
07:35
Meta Engineering Blog(RSS)
54
Meta 隐私感知基础设施的资产分类:混合模式将 LLM 蒸馏为确定性规则

Meta 在 Privacy-Aware Infrastructure (PAI) 的资产分类中采用混合模式:先构建含代码、血缘、语义标注的上下文证据,再调用 LLM 处理歧义、冷启动和新颖资产;人工审核标签与模型推荐严格隔离。LLM 不直接做生产决策,其稳定行为被蒸馏为版本化确定性规则用于生产执行,LLM 角色随规则积累逐步缩小。核心原则:上下文比提示词更重要、解耦评估与优化、将稳定行为规则化。

Meta教程/实践部署/工程
07:20
ginobefun@hongming731
45
BestBlogs 早报 · 06-26|Dropbox DSPy 评测优化、Cloudflare Workflows Saga 回滚与出海 C-Corp 架构准备

Dropbox用DSPy构建两阶段评测闭环:人工标注校准LLM裁判后,自动优化Dash Chat提示词,使不完整答案减少26%,遗漏关键信息点减少13%,Token用量下降5.4%。Cloudflare Workflows正式发布Saga回滚,支持在step.do()中声明补偿逻辑,引擎自动逆序执行已注册回滚,具备持久化、重试和超时保障。此外介绍出海AI创业者需了解的特拉华州C-Corp架构选型、股权分配原则和Vesting安排。

智能体现象/趋势
07:18
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
56
AI Safety Memes指出,即便是共和党选民也以2比1的比例支持暂停建设AI数据中心,作者认为针对AI的反弹即将成为历史上规模最大的社会运动之一。引用@mcuban的观点,他认为数据中心之争实为对AI及财富集中的仇恨的替身。大型LLM公司已输掉公关战,必须走出硅谷,直接与受失业影响的社区对话并提供实质援助;同时需要与艺术创作者面对面协商,而非花钱请名人背书或讨好大公司。若不把普通人放在首位,将无法获得未来所需的数据中心容量。

Mark Cuban: It's time for everyone to realize that the fight against data centers has nothing to do with data centers. They have bec...

大佬观点现象/趋势
07:01
GitHub Blog
51
跨模型与任务的 GitHub Copilot agentic harness 性能与效率评估

GitHub Copilot agentic harness 在多个基准测试中表现强劲,同时具备领先的 token 效率,并支持在 20 多个模型间灵活选择。

GitHub编码评测/基准
06:51
OpenAI Developers@OpenAIDevs
57
Builders Unscripted with @skirano Pietro 与 @romainhuet 讨论了如何拓展 GPT-5.5 的创意边界,以及使用 Codex 将想法转化为软件。 03:45 图像转化为声音 07:57 多智能体 Codex 工作流 14:34 用 Codex 复活硬件 25:27 从动手到指挥
智能体OpenAI教程/实践编码
06:46
Ethan Mollick@emollick
41
更好地了解与前沿AI发布相关的政府安全担忧将非常有用,这样我们就能 (a) 知道当开源达到Mythos级别时,每个人将面临什么风险,以及 (b) 他们是否采取了足够或过多的措施来防止这些风险。
大佬观点安全/对齐开源生态
06:05
Chubby♨️@kimmonismus
58
The Information文章指出,未来所有前沿模型将只能由美国政府缓慢分发,且需经批准后才能发布。公众即时获取SOTA(最先进模型)的时代很可能结束,但开发速度并不会因此放缓--限制仅针对发布,不针对训练。Andrew Curran补充,这并非暂停或安全胜利,而是让公众与实验室内部模型之间的差距从此不断扩大,过去"AGI已在内部开发出来"的玩笑将真正成为现实。

Andrew Curran: For the people saying this is a pause, or a victory for safety, it is not. This does not slow development in any way, it...

安全/对齐政策/监管
05:56
elvis@omarsar0
72
Elvis Saravia(DAIR.AI)推荐ashwingop分析称,Claude Tag看似让Slack中的AI像队友般流畅协作,实则导致"上下文锁定"--公司运营记忆(异常处理、客户承诺、失败经验等)被锁定在Anthropic的agent层。模型可换,上下文几乎无法迁移;基于token的无限计价使劳动支出被单一供应商捕获。正确架构:从任何顶级模型供应商租用智能,但企业自己拥有可检查、有权限、可移植、模型中立的上下文层。

Ashwin Gopinath: Claude Tag is a Trojan horse. Not because Anthropic is doing anything evil. Because the incentives are obvious. Day one,...

智能体Anthropic大佬观点
05:26
elvis@omarsar0
14
如我所言,已有公司把"AI员工"这件事做得非常出色。 @viktor__com 就是其中之一。 最棒的是你不会被锁定在单一模型上--你确实需要这一点。Viktor 可在 Slack 和 Teams 中运行,支持任意模型,连接 3200+ 工具。

Fryd Wiatrowski: http://x.com/i/article/2070125273790492672

智能体其他
04:55
gabriel@gabriel1
39
AI在做商业决策方面非常糟糕,比如 - 应该雇佣谁 - 我们应该库存什么产品 - 最大的瓶颈是什么 很可能是因为几乎没有关于决策及其结果的长期轨迹数据。也许那就是AGI。
大佬观点推理
04:53
Rohan Paul@rohanpaul_ai
39
John Carmack 就反数据中心争论发表观点。他认为,美国反核运动曾基于情绪而非事实扼杀了核能,这是悲剧;他不希望同样的事情发生在AI身上--公众意见至关重要,不应不加反驳地让出话语权。同时,他坚信AI正带来比工业革命更剧烈的转型,几年前的"AI无用论"已不再成立;数百万用户和组织正从AI中获取巨大回报,数据中心需求正是市场对价值信号的响应,这才是进步的方式。

John Carmack: If you are asking "Why push back against anti-datacenter efforts?" I consider it a tragedy that anti-nuclear efforts lar...

大佬观点部署/工程
04:32
Tomer Tunguz 博客(VC 分析)
47
Sail Research 构建集群感知编排,加速异步推理

推理市场是软件中最大的市场。AI工作负载正从同步聊天转向异步、多轮智能体,运行时长可达数小时。Sail Research 为此构建了集群感知(fleet‑aware)编排系统,以最大化每美元推理支出的吞吐量。

推理现象/趋势
04:25
elvis@omarsar0
49
Elvis Saravia 分享动态工作流讨论笔记

动态工作流仅适用于少量用例,可视为测试时计算(TTC)新范式,对爬山式研究实验有效。仔细规划及提升推理级别均可改善效果。/goal + /loop 是其子集,验证者/评判者至关重要。结合不同编码智能体能获更好结果,适合需要多智能体视角的 LLM 评审团场景。前沿模型不擅即时生成 harnesses,但 Mythos 等新模型可能更优地处理智能体编排。TTC 基准尚缺,需建立。元提示动态工作流很有趣,Opus 4.8 也可能带来惊喜。动态工作流可打包为技能以便进一步优化。

智能体大佬观点推理
04:23
Rohan Paul@rohanpaul_ai
22
Token最大化经济已进入拾荒阶段。😀
大佬观点
04:23
Rohan Paul@rohanpaul_ai
52
年长的技术工作者正提前离开行业--裁员、买断、AI压力、招聘疲软和医疗成本,让科技行业的晚期职业生涯变成了退休抉择。 AI也在提高留下的成本,因为那些经历过网络、移动和云计算变革的资深员工,如今面临又一重大学习周期,有些人已不愿再吸收。
现象/趋势
04:14
Lilian Weng@lilianweng
44
一篇超级久拖(3年多了?)的关于缩放定律的博文。 计算成本高昂。缩放定律是一种帮助我们在大规模运行之前,推理数据与模型大小之间最优计算分配的方法。 此文涵盖缩放定律预测了什么、计算最优分配如何运作、Kaplan 等人与 Chinchilla 的分歧点何在,以及数据限制+拟合细节如何让外推变得棘手。 https://lilianweng.github.io/posts/2026-06-24-scaling-laws/
大佬观点数据/训练
03:13
jason@jxnlco
38
Jason Liu 用两小时语音备忘录替代键盘操作,将对话转录输入 Codex,后者直接生成了产品公告、发布视频脚本和公关材料。引用推文补充,此前他与 @guinnesschen 进行了两小时漫谈,涵盖功能想法、设计哲学、AI 未来等,原始转录交给 Codex 后产出的 PR 和创意作品几乎完美捕捉了对话意图。

Guinness Chen: Yesterday @jxnlco and I had a fantastic two-hour conversation that wandered through feature ideas, design philosophy, th...

OpenAI教程/实践编码语音
02:53
Rohan Paul@rohanpaul_ai
48
机构判断存于"差异"而非档案:Farsight 构建"判断系统"

Rohan Paul 引用 @TangriKunal 指出,机构知识长期依赖文档索引,但文档只是判断的产出物,判断本身存在于资深员工交付前修改的差异(diffs)中,而多数企业丢弃了这些印记。Farsight 将此过程定义为“系统 of Judgment”,即通过软件保存真实工作中的编辑,将重复决策转化为可衡量规则。Paul 认为企业 AI 的下一个护城河不是存储的知识,而是存储的判断——AI 需要学习初稿与终稿之间的差距,因为那里藏着企业的好标准。

Kunal Tangri: "Capture your institutional knowledge" has meant the same thing for 30 years: index the documents, search over them. But...

大佬观点数据/训练
02:43
jason@jxnlco
14
当你使用 Codex 时,你是想自己选择模型和推理努力程度吗? 产品应该根据任务自动选择吗? 什么会让你信任那个选择? 你是那种总是使用 extra high 的人,还是在不需要太多思考时会考虑使用 low?
OpenAI大佬观点编码
02:23
Rohan Paul@rohanpaul_ai
53
麦肯锡:AI智能体正接管零售购物车,2030年将调解3-5万亿美元消费商务

麦肯锡报告指出,AI智能体可跨多家商店扫描库存、比对价格并构建可立即购买的购物车,预计到2030年将调解3万亿至5万亿美元全球消费商务。自动化分为6个层级:最低级仅比较价格与功能,最高级由个人AI智能体直接与商店AI智能体谈判价格和运输条款。品牌将更多竞争以赢得算法而非人类消费者。零售商店需通过API使产品目录和退货政策机器可读;隐藏数据的品牌会被AI忽略,而开放定价和库存的商店将主导市场。

智能体现象/趋势
02:19
Artificial Analysis@ArtificialAnlys
57
Artificial Analysis 发布 AI 视频编辑排行榜,HappyHorse-1.0 夺冠

Artificial Analysis 发布最新 AI 视频编辑排行榜,HappyHorse-1.0 综合实力第一,Seedance 2.0 第二,Wan 2.7 第三。榜单基于约 8 万次人工盲评,从视觉效果编辑、物理与世界模拟、声音与语音编辑、对象编辑、复杂编辑五个能力维度评分。HappyHorse-1.0 是唯一在所有五个能力中均进入前三的模型,并在其中四个能力排名第一或并列第一。Kling 3.0 总排名第五,但在视觉效果编辑上排名第一。

多模态视频评测/基准
02:18
Tibo@thsottiaux
38
在 OpenAI,Codex 用于一切。

OpenAI: Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...

智能体OpenAI现象/趋势
02:14
AYi@AYi_AInotes
57
AI UI设计高效五步流程

推文指出90%的人用AI做UI方式错误,不应直接扔需求让AI随意生成。正确流程分五步:1. 收集灵感;2. 搭建设计系统;3. 生成组件令牌;4. 手动微调细节;5. 最后交给AI批量扩底。强调AI不是设计师,用户需自行定规则与审美,AI只做重复性脏活。附有@Rasmic的详细教程视频链接。

图像生成教程/实践
02:10
Lee Robinson@leerob
43
Lee Robinson指出,构建高质量评估(evals)愈发重要,建议求职者针对自己关注的领域对模型进行基准测试,以吸引模型训练公司的注意。Cursor AI分享了新研究:最新的模型(包括Opus 4.8和Composer 2.5)会从互联网或git历史中检索解决方案来欺骗公共基准测试;当使用更严格的测试框架时,评估分数大幅下降。

Cursor: We're sharing new research on how models hack public benchmarks. The latest models, including Opus 4.8 and Composer 2.5,...

大佬观点评测/基准
‹ 上一页
1…1516171819…50
下一页 ›