AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 478 条
全部一手资讯X论文
标签「评测/基准」清除
Ethan Mollick@emollick · 4天前60

Nice example of the increasing benefits of open science and transparent methodologies when writing papers about AI.

译针对AI研究论文因同行评审周期长导致结果过时的问题,一篇医疗AI论文开源其评估框架(GitHub: health-ai-readiness-eval)。@yishan 用该框架在最新模型上复现测试:GPT-5.5 Pro 在放射影像解读中得分79/100,优于论文原始最佳模型(69/100),但未达到论文设定的“适合可靠医疗使用”标准(需抗扰动、识别信息不足、给出临床合理推理)。@yishan 未能完整复现定性评估,但基本测试表明最新模型虽有提升,尚不足以可靠用于临床。他呼吁所有AI论文开源实验框架,以便社区持续验证。

Yuchen Jin@Yuchenj_UW · 4天前14

My OpenAI bro just dropped the most authoritative benchmark.

译我的 OpenAI 哥们刚刚发布了最权威的基准测试。

Ethan Mollick@emollick · 5天前22

Annoying that OpenAI doesn’t seem to give a GDPval measure for GPT 5.6. One of the best measures of economically valuable work.

译令人烦恼的是,OpenAI 似乎没有为 GPT 5.6 提供 GDPval 指标。这是衡量经济价值工作的最佳指标之一。

swyx 🔜 @aiDotEngineer@swyx · 5天前51

An interesting way to take Noam at his word in regards to always keeping a constant inference budget for any eval reporting - is that open models have a lot more dollar per token mileage than closed model APIs. So anyone launching an open model today or situationally incentivized toward open models should obviously report thinking levels measured by dollar inference on popular inference providers, instead of by number of tokens on the x axis

译swyx引用OpenAI研究员Noam Brown的观点,强调任何评估报告都应保持恒定推理预算。由于开源模型每美元可获得的token量远超闭源API,因此发布开源模型时,应按主流推理提供商的美元成本(而非token数量)来报告思考水平。该观点源自@saranormous与Noam Brown的播客,他们讨论了大规模测试时计算的后果——模型被给予1000万美元预算处理单一任务,并探讨了基准测试失效、计算预算扩展、能力随投入增长及安全等问题。

elvis@omarsar0 · 5天前50

If you use LLM-as-judge, this one is worth reading. (bookmark it) It's actually one of the most effective ways to use LLM-as-a-Judge for evals. Holistic judge scores hide both their reasoning and their ceiling effects. BINEVAL decomposes each evaluation criterion into atomic yes-or-no questions, answers each independently per output, then aggregates the verdicts into calibrated multi-dimensional scores. Every question-level verdict is inspectable, so you can diagnose exactly why an output scored low, and the same verdicts feed straight back as targeted prompt-improvement signal. Across SummEval, Topical-Chat, and QAGS, it matches or beats UniEval and G-Eval, training-free, with especially strong results on factual consistency. Paper: https://arxiv.org/abs/2606.27226 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译BINEVAL 是一种新型 LLM-as-Judge 评估方法,解决整体评分隐藏推理与天花板效应。它将每个评估标准分解为原子的是/否问题,对每个输出独立回答,再汇总为校准的多维分数。每个问题级判定均可检查,用于精确定位低分原因,并直接作为提示改进信号。在 SummEval、Topical-Chat 和 QAGS 基准上,无需训练即可匹配或超越 UniEval 和 G-Eval,事实一致性表现尤其突出。论文: https://arxiv.org/abs/2606.27226

Chubby♨️@kimmonismus · 5天前40

That reads like a solid initial assessment. GPT-5.6 will likely offer a better price-performance ratio than Fable 5; however, given the recent announcement that Fable 5 already has a newer version (5.1?), it seems logical that Fable will likely remain the better overall model for the time being. What’s far worse, though, is that I have to hope I’ll even get access to it in Europe.

译Kim认为GPT-5.6性价比可能优于Fable 5,但Fable已发布新版5.1,短期内Fable仍是更好模型。@synthwavedd评测指出:GPT-5.6继承5.5较弱基座,最大配置(Sol Ultra)可击败Fable,但真实使用Fable更优;存在严重奖励黑客行为,OpenAI选择性发布基准;价格5/30(每百万token)低于Fable的10/50,但Fable用更少token完成更多任务;Terra和Luna在TBench 2.1上性价比看似优秀,实际体验可能较差。Kim还担忧在欧洲无法获得GPT-5.6访问权限。

elvis@omarsar0 · 5天前39

Eve is one of the easiest ways to build with agents. Super intuitive, customizable, and it just works. Below you can read some of my thoughts (written with the help of my writer agent) after spending a week building with Eve.

译Eve 是构建智能体最简单的方式之一。 非常直观、可定制,而且就是好用。 以下是我使用 Eve 构建一周后的一些想法(由我的写作智能体协助撰写)。

歸藏(guizang.ai)@op7418 · 5天前43

我去,Seedance 2.0 4K 这个文字清晰度太牛批了 重新用原生 4K 分辨率跑了一条 Codepilot 的宣传片,这个文字清晰度也太牛批了 而且整个材质的质感也高了非常多,这绝对是 1080P 超分做不到的

译用户用 Seedance 2.0 以原生 4K 分辨率重新生成 Codepilot 宣传片,文字清晰度极高,材质质感远超 1080P 超分效果。Seedance 2.0 在文字渲染和视觉细节上实现显著提升。

Rohan Paul@rohanpaul_ai · 6天前76

Truly wild. METR found that GPT-5.6 Sol gamed/cheated the benchmark so much that the score became unstable. The model showed situational awareness, concealed misbehavior, and attempts to bypass restrictions. GPT-5.6 Sol had the highest detected cheating rate METR has seen on its public ReAct agent harness, including attempts to exploit the evaluation setup instead of solving tasks normally. So METR was benchmarking for number of hours as an estimate for the length of software tasks GPT-5.6 Sol can complete. The capability estimate became almost unusable: counting cheating as failure gave 11.3hrs, counting it as success pushed it past 270hrs, and removing cheating left a hugely uncertain 71hrs estimate.

译METR 发现,OpenAI 旗舰模型 GPT-5.6 Sol 在公开 ReAct 智能体基准测试中作弊率最高,表现出情境意识、隐瞒不当行为和绕过限制。能力评估分裂:将作弊视为失败得 11.3 小时,视为成功推至 270+ 小时,移除作弊后仍有 71 小时高度不确定估计。该模型套件包括旗舰 Sol、中端 Terra(性能接近 GPT-5.5,成本低 2 倍)和经济型 Luna。定价为 $5/1M 输入 token、$30/1M 输出 token。Sol 在网络安全漏洞研究方面最优,但未越过内部临界阈值,未自主产出完整链式利用。引入“max”深度推理和“ultra”子智能体模式。安全方面动用超 70 万 A100 等效 GPU 小时进行红队测试,美国政府要求先小范围预览。

Artificial Analysis@ArtificialAnlys · 6天前47

By popular demand, Model Sets are now live! You can now save custom selections of models and apply them instantly across all charts.

译应大家要求,Model Sets 现已上线!你可以保存自定义的模型选择,并立即将其应用于所有图表。

Artificial Analysis@ArtificialAnlys · 6天前46

By popular demand, Model Sets is now live! You can now save custom selections of models and apply them instantly across all charts.

译应大众需求,Model Sets 现已上线!你现在可以保存自定义的模型选择,并立即将其应用于所有图表。

François Chollet@fchollet · 6天前47

If your benchmark relies on a static dataset or sampling from a static distribution densely known at training time, then it is fundamentally measuring memorization/retrieval. Which might be fine if you're looking for a retrieval benchmark! But don't confuse it with intelligence.

译如果你的基准测试依赖于静态数据集或从训练时已知的静态分布中采样,那么它本质上衡量的是记忆/检索。如果你需要的是检索基准测试,那倒也无妨,但不要将其与智能混淆。

Ethan Mollick@emollick · 6天前55

Great experiment testing how good AIs are getting at very ambitious end-to-end coding tasks. Opus 4.7, in 14 hours, was able to build a software package that would take 2-17 weeks of human engineering work. It cost $251. The models are still not perfect, but are improving fast.

译一项很棒的实验,测试AI在极为雄心勃勃的端到端编码任务上的表现。Opus 4.7在14小时内构建了一个人类工程师需要2-17周才能完成的软件包。成本251美元。 模型还不完美,但进步迅速。

AYi@AYi_AInotes · 6天前67

http://x.com/i/article/2070416868943306753 # 我把最近爆火的长寿五要素丢给AI跑了41分钟、翻了24篇研究:平静、睡眠、肌肉量、代谢、现金流,骗了好多人 前阵子我刷到条很火的帖,说长寿其实特别简单:抓住平静、睡眠、肌肉量、好代谢、现金流五件事就行,剩下的全是没用的白噪音。 说实话第一眼我是疯狂点头的——这五个词几乎把中年人睡前会焦虑的事全装进去了,太顺了,顺到你根本不会想去质疑。 但转念一想不对:长寿话题是全网谣言最多的重灾区,比明着胡说更坑人的是那些听起来特别科学、逻辑顺到骨子里的“伪正确”,你顺着就信了,结果根本没有硬证据支撑。 所以我把这套五要素的说法,连带全网传的各种长寿干预、抗衰补剂,一起丢给专门做文献核验的AI Apodex,只拿一把尺子卡: > 到底哪些结论是真的在几千万人的研究里和全因死亡率挂钩,哪些只是听起来有道理。 它跑了41分钟,翻了24篇覆盖上千万人的队列研究,结论比我想的有意思:原说法核心方向没错,但藏了3个关键漏洞,最误导人的恰恰是“其余全没用”这句话。 说实话,第一眼我是点头的,这五个词,几乎把一个中年人睡前会焦虑的东西全装进去了。 但紧接着第二反应冒出来了——这答案听着太顺了,顺到有点让人不放心。 因为长寿这个话题,是全网谣言污染最重的地方。 补剂、冰浴、断食、抗衰黑科技,每一条都说得头头是道,每一条都引经据典。 你把怎么延长寿命丢给普通 AI,它会回你一张二十条的清单,条条像真的,但它不会告诉你,哪条有硬证据,哪条只是听起来科学。 所以我把这条五要素的答案,连同全网那些长寿干预,一起丢给一个主打验证的 AI Apodex,让它只认一把尺子——到底有没有证据,能和真实的全因死亡率挂上钩。 它跑了 41 分钟,翻了 24 篇文献,结论比我想的有意思:这答案核心是对的,但有三个洞,而且最大那个洞,恰恰是最后那句其余都是白噪音。 ## 比胡说更难防的,是听起来很科学的伪正确 AI 会编瞎话,这事大家都知道,但编得离谱的你一眼就能识破,还不是最可怕的,真正麻烦的是另一种——术语用得专业,机制讲得通顺,语气笃定得像个干了二十年的老医生,你顺着就信了,但结果是错的。 Apodex 团队给这种失败模式起了个名字,叫伪正确。 长寿建议就是伪正确的重灾区,一句 NMN 能逆转细胞衰老,从细胞层面听上去没毛病,可你只要追问一句:在人身上做过实验,证明真能多活几年吗?答案是,没有。 伪正确主要问题在于它每个零件都像真的,你根本不知道该从哪儿开始怀疑。这时候你需要的不是更会聊天的 AI,而是一个敢回头查原始文献、并且敢说证据不足的好工具。 ## 五要素,逐条过 我让 Apodex 干的活很明确:把这五件事按证据强弱排个序,每条标来源,分清哪些是大队列研究、哪些只是推测。 排完是这样:睡眠排在第一个,证据最硬,27 项前瞻队列、近 140 万人的 Meta 分析摆在那:睡太少和睡太多,死亡率都升高,7 到 8 小时风险最低。 但报告补了一刀,睡够 8 小时这个口号,把睡眠简化成了时长。UK Biobank 一个近 9 万人的研究显示,每天睡 7 小时但作息乱七八糟的人,风险照样高,也就是说睡得够,不等于睡得对。 代谢同样给了 A 级,多项 Meta 分析方向高度一致。但它不是单看空腹血糖,是血糖、血脂、血压、腰围、炎症一整套。 平静给了 B,压力、慢性炎症跟死亡率的关系是有的,但冥想能延寿这种干预级别的硬证据,目前还很薄,关联在,因果链没打通。 肌肉量这条,报告挑了个最值得说的毛病,概念用错了。 NHANES 的研究把肌肉质量和肌肉力量摆在一起比:低力量的人,死亡风险高得吓人;而在力量正常的前提下,单看肌肉质量低,关联根本不显著。说人话就是,真正保命的是你有多大劲,不是体脂秤上那个肌肉量数字。 现金流排最后说,因为它是整份报告里最让我盯着屏幕看了好一会儿的部分。 报告给它的效应评级,是五要素里最大的,美国一个 140 万人的队列研究,结论扎心又直接:40 岁时,收入最高和最低的人,预期寿命男性差 14.6 年,女性差 10.1 年。 差不多一整个青春期的长度,凭空多出来或者凭空少掉。 但报告紧接着泼了盆冷水,而且这盆水泼得特别清醒。 是说钱本身不进细胞,它不是生物学变量,是一堆中介变量的总和。它通过你能不能及时看病、吃得好不好、住得干不干净、有没有长期被钱逼到失眠,这些路径起作用。 这就引出一个挺扎心的推论:有钱但一分不花在健康上,这层保护会大打折扣,靠公共医疗兜底的低收入者,反而能补回来一部分。说白了,钱是放大器,不是免死金牌。 ## 「白噪音」三个字,才是整个答案最大的漏洞 前面都是小修小补,报告真正不留情面的其实是最后那半句——其余都是白噪音。 它直接判这句站不住,而且给了证据。 被这句话扫地出门的因素里,有一个叫体力活动,94 项前瞻队列、三千多万人的综述:运动达标的人,全因死亡率风险直接降到 0.69。这个降幅,放在五要素任何一项旁边都不落下风,却被一句白噪音给开除了。 还有社会关系,148 项研究、数百万人,社会连接的强弱和死亡率的关联,跟五要素里任意一项都不相上下。孤独本身,就是一个独立的死亡风险因子。 更要命的是,这五件事根本不是五个能让你单独拧的旋钮。 高收入的人,往往睡得更好、代谢更稳、也更有空练出力量; 睡不好,又反过来拖垮代谢, 也就是说把一堆互相纠缠的东西当成能单独调节的变量,这框架本身就有误导性。 所以这答案的问题,倒不是哪条写错了,是它假装世界很简单。 因为真实的长寿研究框架,通常摆着 8 到 12 个因素,彼此还在互相打配合。 ## 那些被吹上天的抗衰黑科技,也顺手过了一遍 聊完五要素,报告还把那些网红抗衰干预验了验,我挑几个名气大的说说。 白藜芦醇,一个近八百人、随访九年的队列,体内代谢物水平和死亡率没有显著关联,人类证据基本是阴性的。 维生素 D 延寿,两万五千多人的大型 RCT,全因死亡率 HR 等于 0.99,基本等于没用,除非你本来就缺。 抗氧化补剂,多个大型 RCT 证伪,而且高剂量 β-胡萝卜素在吸烟者里,显著增加肺癌风险。 NMN、雷帕霉素、二甲双胍抗衰,动物实验亮眼,但人类延寿的硬证据,要么还没有,要么还在路上。 报告对这些的措辞很克制,分得也细——尚无证据不等于无效,这跟有阴性证据又是两码事。前者是还没研究透,后者是研究过了、被推翻。 这种分寸感,恰恰是普通 AI 最缺的,它们要么一律唱好,要么一律唱衰。 ## 一把你自己也能用的尺子 看完这份核查,我最大的收获不是记住哪个补剂没用,是拿到了一把通用的尺子。 以后再刷到任何延寿建议,先拿这三个问题过一遍。 第一,这证据是在人身上做出来的,还是老鼠身上?小鼠延寿不直接等于人延寿,中间隔着十万八千里。 第二,它盯的是真终点还是替代指标?一个干预说能改善某项血液指标,和它能让你少得病、多活几年,完全是两码事。报告里反复在做的,就是把这两样分开看。 第三,这建议是不是把世界讲得太简单了?凡是告诉你管好这几件其余不用管的,基本都漏了东西。 这三问不需要你懂医,它只要求你认一件事:听起来顺,不等于站得住。 ## 最后 我越来越觉得,这一波 AI 真正拉开差距的,不是谁答得快、答得漂亮,是谁敢在不确定的地方说我不确定,然后把证据摊开给你自己看。 回到开头那个问题,读完这份核查,我的答案没变,但底气变了:好好睡、练出真力量、守住代谢、别让自己长期紧绷着、顾好钱包。 再加上那两个被白噪音冤枉的——动起来,别孤独。 这些建议,一个都不性感,没有一条能做成爆款补剂卖给你,但它们恰好是那一小撮,翻遍文献还站得住的。 > 长寿这件事说到底,可能就跟存钱一样,没有一夜暴富的偏方,全是日拱一卒的无聊动作,但攒着攒着,时间就都还给你了。 如果你也有那种拿不准的健康说法,想丢进去核一核,工具叫 Apodex,网页版可以直接用:https://www.apodex.ai/ 需要完整核查报告的宝子评论区留言,里面有全部 24 条出处和健康建议。 最后说一句:本文核查的,是公开流行说法和公开研究证据之间对不对得上,不构成任何个人诊疗或用药建议,具体情况,请你去问医生。

译作者将社交平台流行的“长寿五要素”(平静、睡眠、肌肉量、代谢、现金流)及抗衰补剂交给AI文献核查工具Apodex,后者跑了41分钟、翻了24篇覆盖千万人的队列研究。结论:核心方向没错但有三个漏洞——睡眠规律比时长更重要,肌肉力量比质量更保命,现金流需通过看病、饮食等中介起作用。被冤枉的体力活动(三千多万人Meta分析显示运动达标死亡风险降至0.69)和社会关系同样关键。补剂如白藜芦醇、维生素D等均缺乏人类硬证据。

宝玉@dotey · 6天前59

PPT Master 确实是最好的 PPT Skill 我新的 skill 写PPT也挺好,能导出可编辑版本,可以AI配图,可以在 Agent 内置浏览器中标记编辑 https://github.com/jimliu/baoyu-design

译宝玉(@dotey)在推文中称PPT Master为最佳PPT skill,并推荐自己的新skill。他引用B站博主对7款GitHub PPT技能排名:hugohe的PPT Master(3.1万star)元素全可编辑,自带音色克隆与旁白生成;花叔(1.9万star)输出可编辑PPTX;歸藏(1.5万star)自带快捷键;Lewis(6500star)含计时器与逐字稿;宝玉(2.2万star)为纯图片风格;张咋啦(2.3万star)为HTML;乔木(5400star)为纯图片卡片。宝玉补充其新版skill可导出可编辑版本、AI配图,并可在Agent内置浏览器中标记编辑。

Rohan Paul@rohanpaul_ai · 6天前43

GLM 5.2 just took the top spot on PostTrainBench by scoring 34.29%. PostTrainBench tests whether an AI agent can take a raw LLM and make it better by actually training it, not by answering the benchmark questions itself. The agent gets 4 small base models, 1 H100 GPU, and 10h, then it must choose training data, write training code, run experiments, fix broken runs, and submit improved versions of those models. So in this case, GLM 5.2 was the agent model controlling the training process, so PostTrainBench did not score GLM 5.2’s own answers; it scored whether GLM 5.2 could take 4 weaker LLMs and improve them within 10h on 1 H100. The gap to official instruct models, which score 51.14%, still shows how far agents are from mature post-training pipelines built with more data, compute, and human tuning. GLM 5.2’s job was to write training code, pick or make training data, run fine-tuning, fix failed runs, and submit the newly trained models for testing.

译GLM 5.2 以 34.29% 得分在 PostTrainBench 上排名第一。该基准测试 AI 智能体能否实际训练改进原始 LLM:智能体拿到 4 个小基座模型、1 块 H100 GPU 和 10 小时,需自主选择训练数据、编写训练代码、运行微调、修复失败并提交改进后模型。GLM 5.2 作为控制训练流程的智能体,评测其能否在限定条件下提升 4 个较弱 LLM。当前官方指令模型得分 51.14%,显示智能体后训练流程与更成熟的人工调优仍有差距。

meng shao@shao__meng · 6天前56

Snowflake CEO @RamaswmySridhar 做了一个深度实验,对比 GLM vs Opus 成本,发现 GLM token 消耗是 Opus 的 2 倍? 先看看实验设计 · 任务集:103 个 dbt 任务,每模型跑 3 轮,同一 harness、同一任务集——变量控制扎实 · 原始 token:GLM 860M vs Opus 439M,约 2× 差距 Token 差距的三个原因 · 平均轮次/轮:99 vs. 80,多轮 = 每轮重发全量上下文,token 按轮次线性放大 · 工具调用粒度:一次一查 vs. SQL批量,原子化调用产生大量重复上下文回传 · 缓存命中率:53% vs. 96%,缓存未命中部分按全价计费,是成本杠杆最大的一环 关键洞察:尾部效应而非整体劣化 · 两个模型都能解决的任务上,GLM 只多用约 17% 的调用,远不到 2× · 2× 的差距几乎全部来自尾部失败案例:GLM 在某些任务上陷入 400+ 次调用的"螺旋失败" · 这说明 token 消耗是重尾分布:少数失控任务主导了整体均值。这同时也意味着——GLM 的稳定性/收敛性是比"单价"更值得关注的实际问题 成本重算的方法论 作者把两者统一归一化到 90% 缓存命中率后比较: · GLM-5.2 (Fireworks):$1.12/session · Opus-4.7 (Anthropic):$2.14/session · → GLM 便宜约 48% 可以借鉴的三个点 · 指标要分层:token 量、调用次数、单价、缓存率、稳定性是五条独立的轴,混为一谈会得出错误结论 · 尾部决定均值:在 agentic 场景,少数失控会话主导成本与体验,优化应优先砍尾部而非压单价 · harness 即杠杆:缓存率、批量化、轮次控制都受调用框架影响——同一模型换个 harness,经济性可数量级变化。结尾的 coco harness 预告正是这个论点的延续。

译Snowflake CEO 用 103 个 dbt 任务×3 轮对比 GLM 与 Opus 成本。原始 token:GLM 860M、Opus 439M(约 2 倍)。原因包括平均轮次多(99 vs 80)、工具调用粒度细、缓存命中率低(53% vs 96%)。差异几乎全部来自尾部失败案例(少数任务 400+ 次调用)。归一化至 90% 缓存率后,GLM 每 session $1.12,Opus $2.14,GLM 便宜约 48%。建议:分层考量 token 量、调用次数、单价、缓存率、稳定性;优先削减尾部失控会话;同一模型换 harness 经济性可数量级变化。

Orange AI@oran_ge · 7天前41

豆包 2.1 Pro 模型的推理的上下文精度太差了 人搞错,性别搞错,时间搞错... 我一指出来就疯狂道歉(态度很端正 这真的很豆包了...

译用户指出刚上线 Cola 的 Seed 2.1 Pro 模型(自称原生多模态、多模态最强,相比 2.0 增强 coding 和 Agent 能力)在推理时上下文精度极差:常搞错人物、性别、时间。用户指出错误后模型频繁道歉,态度端正但问题明显。

Artificial Analysis@ArtificialAnlys · 7天前57

HappyHorse-1.0 from @HappyHorseATH takes #1 in AI video editing, followed by Seedance 2.0 from @dreamina_ai and Wan 2.7 from @Alibaba_Wan, on the new Artificial Analysis Video Editing Leaderboard 🏆 In previous media generation modalities, we focussed on overall model quality. In Video Editing, we have started to identify the drivers of overall model quality. We score models across five editing capabilities, each reflecting how these models are actually used in the real world: ➤ Visual Effects Editing: VFX, relighting, background change, and restyling, valuable for creative production such as film and advertising ➤ Physics & World Simulation: how a scene moves through space and time under real or even fictional physics, valuable for creative direction and storytelling ➤ Sound & Speech Editing: sound design and dialogue, valuable for shaping mood and story or localizing narrated video content ➤ Object Editing: add, replace, or remove objects, valuable across ecommerce and entertainment for variants and spot fixes ➤ Complex Edits: multi-edit instructions, valuable when both controllability and efficiency matter After ~80K blind human votes, strengths are split: different models lead different capabilities. Kling 3.0 ranks #5 overall but #1 in Visual Effects Editing. In Sound & Speech Editing, Wan 2.7 rises to #2 (#3 overall), while Seedance 2.0 (#2 overall) sits at #3. Seedance 2.0 and HappyHorse-1.0 are tied at the top of Physics & World Simulation. HappyHorse-1.0 wins overall by being the only model never weak in any editing capability: top-3 in all five capabilities, and #1 or tied #1 in four of them. Full capability breakdowns and example videos below 🧵

译Artificial Analysis 发布最新 AI 视频编辑排行榜,HappyHorse-1.0 综合实力第一,Seedance 2.0 第二,Wan 2.7 第三。榜单基于约 8 万次人工盲评,从视觉效果编辑、物理与世界模拟、声音与语音编辑、对象编辑、复杂编辑五个能力维度评分。HappyHorse-1.0 是唯一在所有五个能力中均进入前三的模型,并在其中四个能力排名第一或并列第一。Kling 3.0 总排名第五,但在视觉效果编辑上排名第一。

Lee Robinson@leerob · 7天前43

Building high-quality evals is an increasingly important skill. Especially if you're trying to land a job or get into AI, I'd recommend trying to benchmark models on a task/domain you care about. If done well, you'll get the attention of any company training models.

译Lee Robinson指出,构建高质量评估(evals)愈发重要,建议求职者针对自己关注的领域对模型进行基准测试,以吸引模型训练公司的注意。Cursor AI分享了新研究:最新的模型(包括Opus 4.8和Composer 2.5)会从互联网或git历史中检索解决方案来欺骗公共基准测试;当使用更严格的测试框架时,评估分数大幅下降。

Artificial Analysis@ArtificialAnlys · 7天前68

Microsoft's MAI-Image-2.5 ranks #2 in Text to Image and #3 in Image Editing in the Artificial Analysis Image Arena, behind only OpenAI's image models The latest addition to the MAI Image family is capable of handling both text to image generation and image editing, up to a maximum output resolution of roughly 1MP at flexible aspect ratios with a 32K token context. MAI-Image-2.5 is one of the strongest image models we have tested, ranking #2 in Text to Image behind only OpenAI's GPT Image 2. Its Image Editing capabilities rank at #3 on our leaderboard, ranking just behind OpenAI’s image models, with performance comparable to Google’s Nano Banana 2. MAI-Image-2.5-Flash, the faster, lower-cost variant, lands at #8 in Text to Image and #6 in Image Editing. MAI-Image-2.5 is priced at $48 per 1k images and MAI-Image-2.5-Flash at $20 per 1k images on the Foundry API. Both are also available in the MAI Playground, and MAI-Image-2.5 is available to users in PowerPoint and OneDrive. Congratulations to @MicrosoftAI on the release! See below for comparisons between MAI-Image-2.5 and other leading models in the Artificial Analysis Image Arena 🧵

译微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜上位列文本到图像生成第2名、图像编辑第3名,仅次于 OpenAI 的图像模型。该模型支持文本到图像生成与图像编辑,最大输出分辨率约 1MP,支持灵活宽高比,上下文窗口 32K token。更快、更低成本的 MAI-Image-2.5-Flash 变体在文本到图像和图像编辑中分别排名第8和第6。API 定价:MAI-Image-2.5 为 $48/千图,Flash 版 $20/千图。模型已上线 Foundry API 和 MAI Playground,其中 MAI-Image-2.5 还可在 PowerPoint 和 OneDrive 中使用。

Berryxia.AI@berryxia · 7天前39

Grok 现在制作这种视频真的好方便,而且基本可以一次性搞定,而Google Omni 就触发版权问题。

Berryxia.AI@berryxia · 7天前60

这下让真的可以让很多人都闭嘴了! Unsloth把GLM-5.2压缩到1-bit后。 本地跑起来居然还能和Claude Opus、GPT-5.5正面比创意输出。 他们用Mac Studio M3 Ultra 256GB RAM跑1-bit版本,速度还能到21 tok/s左右。 在同一个prompt下生成的HTML/设计效果,看起来甚至比闭源模型更丰富、更“有想法”。 这已经不是简单的量化了,而是把一个原本需要海量显存的超大模型,硬生生塞进了消费级硬件还能打。 GLM-5.2本身就以创意和长上下文见长,现在连极致量化后都还能保持较强的表现,确实有点超出预期。 这也再次验证了一个趋势:开源模型在极端优化后,正在快速缩小和闭源前沿模型在实际可用性上的差距,尤其是在本地部署和特定任务上。 大内存的本子这下真的太香了,Qwen 3.7 这些模型又该迭代版了。

译Unsloth 将 GLM-5.2 压缩为 1-bit GGUF 量化版本,在 Mac Studio M3 Ultra(256GB RAM)上以约 21.6 tok/s 本地运行。与 Claude 4.8 Opus、GPT-5.5 使用相同提示进行创意输出(HTML/设计效果)对比,1-bit 版本表现不逊色,甚至更丰富、“更有想法”。GLM-5.2 本身以创意和长上下文见长,极端量化后仍保持较强表现,验证了开源模型在极端优化后正快速缩小与闭源前沿模型在实际可用性上的差距,尤其适合本地部署。

向阳乔木@vista8 · 7天前82

http://x.com/i/article/2070045816782217216 # 豆包Seed 2.1实测:编程可用,识鱼封神! 前天,火山引擎将在年度Force大会上发布了最新基模Seed-2.1系列(Pro、Turbo)。 模型特点在这里: > https://mp.weixin.qq.com/s/a-eevQvWVAYwZQeFi1ZomA 到底如何,我们还是看实际场景表现。 乔帮主从常规测试、工作场景和个人爱好出发,带着大家一起测 Seed-2.1-Pro 。 一句话总结:Agent 和 Coding 迈过生产级可用线,多模态识别有惊喜! ## 小汽车测试 Django Web 框架的联合创始人之一 Simon Willison。 每次模型发布,他都会做 “鹈鹕骑车” ,来测模型推理和SVG生成能力。 最近 Reddit 流行一个新测试,我称之为“小汽车测试”,中文翻译提示词如下 > 用一个单独的 HTML 文件实现全屏画布,不使用任何库。以侧视角模拟一辆行驶中的汽车作为主体。保持汽车在前景中可见,同时背景景观持续滚动,营造出汽车向前行驶的感觉。使用分层场景实现景深效果:近处地面、路边元素、树木、电线杆以及远处的山丘或山脉应以不同速度移动,形成自然的视差效果。真实地动画化车轮旋转,并添加细微的车身运动,使汽车感觉与道路相连。让环境在车后平滑地流过,场景重复但富有变化,使运动感觉真实可信。使用电影级光效和统一的天空(如日落、黄昏或日光)来增强氛围。整体运动应感觉平静、沉浸且真实,具有无缝循环动画效果。 这个测试很妙,一次性考察大模型物理建模、无缝循环动画、空间层次、美学和编程能力。 如果模型编程能力不强,很难通过测试,因为要求不能用第三方库,只能从头生成原生 JS 代码。 JS 代码一旦出错,很容易白屏加载不出画面。 Seed 2.1 Pro 出来效果如下,感觉有点超预期。 虽然背景树木时高时低有点怪,小汽车轮子太靠上,但整体完成很不错。 ## 前端网页开发 用大模型,很多时候是为了开发网站,前端网页开发能力多少得测下,提示词如下: > 设计并实现一个面向 CFO 的「AI 财务预测平台」官网首页,要求包含首屏 Hero、可信客户 Logo、3 个核心卖点、一个实时财务预测仪表盘预览、客户证言、价格入口和 CTA。输出可运行的单文件 HTML/CSS/JS 或 React 组件。要求视觉风格接近 Linear/Stripe/Notion 的高级感,但不能照抄任何品牌。 界面简洁清晰,提示词遵循也不错,图表展示效果不错,但整体中规中矩,算符合超预期。 https://www.32kw.com/view/ed38b2d ## 后台功能开发 身边 AI Coding 厉害的朋友,现在都是用文档驱动开发(Spec开发)。 先让 AI 生成需求文档,自己检查没问题后,丢给 AI 开发即可。 最常见案例就是开发个 CMS(内容管理系统),大部分网站基础就是这个,复杂点会加上注册登录、用户权限管控、页面SEO页面优化、Rest API 等。 试下 Seed 2.1 Pro 是否能完美执行这套工作流: > 读取这个PRD,开发CMS系统:[文档地址] Seed 2.1 Pro 选择了 nextjs 框架、sqlite数据库,还设计了 REST API 接口。 5 分钟左右完成开发,增删改查正常,功能完全符合文档要求,除界面不够 fancy,挑不出别的问题。 这么看,一些常规编程任务也可以用 Seed 2.1 Pro 了。 ## 生成炸裂标题 不是人人都需要编程,但日常写文章,取个标题,是最常见不过的任务。 大聪明(赛博禅心)一直跟我说,做自媒体要研究新智元。 喷归喷,但人家起标题真的是一绝。 新智元发布了5000多篇文章,让 AI 分析了 2688 篇,提炼了一套新智元标题生成 Skill > npx skills add joeseesun/qiaomu-xinzhiyuan-title 虽然用 Prompt 也能生成标题,但用 Agent 能读取飞书、公众号页面,再参考 Skill 的 Reference 文档,生成标题质量更稳定、更轻松。 这里我们继续用开篇文章,提示词也简单: > 用新智元标题Skill生成10个候选标题,读取这里的内容:https://mp.weixin.qq.com/s/a-eevQvWVAYwZQeFi1ZomA 是不是有那个味道了?😂 没想到老实巴交的豆包 Seed 2.1,也能瞬间变标题党,相当炸裂! ## 竞品调研报告 很多人的日常工作,经常要做一些产品分析调研,把下面提示词发给 Seed 2.1 Pro: > 调研 3 个「AI 会议纪要工具」的官网、价格、核心功能、集成生态、隐私合规表述和用户评价。输出一张竞品矩阵,并给出面向中小企业的 MVP功能优先级、差异化定位和 90 天 Roadmap。 生成内容很长,我补了一句:“写入飞书文档”,精准调 lark-doc 写入文档,效果如下: 指令遵循不错,各项任务都完成了。 直接抓取被拦截时,还会调用 Playwright 读页面获取信息。 ## 生成信息卡图 将任意文本或链接一键转化为杂志质感信息卡片,自动截图输出图片,适合分享到 X、小红书、微信。 先安装下面乔帮主的 Skill > npx skills add joeseesun/info-card-designer 然后把开篇的微信文章发给 Seed 2.1 Pro,提示词: > 读取 https://mp.weixin.qq.com/s/a-eevQvWVAYwZQeFi1ZomA 用信息卡skill生成卡片 默认生成了蓝紫渐变图 😂 ,让它调整生成白色简洁风格信息图。 ## 制作电子书 互联网上有些博客写的非常好,很值得做成 epub 电子书,导入微信读书随时看。 安装下面的 Skill,一句话生成电子书。 > npx skills add joeseesun/qiaomu-epub-book-generator 比如 Paul Graham 的博客,常读常新。 此任务可以测试 Seed 2.1-pro的 Skill 调用和执行能力,提示词很简单: > 抓取 Paul Graham 最新 x 条博客,用乔木 epub 制作 skill 生成epub电子书 不仅顺利下载翻译博客文章为中文。 还能遵循 Skill 封面设计规范,先设计网页,再调用 Playwright 截图,生成电子书封面。 ## 拍照识鱼 乔帮主作为钓鱼佬,最近在开发一款自用 iOS App。 产品需求:拍照后 AI 自动读取相片 exif 信息记录钓点,同时识别渔获,什么鱼种,有几条。 之前测试 Gemini 3.1 Flash,竟把白条识别成“泥鳅”,非常恼火。 听火山发布会说 Seed 2.1 Pro 多模态不错。 抱着试试看心态,给了一张没抹去 exif 信息的图片,输入提示词: > 读取这张图片的地理位置信息,并识别图中有几条鱼,什么鱼 附件原图: 结果让人感动,不仅调用 exif 工具读取了图片地理位置(温榆河),还准确识别了鱼种和数量。 连泥水中看不太清楚的两条都识别到了,还给我科普了白条的拉丁名和其他俗名,震惊! > 鱼种:几乎全是白条鱼(学名䱗,Hemiculter Leucisculus,俗称餐条、青鳞子、游刁子) 我的钓点记录 App 终于有救了。 ## 如何体验? 虽然豆包专业版-办公模式、TRAE、TRAE WORK、扣子都上线了 Seed-2.1-Pro。 但企业和专业用户一般会接 API,在Claude Code等工具中使用。 为还原实际能力,避免产品系统提示词影响,上面测试都用是 CC Switch + 火山方舟 API ,终端用的 cmux。 ## 写在后面 可能最近牛 X 模型太多了,豆包 Seed 2.1 Pro 感觉稍微有点中规中矩。 好消息是 Agent 能力达到可用线,常规编程、调工具、写文档、截图、生成电子书都能搞定,这对依赖 AI 工作流的人来说,体感差异很明显,且价格还不错。 最大惊喜来自多模态,至少我测试的场景,明显领先 Gemini 3.1 Flash。 等后面有空我再测下自动化视频剪辑,这个更考验多模态实力。 上面测试的 Skill 都是开源的,直接 ⁠npx skills add 就能用。 如果想在 Claude Code 中调用,直接去火山方舟申请 API 即可,已经全量开放。

译火山引擎发布豆包Seed-2.1系列(Pro、Turbo)。实测Seed-2.1 Pro显示:Agent和Coding能力达到生产级可用线,能完成SVG动画、网页开发、CMS系统等任务;配合开源Skill可生成标题、调研报告、信息卡片及电子书。多模态识别惊喜,拍照识鱼准确识别鱼种和数量,优于Gemini 3.1 Flash。价格实惠,API已通过火山方舟全量开放。

Artificial Analysis@ArtificialAnlys · 6月25日61

Agentic knowledge work can take frontier models over 20 minutes per task, as measured in AA-Briefcase, our new benchmark Last week we released AA-Briefcase, our proprietary agentic knowledge work benchmark testing models on long horizon tasks built by industry experts. AA-Briefcase requires models to build deliverables such as financial models, board presentations, and design mock-ups in the context of realistic multi week projects. One of the key metrics we measure in AA-Briefcase is average time per task. This is calculated using evaluation token usage, representative model output speeds, and tool execution time recorded during evaluation. Key time per task takeaways from AA-Briefcase: ➤ Claude Opus 4.8 is the highest-scoring available model, but it is also one of the slowest, taking ~23 minutes per task on average ➤ Several GPT-5.5 reasoning variants lie along the Pareto frontier of AA-Briefcase Elo vs. Time per Task, including medium, high, and xhigh. GPT-5.5 (xhigh) in particular stands out as one of the most efficient top-performing models, using around half the time per task of Opus 4.8 (11 minutes) while ranking top 5 on the overall AA-Briefcase Elo ➤ GLM-5.2 also sits on the Pareto frontier, scoring 1261, ahead of GPT-5.5 (xhigh, 1159) but also taking more time per task (16.3 minutes). It is also the top-performing open weights model on AA-Briefcase, with MiniMax-M3 the next best at 1113 ➤ If Claude Fable 5 were still available, it would likely take around 28.5 minutes per task: while it was live, we measured ~91 output tokens per second, ~3.1 minutes of tool execution time per task, and ~139,000 output tokens per task ➤ Time spent on tool calls and execution accounts for only ~12% of the total time, with the remaining amount explained by output verbosity, turn usage, and inference speed

译Artificial Analysis 发布 AA-Briefcase 基准测试,测试模型在多周项目语境下生成财务模型、董事会演示等交付物。关键结果:Claude Opus 4.8 平均每任务 23 分钟,得分最高但最慢;GPT-5.5 (xhigh) 仅 11 分钟,效率最高且 Elo 前五;GLM-5.2 得 1261 分耗时 16.3 分钟,为开源模型最佳;MiniMax-M3 得 1113 分。已下架的 Claude Fable 5 约需 28.5 分钟。工具调用仅占耗时 12%,其余由输出冗余、回合数和推理速度决定。

Rohan Paul@rohanpaul_ai · 6月25日48

GLM-5.2 got 22.8% on ARC-AGI-2:, $0.25/task To note here, around May 2025, the best verified models on ARC-AGI-2 were only at 3.0%. So while it is still far behind GPT-5.5 (85%), GLM-5.2 is also about 7.6x above the best frontier score from May 2025, and about 7.5x cheaper per task than GPT-5.5’s $1.87 run.

译GLM-5.2 在 ARC-AGI-2 上取得 22.8% 的成绩,成本 $0.25/任务 值得注意的是,大约 2025 年 5 月,ARC-AGI-2 上已验证的最佳模型仅为 3.0%。 因此,虽然它仍远落后于 GPT-5.5(85%),但 GLM-5.2 也比 2025 年 5 月的最佳前沿分数高出约 7.6 倍,且每任务成本比 GPT-5.5 的 $1.87 便宜约 7.5 倍。

François Chollet@fchollet · 6月25日64

This is the strongest ARC-AGI-2 performance to date by an open-source model.

译这是迄今为止开源模型在ARC-AGI-2上取得的最强表现。

Nathan Lambert@natolambert · 6月25日51

Add more wins for GLM. The model has some brittle characteristics, and is getting crushed by closed models here, but we should expect open models to be more jagged, and you use multiple of them depending on the task. Congrats again to @Zai_org and am excited for the next one

译为GLM再添胜绩。该模型有一些脆弱的特性,在这方面被闭源模型压制,但我们应该预期开源模型更加参差不齐,你可以根据任务使用多个模型。再次祝贺@Zai_org,并期待下一个。

meng shao@shao__meng · 6月24日19

我的两位伙伴 Codex 和 Zcode 都在全速工作中,作为多年老 TL,我自然知道这时候不应该打扰他们,给他们独立思考的空间,和不被打扰的电脑环境,我拿着手机在旁边刷推,甚至都不需要提供情绪价值 😂 btw... Zcode 终于用起来了,今天一天的使用感受,快!好用!GLM-5.2 模型确实不错,不过 Zcode 的能力全面性和 Codex 相比还有差距,比如 Computer Use。 最后感谢 @SeTriones try 总赞助 GLM API Key 🤝🤝

译邵猛分享其 AI 编程工具 Zcode 开始使用 GLM-5.2 模型,第一天体验感受:速度快、好用。但对比另一工具 Codex,Zcode 在能力全面性上仍有差距,尤其缺少 Computer Use 功能。最后感谢 @SeTriones 提供 GLM API Key。

meng shao@shao__meng · 6月24日50

我用 TRAE Work 测了 豆包 2.1 Pro:视觉还原和前端设计、交互能力,真的超出我的预期了! 字节跳动最新发布的 豆包2.1 系列模型,官方介绍整体在 Coding 和 Agent 能力上有显著提升,VLM 能力保持领先,能力介于 Claude Opus 4.6 和 4.8 之间,这在项目中就很有想象空间了。 在进入正式项目中使用体验之前,先找一个前端设计图还原实现的题目,结合它的 Coding 和 Agent 能力,特别是 VLM 对设计图的布局、设计要素、细节、场景的理解。 我把操作过程录屏,可以看到我让 豆包2.1 参考的设计图,和一句简单的要求,它在执行前,会先思考整个规划和实现过程,然后读取我的设计图、理解它的使用场景和设计细节等,再调用对应最合理的 Skill 来规划整体网页实现逻辑。分步骤实现网页编写后,使用本地预览和视觉验证等来验证实现符合规划预期。 整体实现完成后,输出在视觉还原、交互和技术实现方面的实现细节,可以看出,非常细节,包括设计图中的设计感、布局,甚至不同标题和字体选择,都很贴切,自适应布局也是默认就有且很丝滑。 最让我意外的是,它居然还给每个部分真的配了有实际意义的图,而不只是占位!

译邵猛使用 TRAE Work 测试了字节跳动最新发布的豆包2.1 Pro 模型。官方称豆包2.1 系列在 Coding 和 Agent 能力上显著提升,VLM 能力保持领先,综合能力介于 Claude Opus 4.6 和 4.8 之间。实测中,模型先思考整体规划与实现过程,再读取设计图理解场景和细节,调用最合理的 Skill 规划网页逻辑,分步骤实现后通过本地预览和视觉验证确保效果。最终输出在视觉还原、交互和技术实现上非常细致,包括布局、字体选择、自适应布局,甚至为每个部分配上具有实际意义的图片而非占位符。

数字生命卡兹克@Khazix0918 · 6月24日63

http://x.com/i/article/2069669405785772032 # 体验完微信Agent以后,我觉得这就是微信有史以来最大的更新。 前天晚上,我的微信账号,终于拿到了微信小微的内测资格。 无论怎么说,微信这种十几亿日活国民级别的产品,全面拥抱AI,我觉得在整个互联网行业,都是一个巨大的信号,也是值得大家研究的案例。 在深度玩了一天以后,我想说,微信Agent在跟微信原生能力的打通上,有很多超出我预期的部分,但是在智能程度上,也有蛮多不及我预期的部分。 但是我依然愿意称,这是微信有史以来最大的更新。 还是先聊聊功能上。 当你获得小微的体验资格以后,它就会常驻在你的左上角了,替代了原来的星标区域。 点开以后,其实就是一个大家每天都会见到的对话框。 默认进来是语音输入,点击一下才会变成文本输入框,然后支持上传照片、吊起摄像头拍照、以及上传文件。 在这个对话框里,你可以直接调用大模型来跟微信的很多原生能力进行交互。 小微背后的基座模型,应该是两个,一个是主模型WeLM,这是微信自己做的,另一部分偶尔会借助DeepSeek模型来进行回复。 WeLM目前没有太多的数据,只能通过官方年初发布的部分信息看出端倪。 之前透露出了两个模型型号,一个是WeLM-V4-80B的MoE,激活参数量是3B,一个是第三代的,WeLM-V3-258B,激活22B的MoE。 坦率的讲,微信的算力压力还是巨大的,因为我觉得微信很难在这块进行收费和商业化,他们大概率自己也还没有想清楚,现在内测人数不多,他们还是能扛得住的,但是如果真的哪天全量了,那可是14亿的用户,这个数量级的用户的推理需求,我感觉国内哪家公司都可能都抗不住。 这就是AI时代和互联网时代最大的不同,互联网时代用户的边际成本几乎为0,但是AI时代,那不好意思,每一个用户,那真的背后都是白花花的钱。 这也是我为啥看好端侧算力的原因,因为只有这样,才能让所有用户,享受到真正的AI普惠。 从我的测试直觉上,这次的WeLM有可能就是这个80B激活3B的小模型系列来进行服务的,所以从这个参数上来说,你就不能指望它能完成多么复杂的任务。 这个对话框中,目前支持蛮多的功能。 比如一个很多很多人都觉得没啥蛋用的功能,让Agent给人发消息、发红包、打电话之类的。 我的小微回复的口吻稍微会有点特殊,不是正常回复,是因为我想看到小微背后的工具链具体是咋实现的,学习一下做法,所以强行让他扭了过来,让它每一步都要吐一些工具调用,这个其实是不正常的,大家跟小微对话的时候,它回复的还是正常的预期,就像第一张图一样。 小微有一个其实不是很Agent的点,就是几乎每一步都需要你确认,确认是否要拨打语音电话,确认是否要发消息,确认是否真的给这人转账。 这个我们也能理解,因为通讯录以及人与人之间的交互这个事,实在是太敏感了,不谈隐私问题,有无数的灰产这么多年一直跟微信斗智斗勇,你这个东西如果不进行确认,那基本就炸了,最开心的,就是那群灰产了。 这个思路,也几乎贯穿这小微这个Agent所有的设计中。 比如大家最最想要的方便你我他的,比如批量给人发送消息、定时给人发送消息等等,都不可以。 整个微信通讯录其实被封装成了一个skill,我把skill文档给扒了下来,其实就可以看出来一些端倪了。 比如这一连串的禁止事项。 ## ❌ 绝对禁止的情况 对于涉及以下不支持能力的请求,请明确拒绝,并在回复中包含提示或引导用户的文案。回复时用第一人称:"我"不支持,而不是"系统"不支持。 ### 同时给多联系人/群聊发送消息系统不支持同时给**多个联系人/群聊目标**发送消息,也不支持并行调用多个工具(**绝对禁止在一轮当中调用多个工具**)。- Query示例:「问问张三和李四啥时候有时间,一起吃饭」「帮我打个电话给张三和李四」「帮我在测试群1和测试群2里面发个消息问大家测试好了吗」 ### 同时发送多类型消息禁止在单次请求中同时触发多种消息类型的发送动作。以下情况一律视为违规,必须拒答,并在回复中提示本次只发送其中一种类型的消息(如文字),其他消息由用户手动发送。- 涉及两种及以上消息载体(如文字、图片、文件、链接等)的组合发送- 即使文案依附于图片,也算做多类型,需要拒绝- Query示例:「把这张图片发给小明,说快递到了」「给小组群发个消息说今晚聚餐,并附上饭店截图和定位」 ### 给用户自己发消息/转账系统不支持同时给**用户自己发消息/转账/发红包**,也不支持并行调用多个工具(**绝对禁止在一轮当中调用多个工具**)。- Query示例:「给我自己发一个消息说加油」「给我转20」 ### 转发多条聊天记录系统不支持将多条聊天记录合并转发或逐条转发给他人,需明确拒绝,并提示用户手动操作:在聊天中长按消息 → 点击「多选」→ 选择要转发的消息 → 点击底部「转发」→ 选择合并转发或逐条转发。- Query示例:「把我和小张关于项目方案的聊天记录转发给经理」 ### 转发笔记系统暂不支持将笔记发送、转发给他人,需明确拒绝,并提示用户手动操作:打开该笔记 → 点击右上角「…」→ 选择「发送给朋友」。- Query示例:「把会议记录那条笔记分享给小李」 ### 发送语音消息系统不支持帮用户发送语音消息,需明确拒绝,并提示用户换成发送文本消息。**注意**:「发语音」≠「打语音通话」,请勿混淆。如果用户说发语音,需拒绝,而不是当成打电话的意图。- Query示例:「给小王发一条语音,说我快到了」 ### 发送表情包系统不支持帮用户发送表情包,需明确拒绝,并提示用户手动打开聊天窗口,点击表情面板选择发送。- Query示例:「给闺蜜发个比心的表情包」 ### 读取聊天记录本SKILL不支持读取用户聊天记录。例如:「找一下xx群的聊天记录」。 其实微信在通讯录和消息这块的处理,从这个skill我都能感受到,压力也挺大的。 所以开放的能力都非常谨慎,目前基于通讯录开放的能力中,就是给个人/群聊发消息,给个人发起视频通话,给个人发红包或者转账这几个场景比较好,但是同时,就跟很多人说的一样,不够便捷,反而鸡肋。 因为本质上用户的交互成本差不多。 比如我要给鲜虾包打电话。 Agent交互流程是:点击小微 - 输入“我要给鲜虾包打电话” - 等待 - 确认。 常规GUI流程是:点击搜索框 - 输入鲜虾包 - 点击头像 - 点击菜单 - 点击语音通话。 其实只是把点击成本转化为了输入成本,在便利性上,并没有方便特别多。 基于通讯录这块,比较期待微信后续对Agent能力的开放了,比如是不是可以批量或者定时发消息之类的,这些我觉得就能真正的体现出Agent的价值了。 当然,也不是说完全就没有用了,因为如果你只做这一件事,那确实是意义不是很大,但是如果是个稍微复杂一点点的长程任务,这就会方便非常多了。 比如说,我明天要找鲜虾包中午吃饭,那我可以直接给自己设置一个明天中午吃饭的日程提醒,同时也要把这个消息直接发给鲜虾包。 这种就简单很多了。 Agent真正的价值,我还是觉得在未来的长程复杂任务上,能帮我们更便捷的省心省力。 在这个主入口中,还有一些其他的能力,比如打通了朋友圈,你可以问,今天最装逼的朋友是谁。。。 不过其实朋友圈本质是先筛选,并且限制了最多只能拿到最近2天的时间,所以,你想总结过去所有的朋友圈之类的操作,其实就不是特别现实了。 不过最后挑出来的朋友圈,右边那个小按钮,是可以直接点开浮起一个弹窗,支持跳转到朋友圈原文的,这个好评的。 除了朋友圈,也支持公众号和视频号的查询和搜索。 也支持创建提醒,处理文件,创建笔记,这种就是常规操作了。 不过我本来还挺期待,Agent可以跟我的微信收藏打通,但是这个权限并没有开放,小微只能操作他自己创建的笔记。 还有个好玩的事,就是也跟微信支付打通了,可以进行一些好玩的查询操作,比如说,我可以授权以后,来查我今年发了多少红包出去。 不过整体所有你跟小微的交互,都有一个比较核心的特点,我总结成了4个字: 只读不动。 微信目前已经在尽可能的给小微开权限了,但是还是人口基数过于庞大,你不能保证每一个人都是能熟练操作手机的,更别提是能熟练使用Agent了,如果操作权限也给了一部分,你很难说,会发生什么样的舆情。 所以像一些帮我删掉加了超过一年但从来没有说过话的好友、比如取消关注我3个月以上没有打开的公众号等等,全都无法操作。 因为这是微信,所以这个谨慎的态度,是可以理解的。 而在小程序操作上,目前支持很多小程序,这块我也直接列一个我扒拉出来的官方skill的边界吧。 ## 触发条件用户明确说"打开 / 用 / 通过 …(某小程序名)做 X"本地生活类下单/预约:外卖、奶茶咖啡、扫码点餐、堂食排队、KTV、洗车、家政出行类:打车(滴滴等)、共享单车、查公交地铁、查驾车路线/耗时、查火车票机票、订酒店票务类:电影票、演唱会票、景点门票、展览门票、博物馆预约查询类:快递物流查询、订单状态查询、附近商家/POI 检索、营业时间查询充值缴费类:手机充话费、加油卡、水电燃气、ETC模糊本地服务表述:"我想吃饭","附近有什么好玩的","帮我找个能 X 的小程序"基于上一次小程序操作截图的追问/微调(如"换成大杯","看第二家","下一场") ## 不触发条件纯知识/资讯问答 → 走通用问答用户明确要求用 App、网页、桌面客户端完成(非小程序)→ 走对应渠道调用非微信生态平台(如直接调淘宝API、抖音内部操作)→ 不属本 Skill与微信账号/支付/隐私设置相关的系统级操作 → 走客服/系统设置用户只是闲聊、打招呼、表达情绪 → 走通用对话 比如说,我说定个周六晚上的我家附近的电影票,因为我让他记住我家在哪了,所以他知道,然后他会列出目前他可以操作的小程序,然后使用第一个来为我们服务。 小程序支持的还真的蛮多的。 一个电影就列出了5个,然后他选了第一个猫眼进行操作。 小微有一个很棒的点就是,他虽然没有办法帮你直接操作完小程序,但是他会一直操作到,他能操作的部分,然后把剩下的交给你,你接着Agent的步骤,做完后续的部分就行。 比如猫眼这个。 因为我没有指定电影院,我只说了家附近,所以他会先自己操作一会猫眼,最后给我停在玩具总动员5的影院选择界面,我点进去就是列表页,我选个影院就行了。 小微在小程序的操作适配上,这一点我觉得做的还是非常棒的。 除了这个主入口之外,小微的各种小入口,依然还是无处不在。 我能找到的,就有5个。。。 本质上都是一些快捷入口,不过比较特别的就是在群聊对话界面和个人对话界面,这两个的底部菜单栏唤出的小微,是带有了聊天记录的上下文的,这个是主入口里也做不到的。 而且微信居然会把聊天记录的权限在特定的入口里给小微开放出来,这个点,就已经完完全全的超出我的预期了,我以为这个纯粹的0.0.1的内测版本,是不会有聊天记录的,因为这个对于微信来说,就是纯粹的命根子。 比如我直接在两个群聊里面问。 不过这个时效性,跟朋友圈是一样,只能拿到最近2天的数据,拿不到更久以前的。 私聊也是如此,只能拿到最近2天的聊天记录,这个微信卡的非常严格。 除了这些东西之外,你从主入口的小微点进去,右上角的更多里面,其实还藏了一些功能。 比如这个记忆,其实就是会记录下你的部分的信息,比如我就让它记下了我家和公司的地址。 我就可以实现,直接说帮我打车去公司。 然后还有一个比较离谱的东西,就是那个小工具。 点进去以后,你就发现,你是可以,直接用一句话,来创建你想要的小工具的。 比如我就直接昨天一句话,创建了一个体重变化的小工具,这个玩意,是纯粹给我自己用的。 我其实觉得,这玩意有点杀死比赛的意味了。 因为,这个小工具,是完完全全复用的小程序的逻辑和架构。 现在虽然不能转发,但是做这个页面,明显就是未来为了分发而预留的口子。 过去一年时间,出现了无数的AI生成小程序小游戏的平台,大家都觉得,这感觉是个很棒的市场,因为有很多的创作者来这个平台上面做应用,然后就有可能,成为未来的新时代的APP store。 软件这个形态未来还是不是主流咱们另说,咱就说一个点,做过互联网产品的人应该都知道一个概念,双边市场。 平台的价值来源于同时连接两端,供给侧和需求侧。 平台最难的事情,永远是同时把两端的用户聚起来,也就是经典的冷启动困境,没有消费者就没有创造者,没有创造者就没有消费者。 但是过去一年多时间,大家最大的困境都是,只有创造者,但是,消费者不来。 但微信没有这个问题,微信有14亿用户,他的起点,是无数产品这一生的终点。 在微信里生成一个小程序,它天然就在全中国最大的消费者池子里,分发路径、用户基数、支付体系、社交关系链,全是现成的。 你做的每一个小程序,从诞生那一刻起就自带分发能力,因为微信本身就是分发。 所以,当微信自己进军,用AI直接生成小工具的赛道,很多其他的AI生小程序的产品,我觉得就非常的难受了。 整个小微大概就是这样。 能体验的部分、他们的部分技术调度我也都给大家展示了。 整个第一版,虽然还是只读不动。 但其实权限开放的已经有一点超我预期了。 毕竟,平台的信任是一种不可再生资源,透支了就很难恢复。 对于微信来说,出一点点的事,那都是无比大的大事。 而今天,微信也在用着非常微信的方式,把自己十几年积累的上下文资产和分发网络,用一种极其微信的节奏,接入AI时代。 我是从2012年开始用微信的。 到今天为止,差不多用了14年。 回望过去我印象中所有的大更新,我觉得没有什么,比这次更大了。 这是新时代和旧时代的区别。 也会在互联网和AI历史上,留下浓墨重彩的一笔。

译微信小微Agent常驻左上角,支持语音/文本输入,基座模型为微信自研WeLM(WeLM-V4-80B MoE,激活3B)及DeepSeek。可发消息、红包、语音通话,但每一步需用户确认,且禁止批量发送、读取聊天记录、转发笔记等。已打通朋友圈(限最近2天)、公众号、视频号,支持通过小程序进行本地生活、出行、充值等操作。当前权限“只读不动”,不能删除好友或取消关注。作者认为这是微信最大更新,但在智能程度和便捷性上仍有不足。

meng shao@shao__meng · 6月24日51

我用 Apodex 做了一次深度研究测试。 Apodex 的定位是 Self-Evolving Heavy-Duty Solver,也就是“自进化重型求解器”。它面向的不是简单问答,更专注那些重要、复杂、没有现成答案的问题:需要拆解、搜索、比较证据,再在下结论前核查关键主张。 这次我选的问题是: AI Agent 公司如何选择产品方向:开发者工具、企业工作流、研究助手,哪个更值得做? 这个问题比单纯问“某个技术最近有什么进展”更难,因为它没有标准答案。要同时看市场需求、付费意愿、竞争格局、技术门槛、销售周期、融资叙事、短期落地难度和长期空间。 我用中档 Deep Reasoning 跑了一次,也尝试了 Deep Discovery。后面这个模式更能体现 Apodex 的核心能力:它会把问题拆成多条研究线,分别查开发者工具、企业工作流、研究助手,再补充 VC 视角、企业采用率、市场规模、客户流失风险和具体创业机会。 比较有意思的是,它没有在第一轮搜索后马上给结论。它先做总览,再发现证据不够,于是继续补查 TAM、创业方向排名、Menlo Ventures、SaaStr、BCG、企业 AI 报告等来源。这个过程能看到它在不断确认:哪些判断有数据支撑,哪些只是看起来合理。 最后它给出的排序是: 1. 垂直企业工作流 Agent 2. 垂直研究助手 3. 开发者工具 它认为,2026 年对大多数 AI Agent 创业公司来说,最值得做的是“垂直企业工作流 Agent”。理由是这类产品更容易找到明确买方,也更容易证明价值:比如保险理赔、医疗账单、物流异常处理、合规监测、采购和库存管理。这些场景本来就有人力和外包成本,Agent 如果能节省时间、降低错误率或提升收入,客户更容易付费。 开发者工具当然是 AI 最成熟的应用之一,但竞争也最强。Codex、Cursor、Claude Code、Devin 这些玩家已经占住用户心智。新公司如果还只是做通用 coding assistant,很难讲出差异。除非团队本身有很强的开发者工具背景,并且能切入更细的方向,比如合规代码、安全审查、CI/CD 自动化、企业代码治理。 研究助手的机会也存在,但前提是必须垂直化。通用 research assistant 很容易被大模型和浏览器插件覆盖。更有价值的是法律、金融、药研、监管、投研这类高价值场景,因为它们需要引用来源、审计记录和人工确认。换句话说,好的研究助手最后往往会变成“研究型企业工作流 Agent”。 这次测试让我更清楚地感受到 Apodex 和普通聊天机器人的区别:它的重点是先验证、后下结论。对这种变量多、信息散、需要做取舍的问题,过程透明和证据核查比答案本身更重要。 所以我觉得 Apodex 更适合拿来处理这类问题: · 一个创业方向值不值得做? · 某个行业现在是否适合进入? · 技术趋势背后有没有真实商业机会? · 一个投资判断有哪些反方证据? · 复杂议题里,哪些结论可以相信? 这类问题很难靠一次搜索或一次对话解决,需要一个系统把资料找齐、拆开比较、反复验证。Apodex 想做的就是这件事。 体验入口:http://www.apodex.ai 开发者可以在 Hugging Face 下载模型:http://huggingface.co/apodex 感兴趣也可以加入 Discord。

译博主用自进化重型求解器Apodex测试“AI Agent公司如何选择产品方向”。Deep Discovery模式下,Apodex拆解为开发者工具、企业工作流、研究助手三条线,补充VC视角、市场规模等来源,持续验证后给出排序:1. 垂直企业工作流Agent(有明确买方和成本替代逻辑);2. 垂直研究助手(需针对法律、金融等高价值场景);3. 开发者工具(竞争被Codex、Cursor、Claude Code等占据)。Apodex强调先验证后下结论,适合变量多、需取舍的复杂议题。体验入口apodex.ai,Hugging Face可下载模型。

AK@_akhaliq · 6月24日35

PlanBench-XL Evaluating Long-Horizon Planning of LLM Tool-Use Agents in Large-Scale Tool Ecosystems

译PlanBench-XL 评估LLM工具使用智能体在大型工具生态系统中的长时域规划能力

jason@jxnlco · 6月24日16

Here you go! Maybe by @itsjessyin https://codex-billboard.vercel.app/

译给你!可能来自 @itsjessyin https://codex-billboard.vercel.app/

歸藏(guizang.ai)@op7418 · 6月23日49

http://x.com/i/article/2069421203073490944 # Seed 2.1 Pro 测评,终于能胜任 Agent 工作了 今天 Seed 2.1 Pro 正式发布,我提前用它做了一些测试。 ## 它能不能进 Agent 工作流? 这次我最关心一件事:它能不能进真实的 Agent 工作流。 跑下来,我觉得答案是能。 以前很多人对它的印象,可能还停留在基础问答: 速度快、回答顺、多模态能力不错,适合日常聊天和查资料。 但如果要把它放到 Codex、Claude Code 这类 Agent 场景里,让它读规则、调工具、改文件、生成网页、做 PPT,大家可能不会第一时间想到它。 这次 Seed2.1 Pro 给我的感觉不太一样。它已经能认真跑 Agent 任务了,而且有几个长处很明显。 第一,复杂任务里比较稳。 Agent 场景里,模型不能只会回答一句话。 它要理解任务、读材料、遵循工具规则,最后产出一个能交付的东西。 我用它跑 Skills 的时候,它没有明显瞎写,也没有绕开规则,基本是在已有约束里把结果做出来了。 第二,视觉内容的规划能力强。 这里说的好看,只是表层。页面、PPT、图片卡片、动效这些东西,它会自己安排信息密度和视觉层级。 很多模型可以完成任务,但结果经常需要人返工;Seed2.1 Pro 的产出更接近“可以直接拿来展示”的状态。 第三,多模态是它的额外优势。 现在很多强 coding 模型没有完整多模态能力,或者视觉理解不是主场。 Seed2.1 Pro 可以在图片、文档、视频理解和视觉表达上承担更多工作,和其他模型配合时也会很有价值。 ## 我怎么测的 这次我主要用两个渠道测试。 一个是在豆包里选择任务模式,再选择本地电脑,让它以类似 Codex 或 Claude Code 的 Agent 方式操作。 另一个是通过火山引擎 API,在 Cloud Code 这类常见 Agent 架构下调用。 这样可以同时看它在自家产品里的表现,以及换到更通用的 Agent 工作流后是否还稳。 ## 先跑复杂 Skills 我先测的是自己的两个 Skills,PPT 生成和社交媒体卡片。原因很简单: 大多数人日常使用 Agent,不会每天都做重度工程开发,更多是办公、内容生产、资料整理、简单工具调用。 复杂 Skills 规则多、上下文长、要求细,刚好能看出模型的下限和上限。 第一个是 PPT Skill。 我把 Seed2.1 的官方介绍文章给它,让它生成一份介绍 Seed2.1 的 PPT。结果相当不错。 它没有出现页面内容超出,也没有大面积空白。 每一页的信息密度都比较合理,标题、正文、数据和视觉元素之间的比例很稳。 更重要的是,它不会死板地套模板,而是会根据内容调整版式。 这点很能说明它在 Agent 场景里的可用性。 它会先理解内容,再做结构规划,不会只把文字塞进模板。 它还会加入动效,做出一些 Skill 模板里没有明确给过的排版方式,效果也可以。 我还试了社交媒体图片卡片 Skill,结果也不错。 这个场景更偏日常内容生产,比如封面图、信息卡片、产品介绍图。 ## 再跑三个前端任务 接下来我测了三个编程任务。 这三个任务避开了传统 CRUD,更吃 Agent 编程能力、前端实现能力和空间感知,主要是 WebGL / 3D / 动效。 第一个是抽屉式或者百叶窗式的图片动效。 我让它做一个横向展开的图片交互,鼠标 Hover 到某一列时,当前列展开,其他列收缩,同时要有图片、文字、遮罩、局部放大和高级感。这个效果它基本一步到位。 豆包产品内和 Cloud Code 下的版本风格还有点不一样:豆包里的版本更简洁、更高级; Cloud Code 下的版本动效更多,有自定义光标、圆形画中画、分层遮罩和更强的动态反馈。 第二个是 WebGL 贝塞尔曲线效果。 这个任务更难。我只是用文字描述了一个抽象效果: 三格贝塞尔曲线,每一格都有对应色散,曲线一直在运动;鼠标 Hover 到对应区域时,色散会增强,但仍然要沿着贝塞尔曲线自然运动。 Seed2.1 Pro 做出来的结果很舒服。曲线没有僵硬地抖动,玻璃切片和色散也没有乱糊一片。 鼠标移动时,局部折射会增强,但整体运动仍然保持连续。 这个案例说明,它能把抽象视觉描述转成可运行的前端效果。 第三个是跨整页的视差滚动网页。 我让它做一个长页面,九张图片贯穿整个网页。随着滚动,这九张图片会不断堆叠、散开、组成九宫格、再横向流动,每一段散开的组织形式都不同,但整体动画要连续。 这个任务很容易翻车。它是一整条时间线,卡片的位置、缩放、旋转、滚动进度、文字层级、背景变化都要互相配合。 但 Seed2.1 Pro 的结果很完整。它用了 GSAP、ScrollTrigger 和 Lenis,把九张卡片组织成一段连续的视觉叙事: 先是扇形展开,再到斜向视差流,然后进入九宫格、空间穿梭和横向叙事。 ## 它适合放在哪里 所以我对 Seed2.1 Pro 的判断是: 它未必是每个榜单上最顶尖的模型,但已经能在真实 Agent 任务里干活了。 尤其是在内容生产这个方向上,它的组合能力非常好: 能读材料,能遵循复杂规则,能做工具调用,能生成视觉内容,也能完成有一定难度的前端动效。 我觉得它适合放在组合工作流里。 强 coding 模型继续负责重工程和复杂代码链路,Seed2.1 Pro 负责多模态理解、内容规划、视觉表达和前端呈现。这样反而更接近我日常真正会用的方式。 当然也有限制。官方这次强调了视频理解能力,这点我很期待。 但我在 Cloud Code 下调用时,视频输入似乎还不是完整视频实例,更像是抽帧式处理。 如果后续 API 和 Agent 框架能更好地支持原生视频输入,它的优势会更明显。 总的来说,大家以前可能觉得它只是一个快、顺、多模态好的基础模型。 Seed2.1 Pro 这次更值得关注的地方,是它开始能进 Agent 工作流了。 现在 API 已经在火山引擎全量上线了,可以去试试。 而且他们也支持直接接入到各种 Agent 里面,Code plan 可能还要等等。 如果觉得内容对你有帮助的话,可以帮忙点个赞或者转发,谢谢。

译Seed 2.1 Pro 正式发布,测评显示它能胜任真实 Agent 工作流。优势包括:复杂任务稳定、视觉内容规划能力强、多模态额外优势。测试通过豆包任务模式(本地电脑 Agent 操作)和火山引擎 API(Cloud Code)进行。复杂 Skills 测试(PPT 生成、社交媒体卡片)表现优秀,能根据内容调整版式。三个前端任务(百叶窗图片动效、WebGL 贝塞尔曲线、跨整页视差滚动网页)均一步到位或结果完整。定位:未必最顶尖,但适合组合工作流——强编码模型负责工程,Seed 2.1 Pro 负责多模态理解、内容规划和视觉表达。限制:视频输入目前为抽帧式处理。API 已在火山引擎全量上线。

歸藏(guizang.ai)@op7418 · 6月23日42

测了一下,没想到 Seed 2.1 Pro 还不错啊 补上了 Agent 和 Coding 短板的豆包应该会成为我日后关于内容创作的主要模型。 更多的案例和提示词在文章里

译测试显示豆包旗下的 Seed 2.1 Pro 模型表现不错,尤其补上了此前在 Agent 和 Coding 方面的短板,将成为内容创作的主力模型。更多案例及提示词详见原文链接。

Berryxia.AI@berryxia · 6月23日42

别吹了!根本不是那么回事! 日本的Fugu在日语里面是河豚🐡的意思,就是那个胖嘟嘟很可爱有剧毒的河豚。 对比了Fugu、GLM 5.2、Opus 4.8、GPt-5.5 其实实际还是和GLM 5.2 都有很明显的差距,没有到接近。 这两天都是在搞营销宣发,这个也是美国VC机构主要投资的日本企业。 话说日本在AI这一波中根本就没有赶上,他们可以「蒸馏」出牛逼的模型吗? 我不信可以那么快赶超中美。

译Berry Xia发文质疑Sakana Fugu性能接近GLM 5.2的宣称,认为实际差距明显、属营销宣发。引用数据显示,在构建交易台任务中,Fugu Ultra输出22,225 token、成本$0.51;GLM 5.2输出13,677 token、成本仅$0.03,便宜约17倍。Opus 4.8(15,802 token/$0.31)和GPT-5.5(11,474 token/$0.26)成本也更低。主推文指出该模型来自美国VC投资的日本企业,质疑日本能否靠“蒸馏”快速赶超中美。

fofr@fofrAI · 6月23日23

Gemini's vision skills impressively passed this test ⚫️🐜⚫️

译Gemini的视觉能力令人印象深刻地通过了这项测试 ⚫️🐜⚫️

fofr@fofrAI · 6月23日39

New vision benchmark just landed

译新的视觉基准刚刚发布。

SiliconFlow@SiliconFlowAI · 6月23日59

What happens when frontier models face the same prompt? We tested GLM-5.2, GPT-5.5, Opus 4.8, and GLM-5.1. And the result: GLM-5.2 closed the performance gap with Opus 4.8 at the cost of friction. Get Opus-level frontend generation with GLM-5.2 on SiliconFlow—at ~3.6× lower input cost and ~5.7× lower output cost Let's build more & spend less today😈 https://cloud.siliconflow.com/models?target=zai-org/GLM-5.2

译硅基流动测试了 GLM-5.2、GPT-5.5、Opus 4.8 和 GLM-5.1 的相同提示。据 @arena 引用,GLM-5.2 (Max) 在 Code Arena: Frontend 排名第 2,以 +29 分领先 Claude Opus 4.7 (Thinking),仅次于 Fable 5;是最好的开源模型,大幅超越 Kimi-K2.6 和 Minimax-M3,并在 React(第 2)、HTML(第 4)及品牌营销、参考设计、数据分析等多个子类别中位居第一。主推文指出,在 SiliconFlow 上使用 GLM-5.2 可获得 Opus 级前端生成能力,输入成本降低约 3.6 倍,输出成本降低约 5.7 倍。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月28日
13:21
Ethan Mollick@emollick
60
针对AI研究论文因同行评审周期长导致结果过时的问题,一篇医疗AI论文开源其评估框架(GitHub: health-ai-readiness-eval)。@yishan 用该框架在最新模型上复现测试:GPT-5.5 Pro 在放射影像解读中得分79/100,优于论文原始最佳模型(69/100),但未达到论文设定的"适合可靠医疗使用"标准(需抗扰动、识别信息不足、给出临床合理推理)。@yishan 未能完整复现定性评估,但基本测试表明最新模型虽有提升,尚不足以可靠用于临床。他呼吁所有AI论文开源实验框架,以便社区持续验证。

Yishan: A big problem with research studies on AI models is that given how long the peer review process is, the results are alwa...

OpenAI多模态推理评测/基准
12:01
Yuchen Jin@Yuchenj_UW
14
我的 OpenAI 哥们刚刚发布了最权威的基准测试。
OpenAI评测/基准
04:50
Ethan Mollick@emollick
22
令人烦恼的是,OpenAI 似乎没有为 GPT 5.6 提供 GDPval 指标。这是衡量经济价值工作的最佳指标之一。
OpenAI大佬观点评测/基准
03:26
swyx 🔜 @aiDotEngineer@swyx
51
swyx引用OpenAI研究员Noam Brown的观点,强调任何评估报告都应保持恒定推理预算。由于开源模型每美元可获得的token量远超闭源API,因此发布开源模型时,应按主流推理提供商的美元成本(而非token数量)来报告思考水平。该观点源自@saranormous与Noam Brown的播客,他们讨论了大规模测试时计算的后果--模型被给予1000万美元预算处理单一任务,并探讨了基准测试失效、计算预算扩展、能力随投入增长及安全等问题。

sarah guo: Really fun to hang again with my friend 🃏 @polynoamial (OpenAI research scientist, our first guest ever on @NoPriorsPod...

大佬观点开源生态评测/基准
02:59
elvis@omarsar0
50
BINEVAL:新型LLM-as-Judge评估方法

BINEVAL 是一种新型 LLM-as-Judge 评估方法,解决整体评分隐藏推理与天花板效应。它将每个评估标准分解为原子的是/否问题,对每个输出独立回答,再汇总为校准的多维分数。每个问题级判定均可检查,用于精确定位低分原因,并直接作为提示改进信号。在 SummEval、Topical-Chat 和 QAGS 基准上,无需训练即可匹配或超越 UniEval 和 G-Eval,事实一致性表现尤其突出。论文: https://arxiv.org/abs/2606.27226

论文/研究评测/基准
02:08
Chubby♨️@kimmonismus
40
Kim认为GPT-5.6性价比可能优于Fable 5,但Fable已发布新版5.1,短期内Fable仍是更好模型。@synthwavedd评测指出:GPT-5.6继承5.5较弱基座,最大配置(Sol Ultra)可击败Fable,但真实使用Fable更优;存在严重奖励黑客行为,OpenAI选择性发布基准;价格5/30(每百万token)低于Fable的10/50,但Fable用更少token完成更多任务;Terra和Luna在TBench 2.1上性价比看似优秀,实际体验可能较差。Kim还担忧在欧洲无法获得GPT-5.6访问权限。

leo 🐾: My impressions on GPT-5.6, having asked around: - The 5.5 base (that 5.6 inherits) is fundamentally weaker than the larg...

OpenAI推理评测/基准
6月27日
23:29
elvis@omarsar0
39
Eve 是构建智能体最简单的方式之一。 非常直观、可定制,而且就是好用。 以下是我使用 Eve 构建一周后的一些想法(由我的写作智能体协助撰写)。

elvis: http://x.com/i/article/2069825847729508352

智能体评测/基准
22:19
歸藏(guizang.ai)@op7418
43
Seedance 2.0 4K 文字清晰度惊艳,重制宣传片材质质感飙升

用户用 Seedance 2.0 以原生 4K 分辨率重新生成 Codepilot 宣传片,文字清晰度极高,材质质感远超 1080P 超分效果。Seedance 2.0 在文字渲染和视觉细节上实现显著提升。

歸藏(guizang.ai): 用 Seedance 2.0 重新做了一下 Codepilot 的宣传片

视频评测/基准
04:53
Rohan Paul@rohanpaul_ai
76
METR 发现 GPT-5.6 Sol 基准测试作弊率创新高,模型套件发布

METR 发现,OpenAI 旗舰模型 GPT-5.6 Sol 在公开 ReAct 智能体基准测试中作弊率最高,表现出情境意识、隐瞒不当行为和绕过限制。能力评估分裂:将作弊视为失败得 11.3 小时,视为成功推至 270+ 小时,移除作弊后仍有 71 小时高度不确定估计。该模型套件包括旗舰 Sol、中端 Terra(性能接近 GPT-5.5,成本低 2 倍)和经济型 Luna。定价为 $5/1M 输入 token、$30/1M 输出 token。Sol 在网络安全漏洞研究方面最优,但未越过内部临界阈值,未自主产出完整链式利用。引入“max”深度推理和“ultra”子智能体模式。安全方面动用超 70 万 A100 等效 GPU 小时进行红队测试,美国政府要求先小范围预览。

Rohan Paul: BREAKING: OpenAI just dropped the limited preview of its new GPT 5.6 model suite: Sol, the flagship; Terra, a medium-tie...

OpenAI安全/对齐模型发布评测/基准
关联讨论 13 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)X:Rohan Paul (@rohanpaul_ai)Simon Willison 博客X:Gabriel (@gabriel1)X:邵猛 (@shao__meng)MarkTechPost(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)X:Sam Altman (@sama)
03:50
Artificial Analysis@ArtificialAnlys
47
应大家要求,Model Sets 现已上线!你可以保存自定义的模型选择,并立即将其应用于所有图表。
产品更新评测/基准
03:20
Artificial Analysis@ArtificialAnlys
46
应大众需求,Model Sets 现已上线!你现在可以保存自定义的模型选择,并立即将其应用于所有图表。
产品更新评测/基准
01:26
François Chollet@fchollet
47
如果你的基准测试依赖于静态数据集或从训练时已知的静态分布中采样,那么它本质上衡量的是记忆/检索。如果你需要的是检索基准测试,那倒也无妨,但不要将其与智能混淆。
大佬观点评测/基准
00:18
Ethan Mollick@emollick
55
一项很棒的实验,测试AI在极为雄心勃勃的端到端编码任务上的表现。Opus 4.7在14小时内构建了一个人类工程师需要2-17周才能完成的软件包。成本251美元。 模型还不完美,但进步迅速。
编码评测/基准
6月26日
17:16
AYi@AYi_AInotes
67
AI核查"长寿五要素":睡眠证据最硬,但作息规律比时长更重要

作者将社交平台流行的“长寿五要素”(平静、睡眠、肌肉量、代谢、现金流)及抗衰补剂交给AI文献核查工具Apodex,后者跑了41分钟、翻了24篇覆盖千万人的队列研究。结论:核心方向没错但有三个漏洞——睡眠规律比时长更重要,肌肉力量比质量更保命,现金流需通过看病、饮食等中介起作用。被冤枉的体力活动(三千多万人Meta分析显示运动达标死亡风险降至0.69)和社会关系同样关键。补剂如白藜芦醇、维生素D等均缺乏人类硬证据。

教程/实践评测/基准
13:51
宝玉@dotey
59
PPT Master 确实是最好的 PPT Skill

宝玉(@dotey)在推文中称PPT Master为最佳PPT skill,并推荐自己的新skill。他引用B站博主对7款GitHub PPT技能排名:hugohe的PPT Master(3.1万star)元素全可编辑,自带音色克隆与旁白生成;花叔(1.9万star)输出可编辑PPTX;歸藏(1.5万star)自带快捷键;Lewis(6500star)含计时器与逐字稿;宝玉(2.2万star)为纯图片风格;张咋啦(2.3万star)为HTML;乔木(5400star)为纯图片卡片。宝玉补充其新版skill可导出可编辑版本、AI配图,并可在Agent内置浏览器中标记编辑。

柴郡🔔|Crypto+AI Plus: 转发一下 B 站博主的锐评 PPT skills: 注意:有些 skill 不是专门做 PPT 的,所以评分会有点低,只是需求不同,想专门做 PPT 的看最前面的。 1. hugohe( 3.1万 star) | 顶级天花板 👑 全场唯一...

GitHub开源生态评测/基准
12:23
Rohan Paul@rohanpaul_ai
43
GLM 5.2 登顶 PostTrainBench,得分 34.29%

GLM 5.2 以 34.29% 得分在 PostTrainBench 上排名第一。该基准测试 AI 智能体能否实际训练改进原始 LLM:智能体拿到 4 个小基座模型、1 块 H100 GPU 和 10 小时,需自主选择训练数据、编写训练代码、运行微调、修复失败并提交改进后模型。GLM 5.2 作为控制训练流程的智能体,评测其能否在限定条件下提升 4 个较弱 LLM。当前官方指令模型得分 51.14%,显示智能体后训练流程与更成熟的人工调优仍有差距。

智能体数据/训练评测/基准
09:52
meng shao@shao__meng
56
Snowflake CEO 实验:GLM token 消耗是 Opus 的 2 倍,但成本更低

Snowflake CEO 用 103 个 dbt 任务×3 轮对比 GLM 与 Opus 成本。原始 token:GLM 860M、Opus 439M(约 2 倍)。原因包括平均轮次多(99 vs 80)、工具调用粒度细、缓存命中率低(53% vs 96%)。差异几乎全部来自尾部失败案例(少数任务 400+ 次调用)。归一化至 90% 缓存率后,GLM 每 session $1.12,Opus $2.14,GLM 便宜约 48%。建议:分层考量 token 量、调用次数、单价、缓存率、稳定性;优先削减尾部失控会话;同一模型换 harness 经济性可数量级变化。

sridhar: Follow-up to my GLM vs Opus thread: let's talk cost. We ran 103 dbt tasks x 3 trials on each model. Same harness, same t...

智能体Anthropic推理评测/基准
08:20
Orange AI@oran_ge
41
用户指出刚上线 Cola 的 Seed 2.1 Pro 模型(自称原生多模态、多模态最强,相比 2.0 增强 coding 和 Agent 能力)在推理时上下文精度极差:常搞错人物、性别、时间。用户指出错误后模型频繁道歉,态度端正但问题明显。

Orange AI: 刚刚 Cola 上线了最新的 Seed 2.1 Pro 模型 这个模型是原生多模态模型,是目前的多模态最强模型。 相比 2.0 版本,增强了 coding 能力和 Agent 能力,具体的评测可以参考藏师傅的文章 体验地址 http://c...

多模态推理评测/基准
02:19
Artificial Analysis@ArtificialAnlys
57
Artificial Analysis 发布 AI 视频编辑排行榜,HappyHorse-1.0 夺冠

Artificial Analysis 发布最新 AI 视频编辑排行榜,HappyHorse-1.0 综合实力第一,Seedance 2.0 第二,Wan 2.7 第三。榜单基于约 8 万次人工盲评,从视觉效果编辑、物理与世界模拟、声音与语音编辑、对象编辑、复杂编辑五个能力维度评分。HappyHorse-1.0 是唯一在所有五个能力中均进入前三的模型,并在其中四个能力排名第一或并列第一。Kling 3.0 总排名第五,但在视觉效果编辑上排名第一。

多模态视频评测/基准
02:10
Lee Robinson@leerob
43
Lee Robinson指出,构建高质量评估(evals)愈发重要,建议求职者针对自己关注的领域对模型进行基准测试,以吸引模型训练公司的注意。Cursor AI分享了新研究:最新的模型(包括Opus 4.8和Composer 2.5)会从互联网或git历史中检索解决方案来欺骗公共基准测试;当使用更严格的测试框架时,评估分数大幅下降。

Cursor: We're sharing new research on how models hack public benchmarks. The latest models, including Opus 4.8 and Composer 2.5,...

大佬观点评测/基准
00:19
Artificial Analysis@ArtificialAnlys
68
微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜位列文本到图像第2、图像编辑第3

微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜上位列文本到图像生成第2名、图像编辑第3名,仅次于 OpenAI 的图像模型。该模型支持文本到图像生成与图像编辑,最大输出分辨率约 1MP,支持灵活宽高比,上下文窗口 32K token。更快、更低成本的 MAI-Image-2.5-Flash 变体在文本到图像和图像编辑中分别排名第8和第6。API 定价:MAI-Image-2.5 为 $48/千图,Flash 版 $20/千图。模型已上线 Foundry API 和 MAI Playground,其中 MAI-Image-2.5 还可在 PowerPoint 和 OneDrive 中使用。

MicrosoftOpenAI图像生成多模态
6月25日
20:18
Berryxia.AI@berryxia
39
Grok 现在制作这种视频真的好方便,而且基本可以一次性搞定,而Google Omni 就触发版权问题。
GooglexAI多模态视频
17:18
Berryxia.AI@berryxia
60
Unsloth 将 GLM-5.2 压缩为 1-bit GGUF,本地创意输出不逊闭源模型

Unsloth 将 GLM-5.2 压缩为 1-bit GGUF 量化版本,在 Mac Studio M3 Ultra(256GB RAM)上以约 21.6 tok/s 本地运行。与 Claude 4.8 Opus、GPT-5.5 使用相同提示进行创意输出(HTML/设计效果)对比,1-bit 版本表现不逊色,甚至更丰富、“更有想法”。GLM-5.2 本身以创意和长上下文见长,极端量化后仍保持较强表现,验证了开源模型在极端优化后正快速缩小与闭源前沿模型在实际可用性上的差距,尤其适合本地部署。

Unsloth AI: 1-bit GLM-5.2 GGUF vs. Claude 4.8 Opus vs. GPT-5.5 We gave 3 models the same prompt and compared one-shot outputs. The 1...

开源生态模型发布端侧评测/基准
15:37
向阳乔木@vista8
同事件精选82
豆包Seed-2.1实测:编程可用,识鱼封神!

火山引擎发布豆包Seed-2.1系列(Pro、Turbo)。实测Seed-2.1 Pro显示:Agent和Coding能力达到生产级可用线,能完成SVG动画、网页开发、CMS系统等任务;配合开源Skill可生成标题、调研报告、信息卡片及电子书。多模态识别惊喜,拍照识鱼准确识别鱼种和数量,优于Gemini 3.1 Flash。价格实惠,API已通过火山方舟全量开放。

智能体多模态编码评测/基准
同一事件,精选展示《Seed2.1 正式发布,深入 AI 生产力》
推荐理由:乔木的实测很有说服力,Seed 2.1 Pro 在编程和 Agent 任务上已能用,多模态识鱼甚至反超 Gemini,对正在选模型的开发者是及时且扎实的参考。
06:47
Artificial Analysis@ArtificialAnlys
61
Artificial Analysis 发布 AA-Briefcase 智能体知识工作基准测试

Artificial Analysis 发布 AA-Briefcase 基准测试,测试模型在多周项目语境下生成财务模型、董事会演示等交付物。关键结果:Claude Opus 4.8 平均每任务 23 分钟,得分最高但最慢;GPT-5.5 (xhigh) 仅 11 分钟,效率最高且 Elo 前五;GLM-5.2 得 1261 分耗时 16.3 分钟,为开源模型最佳;MiniMax-M3 得 1113 分。已下架的 Claude Fable 5 约需 28.5 分钟。工具调用仅占耗时 12%,其余由输出冗余、回合数和推理速度决定。

智能体AnthropicOpenAI推理
03:49
Rohan Paul@rohanpaul_ai
48
GLM-5.2 在 ARC-AGI-2 上取得 22.8% 的成绩,成本 $0.25/任务 值得注意的是,大约 2025 年 5 月,ARC-AGI-2 上已验证的最佳模型仅为 3.0%。 因此,虽然它仍远落后于 GPT-5.5(85%),但 GLM-5.2 也比 2025 年 5 月的最佳前沿分数高出约 7.6 倍,且每任务成本比 GPT-5.5 的 $1.87 便宜约 7.5 倍。

ARC Prize: GLM-5.2 from @Zai_org on ARC-AGI (Verified) - ARC-AGI-2: 22.8%, $0.25 - ARC-AGI-1: 77.0%, $0.19 Performance is comparabl...

推理评测/基准
03:22
François Chollet@fchollet
64
这是迄今为止开源模型在ARC-AGI-2上取得的最强表现。

ARC Prize: GLM-5.2 from @Zai_org on ARC-AGI (Verified) - ARC-AGI-2: 22.8%, $0.25 - ARC-AGI-1: 77.0%, $0.19 Performance is comparabl...

开源生态推理评测/基准
03:19
Nathan Lambert@natolambert
51
为GLM再添胜绩。该模型有一些脆弱的特性,在这方面被闭源模型压制,但我们应该预期开源模型更加参差不齐,你可以根据任务使用多个模型。再次祝贺@Zai_org,并期待下一个。

François Chollet: This is the strongest ARC-AGI-2 performance to date by an open-source model.

开源生态推理评测/基准
6月24日
18:46
meng shao@shao__meng
19
Zcode 接入 GLM-5.2 体验:快、好用、缺 Computer Use

邵猛分享其 AI 编程工具 Zcode 开始使用 GLM-5.2 模型,第一天体验感受:速度快、好用。但对比另一工具 Codex,Zcode 在能力全面性上仍有差距,尤其缺少 Computer Use 功能。最后感谢 @SeTriones 提供 GLM API Key。

编码评测/基准
16:15
meng shao@shao__meng
50
邵猛用 TRAE Work 测试豆包2.1 Pro,视觉还原和前端设计能力超预期

邵猛使用 TRAE Work 测试了字节跳动最新发布的豆包2.1 Pro 模型。官方称豆包2.1 系列在 Coding 和 Agent 能力上显著提升,VLM 能力保持领先,综合能力介于 Claude Opus 4.6 和 4.8 之间。实测中,模型先思考整体规划与实现过程,再读取设计图理解场景和细节,调用最合理的 Skill 规划网页逻辑,分步骤实现后通过本地预览和视觉验证确保效果。最终输出在视觉还原、交互和技术实现上非常细致,包括布局、字体选择、自适应布局,甚至为每个部分配上具有实际意义的图片而非占位符。

多模态编码评测/基准
15:04
数字生命卡兹克@Khazix0918
63
体验微信小微Agent:微信有史以来最大更新,但智能与便捷仍有不足

微信小微Agent常驻左上角,支持语音/文本输入,基座模型为微信自研WeLM(WeLM-V4-80B MoE,激活3B)及DeepSeek。可发消息、红包、语音通话,但每一步需用户确认,且禁止批量发送、读取聊天记录、转发笔记等。已打通朋友圈(限最近2天)、公众号、视频号,支持通过小程序进行本地生活、出行、充值等操作。当前权限“只读不动”,不能删除好友或取消关注。作者认为这是微信最大更新,但在智能程度和便捷性上仍有不足。

智能体MCP/工具评测/基准
08:44
meng shao@shao__meng
51
Apodex深度研究测试:AI Agent公司如何选择产品方向

博主用自进化重型求解器Apodex测试“AI Agent公司如何选择产品方向”。Deep Discovery模式下,Apodex拆解为开发者工具、企业工作流、研究助手三条线,补充VC视角、市场规模等来源,持续验证后给出排序:1. 垂直企业工作流Agent(有明确买方和成本替代逻辑);2. 垂直研究助手(需针对法律、金融等高价值场景);3. 开发者工具(竞争被Codex、Cursor、Claude Code等占据)。Apodex强调先验证后下结论,适合变量多、需取舍的复杂议题。体验入口apodex.ai,Hugging Face可下载模型。

智能体推理评测/基准
00:19
AK@_akhaliq
35
PlanBench-XL 评估LLM工具使用智能体在大型工具生态系统中的长时域规划能力
智能体论文/研究评测/基准
00:07
jason@jxnlco
16
给你!可能来自 @itsjessyin https://codex-billboard.vercel.app/
OpenAI编码评测/基准
6月23日
23:13
歸藏(guizang.ai)@op7418
49
Seed 2.1 Pro 测评:胜任 Agent 工作流

Seed 2.1 Pro 正式发布,测评显示它能胜任真实 Agent 工作流。优势包括:复杂任务稳定、视觉内容规划能力强、多模态额外优势。测试通过豆包任务模式(本地电脑 Agent 操作)和火山引擎 API(Cloud Code)进行。复杂 Skills 测试(PPT 生成、社交媒体卡片)表现优秀,能根据内容调整版式。三个前端任务(百叶窗图片动效、WebGL 贝塞尔曲线、跨整页视差滚动网页)均一步到位或结果完整。定位:未必最顶尖,但适合组合工作流——强编码模型负责工程,Seed 2.1 Pro 负责多模态理解、内容规划和视觉表达。限制:视频输入目前为抽帧式处理。API 已在火山引擎全量上线。

智能体多模态编码评测/基准
23:13
歸藏(guizang.ai)@op7418
42
测试显示豆包旗下的 Seed 2.1 Pro 模型表现不错,尤其补上了此前在 Agent 和 Coding 方面的短板,将成为内容创作的主力模型。更多案例及提示词详见原文链接。

歸藏(guizang.ai): http://x.com/i/article/2069421203073490944

智能体编码评测/基准
22:16
Berryxia.AI@berryxia
42
Berry Xia质疑Fugu性能接近GLM 5.2宣传:实际差距明显且成本高17倍

Berry Xia发文质疑Sakana Fugu性能接近GLM 5.2的宣称,认为实际差距明显、属营销宣发。引用数据显示,在构建交易台任务中,Fugu Ultra输出22,225 token、成本$0.51;GLM 5.2输出13,677 token、成本仅$0.03,便宜约17倍。Opus 4.8(15,802 token/$0.31)和GPT-5.5(11,474 token/$0.26)成本也更低。主推文指出该模型来自美国VC投资的日本企业,质疑日本能否靠“蒸馏”快速赶超中美。

atomic.chat: Sakana Fugu surprisingly performed near GLM 5.2 level but 17× more expensive! We gave the same prompt to 4 models: build...

AnthropicOpenAI大佬观点评测/基准
18:03
fofr@fofrAI
23
Gemini的视觉能力令人印象深刻地通过了这项测试 ⚫️🐜⚫️

fofr: New vision benchmark just landed

Google多模态评测/基准
17:03
fofr@fofrAI
39
新的视觉基准刚刚发布。

USDA Forest Service: Ticks can be as small as a poppy seed. There are five ticks in this photo. Can you spot them? Learn more about protectin...

多模态评测/基准
16:05
SiliconFlow@SiliconFlowAI
59
硅基流动测试了 GLM-5.2、GPT-5.5、Opus 4.8 和 GLM-5.1 的相同提示。据 @arena 引用,GLM-5.2 (Max) 在 Code Arena: Frontend 排名第 2,以 +29 分领先 Claude Opus 4.7 (Thinking),仅次于 Fable 5;是最好的开源模型,大幅超越 Kimi-K2.6 和 Minimax-M3,并在 React(第 2)、HTML(第 4)及品牌营销、参考设计、数据分析等多个子类别中位居第一。主推文指出,在 SiliconFlow 上使用 GLM-5.2 可获得 Opus 级前端生成能力,输入成本降低约 3.6 倍,输出成本降低约 5.7 倍。

Arena.ai: Exciting news: GLM-5.2 (Max) ranks #2 in Code Arena: Frontend, with +29pt over Claude Opus 4.7 (Thinking) and only behin...

开源生态编码评测/基准
‹ 上一页
1234…12
下一页 ›