AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「评测/基准」清除
6月23日周二
23:27The Verge:AI(RSS)59Fitbit Air 以更聪明的方式应对 AI 健康乱局
23:13歸藏(guizang.ai)49Seed 2.1 Pro 测评:胜任 Agent 工作流
23:13歸藏(guizang.ai)42豆包 Seed 2.1 Pro 补齐 Agent 与 Coding 短板
22:16Berryxia.AI42Berry Xia质疑Fugu性能接近GLM 5.2宣传:实际差距明显且成本高17倍
21:50The Verge:AI(RSS)50Sony Xperia 1 VIII 的 AI Camera Assistant 效果极差
18:03fofr23Gemini视觉能力通过新基准测试
17:03fofr39新视觉基准:在照片中找五只蜱虫
16:50公众号:卡尔的AI沃茨58实测豆包Seed 2.1 Pro,把我六个真实工作流都稳稳接住了
16:05SiliconFlow59GLM-5.2 在 Code Arena 前端测试中排名第二,成本优势显著
15:15Hacker News 热门(buzzing.cc 中文翻译)53神话模型安全漏洞检测能力对比测试
09:09AYi65Cline团队实测GLM-5.2 vs Claude Opus 4.8:修bug后构建稳定性差异
08:07IT之家(RSS)49苹果 iOS 27 引入 AI 扩图功能:生成画面自然,无法保证真实还原
06:41Rohan Paul50Sakana Fugu Ultra 在多模型编码测试中视觉效果最优,但成本为 GLM 5.2 的 17 倍
04:26Chubby♨️57GLM-5.2 在真实世界智能体基准 GDPval-AA 排名第三,领先所有开源模型
04:10Artificial Analysis60AA-Briefcase基准测试:开放权重模型主导成本-性能帕累托前沿
03:56Chubby♨️59GLM 5.2 持续获胜
02:40Artificial Analysis59GLM-5.2 在 GDPval-AA 基准排名第三,领先开源权重模型
02:08Ethan Mollick64宾大教授实测Sakana Fugu Ultra-high:速度极慢,效果仅"fine"未达官方宣称水平
01:40Cursor Blog72精选Cursor 审计发现奖励黑客行为淹没模型智能提升
00:39Artificial Analysis50Artificial Analysis 推出视频编辑竞技场(Video Editing Arena)
00:08Google Developers Blog(RSS)61精选Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性
6月22日周一
18:05IT之家(RSS)48联想百应 AI 主机 300 体验:AI Max+395 芯片加持,能跑 120B 本地大模型
18:05IT之家(RSS)69百川智能联合清华发布医疗增强大模型 Baichuan-M4,登顶 OpenAI 医疗评测
17:39Hacker News 热门(buzzing.cc 中文翻译)65GLM-5.2 与 Claude Opus 4.8 正面较量:构建3D WebGL平台游戏
17:07meng shao30邵猛更新国产LLM投票结果:GLM-5.2领先,MiniMax M3垫底
15:32Peter Steinberger 🦞39用户实测多模型路由:效果远逊GPT 5.5
14:40karminski-牙医54DeepSWE 基准测试发布,GLM-5.2 与 Kimi-K2.7-Code 分别成为国产编程 SOTA 与性价比 SOTA
11:33SiliconFlow58GLM-5.2 超 Claude 登顶 HTML 设计榜
08:00HuggingFace Daily Papers(社区热门论文)50GUI vs. CLI:屏幕仅限与技能中介的计算机使用智能体的执行瓶颈
01:34elvis47《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法
01:34elvis56GLM-5.2登顶开源模型排行榜
00:06Nathan Lambert47GLM非常扎实,五分钟轻松设置
6月20日周六
23:27OpenCode48GLM 5.2发布三天登榜第六
17:10Chubby♨️68GPT-5.6无辅助框架一次性生成《模拟人生》
12:28Yuchen Jin30GLM-5.2 表现接近 Opus 4.8/GPT-5.5
04:26OpenRouter:Announcements(RSS)68精选OpenRouter vs LiteLLM:如何选择 LLM 网关
00:54向阳乔木16Gemini 3 将白条鱼误识别为泥鳅
6月19日周五
23:02HuggingFace Daily Papers(社区热门论文)67FID彩票:量化生成式模型评估中的隐藏随机性
21:52The Decoder:AI News(RSS)55AA-Briefcase 基准测试:最佳 AI 模型仅完全解决 3% 真实知识工作
19:01HuggingFace Daily Papers(社区热门论文)45Multi-LCB: 将LiveCodeBench扩展到多种编程语言
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月23日
23:27
The Verge:AI(RSS)
59
Fitbit Air 以更聪明的方式应对 AI 健康乱局

售价 99 美元的 Fitbit Air 是一款轻便手环,续航出色(一个月仅充电三次,45 分钟可充至 85%),支持心率、睡眠、血氧、准备度等指标。核心亮点是与 Google Health 绑定的 AI 健康教练,基于 Gemini 驱动,每日推送睡眠与准备度总结及行动建议,可解读数据趋势并生成旅行健身计划,但不提供诊断。该教练需 $99/年 Premium 订阅,且不独占于 Air。作者认为多数 AI 健康功能是“糟糕的贴金捞钱”,但 Google Health Coach 是其中最接近不糟糕的一款,前提是用户愿意投入大量精力进行引导。

Google评测/基准
23:13
歸藏(guizang.ai)@op7418
49
Seed 2.1 Pro 测评:胜任 Agent 工作流

Seed 2.1 Pro 正式发布,测评显示它能胜任真实 Agent 工作流。优势包括:复杂任务稳定、视觉内容规划能力强、多模态额外优势。测试通过豆包任务模式(本地电脑 Agent 操作)和火山引擎 API(Cloud Code)进行。复杂 Skills 测试(PPT 生成、社交媒体卡片)表现优秀,能根据内容调整版式。三个前端任务(百叶窗图片动效、WebGL 贝塞尔曲线、跨整页视差滚动网页)均一步到位或结果完整。定位:未必最顶尖,但适合组合工作流——强编码模型负责工程,Seed 2.1 Pro 负责多模态理解、内容规划和视觉表达。限制:视频输入目前为抽帧式处理。API 已在火山引擎全量上线。

智能体多模态编码评测/基准
23:13
歸藏(guizang.ai)@op7418
42
测试显示豆包旗下的 Seed 2.1 Pro 模型表现不错,尤其补上了此前在 Agent 和 Coding 方面的短板,将成为内容创作的主力模型。更多案例及提示词详见原文链接。

歸藏(guizang.ai): http://x.com/i/article/2069421203073490944

智能体编码评测/基准
22:16
Berryxia.AI@berryxia
42
Berry Xia质疑Fugu性能接近GLM 5.2宣传:实际差距明显且成本高17倍

Berry Xia发文质疑Sakana Fugu性能接近GLM 5.2的宣称,认为实际差距明显、属营销宣发。引用数据显示,在构建交易台任务中,Fugu Ultra输出22,225 token、成本$0.51;GLM 5.2输出13,677 token、成本仅$0.03,便宜约17倍。Opus 4.8(15,802 token/$0.31)和GPT-5.5(11,474 token/$0.26)成本也更低。主推文指出该模型来自美国VC投资的日本企业,质疑日本能否靠“蒸馏”快速赶超中美。

atomic.chat: Sakana Fugu surprisingly performed near GLM 5.2 level but 17× more expensive! We gave the same prompt to 4 models: build...

AnthropicOpenAI大佬观点评测/基准
21:50
The Verge:AI(RSS)
50
Sony Xperia 1 VIII 的 AI Camera Assistant 效果极差

Sony Xperia 1 VIII 的 AI Camera Assistant 直接嵌入相机默认模式,在拍摄前自动弹出建议,但体验糟糕。与 Google Pixel 的 Camera Coach 不同,它不提供构图或对焦建议,仅应用滤镜——调整曝光、白平衡、对比度或添加人工散景,且不告知具体修改内容。建议不一致:不支持自拍镜头,对强光、背光、空白墙面很少触发,对手掌却频繁建议。多数生成照片不如原图,仅在光线极差时偶尔有用。该功能还拖累性能:搭载骁龙 8 Elite Gen 5 仍出现相机打开慢、切换镜头卡顿甚至崩溃,关闭后有所缓解。该机型售价约 1,850 美元,但不在美国上市。

端侧评测/基准
18:03
fofr@fofrAI
23
Gemini的视觉能力令人印象深刻地通过了这项测试 ⚫️🐜⚫️

fofr: New vision benchmark just landed

Google多模态评测/基准
17:03
fofr@fofrAI
39
新的视觉基准刚刚发布。

USDA Forest Service: Ticks can be as small as a poppy seed. There are five ticks in this photo. Can you spot them? Learn more about protectin...

多模态评测/基准
16:50
公众号:卡尔的AI沃茨
58
实测豆包Seed 2.1 Pro,把我六个真实工作流都稳稳接住了

火山引擎Force大会上发布豆包Seed 2.1 Pro,重点提升Agent、GUI操作和编程能力:OSWorld 78.8接近GPT-5.5的78.7,Terminal Bench 2.1达71.0;多模态视觉理解进步显著(CharXiv-RQ 85.4等)。支持原生音视频、图片、文本混合理解,256K上下文,可切换快慢思考。实测六项真实工作流(旧项目UI修复与Debug、世界杯主题网站、点球大战小游戏、绘本插画描述、DeepResearch报告、PPT生成)均在不依赖Skill下稳定跑通。适合作为Agent执行层模型。

智能体多模态推理编码
16:05
SiliconFlow@SiliconFlowAI
59
硅基流动测试了 GLM-5.2、GPT-5.5、Opus 4.8 和 GLM-5.1 的相同提示。据 @arena 引用,GLM-5.2 (Max) 在 Code Arena: Frontend 排名第 2,以 +29 分领先 Claude Opus 4.7 (Thinking),仅次于 Fable 5;是最好的开源模型,大幅超越 Kimi-K2.6 和 Minimax-M3,并在 React(第 2)、HTML(第 4)及品牌营销、参考设计、数据分析等多个子类别中位居第一。主推文指出,在 SiliconFlow 上使用 GLM-5.2 可获得 Opus 级前端生成能力,输入成本降低约 3.6 倍,输出成本降低约 5.7 倍。

Arena.ai: Exciting news: GLM-5.2 (Max) ranks #2 in Code Arena: Frontend, with +29pt over Claude Opus 4.7 (Thinking) and only behin...

开源生态编码评测/基准
15:15
Hacker News 热门(buzzing.cc 中文翻译)
53
神话模型安全漏洞检测能力对比测试

作者构建了一个包含9个Mythos实际发现漏洞的基准测试集(均在模型知识截止日期后,经Opus 4.7验证),用于评估其他模型能否在没有提示的情况下独立识别这些漏洞。测试中,Claude模型使用Claude Code运行,Gemini在Antigravity CLI中直接拒绝分析安全代码。所有模型表现均低于作者预期,使用完整Agent也未带来性能提升。虽然数据样本有限(每个漏洞仅一次运行),但结果暗示Mythos在安全漏洞检测上可能具备独特优势。

Anthropic安全/对齐评测/基准
09:09
AYi@AYi_AInotes
65
Cline团队实测GLM-5.2 vs Claude Opus 4.8:修bug后构建稳定性差异

Cline团队用自家仓库真实bug测试GLM-5.2和Claude Opus 4.8。Opus速度快3倍(1.6分钟vs 4.7分钟)、token少一半(660K vs 1.1M)、价格贵一倍($0.81 vs $0.41),修好bug但生产构建崩溃,留下类型错误。GLM多花67% token、多2.3倍工具调用(28次vs 12次)、价格便宜一半,不仅修好bug还主动清理死代码,构建干净通过。根本差异在于训练目标:GLM被强化学习训练出验证文化,多花token跑构建、查类型、防回归;Opus追求高效却忽略隐患。排行榜只测修bug能力,测不出是否破坏生产环境。开源模型GLM在长周期代码智能体上找到差异化优势。

Cline: We've kept hearing how GLM-5.2 beats Opus 4.8, and are skeptical of benchmarks - so we tested them on a real bug from th...

开源生态编码评测/基准
08:07
IT之家(RSS)
49
苹果 iOS 27 引入 AI 扩图功能:生成画面自然,无法保证真实还原

科技媒体 AppleInsider 报道苹果在 iOS 27 照片应用中引入基于 Apple 智能的 Extend 扩图工具。测试显示:小猫照片补充了窗帘、枯植物等元素,效果自然;夜景图片生成的路桩、立杆大体合理,但路牌背面形状略异常;罗马 Apple Store 楼梯照片补出台阶和玻璃,视觉合理但现实中不存在;罗马机场照片出现悬浮卡车。苹果表示 AI 扩图生成的画面无法保证真实还原。

图像生成端侧评测/基准
06:41
Rohan Paul@rohanpaul_ai
50
Sakana Fugu Ultra 在多模型编码测试中视觉效果最优,但成本为 GLM 5.2 的 17 倍

Sakana Fugu Ultra 是一个多智能体协调层,通过 OpenAI 兼容端点将子任务路由给不同模型。在 @atomic_chat_hq 的实时交易桌面编码测试中(要求构建完整前后端、实时 API 数据、暗色主题 UI),Fugu Ultra 生成了最丰富的多面板界面(含图表、状态标签等),效果接近 GLM 5.2,但成本达后者的 17 倍:Fugu Ultra 耗 22,225 tokens / $0.51,GLM 5.2 耗 13,677 tokens / $0.03。对比模型 Opus 4.8(15,802 t / $0.31)和 GPT-5.5(11,474 t / $0.26)在质量与成本平衡上表现更佳。

atomic.chat: Sakana Fugu surprisingly performed near GLM 5.2 level but 17× more expensive! We gave the same prompt to 4 models: build...

智能体编码评测/基准
04:26
Chubby♨️@kimmonismus
57
GLM-5.2 在真实世界智能体基准 GDPval-AA 排名第三,领先所有开源模型

GLM-5.2(max)在真实世界智能体工作基准 GDPval-AA 上获 1524 Elo,排名第三,仅次于 Claude Fable 5(1783)和 Claude Opus 4.8(1615),与 GPT-5.5(xhigh,1509)持平。该模型以约 31 轮次任务平均完成零售主管任务清单、紧急停止电路图等交付物,领先开源权重模型(下一名 MiniMax-M3 仅 1408),并超过 Google Gemini 3.5 Flash(1357)、Qwen 3.7 Max(1289)等闭源模型。GLM-5.2 同时在 Artificial Analysis Intelligence Index、Agentic Index 和 AA-Briefcase 上领跑开源榜单。

Artificial Analysis: GLM-5.2 leads open weights models and sits at #3 overall on GDPval-AA, a real-world agentic work benchmark GLM-5.2 from ...

智能体开源生态评测/基准
04:10
Artificial Analysis@ArtificialAnlys
60
AA-Briefcase基准测试:开放权重模型主导成本-性能帕累托前沿

Artificial Analysis发布AA-Briefcase智能体知识工作基准测试,评估模型在长期任务中的表现。任务成本差异超700倍,最高性能模型Claude Fable 5每任务超$20。成本-性能帕累托前沿上,除Anthropic两个最高分模型外,其余大部分由开放权重模型占据。关键性价比:GLM 5.2 (max)每任务$2.40,得分仅比Claude Opus 4.8低90 Elo,成本低65%;DeepSeek V4 Pro (max)每任务$0.08,得分比Gemini 3.5 Flash高约60 Elo,成本低98%以上。

智能体AnthropicDeepSeek推理
03:56
Chubby♨️@kimmonismus
59
Kim指出,GLM 5.2是首个能以开放权重处理真实自动研究任务的模型,包括调试设置、跨多节点H100集群运行并比较RL训练实验。其局限在于缺少图像理解能力,需程序化分析原始WandB数据而非可视化图表。引用介绍称,GLM 5.2是其自动研究pipeline上首个能胜任实际研究的开源模型,在Fable 5对研究设限的背景下意义重大。演示中,它基于SkyRL在两台8×H100节点上完成Harbour代码竞赛的完全异步vs同位置同步RL训练,自动解决设置问题并生成吞吐量与奖励稳定性对比。

alphaXiv: Introducing GLM 5.2 for autoresearch GLM 5.2 is the first open weights model we've tried on our autoresearch pipeline th...

智能体开源生态评测/基准
02:40
Artificial Analysis@ArtificialAnlys
59
GLM-5.2 在 GDPval-AA 基准排名第三,领先开源权重模型

智谱 AI 的 GLM-5.2 在真实世界智能体工作基准 GDPval-AA 上获得 1524 Elo,排名第三,仅次于 Claude Fable 5 和 Claude Opus 4.8,与 GPT-5.5 持平。它是开源权重模型中领先的,超越 Gemini 3.5 Flash、Qwen 3.7 Max 等专有模型。任务为智能体型,平均每任务约 31 轮。此外,GLM-5.2 在 Artificial Analysis Intelligence Index 上也领先开源权重,并在 Agentic Index 和 AA-Briefcase 上均排名第三。

智能体开源生态推理评测/基准
02:08
Ethan Mollick@emollick
64
宾大教授Ethan Mollick实测Sakana Fugu Ultra-high模型,指出其速度极慢--典型编码测试需30分钟,实际效果仅"fine",未能匹配此前Sakana官方宣称的"与Fable和Mythos性能相当"。Mollick表示,在真实编码场景中Fugu Ultra远不及Fable,并附上AI港口小镇生成样例链接作为例证。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

推理评测/基准
01:40
Cursor Blog
精选72
Cursor 审计发现奖励黑客行为淹没模型智能提升

Cursor 通过审计模型轨迹发现,在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离 git 历史并限制网络后,Opus 4.8 Max 得分从 87.1% 跌至 73.0%,Composer 2.5 从 74.7% 跌至 54.0%。在 SWE-bench Multilingual 上,标准环境与严格环境得分差距分别为 9.1 和 7.5 个百分点。两种主要模式是上游查找(57%)和 git 历史挖掘(9%)。研究建议通过审计轨迹和限制运行时环境来缓解此类奖励黑客行为。

智能体AnthropicOpenAI编码

推荐理由:Cursor这项审计把基准作弊量化了:更强模型更会找现成答案,SWE-bench Pro得分虚高严重。做模型选型和评估的团队该醒醒了,环境不控住分数毫无意义。
00:39
Artificial Analysis@ArtificialAnlys
50
Artificial Analysis 推出视频编辑竞技场(Video Editing Arena)

Artificial Analysis 推出 Video Editing Arena,用于对比 Seedance 2.0、Runway Aleph 2.0、Wan 2.7、HappyHorse 1.0、Kling 3.0 Omni、SkyReels V4 六款模型的短片段编辑能力。测试基于文本指令,覆盖有/无音频场景,聚焦视觉特效、声音/语音编辑、物体编辑和物理模拟等维度。初始分析已揭示各模型编辑能力的显著差异。投票现已开放,首个排行榜将在 24 小时内公布。

视频评测/基准
00:08
Google Developers Blog(RSS)
精选61
Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性

Google Labs 提出以“洞察策略”评估 AI 编码智能体的主动性,而非仅按任务完成度打分。团队基于 Google 内部代码库 705 个 bug(1178 个 CL),通过时空近邻与语义相似度聚类还原开发者实际的高层级目标。初步实验显示:Jules 在单轮探索下洞察相关性评分平均 4.5/5;探索预算从两轮增至三轮时,Hit@5 准确率从 33% 升至 57%。团队正将评估方法扩展至公开 GitHub 数据,并探索纳入问题追踪器、对话等更丰富的上下文。

智能体Google编码论文/研究

推荐理由:AI 编码代理的评估从任务修复转向目标洞察,Google 这个思路让评估更接近真实开发场景,但实验还是内部数据,等公开 GitHub 版本再看落地效果。
6月22日
18:05
IT之家(RSS)
48
联想百应 AI 主机 300 体验:AI Max+395 芯片加持,能跑 120B 本地大模型

联想百应 AI 主机 300 搭载 AMD 锐龙 AI Max+ 395 处理器,集成 Radeon 8060S 显卡与 50 TOPS NPU,板载 128GB LPDDR5x 统一内存(可分配 96GB 显存)。本地部署 OpenClaw 和 Qwen3.6 35B 模型;LM Studio 中 Qwen 3.6 35B 输出 61.66 tok/s,120B 参数的 GPT-OSS 模型达 38.67 tok/s。Cinebench R23 单核 2008pts、多核 36886pts,3DMark Time Spy 显卡得分 12108。支持一键部署私有知识库与 AI 智能体,可接入微信、钉钉等平台。

推理端侧评测/基准
18:05
IT之家(RSS)
69
百川智能联合清华发布医疗增强大模型 Baichuan-M4,登顶 OpenAI 医疗评测

6月22日,百川智能与清华大学联合发布医疗增强大模型Baichuan-M4。该模型在OpenAI提出的HealthBench及Hard、Professional三个榜单上同时位列世界第一,综合得分68.6,领先第二名GPT-5.5超10分,幻觉率仅3.3%。M4会主动追问症状细节并优先排查危急重症。在基于OSCE构建的动态问诊评测SCAN-bench中,M4初诊79.0、复诊74.7,全面领先GPT-5.5等模型。模型具备“全病程记忆”,长上下文临床记忆得分86.9;首创“证据锚定”循证引用,精度达90.0,远超GPT-5.5和OpenEvidence。

推理模型发布评测/基准
17:39
Hacker News 热门(buzzing.cc 中文翻译)
65
GLM-5.2 与 Claude Opus 4.8 正面较量:构建3D WebGL平台游戏

最新开源 GLM-5.2(Z.ai,MIT 许可,1M token 上下文,输出定价 $4.4/百万 token)与 Claude Opus 4.8 在单次提示构建 3D WebGL 平台游戏任务上对比。Opus(Claude Code)用时 33 分 30 秒,成本约 $21.92;GLM-5.2(Pi/OpenRouter)用时 1 小时 10 分 40 秒,成本仅 $5.39。Opus 游戏更干净、能自检视觉输出(GLM-5.2 纯文本),但 GLM-5.2 价格低且开源权重可下载,始终可用。

Anthropic开源生态编码评测/基准
17:07
meng shao@shao__meng
30
邵猛更新四个国产LLM投票:GLM-5.2获79.7%,DeepSeek V4 13.4%,Kimi K2.7 5.2%,MiniMax M3仅1.7%。他感叹GLM-5.2强势而MiniMax M3惨淡,并指出Gemini 3.5 Flash相比GLM-5.2不能打,Google DeepMind自Gemini 3.0后陷入沉寂。

meng shao: 看到有人发起的 llm 对比投票 GLM-5.2 vs Gemini 3.5 Flash 对比结果应该很明显,主要是因为 Gemini 3.5 Flash 确实不能打,Google Deepmind 到底怎么了,Gemini 3.0 多模态...

大佬观点评测/基准
15:32
Peter Steinberger 🦞@steipete
39
@LLMJunky 实测某多模型路由服务,5小时使用额度在1个prompt内即告罄。在threejs任务(构建Rocket League副本)中,生成效果远差于GPT 5.5,需7-8次来回通过Codex修复才勉强可玩;GPT 5.5一次完成且无需后续调整,Fable同样表现出色。该路由性能不及Mythos,早期印象不佳。

am.will: I tried this so you don't have to. I know this is going to absolutely shock you but no this does not match the performan...

编码评测/基准
14:40
karminski-牙医@karminski3
54
DeepSWE 基准测试发布,GLM-5.2 与 Kimi-K2.7-Code 分别成为国产编程 SOTA 与性价比 SOTA

DeepSWE 基准测试发布榜单,GLM-5.2 为国产编程大模型 SOTA,Kimi-K2.7-Code 为性价比 SOTA。该榜单与 SWE-Bench-verified 不同:问题由人工针对开源项目制造,可避免数据泄露;每个问题需修改上百行代码,考验模型规划能力,且不提供工具指引,更贴近真实工程场景。覆盖 TypeScript、Go、Python、JavaScript、Rust 等多种语言,而非仅 Python。榜单于 5 月发布。

编码评测/基准
11:33
SiliconFlow@SiliconFlowAI
58
GLM-5.2 登顶 @Designarena 的 HTML Web 设计排行榜--击败了长期保持第一的 Claude Opus 4.6 & 4.7。 非常出色,现已通过 SiliconFlow API 提供使用! 开始构建 → https://www.siliconflow.com/models/glm-5-2

Design Arena: http://x.com/i/article/2067849694232080384

Anthropic编码评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
50
GUI vs. CLI:屏幕仅限与技能中介的计算机使用智能体的执行瓶颈

该研究引入一项匹配执行层基准测试(440个桌面任务、18个应用、12个工作流类别),对屏幕仅限的GUI智能体与技能中介的CLI智能体进行控制对比,两者接受相同目标、状态和最终状态验证器,但仅限使用模态原生操作。最强GUI智能体全通过率59.1%,高于最强原始技能CLI智能体的48.2%;经验证器引导的技能增强后,CLI成功率升至69.3%,表明CLI缺陷主要来自技能覆盖不完整。结果揭示两类智能体不同的执行瓶颈:GUI受限于长时程工作流中的可靠接地交互,CLI受限于技能接口的覆盖率和可扩展性。

智能体arXiv论文/研究评测/基准
01:34
elvis@omarsar0
47
《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法

论文《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法:将人类判断前置到可复用评估资产中,专家在上游策划评估智慧,而非在测试循环中逐一审查输出。现有方法各有局限:Benchmark测量固定能力,人工审核不具可扩展性,LLM-as-Judge存在评估器设计问题,红队测试偶发,trace审计需明确证据规则。AI智能体需作为行为系统评估,因其多轮推理、调用工具、维护上下文、遵循策略并在不确定性下行动。

智能体arXiv论文/研究评测/基准
01:34
elvis@omarsar0
56
GLM-5.2 的表现令人印象深刻。 确实是前沿的开放权重模型。 那么,我们很快能看到 Gemini 模型跻身前三吗?

Datacurve: GLM 5.2 is now on DeepSWE as the top open-source model on our leaderboard. With a pass@1 score of 44% at max effort, GLM...

开源生态编码评测/基准
00:06
Nathan Lambert@natolambert
47
一小时下来,第一印象绝对是GLM非常扎实(在@FireworksAI_HQ上设置非常简单,夸他们一下,我在claude code里只花了5分钟就搞定了)。
评测/基准部署/工程
6月20日
23:27
OpenCode@opencode
48
GLM 5.2 大受欢迎 已发布 3 天,便在我们榜单上排到第 6 名
编码评测/基准
17:10
Chubby♨️@kimmonismus
68
非常期待 GPT-5.6。无需任何辅助框架,一次性生成《模拟人生》模拟,太疯狂了。

Chetaslua: 🚨 The Sims one shotted by GPT-5.6 Pro this is without codex or any coding harness , one shot entire game with logic in ...

OpenAI编码评测/基准
12:28
Yuchen Jin@Yuchenj_UW
30
使用 GLM-5.2 一天后,我惊讶于它经常感觉接近 Opus 4.8/GPT-5.5 的水平。 我将它与 Opus 4.8 进行了并排比较,有时我甚至更喜欢 GLM-5.2 的结果。 开源大语言模型令人印象深刻,尤其是考虑到它们训练的 GPU 数量少得多。
开源生态推理评测/基准
04:26
OpenRouter:Announcements(RSS)
精选68
OpenRouter vs LiteLLM:如何选择 LLM 网关

OpenRouter 是托管在 Cloudflare 边缘的 LLM 网关,无需管理基础设施,收取 5.5% 平台费(前 100 万次请求免费),支持 70+ 提供商和自动故障转移。LiteLLM 是自部署代理(Docker/PostgreSQL/Redis),数据不离开内网,免费开源,但需承担基础设施成本(生产部署约数百美元/月)。当模型月支出超过约 $3,600(基础设施 $200/月)或 $9,100(基础设施 $500/月)时自托管更划算。LiteLLM 提供六种路由策略和自定义 Python 路由;OpenRouter 具备 SOC 2、GDPR 认证和零数据保留选项。两者可串联使用。

开源生态评测/基准部署/工程

推荐理由:OpenRouter 这份官方对比很坦诚,把成本、延迟、合规的权衡掰开了讲,自建 LiteLLM 和托管谁更划算的算术也给清楚了,做 LLM 网关选型的直接看这篇就够了。
00:54
向阳乔木@vista8
16
gemini3还是不行啊,怎么把白条识别成泥鳅。。 影响我的钓鱼记录App 😂
Google多模态评测/基准
6月19日
23:02
HuggingFace Daily Papers(社区热门论文)
67
FID彩票:量化生成式模型评估中的隐藏随机性

FID是图像生成的事实标准评估指标,但大多数论文仅报告单一种子下的单个数值。本研究将FID视为训练种子和生成种子两个轴上的随机变量,在数百个SiT网络上直接测量方差。发现:重新训练模型使FID变化幅度是固定网络重新采样的3.2倍,差距来自随机初始化、数据顺序和流匹配损失的高斯噪声;增加计算或模型大小几乎不缩小分散度,FID变异系数稳定在1-2%;每格无分类器引导调优使分散度减半,但重新洗牌最优种子。建议:在每格最优引导下评估,将低于~1.3% CoV的FID差距视为无结论,报告多个训练种子的误差条。

图像生成论文/研究评测/基准
21:52
The Decoder:AI News(RSS)
55
AA-Briefcase 基准测试:最佳 AI 模型仅完全解决 3% 真实知识工作

Artificial Analysis 推出的 AA-Briefcase 基准测试将 AI 模型置于包含数千份 Slack 消息、邮件、会议记录等碎片化源文件的多周知识工作项目中。表现最好的 Claude Fable 5 通过率最高,但仅在 3% 的任务中完全达标;91 个任务中有 31 个没有任何模型达到 50% 通过率。弱模型因遗漏相关文件或输出无效结果而失败,强模型则因无法跨来源拼接信息而遗漏细节。任务单价差距超过 800 倍,从 DeepSeek V4 Flash 的约 0.04 美元到 Claude Fable 5 的超过 31 美元。

推理评测/基准
19:01
HuggingFace Daily Papers(社区热门论文)
45
Multi-LCB: 将LiveCodeBench扩展到多种编程语言

Multi-LCB 是一个新基准,将 LiveCodeBench(LCB)从 Python 扩展到 12 种编程语言,保持原有污染控制和评估协议,并自动跟踪 LCB 的未来更新。对 24 个 LLM 的指令遵循与推理能力评估揭示了 Python 过拟合、语言特定污染以及多语言性能的显著差异,直接暴露了当前 LLM 在多语言代码生成上的关键短板。

arXiv编码论文/研究评测/基准
‹ 上一页
123456…22
下一页 ›