AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「评测/基准」清除
6月19日周五
10:47HuggingFace Daily Papers(社区热门论文)48JamSet与JamBench:首个项目级游戏代码框架数据集与基准
08:00HuggingFace Daily Papers(社区热门论文)51Counsel:面向智能体任务的元评估数据集
07:54Ethan Mollick67Ethan Mollick 称赞 AA-Briefcase 为真实知识工作优质基准
07:24Artificial Analysis55AA-Briefcase 基准发布:评估模型长期知识工作智能体能力
03:23Artificial Analysis63Wisedocs 推出医学长上下文推理基准 MLCR
02:22OpenAI:官网动态(RSS · 排除企业/客户案例)82精选GPT-5.5 Instant提升ChatGPT健康智能
01:17AYi52GLM-5.2 登顶 Design Arena,开源权重压 Claude Fable 5
6月18日周四
23:51elvis64OpenAI 发布 LifeSciBench 生命科学基准
23:17AYi43Grok imagine 1.5 动作生成效果测试
17:17MarkTechPost(RSS)41KV缓存压缩竞赛:TurboQuant vs OSCAR vs EpiCache
16:50DogeDesigner29Grok Imagine 1.5 缩放效果极度逼真
12:00公众号:龙猫LongCat(美团)59美团智能创作团队海报生成技术体系:PosterCraft/PosterOmni/PosterReward
10:45MarkTechPost(RSS)65OpenAI 发布 LifeSciBench:750 项专家编写任务的生命科学研究基准
10:43HuggingFace Daily Papers(社区热门论文)51Physics-IQ Verified
09:43HuggingFace Daily Papers(社区热门论文)57RNG-Bench:多模态大语言模型在可控非马尔可夫游戏中的评估基准
09:19meng shao58Kimi K2.7 Code 和 Claude Fable 5 生成落地页的实验对比分析
09:14IT之家(RSS)50苹果游戏移植工具包 4 测试,《赛博朋克 2077》帧率提升 10%
08:00HuggingFace Daily Papers(社区热门论文)65StylisticBias:少数视觉线索主导MLLM社会偏见
07:19Artificial Analysis61Claude Fable 5 成本最高:运行 AI 智能指数需 $6.2K
07:14MiniMax (official)51MiniMax M3 视觉能力:截图即生成黑洞模拟器
07:13Hacker News 热门(buzzing.cc 中文翻译)65一个机器人正朝你飞奔而来:你想让它运行在Claude还是Grok上?
04:48elvis56GLM-5.2 登顶 Design Arena,Elo 1360 超 Claude Fable 5
04:42OpenAI:官网动态(RSS · 排除企业/客户案例)58精选LifeSciBench 发布
03:46Artificial Analysis51智谱 GLM-5.2 在 CritPt 基准上表现突出
01:16Ethan Mollick60港口小镇3D模拟AI基准测试
00:32Hacker News 热门(buzzing.cc 中文翻译)61GLM-5.2 (max) 性能、价格与开源发布
00:32The Verge:AI(RSS)64Snap 售价 2195 美元的 Specs 智能眼镜:设计张扬难以低调
00:00Berkeley RDI:Blog(AI 安全与评测)74精选CyberGym-E2E:AI智能体端到端网络安全能力的大规模真实世界基准
6月17日周三
22:01The Verge:AI(RSS)48Meta AI Mode搜索:基于Facebook帖子回答复杂查询
19:27Hacker News 热门(buzzing.cc 中文翻译)57GLM-5.2 成为 Artificial Analysis 智能指数领先开放权重模型
15:08Artificial Analysis61GLM-5.2 发布:AAI 指数 51 分,开源权重模型新标杆
15:06AYi57Grok Imagine 1.5 复刻权游演讲实测惊艳
13:09SemiAnalysis65OhnePixel 获 DeepSeek V4 部署平台
13:08Artificial Analysis52Artificial Analysis 发布 Intelligence Index v4.1 更新
12:29歸藏(guizang.ai)40GLM 5.2 vs GPT 5.5:社交媒体卡片对比测试
11:35HuggingFace Daily Papers(社区热门论文)40ChLogic:中文逻辑推理鲁棒性评估基准
09:37Ethan Mollick58GLM-5.2 Max 与 Fable 诗歌表现差异
09:03IT之家(RSS)42错过出口、拐错弯,特斯拉 FSD 被导航拖后腿
08:06Artificial Analysis20AI指数v4.1发布并启动旧金山活动
08:00HuggingFace Daily Papers(社区热门论文)53VLA是否还记得基础知识?衡量视觉-语言-动作模型中常识与世界知识的保留程度
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月19日
10:47
HuggingFace Daily Papers(社区热门论文)
48
JamSet与JamBench:首个项目级游戏代码框架数据集与基准

JamSet和JamBench是基于Godot引擎的首个项目级游戏代码框架数据集与基准。从24万仓库筛选出8133个验证项目,其中300个手动验证为JamBench。定义主题驱动生成与代码补全任务,用编译通过率、结构完整性(SCS)、行为对齐(BAS)评估。9个前沿模型评测显示项目规模增大导致运行时通过率从80.4%(小项目)降至5.7%(大项目)。代码智能体提升编译率但未改善运行时行为,瓶颈在架构设计。实验验证JamSet作为训练数据有效。所有数据与代码已公开。

编码论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
51
Counsel:面向智能体任务的元评估数据集

Counsel是首个公开的智能体任务元评估数据集,包含开源权重LLMJ在tau-bench(客服)和DA-Code(编程)两个基准上的过程级批评及对应人类元评估。人类标注者将批评标记为“完全准确”“位置正确但推理欠佳”或“不应标记”,一致性达Krippendorff alpha 0.78。研究发现更强评判模型和更多推理努力均能提升与人类的一致性:最强模型位置标注一致率约88%,推理标注约65%。数据集使用开源权重模型生成并采用宽松许可,可用于校准、改进或训练面向智能体的LLMJ。

智能体论文/研究评测/基准
07:54
Ethan Mollick@emollick
67
Ethan Mollick 称赞 AA-Briefcase 是真实知识工作的优质基准,未饱和且含私有保留测试,同时询问是否有与人类的对比。该基准由 @ArtificialAnlys 发布,测试模型在多周、多任务项目中的能力,输入含数万条 Slack 消息和数千封邮件。模型排名:Claude Fable 5(已不可用)以 1587 Elo 居首,Claude Opus 4.8(1356)第二,GLM-5.2 max(1266)第三。结果凸显难度:最佳模型仅 3% 任务满足全部标准,31/91 任务无模型超过 50%,成本跨度约 800 倍。

Artificial Analysis: Announcing AA-Briefcase, the benchmark for the next era of agentic knowledge work AA-Briefcase is our new benchmark for ...

智能体Anthropic推理评测/基准
07:24
Artificial Analysis@ArtificialAnlys
55
AA-Briefcase 基准发布:评估模型长期知识工作智能体能力

Artificial Analysis 推出新基准 AA-Briefcase,用于评估模型在长期知识工作项目中的智能体能力。基准包含 4 个私有场景(每项目需处理 25000+ Slack 消息、3500+ 邮件等碎片化上下文)及一个公开演示场景。评测结果:Claude Fable 5 以 Elo 1587 领先,其次为 Claude Opus 4.8(1356)、Opus 4.7 及智谱 GLM 5.2(max,1266)。成本方面,Claude Fable 5 平均每任务 $31,Opus 4.8 为 $10.40,GPT-5.5 (xhigh) 为 $3.68,GLM 5.2 (max) 为 $2.40,DeepSeek V4 Flash (max) 仅约 $0.04。所有模型中仅 3% 的任务满足全部标准,31/91 个任务无模型得分超 50%,显示真实世界复杂性仍是挑战。最佳性价比为开源权重模型 GLM-5.2 (max) 和 DeepSeek V4 Pro (max)。

智能体AnthropicHugging Face推理
03:23
Artificial Analysis@ArtificialAnlys
63
Wisedocs 推出医学长上下文推理基准 MLCR

Wisedocs 发布 Medical Long Context Reasoning (MLCR) 基准,测试 LLM 对真实医疗档案的长文档推理能力。评测包含 250 个问题,横跨 6 个难度等级,另设私有保留集,涵盖复杂医学推理、幻觉检测及单次查询中的并行提问。Wisedocs 同步开源 10 个合成病例、低三级问题及评估工具。Artificial Analysis 将合作上线该基准。

Wisedocs: Introducing MLCR, a novel Medical Long Context Reasoning benchmark. Our eval measures the ability of LLMs to answer real...

开源/仓库推理评测/基准
02:22
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选82
GPT-5.5 Instant提升ChatGPT健康智能

每周超2.3亿用户通过ChatGPT获取健康信息。GPT-5.5 Instant在健康评估中表现显著提升,最具挑战性评测上达到前沿Thinking模型水平,已面向所有免费用户开放。基于医生编写的HealthBench和HealthBench Professional评估,其回复在准确性、安全性和沟通质量上优于医生手写回复及早期模型,故障模式发生率更低。近两个月生产流量显示,健康类回复事实性问题率下降71%。

OpenAI产品更新评测/基准
关联讨论 3 条The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:Greg Brockman (@gdb)
推荐理由:GPT-5.5 Instant把健康智能提升到接近前沿思考模型水平并免费提供,与医生对比的实验和71%的错误率下降让这次更新有切实证据。
01:17
AYi@AYi_AInotes
52
GLM-5.2 登顶 Design Arena,开源权重压 Claude Fable 5

GLM-5.2 在 Design Arena 上取得第一,Elo 达 1360,超越已关服的 Claude Fable 5。模型为开源权重,排名上升 4 位,Elo 提升 27 分,创下代码类历史最高分。

Design Arena: BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...

开源生态编码评测/基准
6月18日
23:51
elvis@omarsar0
64
OpenAI 推出 LifeSciBench,用于衡量 AI 支持真实世界生命科学研究的能力。该基准与 173 位生物技术与制药科学家共同开发,包含 750 个专家编写任务,覆盖七种生物研究流程。DAIR.AI 的 Elvis Saravia 推荐阅读,并指出通用模型在处理复杂结构时仍然失败,而面向科学研究的专用模型表现显著更优。

OpenAI: Introducing LifeSciBench, a benchmark for measuring and improving how well AI supports real-world life science research....

OpenAI评测/基准
23:17
AYi@AYi_AInotes
43
Grok imagine 1.5 动作生成效果测试

推文测试了 Grok imagine 1.5 的动作生成效果,认为其相比 seedance2.0 稍弱,但进步明显、潜力较大,并归因于 Elon 收购 Cursor 后的效益最先在 Grok 显现。

xAI图像生成视频评测/基准
17:17
MarkTechPost(RSS)
41
KV缓存压缩竞赛:TurboQuant vs OSCAR vs EpiCache

长上下文大语言模型的KV缓存随序列和批次线性增长,成为内存和延迟瓶颈。Google与NYU的TurboQuant采用数据无关随机旋转与最优标量量化,在3–4 bit位宽实现近乎无损,4×压缩下Needle-in-a-Haystack全精度召回。Together AI的OSCAR使用注意感知旋转校准,INT2(2.28有效比特)下精度不崩溃,集成SGLang,Qwen3-32B上仅差0.02分,GLM-4.7-FP8匹配BF16,解码速度提升约3倍,KV缓存内存减少约8倍。Apple的EpiCache则针对两者均未解决的多轮对话场景。两者在各自目标位宽上各有优劣,具有理论互补潜力。

Google推理评测/基准部署/工程
16:50
DogeDesigner@cb_doge
29
Grok Imagine 1.5 非常令人印象深刻。 看看现在的缩放效果,极度逼真,细节质量惊人。
图像生成评测/基准
12:00
公众号:龙猫LongCat(美团)
59
美团智能创作团队海报生成技术体系:PosterCraft/PosterOmni/PosterReward

美团智能创作团队构建了覆盖“生成—编辑—评判”全链路的海报生成技术体系。PosterCraft(ICLR 2026)通过四阶段级联优化实现端到端高美感海报生成,文字渲染准确率接近顶级闭源商业系统;PosterOmni(CVPR 2026)以单一统一模型覆盖扩图、补全、比例调整、风格迁移等六类设计任务;PosterReward(CVPR 2026)是首个专门面向海报质量的奖励模型,在专项评测基准上达86%准确率。三者相互协同,已全部开源至MeiGen-AI仓库,并在美团外卖套餐图生成、品牌IP袋鼠团团等业务中落地。

图像生成开源生态教程/实践评测/基准
10:45
MarkTechPost(RSS)
65
OpenAI 发布 LifeSciBench:750 项专家编写任务的生命科学研究基准

OpenAI 推出 LifeSciBench,包含 750 个由博士级科学家编写的任务,覆盖 7 个工作流和 7 个生物领域。每个任务配有提示、支撑材料及 19,020 条原子化评分标准,约 79% 的任务需多步推理(平均 4 步)。评估五个模型中,领域专用模型 GPT-Rosalind 通过率 36.1% 领先,其后 GPT-5.5 为 25.7%、Gemini 3.1 Pro 为 23.6%、GPT-5.4 为 20.7%、Grok 4.3 为 13.0%。1,062 份附件(序列、图表、PDF 等)使模型表现明显下降。453 位评审验证一致性超 96%。

OpenAI论文/研究评测/基准
10:43
HuggingFace Daily Papers(社区热门论文)
51
Physics-IQ Verified

本文对Physics-IQ基准进行系统审查,指出其缺陷并提出三项改进:优化提示词与真实数据质量以减少混淆因素,引入样本级评分系统使每个样本和指标权重相等。改进后的Physics-IQ Verified基准优化了57.6%的样本和34.8%的提示词。在六种图像到视频生成模型的对比研究中,排名出现中等但有意义的变化(Kendall's τ=0.46)。基准代码已开源。

DeepMind视频论文/研究评测/基准
09:43
HuggingFace Daily Papers(社区热门论文)
57
RNG-Bench:多模态大语言模型在可控非马尔可夫游戏中的评估基准

RNG-Bench是一个评估多模态大语言模型在闭环交互中重建过去观测并据此行动能力的基准套件,包含Matching Pairs和3D Maze两个互补游戏。基准通过网格大小、视觉模式和观测模态三个难度轴控制复杂度,并引入对决赛制消除实例方差及Memory Gap指标分离遗忘与决策错误。最难配置需约128K tokens上下文和每轮350张图像,前沿模型尚未饱和。Memory Gap分析显示主要错误源于遗忘。微调Qwen3.5-9B可提升该基准性能并迁移至现有基准,不损失通用多模态能力。

arXiv多模态论文/研究评测/基准
09:19
meng shao@shao__meng
58
Kimi K2.7 Code 和 Claude Fable 5 生成落地页的实验对比分析

@nutlope 让 Kimi K2.7 Code 和 Claude Fable 5 各生成 12 个落地页并排对比。初始两者均有“AI 生成感”;为 Kimi 设置自定义 Design Inspiration MCP Server(利用多模态能力)后质量显著提升。成本上,B2B SaaS 单页 Kimi 仅 4 美分,Claude Fable 1.09 美元(约 27 倍差);平均 Kimi 比 Fable 便宜约 16 倍、比 Opus 便宜约 8 倍,总成本降低 94%。质量由 GPT-5.5 评分(0-100),Claude Fable 略高但差距小,Kimi 性价比突出。实验表明,结合高质量视觉参考后,开源模型已足以支持实际落地页工作流,批量迭代优势显著。

Hassan: http://x.com/i/article/2067278912984436736

多模态开源生态编码评测/基准
09:14
IT之家(RSS)
50
苹果游戏移植工具包 4 测试,《赛博朋克 2077》帧率提升 10%

苹果 GPTK 4 引入 Agentic AI 能力,通过 GitHub 开源智能体技能自动应用 Metal 最佳实践。测试显示,在 M3 Max MacBook Pro(48GB 内存/40 核 GPU)上,《赛博朋克 2077》通过 DirectX 12 转 Metal 4 帧率比 Metal 3 提升 10%;《反恐精英 2》帧率高于上一版。MacBook Neo 低设置运行《荒野大镖客 2》,GPTK 4 平均 35fps,较 GPTK 3 的 28fps 提升 25%。《007 初露锋芒》在 GPTK 3 下崩溃,现可运行至 60–70fps(1080p/中画质/FSR 质量),但每次启动需等待 20 分钟着色器编译。

GitHub开源生态评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
65
StylisticBias:少数视觉线索主导MLLM社会偏见

StylisticBias 是一个用于评估多模态大语言模型(MLLM)属性级社会偏见的可控基准。研究团队生成500张逼真基础人脸,每张创建约50个单属性变体,共约25K图像,通过固定身份、逐次改变单一视觉属性来测量特定线索如何影响模型判断。在6个MLLM、25个二元社会判断场景中,年龄和体型主导身份层面效应,时尚风格等视觉线索引发最大属性层面偏移;约15个属性解释了近80%的总变异。模型在与社会经济和外貌语义对齐的判断中敏感性最强。StylisticBias基准及代码、数据集已开源。

arXivHugging Face安全/对齐论文/研究
07:19
Artificial Analysis@ArtificialAnlys
61
Claude Fable 5 成本最高:运行 AI 智能指数需 $6.2K

Artificial Analysis 将 Claude Fable 5 列为有史以来基准测试成本最高的模型,运行其 Intelligence Index 需 $6.2K,是第二贵模型 Opus 4.8($3.7K)的 1.7 倍、GPT-5.5($2.9K)的 2.2 倍。该模型 Intelligence Index 得分 60,领先 Opus 4.8(56)和 GPT-5.5(55)。定价 $10/$50 每百万输入/输出 tokens,为 Opus 4.8 的 2 倍,仅低于 GPT-5.5 Pro($30/$180)。缓存价格同步翻倍:缓存读取 $1/M、写入 $12.5/M,而 Opus 4.8 分别为 $0.5/$6.25。Intelligence Index 成本前三高的模型目前均为 Claude。

Anthropic推理评测/基准
07:14
MiniMax (official)@MiniMax_AI
51
MiniMax 官方转发用户 @coldopn 的体验:前沿模型已不再仅限于 Anthropic 和 OpenAI。通过将一张插图截图输入 Kilo Code,切换至 MiniMax M3 模型,仅凭一句"将此截图动画化为可工作的黑洞模拟器"的提示词,M3 即生成了完整的黑洞模拟器。整个推理过程仅花费 0.53 美元,展现了 M3 强大的视觉理解与生成能力。

Brian Turcotte: Frontier doesn't only mean Anthropic and OpenAI anymore. I built this black hole simulator by simply dropping an illustr...

GitHub多模态编码评测/基准
07:13
Hacker News 热门(buzzing.cc 中文翻译)
65
一个机器人正朝你飞奔而来:你想让它运行在Claude还是Grok上?

实验将11个大语言模型放入自建2D吃鸡游戏中,进行30轮对战。Grok 4.1 Fast以13胜(每胜0.97美元)夺冠,第二名Claude Sonnet 4.6仅5胜(每胜26.78美元),成本相差27倍。GPT 5.4击杀数最高(38次),但仅获2胜排第二。GPT 5.4-mini、DeepSeek 4 Flash和Kimi K2.6共花费57美元,零胜场。游戏包含武器、护甲、载具及缩圈机制,模型可编辑自身人格和记忆文件,彼此仅以字母代称。传统基准未能预测胜负,揭示出模型在“获胜”与“杀人”能力之外的决策差异。

智能体AnthropicxAI评测/基准
04:48
elvis@omarsar0
56
GLM-5.2 在 Design Arena 上以 Elo 1360 跃居第一,超过已下架的 Claude Fable 5,排名提升 4 位、Elo 提高 27 分,且为开源权重。DAIR.AI 的 Elvis Saravia 实测认为其设计能力不错,虽未达专业设计师水平,但具备 Opus 级质量,擅长游戏、落地页、HTML artifacts 及 3D 世界等任务。

Design Arena: BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...

开源生态编码评测/基准
04:42
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选58
LifeSciBench 发布

2026 年 6 月,OpenAI 联合 173 位博士级生命科学家发布 LifeSciBench 评测基准,涵盖 750 个真实研究任务,覆盖证据处理、分析、设计优化等七个工作流及七个生物领域。每项任务配有约 25 条细化评分标准(共 19,020 条),评估模型的科学正确性与实用价值。79% 的任务需多步推理,53% 要求解读图表、PDF 等附件数据,旨在衡量 AI 在复杂、不确定的研究任务中的实际能力,而非仅回答结构化问题。

OpenAI论文/研究评测/基准
关联讨论 1 条X:OpenAI (@OpenAI)
推荐理由:OpenAI 这个基准请了 173 位博士级科学家出题,第一次把 AI 评估拉到真实科研决策里。结果很实在:前沿模型在需要结合复杂图表、设计实验的任务上仍然乏力,做 AI for Science 的团队值得拿来校准预期。
03:46
Artificial Analysis@ArtificialAnlys
51
智谱 GLM-5.2 在 CritPt 基准上表现突出

智谱发布 GLM-5.2(最大推理努力),在 CritPt 基准(未发表研究级物理问题)上得分 20.9%,与 Claude Opus 4.8 持平,远超其他开放权重模型。DeepSeek V4 Pro 仅得 12.9%;GLM-5.2 同时超越 GPT-5.5、Gemini 3.1 Pro 和 Claude Opus 4.7 等专有模型。仅 GPT-5.5 Pro 以 30.6% 领先。相比十周前 GLM-5.1 的 4.6%,实现 4.5 倍代际提升。

开源生态推理评测/基准
01:16
Ethan Mollick@emollick
60
我有一个有趣且出奇有用的AI基准测试:"为我构建一个程序化生成的3D模拟,展示一个港口小镇从公元前3000年到公元3000年的演变,它应该看起来很漂亮,并允许我对其进行一些控制。" 查看20个模型的画廊:https://ai-harbor-town-gallery.netlify.app/
多模态评测/基准
00:32
Hacker News 热门(buzzing.cc 中文翻译)
61
GLM-5.2 (max) 性能、价格与开源发布

智谱AI于2026年6月发布开源推理模型GLM-5.2 (max),总参数753B,活跃参数40B,支持文本输入输出,上下文窗口1M tokens。在Artificial Analysis Intelligence Index上以51分位居同类92款模型第一。输出速度111 tokens/s(第15/92)。价格输入$1.40/百万tokens、输出$4.40/百万tokens,属较贵一档;缓存命中$0.26/百万tokens(便宜81%)。模型权重以MIT协议开源发布于HuggingFace。

开源/仓库推理评测/基准
00:32
The Verge:AI(RSS)
64
Snap 售价 2195 美元的 Specs 智能眼镜:设计张扬难以低调

Snapshot 发布售价 2195 美元的智能眼镜 Specs,47mm 版重 132 克,52mm 版重 136 克,远高于传统眼镜(15-25 克)和主流智能眼镜(40-70 克)。CEO Evan Spiegel 称其旨在帮人摆脱屏幕、更融入世界,但镜头反光暴露了内置显示屏。厚重镜框和夸张镜腿设计醒目,无法低调。文章对比认为 Meta Ray-Ban 因外观普通更易成功,而 Snap 将 Specs 定位为高端时尚设备,由时尚摄影师 Steven Meisel 拍摄广告,模特包括 Kaia Gerber、Hoyeon 等,目标用户为早期采用者而非大众市场。

端侧评测/基准
00:00
Berkeley RDI:Blog(AI 安全与评测)
精选74
CyberGym-E2E:AI智能体端到端网络安全能力的大规模真实世界基准

CyberGym-E2E 是一个包含920个真实漏洞、覆盖139个开源项目的大规模端到端网络安全基准。任务要求AI智能体在真实代码库中自行定位漏洞、生成触发崩溃的概念验证并编写补丁。测试表明:若直接给出漏洞位置,最强配置可修复约80%漏洞;但若需自行发现,端到端成功率急剧下降——Claude Opus 4.5仅19.2%,最新模型在37%-66%之间。智能体可能发现替代漏洞,且存在部分浅层补丁。所有漏洞已事先公开披露并修复。

安全/对齐论文/研究评测/基准

推荐理由:伯克利这个新基准把漏洞发现、利用、修复串成一条线,结果很直观,修复能做到 80%,但自己找漏洞只剩 20%,新模型在快速追赶。想看清 AI 真实攻防能力的人该读。
6月17日
22:01
The Verge:AI(RSS)
48
Meta AI Mode搜索:基于Facebook帖子回答复杂查询

Meta在Facebook应用中推出AI Mode搜索,利用公开帖子回答复杂查询。实测显示基础推荐尚可,但存在严重幻觉:推荐奥斯汀的咖啡店给明尼阿波利斯行程,并错误引用社区泳池周末闭馆(实际周末开放)。AI曾就“1月6日国会骚乱者是否为爱国者”给出可疑答复。作为规划工具,AI Mode能发现用户未注意的活动,但地理错误和引用不实让结果大打折扣。

Meta搜索评测/基准
19:27
Hacker News 热门(buzzing.cc 中文翻译)
57
GLM-5.2 成为 Artificial Analysis 智能指数领先开放权重模型

GLM-5.2 在 Artificial Analysis Intelligence Index v4.1 上得分 51,领先 MiniMax-M3(44)、DeepSeek V4 Pro(max,44)和 Kimi K2.6(43)。模型总参数 744B,活跃参数 40B,上下文窗口 1M tokens,API 定价每百万输入/输出/缓存命中 token 分别为 $1.4/$4.4/$0.26。科学推理显著提升:HLE 得分 40%(+12)、CritPt 21%(+16)。GDPval-AA v2 得分 1524,与 GPT-5.5(xhigh)持平。每任务输出 43k tokens(其中 37k 推理),每任务成本约 $0.46,位于智能 vs 成本帕累托前沿。采用 MIT 许可证,可通过 DeepInfra、Novita 等第三方平台使用。

智能体推理评测/基准
15:08
Artificial Analysis@ArtificialAnlys
61
GLM-5.2 发布:AAI 指数 51 分,开源权重模型新标杆

Z ai 发布 GLM-5.2(744B 总参数/40B 活跃参数),在 Artificial Analysis Intelligence Index v4.1 上得分 51,超越 MiniMax-M3、DeepSeek V4 Pro 和 Kimi K2.6。科学推理大幅提升:CritPt +16、HLE +12、GPQA Diamond 达 89%。GDPval-AA v2 得分 1524,与 GPT-5.5 (xhigh reasoning) 相当。上下文窗口扩展至 1M tokens,MIT 许可证。第一方 API 定价 $1.4/$4.4/$0.26 每百万输入/输出/缓存命中 token,每任务成本约 $0.46,处于智能 vs 成本帕累托前沿。

开源生态推理评测/基准
15:06
AYi@AYi_AInotes
57
Grok Imagine 1.5 复刻权游演讲实测惊艳

Grok Imagine Video 1.5 实测: 复刻《权力的游戏》Tyrion 经典法庭演讲,效果真的有点吊炸,完全不输seedance 2, 整个场景真实感、物理表现和原生音频都拉满了……面部微表情、布料动态、火把光影互动都很自然

xAI: Grok Imagine Video 1.5 is here Our new image-to-video model with sharper realism, better physics and faster generations ...

xAI视频评测/基准
13:09
SemiAnalysis@SemiAnalysis_
65
POV: @ohnePixel 为 DeepSeek V4 首日部署获得一个平台。 了解更多:https://semianalysis.substack.com/p/deepseekv4-16t-day-0-to-day-43-performance
DeepSeek推理评测/基准
13:08
Artificial Analysis@ArtificialAnlys
52
Artificial Analysis 发布 Intelligence Index v4.1 更新

Artificial Analysis 昨日发布 Intelligence Index v4.1 更新,主要变化有三项:升级的评测 Terminal-Bench 2.1、τ³-Bench Banking 和 GDPval-AA v2;提供每项任务的成本、时间与模型 token 消耗数据,并展示这些指标与智能水平的权衡;新增缓存输入 token 报告,显示特定模型使用的缓存 token 量及其对成本的影响。

评测/基准部署/工程
12:29
歸藏(guizang.ai)@op7418
40
博主 @op7418 用 GLM 5.2 发布博客作素材,对比了 GPT 5.5(左)与 GLM 5.2(右)生成的社交媒体卡片。

歸藏(guizang.ai): 智谱 GLM-5.2 正式发布和开源了,基准测试成绩相当吓人 核心定位是处理长周期任务,并且有稳定的 100 万上下文,模型还引入了思考力度控制。 架构层面,GLM-5.2 提出了 IndexShare 机制,每四层稀疏注意力共享同一个 i...

OpenAI评测/基准
11:35
HuggingFace Daily Papers(社区热门论文)
40
ChLogic:中文逻辑推理鲁棒性评估基准

大语言模型在逻辑推理基准上表现良好,但中文环境下的鲁棒性未知。研究团队提出中英文对齐基准ChLogic,包含通用对齐集(60条命题)、困难对齐集(40道难题)及纯中文集(15类语言现象),每个对齐项含一条英文参考和五种中文实现。在Qwen3、Ministral和GLM上的实验显示中英文性能持续存在差距。将中文回译成英文可提升通用集表现,但在困难集上效果混杂,Qwen3-32B和GLM-5.1翻译后性能反而下降。这表明中文实现、翻译伪影和模型特定行为共同影响多语言逻辑推理。

arXiv推理评测/基准
09:37
Ethan Mollick@emollick
58
归功于 GLM-5.2 Max,这个新的开放权重模型,成功完成了这个任务。 …但你能看出它和 Fable 之间的区别,这种区别是基准测试无法体现的。GLM-5.2 给出了一首正确的诗(威尔士语很有趣),但 Fable 将消失的字母融入了诗歌主题。

Ethan Mollick: Fable: "write me a rhyming poem with six four line stanzas, each stanza removes another vowel. the first has no u, the s...

Anthropic开源生态评测/基准
09:03
IT之家(RSS)
42
错过出口、拐错弯,特斯拉 FSD 被导航拖后腿

本周特斯拉向车辆推送监督版 FSD v14.3.4,但导航仍是最大短板。系统频繁拐错弯、错过高速出口、选低效路线、误报限速,因导航问题人工接管次数甚至超过基础操作。问题源于多源数据拼接冲突、难以从人工修正中学习、路线推理缺乏人类直觉。不靠谱的导航阻碍网约车落地、增加安全风险,并持续消耗消费者信任。

具身智能评测/基准
08:06
Artificial Analysis@ArtificialAnlys
20
为庆祝 Artificial Analysis Intelligence Index v4.1 发布,我们将于 6 月 29 日在旧金山汇聚前沿 AI 领域的研究人员、工程师和构建者。 欢迎加入我们,共度一个关于 AI 评估、模型智能以及成本、速度与性能之间权衡的晚间讨论。 申请参加 👇 https://luma.com/qdl9mr2e
评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
53
VLA是否还记得基础知识?衡量视觉-语言-动作模型中常识与世界知识的保留程度

为评估视觉-语言-动作模型微调后是否保留常识与事实知识,研究提出Act2Answer轻量协议,将知识评测转为动作答题:智能体通过单次物体放置动作选择答案,获得低控制偏差的动作接地成功率。在涵盖多种常识类别的测试集上,对7个VLA模型与9个VLM基线进行排名。结果显示,VLA在简单概念上表现稳健,但在语义丰富类别上与源VLM差距较大;VQA共训练与更好知识保留相关;答案相关信号在VLA中层最强,上层衰减。

具身智能论文/研究评测/基准
‹ 上一页
1…34567…22
下一页 ›