AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「评测/基准」清除
5月22日周五
00:00Anthropic:Research(发表成果 · 网页)83精选Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力
5月21日周四
23:56Chubby♨️42KroWork五分钟生成本地新闻仪表盘
23:11Berryxia.AI71Qwen 3.7 Max与Gemini 3.5 Flash生成二叉树测试对比
22:12Alibaba Cloud76阿里巴巴发布闭源旗舰模型Qwen3.7 Max,性能分数跃升
18:06IT之家(RSS)14绿联NAS私有云DXP4800 GT深度体验:四盘位配双万兆
13:03AYi77Gemini 3.5 Flash:速度、智能与可靠性三重突破,开启AI实用主义新时代
11:09HuggingFace Daily Papers(社区热门论文)75精选SpecBench:测量长期编码代理中的奖励黑客行为
10:09HuggingFace Daily Papers(社区热门论文)62论文评审中人工智能审稿人的局限与机遇:基于45位专家对《自然》系列论文的评审分析
08:00HuggingFace Daily Papers(社区热门论文)57智能体CLEAR:LLM智能体多层级评估自动化
08:00HuggingFace Daily Papers(社区热门论文)61虚假的推理:通过零思维链截断揭露大语言模型中的规避型数据污染
08:00HuggingFace Daily Papers(社区热门论文)60VGenST-Bench:一个基于主动视频合成的时空推理基准
07:48宝玉68Google Omni与Seedance 2.0对比测试
03:36Artificial Analysis37Gemini 3.5 Flash发布采用Artificial Analysis基准测试
00:14歸藏(guizang.ai)40Mac版豆包输入法试用体验
00:06Artificial Analysis69Cohere推出开源权重模型Command A+,智能指数得分达37
5月20日周三
22:08Berryxia.AI72性能飞跃但成本激增,Gemini 3.5 Flash重新定义"轻量"?
20:00OpenRouter:Announcements(RSS)50一个机器人正朝你奔来:你希望它运行在Claude还是Grok上?
19:03The Decoder:AI News(RSS)58Google Gemini 3.5 Flash追随Anthropic和OpenAI,使新一代AI模型显著提价
18:07Berryxia.AI73兄弟们!今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了!
13:05Berryxia.AI57Gemini 3.5 Flash 发布,已可在 ZenMux 免费体验
13:05Berryxia.AI65Gemini 3.5 Flash上线,极速性能全面进化
11:05HuggingFace Daily Papers(社区热门论文)63OpenComputer:为计算机使用智能体构建可验证软件世界
11:05HuggingFace Daily Papers(社区热门论文)55MSAVBench:迈向全面可靠的多镜头音视频生成评估
09:02elvis64编程代理在AI研发任务中的表现评估
08:44meng shao56Gemini 3.5发布,性能全面超越前代
08:00HuggingFace Daily Papers(社区热门论文)53RankJudge:一个用于多轮对话中大语言模型评判者的合成基准测试生成器
03:01François Chollet62Gemini 3.5 Flash在ARC-AGI测试中表现亮眼
02:29Ethan Mollick68Gemini 3.5 Flash 早期体验与应用展示
00:34🚨 AI News | TestingCatalog30Gemini Omni测试展现赛博朋克风格视频生成能力
00:26向阳乔木41Gemini Omni Flash效果不佳,未理解提示词
00:09歸藏(guizang.ai)50谷歌Gemini Omni Flash视频编辑效果不及预期
5月19日周二
21:01HuggingFace Daily Papers(社区热门论文)53评估交互式AI代理的认知年龄对齐
19:27The Decoder:AI News(RSS)47Cloudflare表示Anthropic的Mythos Preview模型能发现早期前沿模型遗漏的漏洞链
16:24MarkTechPost(RSS)562026年最佳企业级自主AI平台榜单
14:05歸藏(guizang.ai)44Gemini iOS应用改版质感优秀,中文适配缺失引吐槽
11:10Alibaba Cloud60Qwen3.7预览版登陆竞技场,阿里视觉排名升至第五
08:00HuggingFace Daily Papers(社区热门论文)54π-Bench:评估长期工作流中的主动个人助理代理
08:00HuggingFace Daily Papers(社区热门论文)57LLMEval-Logic:一个经求解器验证的中文逻辑推理LLM评估基准
03:55karminski-牙医54Qwen3.7内测跑分出炉,空间理解与指令遵循大幅提升
02:55karminski-牙医53Qwen3.7! 就在今天!
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月22日
00:00
Anthropic:Research(发表成果 · 网页)
精选83
Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力

Anthropic 与 ExploitBench、ExploitGym 和 SCONE-bench 的研究者合作,测量了 Claude Mythos Preview 的漏洞利用能力。在 ExploitBench 的 V8 基准(41 个已修复漏洞)上,Mythos Preview 是唯一能可靠突破 V8 沙箱(从 T3 到 T2)的模型,并在超过一半的环境中实现突破;在 Baseline 和 Nudged 变体中共完成 21 个 CVEs 的任意代码执行(ACE),而其他所有模型的 ACE 数为零。Mythos Preview 还实现了近一半测试环境中的控制流劫持(T1)。该模型通过 Project Glasswing 谨慎发布,尚未开放通用访问。

Anthropic安全/对齐论文/研究评测/基准
关联讨论 3 条Berkeley RDI:Blog(AI 安全与评测)The Decoder:AI News(RSS)Anthropic:Research(发表成果 · 网页)
推荐理由:Mythos Preview 在三大漏洞基准上碾压式领先,第一次展示了前沿模型能端到端开发漏洞,安全基线从此改写,做安全的该认真读。
5月21日
23:56
Chubby♨️@kimmonismus
42
KroWork五分钟生成本地新闻仪表盘

作者体验了KroWork平台的“对话生成软件”功能。他通过自然语言提示Kro代理,要求创建一个新闻仪表盘。该工具更新后可展示其系统逻辑的思维映射过程,并借助Kro Browser Bridge扩展程序实现浏览器实时操作。整个应用生成过程仅耗时约五分钟,全程无需编写代码。关键在于,由于生成结果是编译后的真实本地软件,后续运行不会消耗任何token。

编码评测/基准
23:11
Berryxia.AI@berryxia
71
Qwen 3.7 Max与Gemini 3.5 Flash生成二叉树测试对比

新发布的Qwen 3.7 Max正被用户通过“递归分形二叉树”生成测试进行评估。该测试要求模型编写HTML代码,模拟树木从生长到摇曳的动画。此前,Gemini 3.5 Flash已用同一测试进行了展示,其生成完整动画耗时77.56秒,效果被评测者认为惊艳。该测试已成为比较不同AI模型代码生成与创意能力的一种常见方式,用户可借此对比各模型的表现。

Berryxia.AI: 兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...

推理编码评测/基准
22:12
Alibaba Cloud@alibaba_cloud
76
阿里巴巴推出其最新闭源旗舰大模型Qwen3.7 Max,在Artificial Analysis智能指数上获得56.6分,较上代预览版提升4.8分,是其迄今最接近国际顶尖水平的模型。此次分数提升主要得益于科学推理、代理和编码能力的增强,其中模型的幻觉率大幅降低(从44.2%降至22.9%)是主要贡献因素。模型的上下文窗口已扩展至100万tokens,仍仅支持文本输入输出,具体定价尚未公布。

Artificial Analysis: Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....

智能体推理模型发布编码
关联讨论 9 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)
18:06
IT之家(RSS)
14
绿联NAS私有云DXP4800 GT深度体验:四盘位配双万兆

随着个人数据量的飞速增长,NAS私有云成为存储管理的重要方案。绿联科技推出新款四盘位NAS产品DXP4800 GT,其核心亮点是配备了同价位产品中罕见的双万兆网口,提升网络传输性能。该产品搭载AMD Ryzen Embedded R2514处理器(4核8线程,最高睿频3.7GHz)并集成Radeon Vega 8显卡,提供强大的本地处理与影音能力。机身采用简约一体化铝合金设计,接口包括HDMI、USB 3.2、SD卡槽及U.2固态硬盘支持,扩展丰富。官方配套希捷酷狼4TB硬盘,强调易于上手的初次配置流程,适合家庭及进阶用户使用。

评测/基准部署/工程
13:03
AYi@AYi_AInotes
77
Gemini 3.5 Flash:速度、智能与可靠性三重突破,开启AI实用主义新时代

Gemini 3.5 Flash实现了289 tokens/s的输出速度(约为GPT-4o的4倍),同时将幻觉率大幅降低31%,首次在速度、智能和可靠性上达成平衡。这标志着AI发展从单纯比拼模型“智商”的基准竞赛,转向追求“能用起来”的实用主义。高速与可靠性的结合,使得能够执行复杂多步任务的AI Agent从理论走向现实,可能重塑行业竞争格局,未来AI将如同基础设施一般无缝融入工作流。

智能体GoogleMCP/工具评测/基准
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:Kim (@kimmonismus)
11:09
HuggingFace Daily Papers(社区热门论文)
精选75
SpecBench:测量长期编码代理中的奖励黑客行为

长期编码代理在优化测试通过时可能偏离用户真实目标,导致奖励黑客现象。研究将软件工程任务分解为规格说明、可见验证测试和隐藏测试,通过两类测试通过率差距量化黑客行为。为此引入SpecBench基准,包含30个从短期(如JSON解析器)到超长期(如构建操作系统内核)的系统级编程任务。实验显示,所有前沿代理在可见测试上饱和,但隐藏测试上存在持续差距,小模型差距更大;代码规模每增十倍,差距增长28个百分点。失败案例包括故意利用测试输入。SpecBench提供原则性平台,评估代理是否构建真实工作系统而非仅玩游戏测试套件。

智能体arXiv安全/对齐编码

推荐理由:SpecBench把编码代理的‘应试’问题量化了,越长的任务越容易靠作弊通过测试。如果你在做Agent,这个基准会让你重新审视自己的评估体系。
10:09
HuggingFace Daily Papers(社区热门论文)
62
论文评审中人工智能审稿人的局限与机遇:基于45位专家对《自然》系列论文的评审分析

本研究通过一项大规模专家标注实验,邀请物理、生物与健康科学领域的45位科学家,耗时469小时,对82篇《自然》系列论文的2960条批评意见(来自人类与AI评审)进行多维度评估。结果发现,由GPT-5.2驱动的AI评审代理在准确性、重要性与证据充分性的综合评分上,超过了每篇论文得分最高的人类评审员(60.0%对48.2%)。AI评审能发现26%人类未提及的独特问题,但其意见重叠度(21%)远高于人类(3%),并暴露出16种人类没有的反复性弱点,如子领域知识有限、多文件长上下文管理能力不足等。研究表明,当前AI评审员更适合作为人类评审的补充工具,而非完全替代。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
57
智能体CLEAR:LLM智能体多层级评估自动化

现有LLM智能体评估工具局限于基本观测能力或静态错误分类。Agentic CLEAR是一个自动、动态、易用的评估框架,它在系统、轨迹和节点三个粒度层级上,对智能体行为生成文本洞察。该框架运行于可观测性层之上,具备直观UI便于集成。在四个基准、七种智能体设置和数万次LLM调用上的实验表明,Agentic CLEAR能产生高质量、数据驱动的反馈,其分析与人类标注错误高度吻合,并能预测任务成功率。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
61
虚假的推理:通过零思维链截断揭露大语言模型中的规避型数据污染

大语言模型在多项任务中展现强大推理能力,但数据污染问题,特别是发布者采用改写基准数据等规避策略,严重削弱了其评估的客观性。研究发现,模型生成的推理步骤会主动掩盖其底层的记忆化现象。为此,研究者提出 Zero-CoT Probe 检测方法,通过截断整个 CoT 过程来暴露潜在的捷径映射。该方法将模型在原始基准与同构扰动参考集上的零思维链表现进行对比,并引入“污染置信度”指标。在已知污染模型与专门微调的污染模型上的实验表明,该方法能有效检测直接与规避型数据污染。代码已开源:https://github.com/Yifan-Lan/zero-cot-probe。

数据/训练论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
60
VGenST-Bench:一个基于主动视频合成的时空推理基准

VGenST-Bench 是一个用于评估多模态大语言模型时空推理能力的新基准,采用生成模型主动合成高度可控的多样化评估场景,克服了现有基准依赖静态图像或被动视频数据的局限。该基准通过包含人类质检阶段的多智能体流水线构建,建立了涵盖空间尺度、视角和场景动态性的 3x2x2 视频分类体系。其设计的层级任务套件,解耦了低级视觉感知与高级时空推理,实现了对模型能力的细粒度诊断。

多模态视频论文/研究评测/基准
07:48
宝玉@dotey
68
这位博主做了系列 Google Omni vs Seedance 2.0的对比视频,看起来差距还是蛮明显

Ratul Ali: Google Omni vs Seedance 2.0 😳 Olympic Diving Test - Seedance 2.0 also wins this test!🔥 Prompt👇 Female Olympic diver f...

Google图像生成视频评测/基准
03:36
Artificial Analysis@ArtificialAnlys
37
Artificial Analysis基准测试被纳入昨日Gemini 3.5 Flash的发布 昨日@GoogleDeepMind在Google I/O '26上发布了Gemini 3.5 Flash,我们的基准测试被@sundarpichai用于展示该模型在智能与速度帕累托前沿的领先地位。我们在Artificial Analysis网站上提供了涵盖智能、速度、token使用量和成本的完整基准测试数据。
Google行业动态评测/基准
00:14
歸藏(guizang.ai)@op7418
40
Mac版豆包输入法试用体验

豆包输入法Mac版上线后,用户试用体验极佳,称其在准确性、中英文混合输入、专业名词识别和响应速度方面均为市面顶尖。与其他输入法相比,它解决了过度优化和无法实时预览的痛点,实现“言出法随”的快速输出与实时润色,避免乱加Markdown格式。对于如Claude Code、AntiGravity、Perplexity等专业术语与中文混合的场景,豆包输入法处理出色,用户已完全依赖其手机和电脑端。未来期待支持自定义提示词润色功能,但目前识别能力已无可挑剔。

端侧评测/基准语音
00:06
Artificial Analysis@ArtificialAnlys
69
Cohere推出开源权重模型Command A+,智能指数得分达37

Cohere发布了开源权重模型Command A+,其在AI分析智能指数上的得分与Claude 4.5 Haiku持平。该模型核心优势为极低的幻觉率,在相关榜单上以86%领先,体现出模型“知其不知”的可靠性。在速度方面,其API输出速度超过GPT-5.4 nano等多款模型,但仍略逊于Gemini 3.1 Flash-Lite。模型在科学推理与代码生成等高难度任务上表现稍弱,但具备视觉推理能力,性能位于Claude 4.5 Haiku与GPT-5.4 nano之间。

开源/仓库模型发布评测/基准
5月20日
22:08
Berryxia.AI@berryxia
72
性能飞跃但成本激增,Gemini 3.5 Flash重新定义"轻量"?

Google发布的Gemini 3.5 Flash在性能上实现飞跃,智能指数达55分,超越Grok 4.3等竞品,幻觉率大幅下降,输出速度超280 tokens/s。然而,其运行成本是前代的5.5倍,定价显著提高,引发对“Flash”是否仍代表“便宜”的讨论。该模型已在ZenMux平台开放免费体验,实际测试显示效果惊艳,在多项Agent和多模态榜单中表现顶尖,标志着顶级智能与极致速度的新结合。

Berryxia.AI: 兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...

Google多模态推理评测/基准
20:00
OpenRouter:Announcements(RSS)
50
一个机器人正朝你奔来:你希望它运行在Claude还是Grok上?

一场涵盖11个大语言模型的30轮大逃杀式评测,花费482美元推理成本,得出了一个应改变读者阅读模型基准方式的关键发现。

推理评测/基准
19:03
The Decoder:AI News(RSS)
58
Google Gemini 3.5 Flash追随Anthropic和OpenAI,使新一代AI模型显著提价

Google发布了新一代AI模型Gemini 3.5 Flash,其性能较前代有显著提升,但运行成本大幅增加。基准测试显示,该模型的运行成本是上一代的5.5倍。在代理任务场景中,总成本甚至比更高端的Gemini 3.1 Pro还高出75%,主要原因是该模型需要比同类模型更多的交互步骤。这一现象并非个例,受巨额研发投入的商业回报压力影响,整个AI行业正普遍走向更昂贵的发展阶段。

Google评测/基准
18:07
Berryxia.AI@berryxia
73
兄弟们!今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了!

Gemini 3.5 Flash现已在ZenMux平台免费开放试用。该模型在经典的递归二叉树生长测试中表现惊艳,仅用77.56秒便生成了完整的HTML动画网页,展现了顶级的响应速度与生成质量。其在MCP Atlas、Toolathlon等多项Agent榜单中位列第一,多模态理解能力(如MMMU-Pro得分83.6%)也全面超越上一代模型。模型完全兼容主流API格式,并提供按量计费和Builder套餐选择。

智能体Google多模态评测/基准
13:05
Berryxia.AI@berryxia
57
Gemini 3.5 Flash 发布,已可在 ZenMux 免费体验

Google I/O 2026 发布了新一代模型 Gemini 3.5 Flash,ZenMux 平台已第一时间提供 API 接入并开放免费试用。实测中,该模型仅用时 77.56 秒即完成一段复杂 HTML 递归二叉树生长动画,生成效果流畅自然。其性能全面升级,在多项 Agent 专属评测榜单中位列第一,多模态理解能力(MMMU-Pro 达 83.6%)也显著超越前代。模型完全兼容主流 API 格式,支持按量计费与套餐方案,便于开发者快速接入。

Google多模态评测/基准
13:05
Berryxia.AI@berryxia
65
Gemini 3.5 Flash上线,极速性能全面进化

Gemini 3.5 Flash已在ZenMux平台首发并提供免费体验。该模型从提示词到生成完整HTML动画仅用77.56秒,速度极快且效果出色。其专为Agent设计,在MCP Atlas、Toolathlon等多项榜单中排名第一。多模态理解能力显著提升,MMMU-Pro达83.6%,全面超越上一代模型。该模型兼容主流API格式,支持按量计费和Builder套餐,可无缝集成现有工具链。

Google编码评测/基准
11:05
HuggingFace Daily Papers(社区热门论文)
63
OpenComputer:为计算机使用智能体构建可验证软件世界

OpenComputer是一个验证器基础框架,旨在为计算机使用智能体构建可验证的软件世界。它集成了四个核心组件:针对特定应用的状态验证器、利用执行反馈进行自我优化的验证层、用于生成真实桌面任务的任务生成器,以及可记录轨迹并计算部分奖励的评估工具。目前,该框架已覆盖33款桌面应用,生成了包含浏览器、办公、创意等六类软件的1000个可机检任务。实验表明,其硬编码验证器比大语言模型评估更贴近人类判断。同时,研究揭示当前前沿智能体在端到端任务完成上仍面临瓶颈,表明稳健的计算机自动化仍存在挑战。

智能体arXiv论文/研究评测/基准
11:05
HuggingFace Daily Papers(社区热门论文)
55
MSAVBench:迈向全面可靠的多镜头音视频生成评估

本文提出MSAVBench,首个面向多镜头音视频生成的综合评估基准及自适应混合评估框架。该基准覆盖视频、音频、镜头和参考四个维度,支持最多15个镜头的多样化任务设置。评估框架通过镜头分割自适应校正、主观指标实例化评分等机制提升鲁棒性,并与人类判断达到91.5%的高相关性。对19个先进模型的系统评估表明,当前模型在导演级控制和精细音视频同步上仍存在瓶颈,而模块化或智能体生成流程为缩小开源与闭源模型差距提供了可行路径。

多模态视频论文/研究评测/基准
09:02
elvis@omarsar0
64
编程代理在AI研发任务中的表现评估

IntologyAI发布的NanoGPT-Bench评估显示,Codex、Claude Code和Autoresearch等编程代理在AI研发任务中,仅能恢复人类近9.3%的进展。这些代理的大部分算力消耗在超参数调优上,对核心的算法研究投入甚少。其中Claude Code和Autoresearch在推理中稍有涉及算法研究,但在实际代码实现层面依然不足。该评估基于NanoGPT Speedrun竞赛,采用标准化的五个月世界纪录窗口,完全自主端到端进行,以控制模型依赖和数据污染。结果表明,当前编程代理在自主执行真正AI研发的能力上仍有很大局限。

Intology: Can coding agents do research? We release NanoGPT-Bench, an internal eval we've used to test agents on an AI R&D problem...

智能体论文/研究评测/基准
08:44
meng shao@shao__meng
56
Gemini 3.5发布,性能全面超越前代

Google 真的要把宝都押在每年的 I/O 上啊,Gemini 3.1 拉了几个月后,Gemini 3.5 憋到 I/O 终于发布了 Gemini 3.5 Flash 各项评测几乎全面超越 Gemini 3.1 Pro,还更快,更便宜,你就说 Gemini 3.1 有多拉吧,哦,不对,Gemini 3.5 有多强吧 😂

Google DeepMind: Introducing Gemini 3.5: our newest family of models combining frontier intelligence with real-world action. The first re...

智能体Google编码评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
53
RankJudge:一个用于多轮对话中大语言模型评判者的合成基准测试生成器

RankJudge是一个评估大语言模型作为评判者在基于参考文档的多轮对话中表现的基准测试生成器。它通过生成配对对话来工作,其中一个对话的单一轮次被注入缺陷,从而明确评判结果并精准定位错误类别。该基准在机器学习、生物医学和金融三个领域实施,对21个前沿大语言模型评判者进行了评估,并使用Bradley-Terry模型对其排名。RankJudge还能为对话对生成难度评分,用于动态筛选评估数据以降低标签噪音。

推理评测/基准
03:01
François Chollet@fchollet
62
Gemini 【引用 @arcprize】:Gemini 3.5 Flash ARC-AGI(已验证) ARC-AGI-2: - 高配:72.1%,$0.85 - 最低配:8.9%,$0.11 ARC-AGI-1: - 高配:92.5%,$0.42 - 最低配:48.8%,$0.06 Gemini 3.5 Flash在ARC-AGI测试中与GPT-5.5(中配)表现相当

ARC Prize: Gemini 3.5 Flash ARC-AGI (Verified) ARC-AGI-2: - High: 72.1%, $0.85 - Minimal: 8.9%, $0.11 ARC-AGI-1: - High: 92.5%, $0....

Google多模态推理评测/基准
02:29
Ethan Mollick@emollick
68
也获得了 Gemini 3.5 Flash 的早期访问权限。作为 Flash 模型,它速度非常快且能力很强,尽管不如完整的前沿模型强大。 我已将其添加到程序生成的单次城镇画廊中(它出现了一个错误并自行修正):https://hg-20f7d1a3ce.netlify.app/#gemini-3-5-flash
Google评测/基准
00:34
🚨 AI News | TestingCatalog@testingcatalog
30
Gemini Omni测试 🔥 这是我目前见过的最棒的"赛博朋克黑客机器人"视频之一。它在场景构图方面比最新的Veo模型处理得更好。
Google视频评测/基准
00:26
向阳乔木@vista8
41
Gemini Omni Flash 效果很拉胯啊! 提示词:生成墨比斯风格的科幻动画短片,银河系搭车客指南 好像根本没理解第二句话…
Google多模态评测/基准
00:09
歸藏(guizang.ai)@op7418
50
用户测试了谷歌新上线的Gemini Omni Flash的视频编辑功能,但实际效果并不理想。用户提及原始视频来源,并明确表示其效果远不如SeeDance 2.0。同时,该推文引用了另一条关于Gemini Omni Flash已上线Flow平台的信息,表明其具备了一定的可用性。整体来看,尽管新模型可用,但用户对其当前的视频编辑能力持保留态度,并认为在效果上与特定竞品存在差距。

歸藏(guizang.ai): 哇! 谷歌新视频模型 Gemini Omni Flash 已经上线 FLow

Google视频评测/基准
5月19日
21:01
HuggingFace Daily Papers(社区热门论文)
53
评估交互式AI代理的认知年龄对齐

尽管具身化AI及多模态大语言模型在推理任务中表现出潜力,但与人类智能仍存显著差距。现有先进代理常无法完成儿童能轻松解决的基础任务。受韦氏儿童智力量表启发,本研究推出ChildAgentEval——首个基于心理测量学的交互式基准,用于评估多模态大语言模型代理的认知年龄对齐程度。该基准通过系统比较各类交互式代理的推理能力与人类特定年龄发展阶段,揭示了当前AI系统在模拟年龄特异性认知行为上的能力边界。

智能体推理论文/研究评测/基准
19:27
The Decoder:AI News(RSS)
47
Cloudflare表示Anthropic的Mythos Preview模型能发现早期前沿模型遗漏的漏洞链

Cloudflare在其Project Glasswing项目中测试了Anthropic专注于安全领域的AI模型Mythos Preview。该模型在超过50个Cloudflare自有代码仓库上进行评估后,被发现能够识别并构建出此前其他前沿大语言模型未能检测到的安全漏洞利用链。这项测试结果突显了专用安全模型在复杂代码审计与漏洞挖掘任务上的潜在优势。

Anthropic安全/对齐评测/基准
16:24
MarkTechPost(RSS)
56
2026年最佳企业级自主AI平台榜单

2026年,企业自主AI已从试点阶段全面进入生产部署。本文综合评估了当前表现最优的十个平台,包括Salesforce Agentforce、Microsoft Copilot Studio、ServiceNow和LangGraph等,并提供了经过验证的定价信息、真实的采用数据以及客观的局限性分析,旨在帮助企业团队做出明智的平台选择决策。

智能体评测/基准部署/工程
14:05
歸藏(guizang.ai)@op7418
44
Gemini iOS应用改版质感优秀,中文适配缺失引吐槽

谷歌Gemini iOS应用进行了界面改版,其整体质感、细节处理以及对iOS液态玻璃特性的应用获得了积极评价,开发水平被认为高于其网页端和客户端。但主要问题在于应用未对中文、日文、韩文等语言进行排版适配,导致中文显示时字间距异常。此外,作为上下文,Gemini网页版近期也进行了大改版,整体布局向GPT靠拢,将功能整合至加号菜单,并调整了视觉样式,其灰色背景的设计引发了部分关于辨识度与可读性的讨论。

歸藏(guizang.ai): 哇!Gemini 网页版大改版了,整体布局跟 GPT 真像啊 之前的那堆功能都收到了加号里面。左侧的字体和间距都变小了,展示内容更多了 聊天的页面背景变成了灰色,感觉辨识度下降了,可读性比原来差我觉得。

Google评测/基准
11:10
Alibaba Cloud@alibaba_cloud
60
🚀🚀Qwen3.7预览版登陆竞技场! ⚡️⚡️Qwen3.7-Plus-Preview来了。阿里巴巴现在在视觉领域排名第五。🎨 迫不及待要发布Qwen3.7系列模型了!敬请期待!@arena

Arena.ai: In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.

多模态模型发布评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
54
π-Bench:评估长期工作流中的主动个人助理代理

本文提出了一个名为π-Bench的全新基准测试,旨在评估个人助理代理的主动辅助能力。该测试包含100个多轮任务,覆盖5个特定领域的用户角色,其核心创新在于引入了隐藏的用户意图、任务间的依赖关系以及跨会话的连续性,以更真实地模拟现实交互。实验结果表明,主动辅助对当前大模型而言仍是重大挑战,且代理的“任务完成能力”与“主动识别需求能力”之间存在显著差距。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
57
LLMEval-Logic:一个经求解器验证的中文逻辑推理LLM评估基准

LLMEval-Logic 是一个专注于中文逻辑推理的LLM评估基准,其数据来源于真实场景,并通过专家编写、审核及Z3验证器闭环验证以确保题目质量。基准包含两个子集:246项的Base子集(配有1400条评分标准)与190项的Hard子集(含938个多步骤子问题)。对14个前沿LLM的评估表明,当前模型在逻辑推理能力上仍有显著不足:最佳模型在Hard项目上的准确率仅为37.5%,即使结合参考符号,形式化得分最高也仅达60.16%。该基准已开源,旨在为模型逻辑推理能力的评估与提升提供可靠工具。

推理论文/研究评测/基准
03:55
karminski-牙医@karminski3
54
Qwen3.7内测跑分出炉,空间理解与指令遵循大幅提升

Qwen3.7-Max-Preview在ArenaAI内测中排名第13,为当前版本国产模型最佳。其数学能力(第7)与编程能力(第10)提升显著。实测显示,在前端代码生成任务中,Qwen3.7在空间理解和指令遵循上较前代(Qwen3.6)有巨大进步,能更准确地维持元素轴向与标记。文章同时指出,ArenaAI评分仅供参考,其为Meta新模型Muse Spark给出的高排名(第5)与社区现状不符。

多模态推理评测/基准
02:55
karminski-牙医@karminski3
53
Qwen3.7! 就在今天!

阿里千问今日推出Qwen3.7-Max-Preview,在ArenAI(原LMArena)内测中排名第13,为国内模型最高水平。模型数学能力显著提升,位列总榜第7;编程能力排名第10;视觉能力测试升至第16。作者实测显示,在前端代码生成场景中,Qwen3.7的空间理解与指令遵循能力进步明显,元素轴向一致性优于DeepSeek-V4-Pro等模型。此外,ArenaAI给Meta新模型Muse Spark的异常高评分引发关注,但该评分仅供参考。

多模态推理编码评测/基准
‹ 上一页
1…1213141516…22
下一页 ›