5月27日

09:31

Qwen@Alibaba_Qwen

同事件精选68

🚀🚀 Qwen3.7-Max 刚刚在 Code Arena 上升至第 4 名，与 Claude Opus 4.6 持平，是榜单上排名最高的中国实验室！@arena 更多内容即将发布。敬请期待。🕶️

Arena.ai: Qwen3.7 Max (20250517) debuts at #4 in Code Arena: Frontend - the top-ranked Chinese lab on the board, surpassing GLM-5....

模型发布编码评测/基准

同一事件，精选展示《Qwen3.7-Max：面向智能体时代的最新专有模型》

推荐理由：Qwen3.7-Max 在 Code Arena 前端任务上排第四，跟 Claude Opus 4.6 打平，国产模型第一次在 agentic web dev 摸到第一梯队，做 Web Agent 的可以认真看看。

09:27

Berryxia.AI@berryxia

Bonsai Studio：iPhone端侧离线图像生成应用上线

PrismML发布官方iOS应用Bonsai Studio，用户可免费下载，在iPhone上本地离线运行其Bonsai Image 4B扩散模型。该模型基于FLUX.2 Klein，其1-bit压缩版仅0.93GB，比全精度版小8.3倍。在iPhone 15 Pro及以上机型生成512×512图像耗时约几十秒，内存占用约1.5GB。应用支持多种风格，但中文文字生成目前为乱码。Android用户可通过WebGPU网页版体验。

Berryxia.AI: 兄弟们,端侧生图模型又有新东西了! 之前有客户端Drawthing 客户端也是支持iPad 手机进行文生图~ 今天PrismML也来了一个好玩的... 他们发布了1-bit和Ternary版本的Bonsai Image 4B扩散模型。 1-...

图像生成端侧评测/基准

08:29

meng shao@shao__meng

开发者 AlexFinn 在长期并行对比后，为何选择转向 Codex？

开发者 AlexFinn 在连续两个月、每天数小时并行使用 Codex 和 Claude Code 后，决定转向 Codex。其核心原因在于 Codex 拥有强大的自测闭环功能：每次代码改动后，它会在内置浏览器中自动验证，形成“改→测→修”的自动化循环。这一机制将首次交付有 bug 的改动比例从约 40% 显著降低至 ≤3%，可靠性大幅提升，更利于开发者保持心流。他建议开发者不要对任何公司忠诚，应始终使用当下最好的工具。

Alex Finn: I'm 100% Codex pilled now Been using Codex and Claude Code side by side hours a day for 2 months straight No longer usin...

智能体编码评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

LLM论文评审的人类对齐性与可博弈性研究

该研究基于2025 ACL Rolling Review (ARR)的论文，实证评估了大语言模型（LLM）生成的论文评审意见。研究发现，LLM评审与人类评审的对齐程度有限，且在不同提示词和模型之间存在显著差异。此外，当作者采用基于LLM评审意见的迭代修改工作流时，可以有效“博弈”LLM评审，使高达35%的论文的总分获得统计意义上的显著提升。

安全/对齐论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

A Matter of TASTE：提升AI智能体评测基准的覆盖率与难度

针对现有智能体评测基准（如τ^2-Bench）因难度饱和而难以评估能力上限的问题，研究提出TASTE方法。该方法通过反转传统任务构建流程，利用基于LLM判断有效性信号训练的自适应对比n-gram模型生成有效工具序列，经聚类筛选与迭代难度演化，自动构建出工具覆盖更广、难度更高的τ^c-Bench基准。对11组智能体/大语言模型对的评估显示，多个在τ^2-Bench上接近饱和的模型在τ^c-Bench上性能大幅下降，且生成任务要求的唯一工具组合数量显著增加，表明现有基准高分常反映测试集饱和而非模型稳健能力。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

多场景长语音生成综合评测基准

SwanBench-Speech是一个针对长语音生成的综合评测基准，涵盖长语音生成和对话生成，覆盖声学、语义和表现力挑战。该基准包含1,101个样本，横跨17种常见语音场景，并从上述三个维度定义了包含7个指标的自动化评测方案。实验揭示，当前模型在高表达性场景下表现依然吃力，且在一致性与层次感上与真实录音存在明显差距。

论文/研究评测/基准语音

01:07

Artificial Analysis@ArtificialAnlys

Gemini 3.5 Flash速度与agent能力提升，但成本显著增加

Gemini 3.5 Flash在速度与agent能力上实现进步，实测输出速度可达约280 output tokens/sec，在GDPVal-AA agent任务中ELO提升至约1650，相比Gemini 3 Flash有显著提升。但代价是成本增加约5倍，主要因token单价上涨（为Gemini 3.5 Flash的3倍）以及使用量更高。

智能体 Google 推理评测/基准

5月26日

19:58

meng shao@shao__meng

腾讯Marvis被吐槽：隐私权限过度且Agent能力差

腾讯AI智能体产品Marvis被用户卸载。主要问题在于：1）隐私风险高，初始化时过度索要权限，获取了用户全部的App列表和文件清单（并做了分类）；2）实际Agent能力与输出效果不佳。其交互界面虽有创意（如模拟办公室的小动画，Agent会摸鱼），但核心执行效果一言难尽，导致用户因担忧数据隐私而选择放弃使用。

meng shao: 腾讯的 Marvis 今天手痒我真的去试了试怎么说呢?确实是我手痒了,这手得剁 😂 整个软件,就这个 Agent 模拟办公室的 dashboard 小动画也有些意思,Marvis 这个项目经理,收到任务后,会小跑到需要调用的 Agent...

智能体安全/对齐评测/基准

14:11

IT之家（RSS）

国产第一：阿里 Qwen3.7-Max 模型 AI 编程能力超 Claude Opus 4.6

编码评测/基准

10:18

HuggingFace Daily Papers（社区热门论文）

MetaphorVU：迈向隐喻视频理解

为系统评估多模态大语言模型（MLLMs）对隐喻视频的理解能力，研究团队提出了首个专项基准测试 MetaphorVU-Bench。实验发现，当前 MLLMs 在隐喻视频理解上表现不佳，远未达到人类水平，主要缺陷在于跨域映射能力不足。为此，团队构建了一个隐喻知识图谱进行映射增强，并提出了推理时增强框架 MetaphorBoost，该框架实现了性能的持续提升。

arXiv 多模态论文/研究评测/基准

09:48

karminski-牙医@karminski3

智谱GLM-5.1-highspeed发布，实时语音编程响应仅需3秒

智谱发布了推理速度极快的GLM-5.1-highspeed版本。测试者发现其生成代码的速度已超过人类打字速度，因此构建了一个语音转文本的编程交互场景。从用户说完语音指令到代码修改完成、页面渲染，整个链路（包括语音识别、模型判断并发与prefill、tool call修改代码）耗时约3秒。这种量级的速度提升带来了全新的实时交互可能性。该模型目前正向部分企业用户提供内测。

编码评测/基准语音

08:00

HuggingFace Daily Papers（社区热门论文）

OmniInteract：实时全模态助手的真实场景流式交互基准测试

OmniInteract是一个用于评估实时全模态大语言模型的流式交互基准。它包含250个视频，定义了1,430个需要模型在线响应的时段：1,062个涵盖实时、主动与嵌套场景的单问单答时段，以及368个多问多答时段。模型必须处理原始音视频流，且无法预知未来内容。评估使用交互感知质量-时效性F1分数等指标。实验表明，当前模型在流式交互上表现薄弱，最优的整体IA-QTF1分数仅为0.368。

arXiv 多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

在采样中迷失：通过词汇覆盖度分数（WCS）评估大语言模型的词汇可达性

研究指出，工业标准的采样默认参数（如 Top-p、Top-k 和 Min-p）无意中充当了审查机制，过滤掉了许多低频但高信息量的人类词汇，导致大语言模型生成的文本趋于同质化。研究团队提出了词汇覆盖度分数（WCS）来量化这一现象，它衡量了上下文语境中被标准采样过滤器修剪掉的人类词汇比例。通过审计开放权重模型，该研究识别出被解码器排除在可达范围之外的逻辑词汇选项，为在文本连贯性与词汇丰富度之间寻找平衡提供了诊断框架。

论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

Chartographer：用于评估视觉语言模型的反事实图表生成

现有图表问答基准测试存在局限，模型可能依赖捷径或背景知识而非视觉推理来回答问题。为严格评估视觉推理能力，研究提出了“反事实图表”方法，即在保持图表-问答任务不变的前提下，改变底层图表及其答案。为此，研究引入了Chartographer框架，该框架能将图表逆向工程为可执行代码，验证重建保真度，生成种子可控的变体，并从可执行的问答逻辑中推导新答案。通过将此框架应用于现有数据集，研究评估了专有及开源视觉语言模型的变化敏感性与泛化能力。结果表明，反事实图表揭示了单一图表测试所隐藏的失败：模型在正确回答原始图表后，往往无法在更新图表需要全新视觉推理路径时成功泛化。

多模态论文/研究评测/基准

04:54

Ethan Mollick@emollick

AI评估挑战：数学问题单一，亟需多样化难题库

推文指出，当前用于推动AI能力发展的困难问题过于集中于数学领域（如Erdős问题）。虽然数学易于验证，但其成果对日常生活的直接影响不够明确。作者呼吁需要为包括工程、经济、物理、生物等在内的更多领域建立困难问题库，并配套制定相应的评估方法，以让AI智能体处理更复杂、答案更不明确的任务。

大佬观点数据/训练评测/基准

5月25日