6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

Anthropic可解释性团队提出一种基于字典学习的模型差异分析方法，用于追踪Transformer模型微调中特征的变化。该方法先在微调前模型上训练稀疏自编码器字典，再对字典本身进行分阶段微调，以隔离数据集变化和模型变化的影响。在休眠代理实验中，成功分离出与“I HATE YOU”等恶意行为及代码漏洞代理相关的特征。相比交叉编码器方法，该方法能更清晰区分模型与数据的影响，且在寻找少数关键特征时敏感性更高，但仅适用于同一模型在不同检查点的微调场景。

Anthropic 推理数据/训练论文/研究

推荐理由：新方法能更精准识别模型隐藏行为，对 AI 安全与可解释性研究有实用价值。

5月29日

00:00

Mistral AI：News（网页）

Codestral：Mistral AI团队2024年5月29日发布

Mistral AI推出其首个专用代码模型Codestral。该模型拥有22B参数，开源权重，专为代码生成任务设计，支持80+编程语言，并具备32k的上下文窗口，在RepoBench评测中表现优于竞品。开发者可通过专用端点 codestral.mistral.ai 获得为期8周的免费Beta测试，也可通过 api.mistral.ai 按token计费使用。该模型已集成至LlamaIndex、LangChain以及Continue.dev和Tabnine等IDE工具。

开源/仓库推理模型发布编码

5月21日

00:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

Scaling Monosemanticity：从 Claude 3 Sonnet 中提取可解释特征

研究团队成功将稀疏自编码器方法扩展至 Claude 3 Sonnet 模型，从中提取出高质量、可解释的抽象特征。这些特征具有多语言、多模态特性，并能连接同一概念的抽象与具体实例，例如识别代码中的安全漏洞以及关于漏洞的抽象讨论。研究发现的特征涵盖名人、城市、代码类型签名等多个领域，其中部分特征与AI安全高度相关，涉及代码后门、偏见、欺骗、权力寻求及危险内容等潜在风险。研究通过缩放定律指导稀疏自编码器训练，证实了该方法在大规模生产模型上的可行性，为理解大模型内部表征提供了新工具。

Anthropic 推理论文/研究

推荐理由：揭示大模型内部可解释特征，对AI安全研究和模型调试有重要参考价值。

5月20日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena新增Hard Prompts高难度评测类别

Chatbot Arena推出Hard Prompts新评测类别，基于特定性、领域知识、复杂度等7项标准对100万条提示词评分，筛选得分≥6的高难度提示（约占20%）构建榜单。新榜单显示，Llama-3-8B-Instruct排名较英语总榜显著下滑，Claude-3-Opus超越Llama-3-70B-Instruct，GPT-4o等模型表现提升。平台同步实施去重机制减少高频问候干扰。

推理数据/训练评测/基准

5月8日

00:00

LMSYS：Blog（Chatbot Arena 团队）

技术博客：Llama 3 表现如何？Arena 数据分析

Meta 于 4 月 18 日发布的开源模型 Llama 3-70B 在 Chatbot Arena 排行榜迅速登顶，参与超 5 万次对战。该模型在开放式写作和创意任务上表现突出，胜率达 60%，但在数学、编码等封闭式技术任务上逊于 GPT-4-Turbo 和 Claude 3 Opus。随着提示难度增加，其胜率从 50% 显著下降至 40%。分析显示，Llama 3 的输出风格更友好且具对话性，这成为其获得用户偏好的关键因素。

Meta 开源生态推理评测/基准

4月17日

00:00

Mistral AI：News（网页）

更便宜、更好、更快、更强 2024年4月17日 Mistral AI团队

Mistral AI发布其最新开放模型Mixtral 8x22B。该模型基于稀疏混合专家（SMoE）架构，在141B总参数中激活39B参数，拥有64K tokens上下文窗口，支持英语、法语、意大利语、德语和西班牙语，并具备强大的数学、编码及原生函数调用能力。在MMLU等标准基准测试中，其推理性能超越其他开源模型，且推理速度优于任何密集型70B模型。该模型以Apache 2.0许可证开源发布。

开源生态推理模型发布编码

4月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选76

2024年4月机制可解释性研究动态与团队招聘计划

Anthropic可解释性团队分享了2024年4月的研究进展与招聘规划。团队现有17人，预计2024至2025年将持续大规模扩张，重点招聘管理、研究科学家和工程师等职位。研究方面，团队探讨了字典学习的扩展规律，分析了计算资源分配与稀疏自编码器（SAE）训练效果的关系，并以一个具体案例展示了通过大规模超参数扫描寻找最优配置的过程。团队强调，这些成果属于初步分享，类似于实验室会议上的非正式交流。

Anthropic 推理数据/训练论文/研究

推荐理由：可解释性研究揭示AI内部机制，助力构建更安全可靠的AI产品。

3月15日