AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 314 条
全部一手资讯X论文
标签「编码」清除
12月2日周二
00:00LMSYS:Blog(Chatbot Arena 团队)加速 SGLang 推理:原生集成 NVIDIA Model Optimizer 实现无缝量化与部署(12月2日更新)
11月12日周三
00:00Claude:Blog(网页)精选通过 Skills 改进前端设计
10月27日周一
00:00MiniMax:Blog(网页)62同事件精选MiniMax M2与AI智能体:简中见巧同一事件,精选展示《MiniMax M2.7:自我进化的早期回声》
10月24日周五
07:05Google DeepMind:Blog(RSS)精选CodeMender 发布:面向代码安全的 AI 智能体
10月20日周一
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)73精选超越权限提示:让Claude Code更安全、更自主
00:00Claude:Blog(网页)精选Claude Code 发布网页版
10月10日周五
15:36蚂蚁 inclusionAI:GitHub 新仓库46SWE-CARE:一个用于评估代码审查全面性的基准
8月28日周四
08:00xAI:News(网页)精选xAI发布轻量级编程模型Grok Code Fast 1
8月7日周四
08:00OpenRouter:Announcements(RSS)68同事件精选GPT-5 已在 OpenRouter 上线同一事件,精选展示《GPT-5 现已上线》
08:00OpenRouter:Announcements(RSS)68精选GPT-5 现已上线
08:00OpenRouter:Announcements(RSS)66精选GPT-5 现已上线
7月31日周四
00:00LMSYS:Blog(Chatbot Arena 团队)精选智谱发布 GLM-4.5 系列模型并原生支持 SGLang
7月30日周三
00:00Mistral AI:News(网页)54发布 Codestral 25.08 及 Mistral 完整企业编程方案栈
7月14日周一
08:00OpenRouter:Announcements(RSS)49使用OpenRouter在Cursor中调用模型:试试月之暗面的Kimi K2
08:00OpenRouter:Announcements(RSS)56精选OpenRouter 模型现可在 Cursor 中使用:试试月之暗面 Kimi K2
08:00OpenRouter:Announcements(RSS)54在 Cursor 中使用 OpenRouter 模型:以 Moonshot AI 的 Kimi K2 为例
7月11日周五
00:00Moonshot AI:Kimi Blog精选Kimi 发布 K2 模型
7月10日周四
00:00Mistral AI:News(网页)61Mistral AI 与 All Hands AI 合作发布新款 Devstral 模型
6月4日周三
00:00Mistral AI:News(网页)44Mistral Code 发布:企业级 AI 编程助手
5月28日周三
00:00Mistral AI:News(网页)61Mistral AI 发布代码专用嵌入模型 Codestral Embed
5月22日周四
08:00OpenRouter:Announcements(RSS)52OpenRouter 推出通行密钥、开发者体验升级与 TypeScript 智能体新指南
08:00OpenRouter:Announcements(RSS)40OpenRouter 推出通行密钥、DevEx 升级以及 TypeScript Agents 新指南
5月21日周三
00:00Mistral AI:News(网页)63Devstral 面向软件工程的智能体大语言模型发布
5月14日周三
22:59Google DeepMind:Blog(RSS)AlphaEvolve:Gemini 驱动的编程智能体,用于设计先进算法
5月6日周二
23:06Google DeepMind:Blog(RSS)精选Gemini 2.5 Pro Preview 提前发布:编程性能进一步提升
4月18日周五
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)77精选Claude Code:智能体编码最佳实践指南
2月10日周一
05:05Sam Altman:Blog(RSS)精选三点观察
1月13日周一
00:00Mistral AI:News(网页)52Mistral AI 发布 Codestral 25.01 代码生成模型
1月6日周一
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)72精选Claude 3.5 Sonnet 在 SWE-bench Verified 基准测试中刷新纪录
7月16日周二
00:00Mistral AI:News(网页)49Codestral Mamba 发布
5月29日周三
00:00Mistral AI:News(网页)57Codestral:Mistral AI团队2024年5月29日发布
4月17日周三
00:00Mistral AI:News(网页)63更便宜、更好、更快、更强 2024年4月17日 Mistral AI团队
12月27日周三
00:00Andrej Karpathy:Blog(网页)精选Licklider 1960《人机共生》评述
12月5日周六
00:00Mistral AI:News(网页)86Mistral AI 发布首个面向 Lean 4 的开源代码代理 Leanstral
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
12月2日
00:00
LMSYS:Blog(Chatbot Arena 团队)
加速 SGLang 推理:原生集成 NVIDIA Model Optimizer 实现无缝量化与部署(12月2日更新)

SGLang 最新版本原生集成 NVIDIA Model Optimizer,支持通过直接 API 调用实现模型量化与部署。新功能将原本复杂的多步骤流程简化为量化、导出、部署三步,支持 NVFP4、MXFP4、FP8 等低精度格式。与原始 FP8 基线相比,优化后的模型在 Blackwell 架构上可实现高达 2 倍的每 GPU 吞吐量提升,显著降低延迟与内存占用。

开源/仓库编码部署/工程
11月12日
00:00
Claude:Blog(网页)
精选
通过 Skills 改进前端设计

LLM 生成界面常因"分布收敛"而陷入 Inter 字体配紫色渐变的同质化设计。Anthropic 建议通过 Skills 功能解决:将排版、动画、配色等设计规范存入独立 Markdown 文件,Claude 可在构建页面时动态加载,无需永久占用系统提示词。这种按需加载机制既保持上下文窗口精简以维持模型性能,又能让 AI 生成摆脱默认审美、更具品牌辨识度的定制化界面。

智能体Anthropic教程/实践编码

推荐理由:Claude官方分享通过Skills解决AI生成界面同质化问题的实践技巧,附字体与主题优化Prompt示例。
10月27日
00:00
MiniMax:Blog(网页)
同事件精选62
MiniMax M2与AI智能体:简中见巧

MiniMax正式开源并发布了专为AI智能体(Agent)和代码场景设计的大语言模型MiniMax M2。该模型API定价极具竞争力,仅为Claude Sonnet价格的约8%,且推理速度更快。在关键的智能体能力方面,其工具调用和深度搜索表现接近顶尖模型,编程能力在国内处于领先地位。MiniMax M2旨在解决性能、价格与速度的“不可能三角”,为构建更普及的AI智能体应用提供基础,体现了其“智能平权”的愿景。

智能体开源/仓库模型发布编码
同一事件,精选展示《MiniMax M2.7:自我进化的早期回声》
推荐理由:MiniMax M2 把 Agent 模型的价格打到了 Claude 的 8%,速度还翻倍,开源权重直接可用,做 Agent 的开发者值得上手试试。
10月24日
07:05
Google DeepMind:Blog(RSS)
精选
CodeMender 发布:面向代码安全的 AI 智能体

CodeMender 是一款面向代码安全的 AI 智能体,利用先进 AI 技术自动修复关键软件漏洞。

智能体DeepMind产品更新编码

推荐理由:DeepMind 发布代码安全 AI Agent CodeMender,可自动修复关键软件漏洞
10月20日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选73
超越权限提示:让Claude Code更安全、更自主

Claude Code引入沙盒化技术,通过文件系统与网络双重隔离来增强安全性,并大幅减少权限提示。内部测试显示,该技术将权限提示安全地降低了84%。新推出的沙盒运行时(作为开源研究预览版)允许开发者自定义目录和网络访问权限,使Claude能在限定范围内自主运行命令。同时,网页版Claude Code在云端隔离沙盒中运行,即使遭遇提示注入或代码入侵,也能有效保护Git密钥等敏感凭证不被泄露,从而提升开发安全性与效率。

Anthropic产品更新安全/对齐编码

推荐理由:Claude Code 的沙箱方案把安全和自主性这对矛盾解开了,权限提示减少 84% 不是数字游戏,是真把 agent 从「每步都要你点确认」变成「在笼子里自己跑」,做 coding agent 的团队该认真看看这套 OS 级隔离思路。
00:00
Claude:Blog(网页)
精选
Claude Code 发布网页版

Anthropic 推出网页版 Claude Code,以研究预览形式向 Pro、Max 及企业用户开放。用户可直接在浏览器中分配编码任务,无需本地终端,支持并行处理多个 GitHub 仓库的开发工作,并自动创建 PR 和变更摘要。该服务基于云端隔离沙盒运行,具备网络和文件系统限制,同时登陆 iOS 应用支持移动编码。云会话与现有 Claude Code 使用共享速率限制。

智能体Anthropic产品更新编码
关联讨论 3 条Claude:Blog(网页)X:Thariq (@trq212)X:宝玉 (@dotey)
推荐理由:Claude Code搬进浏览器,零门槛并行编程提PR,手机端也能随时跑任务
10月10日
15:36
蚂蚁 inclusionAI:GitHub 新仓库
46
SWE-CARE:一个用于评估代码审查全面性的基准

针对现有代码审查基准和方法在全面性上的不足,研究团队推出了SWE-CARE基准。该基准包含一个用Python构建、覆盖代码审查全过程的仓库级数据集,数据被分为九种类型且每个实例均包含仓库特征。基于此,团队设计了一个评估框架,用以衡量大型语言模型在全面代码审查任务上的性能。项目提供了完整的评估流程脚本,支持使用GPT-4o等模型,并可生成详细的性能评估与分析报告。

编码论文/研究评测/基准
8月28日
08:00
xAI:News(网页)
精选
xAI发布轻量级编程模型Grok Code Fast 1

xAI发布轻量级编程模型Grok Code Fast 1,采用全新架构,基于真实PR数据训练,精通grep、终端和文件编辑等工具。推理速度达190 tokens/秒,定价输入$0.20/百万tokens、输出$1.50/百万tokens,SWE-Bench-Verified得分70.8%。目前已在GitHub Copilot、Cursor、Cline等平台限时免费开放。

智能体xAI模型发布编码

推荐理由:xAI发布专为Agentic Coding优化的极速编程模型,已集成Cursor、Copilot等主流工具,价格极具竞争力
8月7日
08:00
OpenRouter:Announcements(RSS)
同事件精选68
GPT-5 已在 OpenRouter 上线

GPT-5 现已登陆 OpenRouter 平台,具备长上下文能力,专为复杂推理和代码工作流设计。

OpenAI推理模型发布编码
同一事件,精选展示《GPT-5 现已上线》
推荐理由:GPT-5 是 AI 史上的分水岭,长上下文和推理能力直接催生了一整代 agent 工具,哪怕过了快一年回头看,仍然值得搞清楚它改变了什么。
08:00
OpenRouter:Announcements(RSS)
精选68
GPT-5 现已上线

OpenRouter 平台已发布 GPT-5,该模型支持长上下文,专为复杂推理与代码工作流构建。

OpenAI推理模型发布编码
关联讨论 1 条X:ChatGPT (@ChatGPTapp)
推荐理由:这是 GPT-5 首次以大上下文和推理能力亮相,1M token 上下文让 code agent 直接从 demo 变成可用,现在看虽是旧闻,但节点意义不减。
08:00
OpenRouter:Announcements(RSS)
精选66
GPT-5 现已上线

GPT-5 已在 OpenRouter 平台正式推出。该模型具备长上下文处理能力,专门针对复杂推理任务与代码工作流进行了优化。此次发布标志着新一代大语言模型开始接入开放路由网络,为开发者与用户提供更强大的多步骤逻辑处理和编程辅助功能。

产品更新推理编码

推荐理由:OpenRouter 上架 GPT-5 本身不算新闻,但对用 OpenRouter 做多模型路由的开发者来说,这是终于能切到最新旗舰的信号,值得第一时间跑一遍自己的 benchmark。
7月31日
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选
智谱发布 GLM-4.5 系列模型并原生支持 SGLang

智谱发布旗舰模型 GLM-4.5(355B/32B 激活)与 GLM-4.5-Air(106B/12B 激活),含 FP8 量化版本,即日起原生支持 SGLang 框架。采用 MoE 架构与 128k 上下文,在 12 项基准测试中分列第 3 与第 6。GLM-4.5 在 BrowseComp 网页浏览任务中以 26.4% 准确率超越 Claude 4 Opus,工具调用成功率达 90.6%,编程与数学推理能力突出。

智能体推理模型发布编码

推荐理由:国产大模型Agent与编码能力跻身第一梯队,为开发者提供Claude/GPT之外的高性价比替代方案
7月30日
00:00
Mistral AI:News(网页)
54
发布 Codestral 25.08 及 Mistral 完整企业编程方案栈

Mistral AI 发布了 Codestral 25.08 及其完整的企业编码解决方案栈。该方案旨在通过一个集成的系统,解决企业在采用 AI 编程工具时遇到的核心障碍,如部署限制、定制化不足和架构分散。新版 Codestral 25.08 的性能有所提升,其代码接受完成率提高30%,保留代码增加10%,失控生成减少50%。方案中的 Codestral Embed 是专为代码设计的嵌入向量模型,在代码检索基准测试中性能优于其他模型。整个解决方案支持部署在云端、VPC 或本地环境。

开源生态模型发布编码
7月14日
08:00
OpenRouter:Announcements(RSS)
49
使用OpenRouter在Cursor中调用模型:试试月之暗面的Kimi K2

OpenRouter的灵活模型路由现已集成到Cursor,用户可在Cursor中直接调用Moonshot AI的Kimi K2模型进行编码操作。

教程/实践编码
08:00
OpenRouter:Announcements(RSS)
精选56
OpenRouter 模型现可在 Cursor 中使用:试试月之暗面 Kimi K2

OpenRouter 宣布其灵活模型路由支持在 Cursor 中运行月之暗面的 Kimi K2。用户可直接在 Cursor 中调用 OpenRouter 路由的模型,无需额外配置。

MCP/工具教程/实践编码
关联讨论 1 条X:OpenRouter (@OpenRouter)
推荐理由:一篇将 OpenRouter 模型接入 Cursor 的实操指南,虽然已过时三百多天,但对想免配置用 Kimi K2 的 Cursor 用户仍有参考价值。
08:00
OpenRouter:Announcements(RSS)
54
在 Cursor 中使用 OpenRouter 模型:以 Moonshot AI 的 Kimi K2 为例

用户现可通过 OpenRouter 灵活的路由服务,在 Cursor IDE 中直接调用 Moonshot AI 最新推出的 Kimi K2 模型。这一集成简化了开发流程,无需复杂配置即可在编码环境中访问高性能大语言模型。OpenRouter 作为统一接口,支持用户便捷切换包括 GPT、Claude、LLaMA 及 Kimi 在内的多种模型,显著提升了 AI 辅助编程工具的可用性和选择自由度。

MCP/工具产品更新编码
7月11日
00:00
Moonshot AI:Kimi Blog
精选
Kimi 发布 K2 模型

Kimi K2 采用混合专家(MoE)架构,拥有 320 亿激活参数和 1 万亿总参数,在非推理模型的前沿知识、数学和编程任务上达到 SOTA 性能。

推理模型发布编码
关联讨论 1 条Moonshot AI:Kimi Blog
推荐理由:月之暗面发布 Kimi K2,万亿参数 MoE 架构,多基准 SOTA
7月10日
00:00
Mistral AI:News(网页)
61
Mistral AI 与 All Hands AI 合作发布新款 Devstral 模型

Mistral AI 与 All Hands AI 合作发布了新的 Devstral 模型,旨在增强 AI 智能体的编程能力。其中,Devstral Small 1.1 是一款开源模型(Apache 2.0 许可),仅有 24B 参数,在 SWE-Bench Verified 基准测试中达到 53.6% 的成绩,成为同类开源模型的新标杆。Devstral Medium 则通过 API 提供,在相同基准上取得 61.6% 的高分,性能超越 Gemini 2.5 Pro 和 GPT 4.1,且价格更具竞争力。两款模型均提供公共 API 访问。

智能体开源生态模型发布编码
6月4日
00:00
Mistral AI:News(网页)
44
Mistral Code 发布:企业级 AI 编程助手

Mistral AI 推出企业级 AI 编程助手 Mistral Code。该产品基于开源项目 Continue 构建,集成了 Codestral、Codestral Embed、Devstral 和 Mistral Medium 四个模型,分别用于代码补全、代码搜索、智能体编码和对话辅助。Mistral Code 支持 80 多种编程语言,并提供私有化部署、模型微调及企业级管控功能。目前,包括 Abanca、SNCF 和 Capgemini 在内的多家企业已在混合云或本地环境中部署该产品。目前该产品已开放私有测试。

产品更新开源生态编码部署/工程
5月28日
00:00
Mistral AI:News(网页)
61
Mistral AI 发布代码专用嵌入模型 Codestral Embed

Mistral AI 发布首个专为代码设计的嵌入模型 Codestral Embed。该模型在代码检索任务上性能显著超越当前领先的 Voyage Code 3、Cohere Embed v4.0 和 OpenAI 大型嵌入模型。它支持输出不同维度和精度的嵌入向量,即使在 256 维度 int8 精度下仍优于竞品。模型通过 API 以 codestral-embed-2505 名称提供,定价为每百万 token 0.15 美元,批量 API 享五折优惠。最大上下文长度为 8192 tokens,推荐使用 3000 字符(含 1000 字符重叠)分块以优化检索效果。

检索增强模型发布编码
5月22日
08:00
OpenRouter:Announcements(RSS)
52
OpenRouter 推出通行密钥、开发者体验升级与 TypeScript 智能体新指南

OpenRouter 新增通行密钥(passkeys)功能以提升账户安全性,同时开放 provider slugs(提供商标识符)方便用户探索,并发布面向 TypeScript 智能体(Agent)的完整开发指南,帮助开发者更高效地构建和部署智能体应用。

智能体产品更新编码
08:00
OpenRouter:Announcements(RSS)
40
OpenRouter 推出通行密钥、DevEx 升级以及 TypeScript Agents 新指南

OpenRouter 发布三项更新:支持通行密钥(passkeys)加强账户安全、新增 provider slugs 功能便于探索提供商、以及发布面向 TypeScript Agents 的新开发指南,帮助开发者更快速地构建 AI 智能体。

智能体产品更新编码
5月21日
00:00
Mistral AI:News(网页)
63
Devstral 面向软件工程的智能体大语言模型发布

Mistral AI 与 All Hands AI 合作推出 Devstral,一款专注于解决真实世界 GitHub 问题的智能体大语言模型。该模型需在 OpenHands 或 SWE-Agent 等代码智能体框架中运行。在 SWE-Bench Verified 基准测试中,Devstral 获得 46.8% 的分数,超越此前的开源最先进模型超过 6 个百分点。在相同测试框架下,其表现优于 DeepSeek-V3-0324 和 Qwen3 232B-A22B,并且比闭源的 GPT-4.1-mini 高出超过 20%。Devstral 以 Apache 2.0 许可证开源,可在单张 RTX 4090 或配备 32GB 内存的 Mac 上本地部署,亦可通过 API 调用。

智能体开源生态模型发布编码
5月14日
22:59
Google DeepMind:Blog(RSS)
AlphaEvolve:Gemini 驱动的编程智能体,用于设计先进算法

Google 推出 AlphaEvolve,一款由 Gemini 驱动的编程智能体。该工具结合大语言模型的创造力与自动化评估器,能够演化出适用于数学及实际计算场景的先进算法。

智能体DeepMindGoogle产品更新
5月6日
23:06
Google DeepMind:Blog(RSS)
精选
Gemini 2.5 Pro Preview 提前发布:编程性能进一步提升

鉴于开发者反馈积极,Google 提前两周发布 Gemini 2.5 Pro Preview 更新版本,编程性能进一步提升,现已开放获取。

DeepMindGoogle推理模型发布

推荐理由:Gemini 2.5 Pro 提前发布更新版本,编码性能显著提升,开发者可即刻体验
4月18日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选77
Claude Code:智能体编码最佳实践指南

Claude Code 提供了一套完整的智能体编程工具与框架。其核心遵循“先探索、再计划、后编码”的工作流,并通过配置 CLAUDE.md 文件、管理权限和连接 MCP 服务器来优化环境。最佳实践强调为 Claude 提供工作验证方法、积极管理上下文、使用子代理进行调查,以及利用检查点回退来处理复杂任务。文档还详细介绍了在 VS Code、JetBrains IDE、Slack 及 CI/CD 中的集成使用,并提供了避免常见失败模式的实用建议。

智能体Anthropic教程/实践编码

推荐理由:Anthropic 官方出的 Claude Code 最佳实践,不是泛泛而谈的入门指南,而是从 CLAUDE.md 配置到 subagent 编排的完整工程手册,用 Claude Code 做日常开发的人直接照抄就能少踩一半坑。
2月10日
05:05
Sam Altman:Blog(RSS)
精选
三点观察

OpenAI 阐述关于 AI 经济学的三点观察:模型智能与训练资源的对数成正比,可预测扩展;AI 使用成本每 12 个月下降约 10 倍,远超摩尔定律速度;智能线性增长将产生超指数级社会经济价值。据此,AI 代理将如虚拟同事般渗透各领域,科学进步将大幅加速,虽然短期内生活照旧,但长期将深刻重塑社会经济结构,个人意志力和适应能力将成为关键价值。

智能体OpenAI大佬观点编码

推荐理由:Sam Altman 提出 AI 经济学三大观察,描绘 AGI 时代 Agent 工作图景
1月13日
00:00
Mistral AI:News(网页)
52
Mistral AI 发布 Codestral 25.01 代码生成模型

Mistral AI 推出了代码生成模型 Codestral 25.01。相比前代 Codestral-2405,该模型采用了更高效的架构并改进了分词器,使代码生成与补全速度提升约 2 倍。Codestral 25.01 的上下文长度为 256k。在多项基准测试中,它在 HumanEval 平均基准上得分 71.4%,在 HumanEvalFIM(填充中间)平均基准上得分 85.9%,成为同量级模型中代码生成,尤其是填充中间(FIM)任务的 SOTA。

模型发布编码
1月6日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选72
Claude 3.5 Sonnet 在 SWE-bench Verified 基准测试中刷新纪录

升级版 Claude 3.5 Sonnet 在软件工程评估基准 SWE-bench Verified 上取得 49% 的解决率,超越此前最佳模型的 45%。该基准通过真实 GitHub 问题测试 AI 模型完成软件工程任务的能力,要求模型在给定环境中理解、修改并测试代码,最终通过原始单元测试验证。Claude 团队构建的智能体设计简洁,仅包含提示词、Bash 工具和编辑工具,赋予模型充分的自主判断空间,以灵活步骤解决问题。目前尚无模型在该基准上突破 50% 的解决率。

智能体Anthropic教程/实践编码

推荐理由:Anthropic 把自家 SWE-bench agent 的 prompt、工具设计和踩坑经验全公开了,做 coding agent 的人可以直接抄作业,比看十篇二手解读都管用。
7月16日
00:00
Mistral AI:News(网页)
49
Codestral Mamba 发布

Mistral AI 团队发布了 Codestral Mamba 模型。该模型由 Albert Gu 和 Tri Dao 协助设计,采用 Mamba 架构而非 Transformer,具备线性时间推理优势,并在代码与推理能力上进行了训练,以达到与 SOTA Transformer 模型相当的性能。模型在高达 256k tokens 的上下文检索能力上进行了测试。它是一个指令微调版本,参数规模为 7,285,403,648,以 Apache 2.0 许可证开源。用户可通过 mistral-inference SDK 或 TensorRT-LLM 进行部署,权重可从 HuggingFace 下载,也已在 la Plateforme 上提供。

开源生态模型发布编码
5月29日
00:00
Mistral AI:News(网页)
57
Codestral:Mistral AI团队2024年5月29日发布

Mistral AI推出其首个专用代码模型Codestral。该模型拥有22B参数,开源权重,专为代码生成任务设计,支持80+编程语言,并具备32k的上下文窗口,在RepoBench评测中表现优于竞品。开发者可通过专用端点 codestral.mistral.ai 获得为期8周的免费Beta测试,也可通过 api.mistral.ai 按token计费使用。该模型已集成至LlamaIndex、LangChain以及Continue.dev和Tabnine等IDE工具。

开源/仓库推理模型发布编码
4月17日
00:00
Mistral AI:News(网页)
63
更便宜、更好、更快、更强 2024年4月17日 Mistral AI团队

Mistral AI发布其最新开放模型Mixtral 8x22B。该模型基于稀疏混合专家(SMoE)架构,在141B总参数中激活39B参数,拥有64K tokens上下文窗口,支持英语、法语、意大利语、德语和西班牙语,并具备强大的数学、编码及原生函数调用能力。在MMLU等标准基准测试中,其推理性能超越其他开源模型,且推理速度优于任何密集型70B模型。该模型以Apache 2.0许可证开源发布。

开源生态推理模型发布编码
12月27日
00:00
Andrej Karpathy:Blog(网页)
精选
Licklider 1960《人机共生》评述

Licklider 1960年论文《人机共生》提出"智能增强"(IA)是通向AI的过渡阶段,预测人机能力互补——计算机处理机械工作、人类负责思考,这一范式延续64年直至LLM打破界限。他预见云计算雏形,但误判技术路径:当时看好的逻辑推理AI成死胡同,而因缺乏数据被忽视的统计方法(LLM)终成主流。对交互预测也偏离现实:设想的多人协作大屏未普及,键盘鼠标仍是主导;对语音识别"5年实现"的乐观估计,实际耗时64年未成熟。

智能体大佬观点编码

推荐理由:Karpathy 借 1960 年文献反思人机共生与 AI 发展路径,历史洞察深刻
12月5日
00:00
Mistral AI:News(网页)
86
Mistral AI 发布首个面向 Lean 4 的开源代码代理 Leanstral

Mistral AI 发布了首个面向 Lean 4 证明助手的开源代码代理 Leanstral。该代理采用稀疏架构,仅激活 60 亿参数,专为在真实形式化代码库中操作而训练。在 FLTEval 评估中,其表现优异:仅需两次尝试即以 26.3 分超越多个大型开源模型,同时成本效益显著。例如,达到此分数时,Leanstral 成本为 36 美元,远低于 Claude Sonnet 的 549 美元。其权重基于 Apache 2.0 许可开源,并已集成至 Mistral Vibe 平台提供免费 API。

智能体模型发布编码
‹ 上一页
1…678
下一页 ›