AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 726 条
全部一手资讯X论文
标签「模型发布」清除
9月27日周三
00:00Mistral AI:News(网页)63Mistral 7B 模型发布(2023年9月27日,Mistral AI团队)
6月29日周四
00:00LMSYS:Blog(Chatbot Arena 团队)开源 LLM 的上下文长度承诺究竟能兑现多少?
4月7日周四
02:15Sam Altman:Blog(RSS)DALL•E 2
2月3日周四
00:00EleutherAI:BlogGPT-NeoX-20B 正式发布
12月5日周六
00:00Mistral AI:News(网页)86Mistral AI 发布首个面向 Lean 4 的开源代码代理 Leanstral
1月31日周四
08:00Lilian Weng:Lil'Log(RSS)20广义语言模型
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
9月27日
00:00
Mistral AI:News(网页)
63
Mistral 7B 模型发布(2023年9月27日,Mistral AI团队)

Mistral AI团队开源了其7.3B参数模型Mistral 7B。该模型在所有基准测试中超越Llama 2 13B,在许多测试中超越Llama 1 34B,并在代码任务上接近CodeLlama 7B的性能。它采用Grouped-query attention (GQA)以加速推理,并使用Sliding Window Attention (SWA)以更低的成本处理长序列。在推理、理解和STEM推理(MMLU)上,其性能相当于超过3倍大小的Llama 2模型。模型以Apache 2.0许可证开源,并提供了一个针对对话微调的Mistral 7B Instruct版本,其在MT-Bench上表现优于所有7B模型。

开源生态模型发布
6月29日
00:00
LMSYS:Blog(Chatbot Arena 团队)
开源 LLM 的上下文长度承诺究竟能兑现多少?

LMSYS Org发布LongChat-7B与LongChat-13B模型,通过压缩旋转位置编码技术将LLaMA的上下文窗口从2K扩展至16K tokens。模型基于8万条(7B)和1.8万条(13B)curated对话数据微调,训练成本分别为300美元与700美元。评估显示,LongChat-13B的长程检索准确率较MPT-7B-storywriter等开源模型提升2倍,在MT-Bench基准测试中表现优异,显著缩小了与Claude-100K、GPT-4-32K等商业长文本模型的差距。

开源生态数据/训练模型发布
4月7日
02:15
Sam Altman:Blog(RSS)
DALL•E 2

OpenAI 发布 DALL•E 2 研究版本,支持通过自然语言指令生成和编辑图像。作者认为这标志着计算机界面新趋势——自然语言交互,并指出与 Copilot 不同,DALL•E 2 能独立完成完整作品,可能率先冲击创意工作而非体力劳动,预示 AI 对劳动力市场的潜在影响。团队计划今年夏天正式产品化,当前采用渐进式部署策略以评估风险。

OpenAI图像生成多模态模型发布
2月3日
00:00
EleutherAI:Blog
GPT-NeoX-20B 正式发布

GPT-NeoX-20B 正式发布。这款拥有 200 亿参数的大规模语言模型由开发团队与云计算服务商 CoreWeave 合作训练完成。该模型在参数量级上达到 200 亿规模,通过双方协作完成训练流程,为自然语言处理研究和应用提供了新的基础模型选择。

开源生态模型发布
12月5日
00:00
Mistral AI:News(网页)
86
Mistral AI 发布首个面向 Lean 4 的开源代码代理 Leanstral

Mistral AI 发布了首个面向 Lean 4 证明助手的开源代码代理 Leanstral。该代理采用稀疏架构,仅激活 60 亿参数,专为在真实形式化代码库中操作而训练。在 FLTEval 评估中,其表现优异:仅需两次尝试即以 26.3 分超越多个大型开源模型,同时成本效益显著。例如,达到此分数时,Leanstral 成本为 36 美元,远低于 Claude Sonnet 的 549 美元。其权重基于 Apache 2.0 许可开源,并已集成至 Mistral Vibe 平台提供免费 API。

智能体模型发布编码
1月31日
08:00
Lilian Weng:Lil'Log(RSS)
20
广义语言模型

2018年以来,自然语言处理领域取得显著进展。以OpenAI GPT和BERT为代表的大规模预训练语言模型,通过通用的模型架构在多种语言任务上达到了领先水平。这些模型无需依赖标注数据进行预训练,使研究者能够不断扩展训练规模,推动了性能的持续提升。文章后续还持续更新了ULMFiT、GPT-2、ALBERT、RoBERTa、T5、GPT-3、XLNet、BART和ELECTRA等后续模型的发展情况。

OpenAI教程/实践模型发布
‹ 上一页
1…171819
下一页 ›