虽然只是对 Llama 3 模型进行小幅更新,但它特别引入了Llama 3.1 405B——一个4050 亿参数的模型,这是迄今为止世界上最大的开源 LLM,超过了 NVIDIA 的Nemotron-4-340B-Instruct。
实验评估表明,它在各种任务上均可与GPT-4、GPT-4o和Claude 3.5 Sonnet等领先模型相媲美。
然而,由于Mistral和Falcon等竞争对手选择较小的模型,人们开始质疑大型开放权重 LLM 在当前环境下的相关性。
请继续阅读以了解我们的观点以及有关 Llama 生态系统更新的信息。
面向初学者的 AI 技能提升
从头学习 AI 和 ChatGPT 的基础知识。
什么是 Llama 3.1 405B?
Llama 3.1 是 Llama 3( 2024 年 4 月发布)的点 亚马逊数据库 更新,Llama 3.1 405B 是该模型的旗舰版本,顾名思义,它拥有 4050 亿个参数。
Llama 3.1 有三种型号:8B、70B 和 405B
来源:Meta AI
Llama3.1 405B 登上 LMSys Chatbot Arena 排行榜
拥有 4050 亿个参数使其在LMSys 聊天机器人竞技场排行榜上占据一席之地,该排行榜是通过盲目用户投票获得的性能衡量标准。
最近几个月,OpenAI GPT-4、 Anthropic Claude 3和 Google Gemini等版本交替占据榜首。目前,GPT-4o 占据榜首,但规模较小的 Claude 3.5 Sonnet 占据第二位,而即将推出的 Claude 3.5 Opus 很可能会占据第一的位置,前提是它能在 OpenAI 更新 GPT-4o 之前发布。
这意味着高端市场的竞争非常激烈,看看 Llama 3.1 405B 与这些竞争对手相比的表现会很有趣。在我们等待 Llama 3.1 405B 出现在排行榜上的同时,本文后面将提供一些基准测试。
多语言能力
从 Llama 3 到 Llama 3.1 的主要更新是更好的非英语支持。Llama 3 的训练数据 95% 是英语,因此在其他语言中表现不佳。3.1 更新提供了对德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语的支持。
更长的背景
Llama 3 模型的上下文窗口(一次可以推理的文本量)为 8k 个标记(约 6k 个单词)。Llama 3.1 将其提升至更现代的 128k,使其与其他最先进的 LLM 相媲美。
这解决了 Llama 家族的一个重要弱点。对于企业用例(如总结长文档、从大型代码库生成涉及上下文的代码或扩展支持聊天机器人对话),可以存储数百页文本的长上下文窗口至关重要。
开放模型许可协议
Llama 3.1 模型可根据 Meta 的定制开放模型许可协议获得。此许可允许研究人员、开发人员和企业自由地将该模型用于研究和商业应用。
在一次重大更新中,Meta 还扩大了许可证,允许开发人员利用 Llama 模型(包括 405B 模型)的输出来增强其他模型。
本质上,这意味着任何人都可以利用该模型的功能来推进他们的工作,创建新的应用程序并探索人工智能的可能性,只要他们遵守协议中概述的条款。
Llama 3.1 405B 如何工作?
本节介绍 Llama 3.1 405B 的工作技术细节,包括其架构、训练过程、数据准备、计算要求和优化技术。
经过调整的 Transformer 架构
Llama 3.1 405B 基于标准的仅解码器的Transformer 架构构建,这是许多成功的大型语言模型所采用的设计。
在核心结构保持一致的同时,Meta 进行了细微调整,以增强模型在训练过程中的稳定性和性能。值得注意的是,Meta有意排除了混合专家 (MoE) 架构,优先考虑训练过程中的稳定性和可扩展性。

来源:Meta AI
该图说明了 Llama 3.1 405B 如何处理语言。它首先将输入文本划分为称为标记的较小单元,然后将其转换为称为标记嵌入的数字表示。
然后通过多层自注意力来处理这些嵌入,其中模型分析不同标记之间的关系以了解它们在输入中的重要性和上下文。
从自注意力层收集的信息随后会通过前馈网络,该网络会进一步处理和组合信息以得出含义。这种自注意力和前馈处理过程会重复多次,以加深模型的理解。
最后,模型利用这些信息逐个生成响应标记,在先前输出的基础上创建连贯且相关的文本。这一迭代过程称为自回归解码,它使模型能够对输入提示生成流畅且符合语境的响应。
多阶段训练过程
开发 Llama 3.1 405B 涉及一个多阶段的训练过程。最初,该模型在包含数万亿个标记的庞大而多样的数据集上进行了预训练。通过接触大量文本,该模型可以从遇到的模式和结构中学习语法、事实和推理能力。
在预训练之后,模型会经过多轮监督微调 (SFT) 和直接偏好优化 (DPO)。SFT 涉及对特定任务和数据集进行训练并提供人工反馈,从而引导模型产生所需的输出。
而 DPO 则侧重于根据从人类评估者那里收集到的偏好来改进模型的响应。这一迭代过程逐步增强了模型遵循指令的能力,提高了响应质量,并确保了安全。