Meta推出大语言模型LLaMA参加AI大战：比GPT-3小10倍，表现更佳

发布时间：2023-02-27 09:49:05 所属栏目：大数据来源：

导读：Facebook母公司Meta宣布推出新的、有人工智能（AI）支持的大型语言模型（LLM）LLaMA-13B。该公司声称，尽管LLaMA-13B比OpenAI的GPT-3模型小了10倍，但它的表现却远远超越了后者。

LLaMA-13B是Meta新语言模型家族的

Facebook母公司Meta宣布推出新的、有人工智能（AI）支持的大型语言模型（LLM）LLaMA-13B。该公司声称，尽管LLaMA-13B比OpenAI的GPT-3模型小了10倍，但它的表现却远远超越了后者。

LLaMA-13B是Meta新语言模型家族的一部分，该模型名为“大型语言模型Meta AI”（简称LLaMA）。LLaMA模型集合的参数从70亿到650亿个不等。相比之下，OpenAI的GPT-3模型（ChatGPT基础模型）有1750亿个参数。较小的AI模型可能帮助催生能在个人电脑（PC）或智能手机等设备上本地运行、类似ChatGPT风格的语音助手。

Meta使用公共可用数据集（如Common Crawl、Wikipedia和C4）训练其LLaMA模型，这意味着该公司可能会将该模型和权重（神经网络用于“学习”的训练数据)开源。对于这个行业来说，此举堪称是一个巨变。因为到目前为止，参加AI竞赛的大型科技公司始终对他们最强大的AI技术保密。

LLaMA项目成员纪尧姆·兰普尔在推特上写道：“与Chinchilla、PaLM或GPT-3不同，我们只使用迄今为止公开披露的可用的数据集进行了训练，这相当于使得我们的模型可以被开发人员开源并被尽可能多的重复使用，而大多数现有AI模型依赖于未公开获取或未记录的数据。”

Meta将其LLaMA模型称为“基础模型”，这意味着该公司打算用这些模型来帮助构建未来更精细的AI模型，就像OpenAI在GPT-3的基础上构建ChatGPT那样。Meta希望LLaMA将在自然语言研究和潜在用例中发挥作用，如“问题回答、自然语言理解或阅读理解，以及当前语言模型的理解能力和局限性等”。

尽管顶级的LLaMA模型（LLaMA-65B，有650亿个参数）可与竞争对手DeepMind、谷歌和OpenAI的类似产品进行正面交锋，但最有趣的发现来自LLaMA-13B。据报道，当在单一GPU上运行时，LLaMA-13B的表现超过GPT-3。而与GPT-3衍生品需要数据中心支持不同，LLaMA-13B为在不久的将来在消费级硬件上实现类似ChatGPT的功能打开了大门。

参数数量多少在AI领域是个大问题，它们是机器学习模型用来根据输入数据进行预测或分类的变量。语言模型中参数的数量是决定其性能的关键因素，较大的模型通常能够处理更复杂的任务并产生更连贯的输出。然而，参数越多会占用更多空间，并且需要更多计算资源支持。因此，如果某个模型可以用更少的参数得出与其他模型相同的运算结果，就代表着效率显著提高。这样的例子有很多，比如在数学领域，通过计算一个函数的最大值和最小值，就可以得到一个非常精确的函数。

（编辑：聊城站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

未来已来 Cloudera拥抱	几个好使常见的大数据
数据指标 VS 标签体系	开发大数据应用程序企