对于大型语言模型来说,超参数确实会达到非常大的规模。
-
参数数量 (Parameters):目前最大的模型参数数量已经达到千亿级 (hundreds of billions)。例如,Anthropic 最近发布的 Claude 模型包含了 1200 亿个参数。
-
训练计算量 (Compute):大模型通常需要数万个 GPU 进行并行训练,累积使用的计算量也达到百亿甚至千亿级 FLOPS。例如,OpenAI 的 GPT-3 模型训练总计消耗了超过 2000 万 GPU 小时。
-
训练数据量 (Data Size):用来训练大模型的数据集也在持续增长,已经从成百上千 GB 增长到 TB 量级。大量网上数据被用来构建这些数据集。
-
模型大小 (Model Size):参数数量直接影响了模型文件的大小。目前最大的模型已达几百 GB。
-
能耗 / 碳排放 (Energy/Carbon):大模型训练产生了大量碳排放。研究人员正在探索如何降低它们的环境影响。
所以可以看到,当前大模型的规模和复杂度在多个维度上都达到了极高的数值,这给模型的研发、部署和运维带来了巨大挑战。研究界正在思考如何在保证模型性能的同时,降低其超参数规模。