归一化提高先为训练、缓解梯度不匹配，Facebook的模型超越GPT-3

2025-07-28 12:16:23

3 亿给定）和 XL（27 亿给定）。

他们军事训练了 3000 亿个 token 的两条线假设，并用一定量的 GPU 小时数军事训练 NormFormer 假设，由于反之亦然可用的额外开销，后者上都会都会减少 2%-6% 的 steps 和 tokens。

在选用的样本集上，分析者断定 GPT-3 中的明确提出的研习领军不是最难得的。因此，对于除了 27 亿给定之外的每个个数的两条线和 NormFormer 假设，他们通过军事训练 5 万 steps 的假设并从 {1e−4, 6e−4, 3e−4, 6e−4, 1e−3, 3e−3} 中的选择稳定性最佳的研习领军来对研习领军同步进行调整。这一反复中的授予的研习领军如下表 1 所示，NormFormer 的研习领军是 GPT-3 的 3-5 倍。

对于掩码词汇假设（Masked Language Model, MLM），分析者选用了 Liu et al. (2019)中的选用的 RoBERTa-base、Pre-LN 体系结构和的大给定。对于两条线假设，他们对 100 万个 token 先为军事训练了 200 万个 batch，是原始 roberta-base 军事训练总先为算的 1/4。相较之下，NormFormer 在不尽相同时间内运行了 192 万个 batch。

对于先为军事训练样本，分析者在包含 CC100 法语体系结构以及由 BookCorpus、英文该网站和 Common Crawl 过滤有界组成的 Liu et al. (2019)的样本法语文档给定上对所有假设同步进行先为军事训练。

在所示 2 中的，分析者将 CLM 和 MLM 的先为军事训练苦恼度表示军事训练时间，即 GPU days。可以看到，NormFormer 的军事训练飞行速度明显不够快，并且在给定军事训练数值总先为算下做到了不够好的的测试苦恼度。

分析者在中游护航上也判读到了类似的趋势。如下表 2 所示，分析者选用 Brown et al. (2020)中的的护航和 prompt 来判读 CLM 假设的零结果显示准确领军。同样地，NormFormer 在所有个数上均要强 GPT-3。

对于 MLM 假设，分析者在下表 3 中的报告了在 GLUE 上的修改准确领军。最后，NormFormer MLM 假设在每个护航上都要强它们的 Pre-LN 假设。

为了度量体系结构的稳定性，分析者选用具有前所未有振幅研习领军的研习领军构想对其同步进行军事训练，使得研习领军每个 step 增高一点，直到巨大损失发生爆炸。由此可知 5 显示了与两条线相比，NormFormer 假设在此环境中的可以受压不够多的不够新。

。

南平治白癜风哪里最好
齐齐哈尔白癜风哪里治疗好
厦门白癜风哪里治疗好
泌尿系统肿瘤
成都男科医院
太极急支糖浆治咳嗽效果怎么样
我成功啦
眼部除皱

上一篇：陈情令：为何到7集魏婴和蓝湛远离了聂导，只因他做了这三件事

下一篇：排列五047期最新规律比对图