实习06-Pretrain数据处理

张开发
2026/6/10 0:49:06 15 分钟阅读
实习06-Pretrain数据处理
Pretrain 数据怎么挑选按照2022 年 9 月,DeepMind(Chinchilla 论文)中提出 Hoffman scaling laws:表明每个参数需要大约 20 个文本token进行训练。本次训练的参数量10B,其实里面5B线性模型真正训练。计划使用10B20=200B token=2001.5=300G个中文字符=1200G数据。200B/6.3T=3.17%,6.3T token是Nemotron-cc的全部数据,一共31279个文件,3.17%是991个文件,所有高质量加一起是1935个文件。为本次使用的主要文件。整体Nemotron-CC分布如下:英伟达又在9月发布Nemotron-CC-v2、12月发布Nemotron-CC-v2.1。数据实例actual{'text':'GenerativeAIis TransformativeforMarketers\n\n"The developm

更多文章