实习06-Pretrain数据处理

张开发

• 2026/6/10 0:49:06 • 15 分钟阅读

分享文章

Pretrain 数据怎么挑选按照2022 年 9 月，DeepMind（Chinchilla 论文）中提出 Hoffman scaling laws：表明每个参数需要大约 20 个文本token进行训练。本次训练的参数量10B，其实里面5B线性模型真正训练。计划使用10B20=200B token=2001.5=300G个中文字符=1200G数据。200B/6.3T=3.17%，6.3T token是Nemotron-cc的全部数据，一共31279个文件，3.17%是991个文件，所有高质量加一起是1935个文件。为本次使用的主要文件。整体Nemotron-CC分布如下:英伟达又在9月发布Nemotron-CC-v2、12月发布Nemotron-CC-v2.1。数据实例actual{'text':'GenerativeAIis TransformativeforMarketers\n\n"The developm

更多文章

前端开发 2026/6/9 5:53:47

建筑行业企业大数据可视化大屏系统源码（Vue3+DataV架构）

温馨提示：文末有联系方式核心技术架构：Vue3 DataV 响应式可视化引擎采用前沿 Vue3 组合式 API 构建，深度集成 DataV 可视化组件库，实现毫秒级渲染与自适应布局能力，完美兼容1080P、超宽屏（32:9&#xff…

张开发

前端开发 2026/5/16 10:55:07

系统轻量化：Win11Debloat优化工具深度应用指南

系统轻量化：Win11Debloat优化工具深度应用指南【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter and customize…

张开发

前端开发 2026/6/10 6:16:32

颠覆传统开发！3步实现浏览器级代码管理

颠覆传统开发！3步实现浏览器级代码管理【免费下载链接】core Online IDE powered by Visual Studio Code ⚡️ 项目地址: https://gitcode.com/gh_mirrors/core72/core 90%的开发者仍在为环境配置浪费20%工作时间，本地IDE与远程仓库的配置冲突、…

张开发

前端开发 2026/5/16 10:55:08

Python实战：四种图像平滑技术对比与代码实现

1. 图像平滑技术入门指南第一次接触图像处理时，我被"椒盐噪声"这个词逗笑了 - 想象一下炒菜时不小心把盐和胡椒撒在照片上的场景。实际上，这种黑白杂点的专业术语就叫椒盐噪声，是图像处理中最常见的干扰类型之一。作为计算机视觉的…

张开发

前端开发 2026/6/10 6:15:36

MedSAM开源项目：医学图像分割的通用架构创新与实战应用

MedSAM开源项目：医学图像分割的通用架构创新与实战应用【免费下载链接】MedSAM Segment Anything in Medical Images 项目地址: https://gitcode.com/gh_mirrors/me/MedSAM MedSAM（Segment Anything in Medical Images）是一个针对医学…

张开发

前端开发 2026/5/16 11:01:16

Windows 11系统优化终极方案：用Win11Debloat重获纯净体验

Windows 11系统优化终极方案：用Win11Debloat重获纯净体验【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter and…

张开发

前端开发 2026/5/16 10:59:29

3分钟学会：用开源字体零成本生成专业条码的终极方案

3分钟学会：用开源字体零成本生成专业条码的终极方案【免费下载链接】librebarcode Libre Barcode: barcode fonts for various barcode standards. 项目地址: https://gitcode.com/gh_mirrors/li/librebarcode 还在为复杂的条码生成工具而烦恼吗&#xff1f…

张开发

前端开发 2026/5/16 10:55:07

MuseTalk：实时高质量唇语同步技术的三个关键突破

MuseTalk：实时高质量唇语同步技术的三个关键突破【免费下载链接】MuseTalk MuseTalk: Real-Time High Quality Lip Synchorization with Latent Space Inpainting 项目地址: https://gitcode.com/gh_mirrors/mu/MuseTalk 在数字内容创作和虚拟人技术快速发展…

张开发

前端开发 2026/6/9 17:52:13

让ESP32拥有视觉能力：嵌入式OpenCV实战指南

让ESP32拥有视觉能力：嵌入式OpenCV实战指南【免费下载链接】esp32-opencv Shrinked OpenCV for ESP32 项目地址: https://gitcode.com/gh_mirrors/es/esp32-opencv 你是否曾经想过，那个只有520KB RAM的ESP32微控制器，能否运行强大的计…

张开发