DeepSeek大模型训推一体机(32B)一、硬件配置参考
CPU:
RAPIDS/32C/64T/2.1GHz/160MB/270W/4800MHz*2
内存:
64GB/RECC/DDR5/4800MHz*8
硬盘:
SE5110/960G/2.5/SATA/1DWPD+PM9A3/1.92T/2.5寸/U.2 NVME/1DWPD *2
GPU:
4卡,NVIDIA L20 GPU;11776 Cuda核心;48GB GDDR6显存;864GB/s显存
带宽;PCle 4.0x16;
二、预装模型:
1.deepseek模型
2.模型参数32B
3.模型精度:BF16
4.界面配置:Open WebUI/API
三、预装平台
模型训练管理平台
1、数据管理
(1)数据导入:支持的数据类型有:文本 (txt、csv、json)、表格 (xls、xlsx、csv) 和其他(任意格式文件)。
(2)数据清洗:简繁转换、大小写转换、去除异常字符、去除emoji,删除敏感信息,黄反信息库过滤。
(3)数据增强:近义词替换、随机删除、随机mask、同性词替换、同音字替换。
(4)生成数据集:将整理数据/标注数据以集合的形式体现。
(5)数据回流:聚类统计上线服务信息,可用于下次数据的优化训练。
2、模型训练
(1)模型选择:支持多种开源,闭源模型模型,璇玑玉衡大模型13B、璇玑玉衡大模型34B、ChatGLM-13B、Llama2-13B、百川、文心一言 ERNIE-Bot-turbo(数百亿)
(2)模型训练方式:包含多种可选的微调模式,全量微调、SFT、P-Tuning 、LoRA、RLHF训练模式
3、评估/优化
(1)基于人工模型&自动化模型进行评估,其中主要涉及词重叠率、词向量、PPL等指标评估模型
(2)基于多轮次的数据处理和模型训练对模型进行优化。
4、部署/发布
根据客户业务场景要求,判断客户的部署方案公有云/私有化,根据部署方案的不同分配后续的运维策略。Maas平台的大模型,部署完可在线测试,测试无问题后即可发布。
转载请注明来自海坡下载,本文标题:《训练模型优化(大模型训推实训解决方案)》
京公网安备11000000000001号
京ICP备11000001号
还没有评论,来说两句吧...