int8优化
int8优化(从速度和精度角度的 FP8 vs INT8 的全面解析)

int8优化(从速度和精度角度的 FP8 vs INT8 的全面解析)

本文将分享 TensorRT-LLM 中低精度量化内容,并从精度和速度角度对比 FP8 与 INT8。首先介绍性能,包括速度和精度。其次,介绍量化工具 NVIDIA TensorRT Model Optimizer(...

  • 1
  • 共 1 页