Quantization : faire tourner des modèles ML géants sur du hardware minuscule
👀 Mini-cours #34 - Des formules affine et symétrique aux techniques de pointe pour LLM (LLM.int8, SmoothQuant), le guide complet pour compresser tes modèles sans sacrifier la précision.