¿Qué son los LLMs Cuantizados?

Ponente(s): Sergio Demis Lopez Martinez, Alexia Fernandez Castañeda

La cuantización de modelos es una técnica utilizada para reducir el tamaño de grandes redes neuronales, incluyendo modelos de lenguaje grande (LLMs), mediante la modificación de la precisión de sus pesos. La cuantización de LLMs se habilita gracias a resultados empíricos que demuestran que, aunque algunas operaciones relacionadas con el entrenamiento e inferencia de redes neuronales deben utilizar alta precisión, en algunos casos es posible usar una precisión significativamente menor (por ejemplo, float16). Esto reduce el tamaño general del modelo, permitiendo que se ejecute en hardware menos potente con una reducción aceptable de sus capacidades y precisión.