Qué son los modelos destilados de inteligencia artificial y la destilación LLM

Vamos a intentar explicarte de una manera sencilla y entendible qué son los modelos destilados cuando hablamos de inteligencia artificial. Cuando te hablamos de instalar DeepSeek en el ordenador mencionamos que había versiones destiladas, y también se están creando otras IA que son versiones destilada de otros modelos concretos. También nos solemos referir a ella como destilación LLM, para especificar a que nos referimos a Grandes modelos lingüísticos o Large language model, que son esos capaces de procesar el texto, entender lo que escribimos y respondernos con texto. Vamos, como ChatGPT , DeepSeek, Copilot, Gemini o Grok. Qué es la destilación de LLM La destilación de modelos de inteligencia artificial es una técnica para reducir el tamaño de los modelos, replicando los resultados y el rendimiento que puedes obtener con ellos. Aunque estamos acostumbrados a utilizarlos a través de aplicaciones y páginas web, los modelos LLM consumen muchísimo espacio y recursos. Nosotros no solemos notarlo porque cuando usas una IA desde una web o app, te conectas a los servidores de las grandes empresas donde este modelo se está ejecutando. Pero si quisieras tener un modelo completo instalado en tu ordenador necesitarías un procesador potentísimo y mucho espacio. La solución a este problema es crear un modelo destilado, un modelo entrenado para ocupar menos espacio. Este modelo podrá replicar la mayor parte del rendimiento, pero será más pequeño y rápido, necesitará menos recursos para poder funcionar. La manera de hacerlo es parecida a un profesor y un alumno. El modelo completo es un profesor que comparte su experiencia y conocimientos con un alumno, transmitiendo conceptos y conocimientos complejos. Mientras, el modelo alumno aprende a imitar lo que se le está enseñando de una forma más sencilla y eficaz. Con eso, se consiguen modelos más ligeros. Sus resultados nunca serán tan buenos como los del profesor, pero las características principales y de rendimiento se mantendrán. Vamos, que viene a ser una versión Lite, una versión pequeña pero ligera y versátil. Existen distintas técnicas para crear modelos destilados, como la destilación de conocimientos con resultados finales para que el modelo alumno conozca el proceso de toma de decisiones o usar el profesor para generar datos de entrenamiento adicionales. También se destila en capa intermedia para no transferir solo resultados finales sino capas intermedias, o usar varios modelos de profesor para entrenar al alumno. Por lo general, las empresas privadas que crean modelos de inteligencia artificial también se encargan de crear versiones destiladas. Lo normal es que se le añada un nombre específico a la versión destilada, como las "Flash" de Google Gemini o "Mini" de OpenAI. En otros casos, sobre todo en modelos de código abierto, pueden usar el nombre del modelo maestro para la destilada pero añadiendo como apellido el modelos que se ha usado como alumno. Vamos, que se puede coger un modelo más pequeño como Qwen y usarlo para crear una versión destilada de DeepSeek que se llame DeepSeek Qwen, o DeepSeek Distill Qwen, para indicar que es destilado. En Xataka Qué es Ollama y cómo usarlo para instalar en tu ordenador modelos de inteligencia artificial como Llama, DeepSeek y más Pros y contras de los modelos destilados Un modelo completo de inteligencia artificial tiene miles de millones de parámetros, y la cantidad de espacio y de potencia de computación para ejecutarlos es enorme. En un ordenador doméstico necesitarás tecnología y potencia punta, además de mucho espacio, y a nivel de una empresas como OpenAI o Google que ofrecen sus IA por web o app, necesitas muchísimos recursos en sus servidores. Por eso, crear modelos destilados ayuda a reducir el tamaño y que ocupen menos espacio. Pero también permite hacer que funcionen más rápido, y que sean necesarios menos costes computacionales. Eso hace que Google u OpenAI puedan ofrecerte versiones "pequeñas" gratis de sus principales modelos, dejando las más completas para usuarios de pago. Porque mantener las completas requiere dinero e inversión. Y si estamos hablando de un modelo de código abierto, tener versiones destiladas permite que tú y yo podamos instalarlos y usarlos en nuestro ordenador sin tener que gastar miles de euros en un nuevo procesador, en tarjetas gráficas o almacenamiento interno. También se pueden usar estas técnicas para crear modelos de inteligencia artificial a menor coste de lo que supondría realizar un entrenamiento completo. Para eso, coges modelos ya creados y entrenas a uno nuevo a partir de sus datos y sus conocimientos, y no tienes que realizar el proceso desde cero. Sin embargo, los modelos destilados no tienen la misma cantidad de datos y parámetros, a menudo son inferiores en recursos, y pueden surgir más fallos y alucinaciones. Te po

Feb 6, 2025 - 13:33
 0
Qué son los modelos destilados de inteligencia artificial y la destilación LLM

Qué son los modelos destilados de inteligencia artificial y la destilación LLM

Vamos a intentar explicarte de una manera sencilla y entendible qué son los modelos destilados cuando hablamos de inteligencia artificial. Cuando te hablamos de instalar DeepSeek en el ordenador mencionamos que había versiones destiladas, y también se están creando otras IA que son versiones destilada de otros modelos concretos.

También nos solemos referir a ella como destilación LLM, para especificar a que nos referimos a Grandes modelos lingüísticos o Large language model, que son esos capaces de procesar el texto, entender lo que escribimos y respondernos con texto. Vamos, como ChatGPT , DeepSeek, Copilot, Gemini o Grok.

Qué es la destilación de LLM

La destilación de modelos de inteligencia artificial es una técnica para reducir el tamaño de los modelos, replicando los resultados y el rendimiento que puedes obtener con ellos.

Aunque estamos acostumbrados a utilizarlos a través de aplicaciones y páginas web, los modelos LLM consumen muchísimo espacio y recursos. Nosotros no solemos notarlo porque cuando usas una IA desde una web o app, te conectas a los servidores de las grandes empresas donde este modelo se está ejecutando. Pero si quisieras tener un modelo completo instalado en tu ordenador necesitarías un procesador potentísimo y mucho espacio.

La solución a este problema es crear un modelo destilado, un modelo entrenado para ocupar menos espacio. Este modelo podrá replicar la mayor parte del rendimiento, pero será más pequeño y rápido, necesitará menos recursos para poder funcionar.

La manera de hacerlo es parecida a un profesor y un alumno. El modelo completo es un profesor que comparte su experiencia y conocimientos con un alumno, transmitiendo conceptos y conocimientos complejos. Mientras, el modelo alumno aprende a imitar lo que se le está enseñando de una forma más sencilla y eficaz.

Con eso, se consiguen modelos más ligeros. Sus resultados nunca serán tan buenos como los del profesor, pero las características principales y de rendimiento se mantendrán. Vamos, que viene a ser una versión Lite, una versión pequeña pero ligera y versátil.

Destilar modelos

Existen distintas técnicas para crear modelos destilados, como la destilación de conocimientos con resultados finales para que el modelo alumno conozca el proceso de toma de decisiones o usar el profesor para generar datos de entrenamiento adicionales. También se destila en capa intermedia para no transferir solo resultados finales sino capas intermedias, o usar varios modelos de profesor para entrenar al alumno.

Por lo general, las empresas privadas que crean modelos de inteligencia artificial también se encargan de crear versiones destiladas. Lo normal es que se le añada un nombre específico a la versión destilada, como las "Flash" de Google Gemini o "Mini" de OpenAI.

En otros casos, sobre todo en modelos de código abierto, pueden usar el nombre del modelo maestro para la destilada pero añadiendo como apellido el modelos que se ha usado como alumno. Vamos, que se puede coger un modelo más pequeño como Qwen y usarlo para crear una versión destilada de DeepSeek que se llame DeepSeek Qwen, o DeepSeek Distill Qwen, para indicar que es destilado.

Pros y contras de los modelos destilados

Un modelo completo de inteligencia artificial tiene miles de millones de parámetros, y la cantidad de espacio y de potencia de computación para ejecutarlos es enorme. En un ordenador doméstico necesitarás tecnología y potencia punta, además de mucho espacio, y a nivel de una empresas como OpenAI o Google que ofrecen sus IA por web o app, necesitas muchísimos recursos en sus servidores.

Por eso, crear modelos destilados ayuda a reducir el tamaño y que ocupen menos espacio. Pero también permite hacer que funcionen más rápido, y que sean necesarios menos costes computacionales. Eso hace que Google u OpenAI puedan ofrecerte versiones "pequeñas" gratis de sus principales modelos, dejando las más completas para usuarios de pago. Porque mantener las completas requiere dinero e inversión.

Y si estamos hablando de un modelo de código abierto, tener versiones destiladas permite que tú y yo podamos instalarlos y usarlos en nuestro ordenador sin tener que gastar miles de euros en un nuevo procesador, en tarjetas gráficas o almacenamiento interno.

También se pueden usar estas técnicas para crear modelos de inteligencia artificial a menor coste de lo que supondría realizar un entrenamiento completo. Para eso, coges modelos ya creados y entrenas a uno nuevo a partir de sus datos y sus conocimientos, y no tienes que realizar el proceso desde cero.

Sin embargo, los modelos destilados no tienen la misma cantidad de datos y parámetros, a menudo son inferiores en recursos, y pueden surgir más fallos y alucinaciones.

Te pondré un ejemplo. Si sigues nuestra guía para instalar DeepSeek en el ordenador, verás que en determinado punto tienes varias versiones. Tienes versiones 8b, versiones 14b, o la versión completa de 671b. Este número hace referencia a sus caracteres, y cuanto menor sea menos recursos necesitas, pero más destilado y pequeño será el modelo.

Por eso, en este ejemplo, si instalas un DeepSeek 8b y un 14b, verás que el modelo inferior tiene más alucinaciones y te da respuestas menos precisas. Por lo tanto, cuanto mejores resultados tengas mayor tendrá que ser el modelo, y menos destilado tendrá que estar.

Lo mismo pasa con los modelos comerciales. Si estás usando un Gemini 2.0 Flash, los resultados serán peores que el Gemini 2.0 completo,  y lo mismo con los o3 y o3 Mini de OpenAI. Sin embargo, la versión Flash o Mini es la que se ofrece a todos los usuarios gratis, mientras que la completa es para los usuarios de pago, para así poder asumir el coste de mantener estos modelos en funcionamiento.

En Xataka Basics | Páginas de prompts: 16 webs y comunidades gratis para encontrar ideas para tus prompts y buscar consejo para mejorarlos

-
La noticia Qué son los modelos destilados de inteligencia artificial y la destilación LLM fue publicada originalmente en Xataka por Yúbal Fernández .