Tras poner del revés la industria IA, DeepSeek lanza su primer modelo que entiende y crea imágenes: Janus Pro
En plena resaca por su modelo R1, DeepSeek acaba de lanzar Janus Pro 7B, un modelo de IA para generar imágenes a partir de texto y entender otras imágenes que se le introduzcan. Y sí, también es de código abierto, aunque con un asterisco similar al de Llama. Por qué es importante. Hasta ahora, los modelos multimodales han tenido que hacer malabares entre la comprensión y la generación de imágenes, sacrificando eficiencia o rendimiento. Janus Pro 7B resuelve este dilema con una nueva propuesta: unifica la comprensión y generación de imágenes en una única arquitectura. La innovación. El modelo introduce un sistema de "doble vía" para el procesamiento visual: Separa los caminos de codificación para entender y generar imágenes. Mantiene un único transformer para procesar toda la información. Utiliza SigLIP-L como codificador visual para imágenes de 384x384 píxeles. Comparativa de Janus Pro frente a su antecesor para varias solicitudes. Imagen: DeepSeek. Esta resolución es su principal inconveniente, parece mucho más orientada a experimentar y a usos de poca ambición que a las aplicaciones que podemos asumir de otras propuestas como Midjourney o Freepik, que suelen partir de 1024x1024 píxeles. No obstante, Janus Pro no es un generador de imágenes al uso, sino un modelo multimodal con varias capacidades. Eso sí, esta resolución permite un equilibrio óptimo entre calidad y velocidad de procesamiento... para usos que se conformen con ella. Entre líneas. La arquitectura de Janus Pro 7B es especialmente relevante por su eficiencia: Tamaño compacto de 7.000 millones ("7B") de parámetros. Rendimiento superior a modelos específicos más grandes. Código abierto bajo licencia MIT para el repositorio, aunque el modelo en sí requiere aceptar la licencia DeepSeek. La licencia MIT permite a cualquiera usar, modificar y distribuir el código libremente, incluso con fines comerciales, siempre que se mantenga el aviso de copyright original. Es una de las licencias más permisivas que existen. La licencia DeepSeek, en cambio, es gratuita y permite usos comerciales, pero incluye restricciones éticas específicas, como la prohibición de uso militar o la generación de desinformación. En perspectiva. Janus Pro 7B no es solo otro modelo multimodal, sino un nuevo paradigma en la arquitectura de IAs que pueden ver y crear. Su enfoque unificado pero descentralizado bien puede acabar influyendo en futuros desarrollos. El modelo está construido sobre DeepSeek-LLM-7b-base, el modelo base de lenguaje de la startup china, anunciado en agosto de 2024. De él hereda sus capacidades de procesamiento de lenguaje mientras añade capacidades visuales avanzadas. Su sistema de submuestreo de 16x para la generación de imágenes permite mantener la eficiencia sin comprometer la calidad. Imagen destacada | DeepSeek, Xataka con Mockuuups Studio En Xataka | Sabíamos que las Big Tech de EEUU tenían un problema con los costes de sus IA. DeepSeek acaba de mostrar hasta qué punto - La noticia Tras poner del revés la industria IA, DeepSeek lanza su primer modelo que entiende y crea imágenes: Janus Pro fue publicada originalmente en Xataka por Javier Lacort .
En plena resaca por su modelo R1, DeepSeek acaba de lanzar Janus Pro 7B, un modelo de IA para generar imágenes a partir de texto y entender otras imágenes que se le introduzcan. Y sí, también es de código abierto, aunque con un asterisco similar al de Llama.
Por qué es importante. Hasta ahora, los modelos multimodales han tenido que hacer malabares entre la comprensión y la generación de imágenes, sacrificando eficiencia o rendimiento. Janus Pro 7B resuelve este dilema con una nueva propuesta: unifica la comprensión y generación de imágenes en una única arquitectura.
La innovación. El modelo introduce un sistema de "doble vía" para el procesamiento visual:
- Separa los caminos de codificación para entender y generar imágenes.
- Mantiene un único transformer para procesar toda la información.
- Utiliza SigLIP-L como codificador visual para imágenes de 384x384 píxeles.
Esta resolución es su principal inconveniente, parece mucho más orientada a experimentar y a usos de poca ambición que a las aplicaciones que podemos asumir de otras propuestas como Midjourney o Freepik, que suelen partir de 1024x1024 píxeles. No obstante, Janus Pro no es un generador de imágenes al uso, sino un modelo multimodal con varias capacidades.
Eso sí, esta resolución permite un equilibrio óptimo entre calidad y velocidad de procesamiento... para usos que se conformen con ella.
Entre líneas. La arquitectura de Janus Pro 7B es especialmente relevante por su eficiencia:
- Tamaño compacto de 7.000 millones ("7B") de parámetros.
- Rendimiento superior a modelos específicos más grandes.
- Código abierto bajo licencia MIT para el repositorio, aunque el modelo en sí requiere aceptar la licencia DeepSeek.
La licencia MIT permite a cualquiera usar, modificar y distribuir el código libremente, incluso con fines comerciales, siempre que se mantenga el aviso de copyright original. Es una de las licencias más permisivas que existen.
La licencia DeepSeek, en cambio, es gratuita y permite usos comerciales, pero incluye restricciones éticas específicas, como la prohibición de uso militar o la generación de desinformación.
En perspectiva. Janus Pro 7B no es solo otro modelo multimodal, sino un nuevo paradigma en la arquitectura de IAs que pueden ver y crear. Su enfoque unificado pero descentralizado bien puede acabar influyendo en futuros desarrollos.
El modelo está construido sobre DeepSeek-LLM-7b-base, el modelo base de lenguaje de la startup china, anunciado en agosto de 2024. De él hereda sus capacidades de procesamiento de lenguaje mientras añade capacidades visuales avanzadas. Su sistema de submuestreo de 16x para la generación de imágenes permite mantener la eficiencia sin comprometer la calidad.
Imagen destacada | DeepSeek, Xataka con Mockuuups Studio
-
La noticia
Tras poner del revés la industria IA, DeepSeek lanza su primer modelo que entiende y crea imágenes: Janus Pro
fue publicada originalmente en
Xataka
por
Javier Lacort
.