La gran cantidad de datos con los que se entrenan los modelos de IA, su complejidad y el volumen de peticiones de los usuarios ya está generando dudas y preocupaciones sobre las consecuencias ambientales.
No hay dudas que la inteligencia artificial revolucionó y cambió el mundo. Con aplicaciones en campos tan diversos como la medicina, la industria o el entretenimiento, nuestra relación con las máquinas ya no será nunca más la misma. Sin embargo, el creciente uso de la IA generó una nueva preocupación por su consumo y dudas sobre su impacto ambiental.
La complejidad de la IA consume grandes cantidades de energÃa, aunque el proceso conlleva caracterÃsticas únicas. En concreto, una de las aplicaciones que más energÃa consume es la generación de imágenes.
Según un reciente estudio realizado por investigadores de la Universidad Carnegie Mellon y la empresa Hugging Face, el consumo de energÃa para generar una imagen con IA es comparable al de cargar completamente la baterÃa de un teléfono inteligente.
El estudio, publicado en la revista Nature, encontró que el modelo de generación de imágenes más eficiente consume aproximadamente 0,012 kWh de energÃa por cada 1000 inferencias. Este consumo equivale a aproximadamente 0,00002 kWh por imagen.
Pero, ¿cómo se crean estas imágenes y por qué se compara con la carga de una baterÃa? “El proceso es bastante complejo, pero para el usuario es casi transparente”, explicó a TN Tecno, Fabio Baccaglioni, especialista en informática y entusiasta de AI.
“Se empieza con un pedido o prompt. Esta instrucción es tomada por el software, desarmada en “pasos” para cada palabra y combinación. Y se convierte en números, ya que no existe una imagen. Luego se crea una imagen de ruido y poco a poco, a partir de una semilla al azar (un simple número) se le elimina el ruido llevándolo a un resultado, por eso hay “pasos”. Alrededor de 20 o 30 pasos dan una imagen de muy buena calidad”.
Para lograr estas imágenes finales, los modelos o herramientas de inteligencia artificial deben entrenarse previamente. “Los modelos son esenciales en todo proceso de generación de imágenes o textos por AI”, agregó Baccaglioni.
“Allà es donde reside el entrenamiento, donde las imágenes que se usaron para alimentar la IA se convirtieron en números y algoritmos. Actualmente, hay muchos modelos disponibles, libres y gratuitos que permiten que cualquier persona con una PC lo suficientemente potente y una placa gráfica con mucha memoria, pueda usar”, siguió.
La creación de imágenes con IA consume energÃa, pero en lapsos de tiempo breves
Con respecto al consumo, del lado del usuario no parecerÃa ser un problema: “La generación de imágenes tarda para crear menos de 30 segundos en una notebook, es intenso, pero por lapsos cortos de tiempo. El cálculo de 0.06 a 2.9 kWh de Hugging Face parece correcto, pero ¿qué aporta esa comparación con la carga de baterÃa de un smartphone?”, se preguntó Baccaglioni.
“La intensidad de consumo en esos 30 segundos es exactamente la misma que durante cualquier juego moderno, donde el uso de CPU y GPU es elevado. Un minuto en cualquier juego equivale a dos imágenes de StableDiffusion XL con refinación y upscaling. Ni siquiera hay que jugar, solo el hecho de estar en el menú del juego sin haber entrado a una partida consume más que la generación de imágenes, asà que es relativo al uso que se le va a dar”.
Infinidad de datos y demanda creciente
Sin embargo, los modelos de IA consumen tanta energÃa debido a la gran cantidad de datos con los que se entrenan sus modelos, su propia complejidad y el volumen de peticiones de los usuarios.
Durante el entrenamiento, el modelo de IA aprende cómo comportarse basándose en un amplio conjunto de ejemplos y datos. “El entrenamiento de un modelo de generación de imágenes es un proceso largo y costoso: se necesitan placas de video dedicadas y con mucha memoria porque cada imagen debe ser descompuesta en matrices numéricas.”, explicó Baccaglioni, quien experimenta y habla de inteligencia artificial en su sitio fabio.com.ar.
“Primero se tiene que crear una base de información con miles de millones de fotografÃas catalogadas, cada una con metadata que la identifique y describa. Eso es lo que conectará lo que se ve con lo que se dice”, agregó el especialista.
Nota publicada primero en TN Tecno