Algunas preguntas a la IA emiten hasta 50 veces más CO₂ que otras

Una nueva investigación revela que ciertos modelos de lenguaje generativo emiten más dióxido de carbono que otros al responder a preguntas similares. El objetivo de los hallazgos es que los usuarios tomen decisiones informadas sobre el uso de estas tecnologías.

IA
Los investigadores evaluaron 14 modelos, con tamaños entre 7.000 y 72.000 millones de parámetros, con preguntas de referencia que cubrían una amplia gama de materias. / Adobe Stock

Un estudio de la Universidad de Ciencias Aplicadas de Múnich (Alemania) ha analizado el impacto ambiental de diferentes modelos de lenguaje generativo (LLMs, por sus siglas en inglés) en tareas comunes de uso cotidiano, como resolver preguntas de cultura general o matemáticas.

Cada vez que una inteligencia artificial responde, activa un complejo proceso computacional. Para generar esa información —acierte o no— los modelos utilizan tokens, unidades que representan palabras o fragmentos de ellas y que se traducen en secuencias numéricas comprensibles por la máquina.

Esa operación, junto con otras tareas internas, conlleva un consumo energético que se traduce en emisiones de CO₂. Sin embargo, muchos usuarios siguen sin conocer el coste ambiental que implica cada interacción con estas tecnologías.

“A cada modelo se le hicieron 100 preguntas de cinco categorías diferentes, que iban desde historia hasta matemáticas a nivel de secundaria, y se les pidió responder tanto en formato de opción múltiple como en texto libre. Posteriormente, se evaluaron y compararon tanto el consumo energético como la precisión de las respuestas”, dice a SINC Maximilian Dauner, autor principal del estudio publicado en Frontiers in Communication.

A cada modelo se le hicieron 100 preguntas de cinco categorías diferentes, que iban desde historia hasta matemáticas a nivel de secundaria

Maximilian Dauner, autor principal del estudio

Según los investigadores, el impacto ambiental de interrogar modelos LLM entrenados está fuertemente determinado por su enfoque de razonamiento, con procesos explícitos que elevan considerablemente el consumo energético y las emisiones de carbono.

Los investigadores evaluaron 14 modelos, con tamaños entre 7 000 y 72 000 millones de parámetros, con preguntas de referencia que cubrían una amplia gama de materias.

“Las emisiones de CO₂ se calcularon en función del consumo de energía medido por un servidor equipado con una GPU NVIDIA A 100. Los modelos fueron probados en el mismo servidor utilizando preguntas idénticas para garantizar la mayor comparabilidad posible. Naturalmente, pueden producirse desviaciones según el tipo de generación eléctrica”, explica el investigador”, apunta Dauner.

Los modelos fueron probados en el mismo servidor utilizando preguntas idénticas para garantizar la mayor comparabilidad posible

Maximilian Dauner

La GPU NVIDIA es un procesador especializado que permite realizar millones de operaciones en paralelo, al acelerar el procesamiento de datos y reducir el tiempo que tarda el modelo en generar respuestas o entrenarse.

Cuanto más razona la IA, más contamina

El equipo halló que los modelos que aplican procesos de razonamiento más elaborados generan muchas más emisiones que aquellos que ofrecen respuestas concisas. En concreto, los modelos con razonamiento generaban en promedio 543,5 tokens por pregunta, frente a solo 37,7 en los modelos concisos.

"El impacto ambiental de interrogar modelos LLM entrenados está fuertemente determinado por su enfoque de razonamiento, con procesos explícitos que elevan considerablemente el consumo energético y las emisiones de carbono", señala en científico.

El modelo Cogito (70 000 millones de parámetros) obtuvo la mayor precisión (84,9 %), pero emitió tres veces más CO₂ que otros de tamaño similar con respuestas más concisas. “Actualmente, vemos una clara disyuntiva entre precisión y sostenibilidad en las tecnologías LLM. Ninguno de los modelos que mantuvo las emisiones por debajo de 500 gramos de CO₂ equivalente logró superar el 80 % de precisión”, señala Dauner.

Ninguno de los modelos que mantuvo las emisiones por debajo de 500 gramos de CO₂ equivalente logró superar el 80 % de precisión

Maximilian Dauner

Además del tipo de modelo, el área temática de la pregunta también influye: cuestiones que exigen razonamientos complejos —como filosofía o álgebra abstracta— provocaron hasta seis veces más emisiones que temas como historia de secundaria.

“Se puede reducir la huella de carbono de las respuestas de los LLMs aproximadamente 10 veces, manteniendo una precisión dentro de uno o dos puntos porcentuales, mediante una serie de pasos complementarios, como que la decodificación especulativa permite omitir muchas pasadas de modelos grandes durante la generación. Además de ejecutar todo esto en hardware eficiente y programar las cargas de trabajo para las horas y regiones donde la red eléctrica es más limpia”, añade el investigador.

Elegir bien el modelo

Los investigadores esperan que su trabajo motive a las personas a tomar decisiones más informadas sobre su uso de la IA. “Los usuarios pueden reducir significativamente las emisiones solicitando respuestas concisas o limitando el uso de modelos de alta capacidad a tareas que realmente lo requieren”, indica Dauner.

La elección del modelo, por ejemplo, puede marcar una gran diferencia en las emisiones de CO₂. Tener a DeepSeek R1 (70 mil millones de parámetros) respondiendo 600 000 preguntas generaría tantas emisiones de CO₂ como un vuelo de ida y vuelta de Londres a Nueva York. En cambio, Qwen 2.5 (72 mil millones de parámetros) puede responder más de tres veces esa cantidad con tasas de precisión similares y generando las mismas emisiones.

Aunque puede ser difícil implementar regulaciones obligatorias sobre el uso energético de los LLMs, un primer paso podría ser la transparencia obligatoria hacia los usuarios

Maximilian Dauner

“Aunque puede ser difícil implementar regulaciones obligatorias sobre el uso energético de los LLMs, un primer paso más pragmático y con mayor impacto podría ser la transparencia obligatoria hacia los usuarios”, argumenta el científico.

Nuevas tareas, nuevos retos

Los investigadores señalaron que sus resultados podrían verse influenciados por la elección del hardware utilizado en el estudio, el factor de emisiones que puede variar según la región y la red eléctrica local, así como los modelos analizados. Estos factores podrían limitar la generalización de los resultados.

“Si los usuarios supieran el costo exacto en CO₂ de sus solicitudes a la IA —por ejemplo, convertir casualmente su imagen en una figura de acción—, tal vez serían más selectivos y conscientes sobre cuándo y cómo usan estas tecnologías”, recalca Dauner.

Actualmente, el equipo está trabajando en un artículo de seguimiento que se enfoca específicamente en las demandas de recursos de los LLMs para tareas de programación. Esto incluye una gama más amplia de modelos, incluidos aquellos ajustados específicamente para generación de código.

Ya hemos comenzado evaluaciones tempranas de modelos de imagen a texto y estamos explorando aplicaciones multimodales adicionales

Maximilian Dauner

También están analizando cómo diferentes tipos de solicitudes (prompts) influyen tanto en la calidad de salida como en el consumo energético. Más allá de eso, estamos ampliando el estudio para cubrir un conjunto más amplio de tareas.

“Ya hemos comenzado evaluaciones tempranas de modelos de imagen a texto, como la generación automática de subtítulos, y estamos explorando aplicaciones multimodales adicionales”, concluye Dauner.

Referencia:

Maximilan Dauner et al. “Energy Costs of Communicating with AI”. Frontiers in Communication (2025).

Fuente:
SINC
Derechos: Creative Commons.
Artículos relacionados