Contáctanos

Refrigeración de los últimos chips de IA con líquidos

Publicado en
4 de septiembre de 2024

La refrigeración líquida es la única solución práctica a alta potencia.

La transferencia de calor a través del movimiento de un volumen dado de líquido es mucho más eficiente que a través del mismo volumen de aire (por un factor de aproximadamente 3.600 en el caso del agua).

Refrigeración de los últimos chips de IA con líquidos

Esto hace que la refrigeración líquida a través del difusor de calor de la matriz sea un método muy eficaz. Generalmente es necesario cuando la disipación de calor supera los 50 W por cm2 del área de la matriz. Dado que el GB200 tiene un área estimada de aproximadamente 9 cm2, cualquier disipación superior a 450 W indica la necesidad de refrigeración líquida bombeada.

En el enfriamiento "directo al chip", el líquido se dirige a través de canales en una placa fría unida al difusor de calor del chip a través de una interfaz térmica. Cuando el líquido no se evapora durante el proceso, se habla de operación "monofásica", en la que el medio, normalmente agua, se bombea a través de un intercambiador de calor enfriado por ventiladores.

Como alternativa, el calor se puede transferir a un segundo circuito de líquido, que puede proporcionar agua caliente al edificio y, potencialmente, a los consumidores locales. Un funcionamiento en dos fases ofrece una mejor transferencia de calor, al permitir que el líquido, normalmente un fluorocarbono, se evapore a medida que absorbe calor y luego se vuelva a condensar en el intercambiador de calor. Este método puede proporcionar una mejora espectacular del rendimiento. Sin embargo, todavía se necesitan ventiladores del sistema para enfriar otros componentes, aunque algunos, como los convertidores CC/CC, se pueden integrar en el circuito de refrigeración líquida utilizando sus propias placas base. Esto se alinea con el concepto de "entrega de potencia vertical", donde los convertidores CC/CC se colocan directamente debajo del procesador para minimizar las caídas de tensión. Una limitación práctica del enfoque directo al chip es la resistencia térmica de la interfaz entre el chip y la placa fría. La planitud de precisión de las superficies y la pasta de alto rendimiento son necesarias, pero a nivel de varios kilovatios, la diferencia de temperatura todavía puede ser problemática.

Esta restricción parece ser un límite inminente para la disipación de calor y, en consecuencia, para el rendimiento. Como solución, se puede considerar la refrigeración por inmersión. En este caso, todo el servidor se coloca en un baño abierto de fluido dieléctrico bombeado a través de un depósito alrededor de un circuito hasta un intercambiador de calor. Una vez más, es posible el funcionamiento en dos fases para obtener el mejor rendimiento.

Los ingenieros de Intel de 1971 se habrían quedado atónitos con los niveles de rendimiento que se alcanzarán en los centros de datos en 2024. Pero ¿se avecina un precipicio? Existen límites prácticos para el tamaño de las características de los chips y el aumento de la temperatura, así como restricciones en el suministro de energía y el impacto ambiental, especialmente si el rendimiento sigue dependiendo de la simple réplica del hardware.

En última instancia, los inversores buscan obtener un rendimiento de su inversión. Dada la extrema complejidad de la refrigeración, los altos costes energéticos y la costosa adquisición de chips (como el chip GB200, que supuestamente cuesta hasta $70.000 cada uno), la viabilidad comercial podría convertirse pronto en un problema acuciante. Tal vez la IA nos diga cuál es la solución.