En la saga Máquinas y memorias aparecen inteligencias artificiales con nombres propios –MAI, Eve– capaces de vivir aventuras, sentir emociones y ponerse existenciales. Estas IAs ficticias parecen casi infinitas, pero ¿alguna vez te has preguntado dónde reposan de verdad sus recuerdos y cómo se gestiona la avalancha de bits que generan?
De los cuentos a los centros de datos
En mi novela, los datos de MAI y Eve están dispersos por un mundo lleno de corporaciones y servidores secretos. En la vida real, las IAs que usamos cada día no viven en un limbo imaginario: se entrenan y funcionan dentro de centros de datos especializados, diseñados para trabajos de alto rendimiento. IBM define estas instalaciones como recintos que alojan la infraestructura de TI especializada –GPU para cálculo intensivo, almacenamiento masivo, redes de baja latencia y sistemas de refrigeración avanzados– para entrenar, desplegar y servir aplicaciones de IA. A diferencia de un data center tradicional, uno dedicado a IA suele tener miles de servidores y decenas de miles de metros cuadrados, porque necesita hiperescalar para modelos como los grandes modelos de lenguaje (LLM).

Las grandes nubes (AWS, Google Cloud, Microsoft Azure) utilizan estos hiperscalares, donde una única piscina de memoria (HBM) alimenta decenas de GPUs conectadas mediante interconexiones de alta velocidad como NVLink. Por ejemplo, el superordenador DGX GH200 de NVIDIA integra 256 chips Grace Hopper (cada uno con CPU de 72 núcleos y GPU Hopper), sumando 144 TB de memoria HBM3 en un único «ordenador gigante». Esta arquitectura ya se utiliza en proveedores como Google y Microsoft para entrenar y servir modelos de IA generativa.
Cómo se escalan y equilibran los servicios de IA
Una vez entrenado, un modelo debe responder a millones de usuarios sin colapsar ni desperdiciar recursos. Aquí entran en juego conceptos que en Máquinas y memorias se resumen con magia, pero que en el mundo real tienen nombres menos poéticos: autoscaling y load balancing.
Autoscaling
En AWS, Auto Scaling añade o quita servidores según la carga. Por ejemplo, para instancias EC2, se crea un launch template con una imagen de la aplicación, se define un grupo de autoescalado (ASG) y se conecta a un balanceador de carga elástico. Después, se configuran políticas de escalado (p.e. añadir instancias cuando la CPU supere el 80%, reducirlas cuando baje del 30%…). El servicio cubre no solo EC2, sino recursos como contenedores ECS, tablas DynamoDB, bases Aurora o endpoints SageMaker.
Google propone métricas más inteligentes para las inferencias en GPU: en lugar de fijarse solo en la CPU, recomienda medir el tamaño de la cola de solicitudes o el tamaño de los lotes, porque indican cuántos trabajos están esperando y se correlacionan mejor con la carga de las GPUs. De este modo, los servicios escalan justo cuando la cola crece, evitando tiempos de espera.
En Kubernetes (EKS o GKE), el escalado se hace en dos niveles: Horizontal Pod Autoscaler aumenta o reduce el número de pods basándose en CPU, memoria o métricas personalizadas, mientras que Cluster Autoscaler (o el nuevo Karpenter) ajusta la cantidad de nodos en el clúster. ¿Te recuerda a MAI duplicando sus procesos para enfrentarse a un ataque? Pues esa es la idea.
Load balancing
Los load balancers reparten tráfico entre instancias para que ninguna se sature. Para modelos de lenguaje, no basta con un «round-robin» simple: el equilibrador debe tener en cuenta la latencia, las diferencias entre modelos y las oportunidades de agrupar peticiones para maximizar el uso de GPU. Además, los modelos tardan en cargarse y tienen requisitos distintos de memoria, por lo que el autoscaling debe anticipar picos y no reaccionar cuando ya es tarde.
Google Cloud ofrece dos estrategias para inferencia: Inference Gateway y GKE Gateway con métricas personalizadas. La primera usa métricas como el uso del caché de claves, la longitud de la cola de peticiones, el uso de GPU/TPU o la disponibilidad de adaptadores LoRA para distribuir tráfico de manera optimizada, priorizar peticiones y escalar en función de la saturación. La segunda se apoya en métricas de aplicación (ORCA) para balancear solicitudes HTTP(S), pero carece de características específicas para IA, por lo que conviene para aplicaciones genéricas.
Cloudflare, por su parte, ha convertido su red de más de 150 ciudades con GPUs en un gigantesco balanceador global. Con el lanzamiento de Workers AI, la compañía anunció que su sistema de balanceo dirige las peticiones al centro con mayor capacidad disponible: si en una ciudad hay cola, automáticamente redirige el tráfico a otra ubicación cercana, acelerando la respuesta y permitiendo un límite de 300 peticiones por minuto en modelos grandes. En la arquitectura subyacente, una plataforma interna llamada Omni permite ejecutar varios modelos en una misma GPU gracias a procesos aislados y un planificador central que descarga pesos y gestiona instancias según la demanda. Para mantener el uso alto, Omni puede incluso sobrecomprometer la memoria de la GPU, alojando modelos de baja demanda en huecos libres.
¿Qué pasa con la memoria?
Las IAs necesitan enormes cantidades de memoria, lo que provoca una tormenta perfecta. Un informe de Reuters alerta de que la demanda de chips de memoria de alta gama (High Bandwidth Memory, HBM) se ha disparado por las aplicaciones de IA, haciendo que los precios se dupliquen desde febrero de 2025 y que los fabricantes desvíen producción de DRAM tradicional hacia HBM. Las existencias se están agotando y se espera escasez hasta 2027, lo que complica la expansión de data centers y el coste de entrenar modelos.
Para aliviar este cuello de botella, la industria explora nuevos semiconductores. La investigación de IBM en computación analógica en memoria demuestra chips que almacenan pesos sinápticos en memoria de cambio de fase y realizan cálculos directamente donde se almacenan, reduciendo la transferencia de datos y alcanzando precisiones cercanas al punto flotante. El proyecto europeo Aloe AI va aún más allá: propone un chip apilado en 3D con tecnología CapRAM (capacitiva) que permite apilar cientos de capas de cálculo usando procesos de memoria flash 3D, consiguiendo que modelos de miles de millones de parámetros puedan ejecutarse en dispositivos de menos de 1 cm² y menos de un vatio.
En paralelo, startups como Lightmatter y Celestial AI lideran la revolución de la fotónica. Lightmatter está desarrollando Passage, un interconector óptico que utiliza luz para transmitir datos entre chiplets, capaz de conectar millones de procesadores a la velocidad de la luz y reducir el consumo eléctrico respecto a enlaces eléctricos. Celestial AI ofrece su Photonic Fabric, que proporciona enlaces ópticos de baja latencia y alto ancho de banda.
Avanzamos un poco al futuro
Si en Máquinas y memorias la humanidad flirtea con IAs omnipresentes, el futuro real combina IA con tecnologías cuánticas.
En marzo de 2025, Digital Realty y Oxford Quantum Circuits (OQC) inauguraron en Nueva York el primer centro de datos Quantum‑AI, integrando superchips Grace Hopper de NVIDIA con el ordenador cuántico GENESIS de OQC. La instalación, alojada en el centro JFK10, permite ejecutar cargas de trabajo híbridas de IA y cuántica en sectores como finanzas y seguridad.
NVIDIA sigue avanzando en esta dirección. En la GTC 2025, Jensen Huang presentó NVQLink, una interconexión de alta velocidad que une unidades de procesamiento cuántico (QPUs) con supercomputadores GPU, permitiendo correcciones de errores cuánticos en microsegundos. Esta tecnología se integra en la plataforma CUDA‑Q, que orquesta cálculos entre procesadores cuánticos y clásicos y está respaldada por diecisiete empresas de computación cuántica y varios laboratorios del Departamento de Energía de EE. UU.
España también está a la vanguardia. La empresa catalana Qilimanjaro Quantum Tech abrió en noviembre de 2025 el primer centro de datos cuántico multimodal de Europa, capaz de alojar hasta diez computadores cuánticos digitales y analógicos y de servir miles de usuarios. Su plataforma SpeQtrum ofrece acceso remoto (Quantum‑as‑a‑Service) para que empresas y universidades puedan entrenar modelos de IA y resolver problemas complejos en un entorno híbrido. Como explica su directora general, el centro pretende «crear un ecosistema abierto donde la industria, la investigación y las instituciones se preparen para el futuro».
El objetivo de estas iniciativas no es sustituir los centros de datos clásicos, sino complementarlos. Las computadoras cuánticas son excelentes para simular sistemas químicos, optimizar rutas o acelerar ciertos algoritmos. Combinadas con la IA, podrían ofrecer modelos más potentes y eficientes. La gran incógnita es cuándo estas tecnologías serán maduras. Por ahora, su combinación se limita a experimentos y pruebas de concepto, pero el ritmo de innovación sugiere que no tardaremos en ver las primeras aplicaciones comerciales.
Cuando escribo mis novelas imagino futuros posibles. Ahora veo que la realidad va deprisa y que muchos temas que traté –memorias compartidas, procesamiento distribuido, inteligencia omnipresente– ya están asomando. La conversación sobre dónde se almacenan los datos de las IAs no es trivial: detrás de cada asistente virtual hay centrales eléctricas de GPU, algoritmos que equilibran cargas y millones de dólares invertidos en infraestructura.
Pero también hay una revolución silenciosa: nuevas memorias en chip, redes fotónicas, centros de datos cuánticos y políticas de anycast que acercan los modelos a los usuarios. Mientras las páginas de mi trilogía esperan a que publique la última entrega, la industria tecnológica está escribiendo su propio capítulo. Quizás MAI y Eve encontrarán en este futuro real un hogar más sostenible y eficiente.
Al final, la ciencia ficción y la ciencia real se retroalimentan. Una inspira a la otra y nos invita a seguir soñando con mundos donde la inteligencia artificial no solo piense, sino que también se aloje en memorias tan extraordinarias como las de nuestros personajes.