Un Mundo Loco ●

Centros de datos con más rendimiento y menos hardware

Centros de datos con más rendimiento y menos hardware

La solución obvia para un centro de datos saturado suele ser comprar más hardware. Más discos, más servidores, más capacidad, más energía, más espacio, más refrigeración. El trabajo del MIT que acaba de publicarse va en una dirección menos vistosa y más inteligente: usar mejor lo que ya está instalado.

Investigadores del MIT desarrollaron Sandook, un sistema de software para balancear cargas de trabajo entre unidades SSD dentro de centros de datos. El punto de partida es sencillo de explicar: aunque varios discos se agrupen para que muchas aplicaciones los compartan, no todos se comportan igual todo el tiempo. Algunos envejecen, otros están ocupados escribiendo datos, otros hacen tareas internas de limpieza. El disco más lento puede arrastrar al conjunto.

El problema escondido en los SSD

Los SSD parecen rápidos y silenciosos desde afuera, pero por dentro están administrando una cantidad enorme de operaciones. Leen, escriben, borran bloques, reorganizan datos y gestionan desgaste. En una laptop personal eso puede pasar desapercibido. En un centro de datos, donde miles de aplicaciones dependen de almacenamiento compartido, esas diferencias se convierten en pérdida de rendimiento.

MIT identifica tres fuentes de variabilidad. La primera es física y temporal: no todos los SSD tienen la misma edad, capacidad o desgaste. La segunda aparece cuando lectura y escritura chocan en el mismo dispositivo, porque escribir nueva información puede exigir borrar o reorganizar datos previos. La tercera es la recolección de basura, ese mantenimiento interno que libera espacio pero puede activar pausas difíciles de predecir.

La idea de Sandook es no tratar a todos los discos como si fueran idénticos. El sistema mira el comportamiento de cada unidad y reparte trabajo con más criterio.

Cómo funciona Sandook

La arquitectura tiene dos niveles. Un controlador global toma decisiones generales sobre cómo distribuir tareas en el conjunto de almacenamiento. Al mismo tiempo, controladores locales reaccionan rápido cuando una unidad empieza a sufrir congestión o cuando aparece un evento puntual, como la recolección de basura.

Ese diseño importa porque los problemas no ocurren todos a la misma velocidad. El desgaste se acumula durante meses. Una interferencia entre lectura y escritura puede pasar en segundos. Una pausa interna de un SSD puede aparecer de forma repentina. Si todo se decide desde un solo lugar, el sistema puede reaccionar tarde; si todo se decide localmente, pierde la visión general.

Sandook mezcla las dos escalas. Planifica con mapa completo y corrige cerca del problema.

Los números que hacen ruido

En pruebas con diez SSD y cargas realistas, como bases de datos, entrenamiento de modelos de machine learning, compresión de imágenes y almacenamiento de datos de usuarios, MIT reporta mejoras de rendimiento entre 12 y 94 por ciento frente a métodos estáticos. También señala una mejora de 23 por ciento en utilización de capacidad y que las unidades pudieron acercarse al 95 por ciento de su rendimiento máximo teórico.

Lo más interesante es que no exige hardware especial ni cambios específicos por aplicación. Esa es la clase de mejora que puede interesar mucho a operadores reales: no promete reemplazar todo, promete exprimir mejor una inversión que ya existe.

Por qué esto importa más con IA

La demanda de centros de datos está creciendo por entrenamiento, inferencia, video, servicios en la nube y automatización. Cada punto de eficiencia cuenta porque el hardware no es solo caro: consume energía, requiere materiales, ocupa espacio y tiene una huella de carbono asociada.

En ese contexto, una mejora de software puede tener impacto físico. Si una empresa tarda más en descartar discos, si usa mejor capacidad o si evita sobredimensionar infraestructura, la ganancia no se queda en una tabla de benchmark. Se traduce en menos compras, menos desperdicio y más rendimiento por watt.

También aparece una lectura más amplia: la infraestructura digital no siempre necesita crecer por acumulación. A veces necesita volverse más consciente de sus propios cuellos de botella. Sandook no hace que los centros de datos dejen de consumir recursos, pero muestra una dirección saludable: antes de tirar más máquinas al problema, conviene mirar qué parte del rendimiento ya estaba ahí, atrapada por una mala coordinación.

Fuente original: MIT News

Fuente: MIT News