Fujitsu y RIKEN consiguen el primer puesto en la prueba de HPC MLPerf con el superordenador Fugaku

El rendimiento más rápido del mundo para el número de modelos de aprendizaje profundo entrenados por unidad de tiempo para CosmoFlow, un benchmark clave de procesamiento de aprendizaje automático.

Editor en La Ecuación Digital. Consultor de Innovación y Estrategia…

Fujitsu y RIKEN han anunciado que el superordenador Fugaku ha obtenido el primer puesto en el benchmark de aplicación de entrenamiento CosmoFlow, uno de los principales benchmarks HPC de MLPerf para tareas de procesamiento de aprendizaje automático a gran escala que requieren las capacidades de un superordenador.

Fujitsu y RIKEN aprovecharon aproximadamente la mitad de los recursos de Fugaku para lograr este resultado, demostrando el rendimiento más rápido del mundo en esta prueba clave.

MLPerf HPC mide cuántos modelos de aprendizaje profundo se pueden entrenar por unidad de tiempo. La tecnología de software que perfecciona el rendimiento del procesamiento paralelo de Fugaku ha logrado una velocidad de procesado aproximadamente 1,77 veces más rápida que la de otros sistemas, lo que demuestra el nivel de rendimiento más alto del mundo en el campo de los cálculos científicos y tecnológicos a gran escala, mediante el aprendizaje automático.

Estos resultados se anunciaron como MLPerf HPC versión 1.0 el 17 de noviembre en la Conferencia de Computación de Alto Rendimiento SC21, que se celebra actualmente como evento híbrido.

Fugaku reivindica el mayor nivel de rendimiento del mundo en el campo de los cálculos científicos y tecnológicos a gran escala mediante el aprendizaje automático

MLPerf HPC es una prueba de rendimiento compuesta por tres programas de referencia distintos: CosmoFlow, que predice parámetros cosmológicos, uno de los indicadores utilizados en el estudio de la evolución y la estructura del universo, DeepCAM, que identifica fenómenos meteorológicos anómalos, y Open Catalyst, que estima cómo reaccionan las moléculas en la superficie de los catalizadores.

Para CosmoFlow, Fujitsu y RIKEN utilizaron aproximadamente la mitad de todos los recursos informáticos del sistema Fugaku para entrenar múltiples modelos de aprendizaje profundo con un cierto grado de precisión en la predicción y midieron desde la hora de inicio del modelo, que comenzó el entrenamiento, hasta la hora de finalización para evaluar el rendimiento.

Para mejorar aún más el resultado del procesamiento en paralelo de Fugaku, Fujitsu y RIKEN aplicaron una tecnología a los programas utilizados en el sistema, que reduce la interferencia mutua de la comunicación entre las CPU, que se produce cuando se procesan múltiples modelos de aprendizaje en paralelo, y también optimiza la cantidad de comunicación de datos entre la CPU y el almacenamiento. Como resultado, el sistema entrenó 637 modelos de aprendizaje profundo en 8 horas y 16 minutos, una tasa de aproximadamente 1,29 modelos de aprendizaje profundo por minuto.

El valor medido de Fugaku obtuvo el primer puesto entre todos los sistemas para la categoría de referencia de la aplicación de entrenamiento CosmoFlow, demostrando un rendimiento a un ritmo aproximadamente 1,77 veces más rápido que otros sistemas. Este resultado reveló que Fugaku tiene el nivel de rendimiento más alto del mundo en el campo de los cálculos científicos y tecnológicos a gran escala que utilizan el aprendizaje automático.

Te puede interesar

El 90% de los directores de TI ven fundamental unificar la gestión del dato en una sola plataforma para el desarrollo de la IA

En el futuro, Fujitsu y RIKEN pondrán a disposición del público pilas de software como bibliotecas y marcos de IA que aceleran el procesamiento de aprendizaje automático a gran escala desarrollado para esta medición.

Compartir ampliamente los conocimientos sobre el procesamiento de aprendizaje automático a gran escala mediante superordenadores obtenidos a través de este ejercicio permitirá a los usuarios aprovechar los sistemas líderes en el mundo para el análisis de los resultados de la simulación, lo que conducirá a posibles nuevos descubrimientos en astrofísica y otros campos científicos y tecnológicos.

Estos recursos también se aplicarán a otros cálculos de aprendizaje automático a gran escala, como los modelos de procesamiento del lenguaje natural utilizados en los servicios de traducción automática, para acelerar la innovación tecnológica y contribuir a resolver problemas sociales y científicos.