CloudSigma GPU como servicio

Preslav Dobrev2023-08-16 · 6 min read

CloudSigma permite a los clientes añadir GPUs a sus máquinas virtuales y utilizar una computación de alto rendimiento y rentable que puede satisfacer las cargas de trabajo más exigentes. El núcleo de la oferta de GPU de CloudSigma es la GPU NVIDIA A100 Tensor Core, optimizada para HPC, IA y análisis de datos. La A100 supera a la NVIDIA TESLA V100 y cuenta con nuevas funciones que las aplicaciones de IA pueden aprovechar al máximo. Permitimos a los clientes crear fácilmente máquinas virtuales optimizadas para NVIDIA A100 en modo passthrough, de modo que las instancias de VM tengan control directo sobre la/s GPU/s y su memoria integrada.

Casos de uso

El crecimiento de las aplicaciones de cálculo intensivo que se ejecutan en la nube ha impulsado la reciente explosión de la computación en la nube acelerada por GPU. Estas aplicaciones incluyen el entrenamiento e inferencia de aprendizaje profundo de IA, el análisis de datos, la computación científica, la genómica, el renderizado de gráficos y los videojuegos, por nombrar solo algunas. Desde el escalado vertical del entrenamiento de IA y la computación científica hasta el escalado horizontal de las aplicaciones de inferencia y la habilitación de la IA conversacional en tiempo real, las GPU proporcionan la potencia necesaria para acelerar numerosas cargas de trabajo complejas e impredecibles que se ejecutan en la nube.

La GPU NVIDIA A100 Tensor Core representa un salto gigante, ofreciendo una aceleración sin precedentes para IA, análisis de datos y HPC a cualquier escala. Impulsada por la arquitectura NVIDIA Ampere, la A100 proporciona un rendimiento hasta 20 veces superior al de la generación anterior. CloudSigma pone a disposición la versión de memoria de 80 GB, con el ancho de banda más rápido del mundo a más de 2 terabytes por segundo (TB/s) para ejecutar los modelos y conjuntos de datos más grandes.

Las GPU de NVIDIA se encuentran entre los principales motores computacionales que impulsan la IA, proporcionando aceleraciones significativas para las cargas de trabajo de entrenamiento e inferencia de IA. Además, las GPU de NVIDIA aceleran muchos tipos de aplicaciones y sistemas de HPC y análisis de datos, transformando los datos en información de valor.

IA y HPC
Entrene modelos complejos de aprendizaje automático de forma más rápida y eficiente con la aceleración por GPU. Aborde tareas con un uso intensivo de datos y logre avances en la innovación impulsada por la IA.NVIDIA AI Enterprise es una suite de software de IA y análisis de datos nativa de la nube y de extremo a extremo, optimizada para permitir que cualquier organización utilice la IA. Está certificada para implementarse en la nube pública e incluye soporte empresarial global para mantener los proyectos de IA en marcha. La A100 permite a los investigadores ofrecer rápidamente resultados del mundo real e implementar soluciones en producción a escala.

ENTRENAMIENTO DE APRENDIZAJE PROFUNDO
El entrenamiento de modelos de IA requiere una potencia de cálculo y una escalabilidad masivas. Los núcleos NVIDIA A100 Tensor Cores con Tensor Float (TF32) proporcionan un rendimiento hasta 20 veces superior al de NVIDIA Volta sin necesidad de realizar cambios en el código, y un impulso adicional de 2 veces con precisión mixta automática y FP16.

Una carga de trabajo de entrenamiento como BERT puede resolverse a escala en menos de un minuto con 2.048 GPU A100, un récord mundial en tiempo de resolución.

Para los modelos más grandes con tablas de datos masivas, como los modelos de recomendación de aprendizaje profundo (DLRM), la A100 de 80 GB alcanza hasta 1,3 TB de memoria unificada por nodo y ofrece un aumento de rendimiento de hasta 3 veces en comparación con la A100 de 40 GB.

El liderazgo de NVIDIA en MLPerf, estableciendo múltiples récords de rendimiento en el punto de referencia de toda la industria para el entrenamiento de IA.

INFERENCIA DE APRENDIZAJE PROFUNDO
La A100 introduce características innovadoras para optimizar las cargas de trabajo de inferencia. Acelera una gama completa de precisión, desde FP32 hasta INT4. La tecnología de GPU multiinstancia (MIG) permite que múltiples redes funcionen simultáneamente en una sola A100 para una utilización óptima de los recursos de computación. Y el soporte de dispersión estructural ofrece hasta 2 veces más rendimiento además de las otras mejoras de rendimiento de inferencia de la A100.

En modelos de IA conversacional de última generación como BERT, la A100 acelera el rendimiento de la inferencia hasta 249 veces en comparación con las CPU.

En los modelos más complejos que están limitados por el tamaño del lote, como RNN-T para el reconocimiento automático del habla, la mayor capacidad de memoria de la A100 de 80 GB duplica el tamaño de cada MIG y ofrece un rendimiento hasta 1,25 veces superior al de la A100 de 40 GB.

El rendimiento líder en el mercado de NVIDIA quedó demostrado en MLPerf Inference. La A100 aporta 20 veces más rendimiento para ampliar aún más ese liderazgo.

COMPUTACIÓN DE ALTO RENDIMIENTO
Para posibilitar descubrimientos de próxima generación, los científicos recurren a las simulaciones para comprender mejor el mundo que nos rodea.

NVIDIA A100 introduce Tensor Cores de doble precisión para ofrecer el mayor salto en rendimiento de HPC desde la introducción de las GPU. Con 80GB de la memoria de GPU más rápida, los investigadores pueden reducir una simulación de doble precisión de 10 horas a menos de cuatro horas en la A100. Las aplicaciones de HPC pueden aprovechar TF32 para lograr un rendimiento hasta 11X mayor en operaciones de multiplicación de matrices densas de precisión simple.

Para las aplicaciones de HPC con los conjuntos de datos más grandes, la memoria adicional de la A100 80GB ofrece un aumento de rendimiento de hasta 2X con Quantum Espresso, una simulación de materiales. Esta memoria masiva y el ancho de banda de memoria sin precedentes convierten a la A100 80GB en la plataforma ideal para las cargas de trabajo de próxima generación.

ANÁLISIS DE DATOS DE ALTO RENDIMIENTO
Los científicos de datos necesitan poder analizar, visualizar y convertir conjuntos de datos masivos en información de valor. Sin embargo, las soluciones de escalabilidad horizontal a menudo se ven obstaculizadas por conjuntos de datos dispersos en múltiples servidores.

Los servidores acelerados con A100 proporcionan la potencia de cómputo necesaria (memoria masiva, más de 2 TB/s de ancho de banda de memoria y escalabilidad con NVIDIA® NVLink® y NVSwitch™) para abordar estas cargas de trabajo. Combinada con InfiniBand, NVIDIA Magnum IO™ y la suite de bibliotecas de código abierto RAPIDS™, que incluye RAPIDS Accelerator para Apache Spark para el análisis de datos acelerado por GPU, la plataforma de centro de datos de NVIDIA acelera estas enormes cargas de trabajo a niveles de rendimiento y eficiencia sin precedentes.

En una prueba de rendimiento de análisis de big data, la A100 80GB ofreció resultados con un incremento de 2X en comparación con la A100 40GB, lo que la hace ideal para las cargas de trabajo emergentes con tamaños de conjuntos de datos en constante crecimiento.

SIMULACIONES CIENTÍFICAS: Acelere la investigación y las simulaciones científicas, lo que permite obtener información de valor y descubrimientos más rápidos en física, química y ciencias ambientales.

MEDIOS Y ENTRETENIMIENTO: Renderice gráficos, videos y animaciones de alta resolución a la velocidad del rayo. Ofrezca experiencias visuales excepcionales a su audiencia sin comprometer la calidad.

MODELADO FINANCIERO: Analice grandes conjuntos de datos y realice modelos financieros complejos con una velocidad inigualable, proporcionando información crítica para la toma de decisiones informadas.

Preslav Dobrev

Autor · CloudSigma

Preslav Dobrev es diseñador creativo en CloudSigma, centrado en una identidad empresarial coherente mediante el uso de canales de marketing tradicionales e innovadores. Es experto en fusionar la visión artística con el marketing estratégico para crear narrativas de marca impactantes.

CloudSigma GPU como servicio

Preslav Dobrev

Comentarios