Mitigar el coste del tiempo de inactividad en la era de la inteligencia artificial

La capacidad de predecir fallos de hardware con cierto grado de precisión ofrece un enorme potencial de ahorro a los proveedores de servicios con grandes inversiones de capital en tecnologías de la información (TI). Para los clientes empresariales que operan costosas plataformas de computación de alto rendimiento (HPC) e inteligencia artificial (IA) a gran escala, la disponibilidad de su oferta de servicios lo es todo: un sistema caído bloquea a los clientes y atrapa los recursos, inutilizándolos con un gran coste. Una interrupción de este tipo puede causar una pérdida de ingresos, afectar a la productividad general de los empleados y dañar la marca de una empresa. Según el sector, los estudios han demostrado que el coste medio de una hora de inactividad imprevista puede oscilar entre 100.000 y más de 500.000 dólares por hora[1][2].

Introducir el análisis predictivo de fallos (APF)

Mediante la evaluación de grandes cantidades de datos históricos, el análisis predictivo de fallos (APF) puede ofrecer información valiosa sobre la probabilidad de que se produzca una avería. Chipsets, placas de circuitos, discos duros y conexiones soldadas tienen una vida útil finita. Las tendencias de los datos históricos de fallos pueden indicar un horizonte temporal para futuros fallos.

Para los grandes fabricantes de equipos o automóviles (y sus clientes), el AGP puede ofrecer mejoras potenciales en la esperanza de vida de los activos, lo que se traduce en una reducción del gasto futuro de hasta el 5%. El AGP también puede utilizarse para programar el mantenimiento cuando los operarios y técnicos están más disponibles y es más barato, lo que genera eficiencias y ahorros de hasta el 20%[3].

Numerosos factores pueden influir en el rendimiento del ALP. En función de la carga de trabajo media del sistema en cuestión, el alcance de los datos históricos utilizados y los algoritmos de aprendizaje automático (ML) o aprendizaje profundo (DL) implicados, la precisión del ALP puede ponerse en entredicho.

Las regresiones lineales y polinómicas se utilizan a menudo para determinar la vida útil restante (RUI), mientras que los algoritmos de memoria larga a corto plazo (LSTM) y de bosque aleatorio pueden utilizarse para refinar las predicciones de fallos con diversos grados de éxito. [4] [5] [6] 

Aunque está claro que el PFA ofrece ventajas tangibles, no es infalible. Para ofrecer el mismo nivel de disponibilidad de servicio y proteger el valor de las inversiones de capital, es prudente considerar la posibilidad de aumentar cualquier programa de apoyo que utilice PFA con un contrato de manos remotas.

Las manos a distancia como póliza de seguros

El uso de manos remotas junto con PFA ofrece ventajas tanto para las interrupciones planificadas como para las imprevistas.  

Una interrupción planificada puede programarse con mucha antelación, lo que permite asignar recursos cuando están libremente disponibles y son más asequibles. Los proveedores de manos remotas también disfrutan de economías de escala: Con abundantes recursos para desplegar, se puede ahorrar mucho respecto a la contratación, formación y gestión de técnicos propios. (Un ingeniero al completo puede costar fácilmente seis cifras o más al año, en función de los conocimientos necesarios).

En cualquier interrupción imprevista, el restablecimiento del servicio es la principal preocupación. Una interrupción imprevista sin un contrato de manos remotas tardará más en resolverse. Los recursos desplegados para localizar y resolver el problema in situ primero tendrían que ser verificados, asegurados y contratados antes de ser desplegados. El proveedor de manos remotas, con recursos a escala, ya habrá investigado y asignado los recursos, lo que se traducirá en un tiempo de respuesta más rápido.

Inversión tecnológica estratégica

Dependiendo de la naturaleza del servicio, una interrupción sostenida en un entorno de gran tamaño podría costar fácilmente millones de dólares. Un contrato de manos remotas, por sí solo o como parte de un plan más amplio de recuperación en caso de catástrofe que incluya PFA, puede tratarse como una partida de gastos, o incluso capitalizarse como parte de una suscripción mayor de software o servicios.

Un ligero aumento de los costes operativos podría muy bien protegerle de las pérdidas millonarias asociadas a una interrupción prolongada del servicio.

¿Qué enfoque debe utilizar para justificar una inversión en soporte de manos remotas? Las métricas de las finanzas corporativas varían de una empresa a otra, pero se pueden extraer algunas ilustraciones.

Estudio de caso

Está evaluando un contrato de manos remotas por 250.000 dólares para cubrir tres entornos en centros de datos de Norteamérica durante un año. El coste estimado del tiempo de inactividad es de 100.000 dólares por hora en total (incluidos los recursos bloqueados u ociosos, la pérdida de ingresos, el impacto en la marca, etc.). La última vez que experimentó una interrupción debido a un fallo de hardware, su aplicación estuvo fuera de servicio durante seis horas. El impacto neto para la empresa fue de 600.000 dólares.

El departamento financiero de una empresa no aprobará el gasto en TI a menos que la inversión supere una tasa de rentabilidad mínima aceptable del 10%.

Uno de los beneficios previstos de un contrato de manos remotas es la reducción del tiempo medio de recuperación (MTTR) de una interrupción imprevista. Las estimaciones sugieren que el MTTR puede reducirse significativamente. Una reducción del MTTR del 50% en la interrupción anterior habría ahorrado 300.000 dólares al restablecer el servicio tres horas antes.

¿Deberían las finanzas corporativas autorizar la compra de este contrato de manos remotas como póliza de seguro para ayudar a reducir futuros tiempos de inactividad no planificados?

Utilizaremos una fórmula sencilla para el ROI:

ROI = (Beneficio neto / Coste de la inversión) * 100

En este caso, el beneficio neto sería el ahorro de 300.000 $ menos el coste del contrato de 250.000 $, es decir, 50.000 $.

ROI = (300.000 $-250.000 $)/250.000 $ * 100

50.000 $ divididos por 250.000 $ es el 20%, o el doble del MARR exigido por las finanzas.

(Hay que tener en cuenta que este rendimiento se mide con respecto a una sola interrupción. Con varias interrupciones imprevistas en un mismo año, el ahorro sería considerablemente mayor).

Las finanzas corporativas deben aprobar la inversión en el contrato de manos remotas.

Resumen

La inteligencia artificial ha hecho grandes avances en el campo del análisis predictivo de fallos, y la eficacia del AFP no hará sino aumentar en los próximos meses y años.

Mientras tanto, sigue siendo necesario proteger la inversión. Una inversión estratégica en un contrato de manos remotas puede ayudar a mitigar el impacto financiero de las interrupciones imprevistas, a la vez que le ayuda a capitalizar la flexibilidad de las ventanas de inactividad planificadas.

Notas

[1] https://medium.com/@brijesh_soni/why-random-forests-outperform-decision-trees-a-powerful-tool-for-complex-data-analysis-47f96d9062e7

[2] Yadav, D. K., Kaushik, A., & Yadav, N. (s.f.). Predicting machine failures using machine learning and deep learning algorithms. ScienceDirect. https://www.elsevier.com/locate/smse

[3] https://www.bakerhughes.com/bently-nevada/blog/unplanned-downtime-key-disruptor-industry

[4] https://medium.com/@jatin2707/machine-failure-prediction-a-comprehensive-guide-524726c3b1fd

[5] https://www.atlassian.com/incident-management/kpis/cost-of-downtime

[6] De "Predictive Maintenance: Deloitte's Approach " https://www2.deloitte.com/content/dam/Deloitte/us/Documents/process-and-operations/us-predictive-maintenance.pdf

 

Temas: Manos remotas, aprendizaje automático (ML), inteligencia artificial (IA), aprendizaje profundo (DL), productividad, centros de datos, nube, análisis predictivo de fallos (PFA), red neuronal recurrente (RNN), computación de alto rendimiento (HPC), finanzas corporativas, inversiones estratégicas, regresión lineal, memoria a largo plazo a corto plazo (LSTM), bosques aleatorios, teoría de carteras.

Anterior
Anterior

H100 vs. H200 vs. B200: Cómo elegir las GPU NVIDIA adecuadas para tu carga de trabajo de IA

Siguiente
Siguiente

La revolución Computex 2025 de NVIDIA: Transformar los centros de datos en fábricas de IA