Glitch software; un evento imprevisto, ¿es posible prevenirlo?

El “glitch software” fue definido en 1965 por el astronauta John Glenn y su equipo de vuelo, como una caída abrupta del voltaje de manera momentánea que provoca el reinicio de los ordenadores. Esto fue precisamente lo que le ocurrió al software «Altéa Amadeus», el cual maneja el sistema de reserva y verificación de pasajeros para ciento veinticinco empresas aéreas en siete países, incluyendo algunas tan conocidas como «British Airways», «Qantas», «Southwest» y «Lufthansa».

Aún recordamos el incidente que protagonizó «British Airways» en mayo de 2017, y ahora se repite la historia a nivel global, pero de manera transitoria. «British Airways” también presentó un percance parecido en agosto 2017, lo que obligó a realizar el abordaje de pasajeros de forma manual; en esa ocasión la compañía ofreció disculpas públicas, pero no se especificó la causa del problema por lo que cabe la posibilidad de que haya sido un incidente no relacionado con un “glitch software”.

La presente falla ocasionó que mucha gente expresara su opinión de manera sarcástica en las redes sociales. Recordad que en este caso no estamos hablando de una falla eléctrica, sino una manera elegante de catalogar un error transitorio como “glitch software”, que se da en determinadas circunstancias y aunque se restablece de manera automática, puede causar muchos problemas. Imaginen pasar 4 horas esperando para embarcar en un avión; eso les ocurrió a los viajeros… ¡costando una gran cantidad de dinero a las aerolíneas al tener en tierra sus aviones mientras esperaban a sus pasajeros!

Lista global de Alté Airlines

¿Qué es un “glitch software”?

El término “glitch software” proviene de los años 60 del siglo veinte, en los albores de la era espacial. Las computadoras todavía eran muy primitivas,P pero sin embargo realizaban el cálculo de las trayectorias de una manera más rápida que cualquier ser humano –y aún lo hacen- así que empezaron a cobrar gran importancia como fuente de datos procesados. Resultó que dichas máquinas eran sensibles a las fluctuaciones de voltaje eléctrico, lo que ocasionaba que se reiniciaran automáticamente y sin una intervención adecuada se recuperaban como si nada, solo ocasionando un leve retraso.

Desde allí quedó plasmado que todo evento imprevisto, del cual podíamos recuperarnos en un relativamente corto período de tiempo humano (para las computadoras más de 200 milisegundos es una eternidad), puede denominarse con el término “glitch software”. Es así que esta denominación en la electrónica se extendió por consecuencia a la informática (es muy común en el campo de los videojuegos), a la transmisión de radio y a la televisión, ¡e incluso en la conducta humana! (consideramos que en un partido de fútbol la regla no escrita sobre “la ley de la ventaja” es un “glitch humano”).

Pero en el siglo XXI, estando en un mundo globalizado, un “glitch software” en un sistema interconectado repercute, sin lugar a duda, en el desempeño de la red o sistema completo. Por ello vamos a ver si es posible prevenirlo o por lo menos evitar su repetición.

Reconocimiento oficial del “glitch software”

La declaración oficial sobre el incidente de «Altéa Amadeus» la podemos leer en este enlace en inglés y traemos la traducción al castellano para poder ver “ambas caras de la moneda”, a pesar que no nombra de manera explícita el “glitch software” ocurrido:

Amadeus puede confirmar que nuestros sistemas se recuperaron y ahora están funcionando con normalidad. Durante la mañana, tuvimos un problema de red que causó interrupciones en algunos de nuestros sistemas. Como resultado del incidente, los clientes experimentaron interrupciones en ciertos servicios. Nuestros equipos técnicos tomaron medidas inmediatas para identificar la causa del problema y mitigar el impacto en los clientes. Amadeus lamenta cualquier inconveniente causado a los clientes.

Altéa Amadeus always sync

La falla de quince minutos

Ese fue el tiempo que tardó el sistema en recuperarse del “glitch software”, pero igual que fichas de dominó, los sistemas a nivel mundial debieron sincronizarse entre sí, lo que ocasionó fallas intermitentes para así sumar finalmente cuatro horas de inconvenientes.

dibujo que ilsutra la espera de 4 horas en el aeropuerto

«Airlines For Europe» es una asociación de quince empresas aéreas que movilizan más quinientos millones de pasajeros en Europa y en su artículo del 27 de julio de 2017 “predijo” retrasos de hasta cuatro horas debido a los nuevos controles migratorios (la imagen que encabeza esta entrada es precisamente la que ellos utilizaron en su campaña de advertencia), pero nunca se imaginaron que sería un “glitch software” lo que a la final desencadenaría y haría realidad su vaticinio de principios de temporada.

La falta de intervención humana es la que implica de manera tácita la intervención de monitoreo automatizado las 24 horas del día, todos los días del año, incansablemente, en búsqueda de posibles fallos o caídas de la red completa a nivel global. Un software como Pandora FMS siempre estará preparado para supervisar miles de nodos, y como está escrito sobre software libre se puede ejecutar en ambiente GNU/Linux, sistema operativo con el cual podemos crear un racimo de ordenadores para crear redundancia en el monitoreo y disponer de una herramienta a la misma medida y tamaño de lo que necesitamos vigilar. También para ese racimo de servidores podemos establecer unas “alertas de correlación de eventos” que podremos recibir en mensaje de texto a nuestro móvil o por medio de las redes sociales como Twitter o Telegram, por ejemplo.

Pandora FMS también tiene complementos para monitorizar grandes cantidades de datos, como ejemplo concreto Apache Cassandra -que es un servidor web para atender directamente al público- y siempre bajo las buenas prácticas -ya que debemos seguir un plan de acción si queremos implementar cualquier sistema de monitoreo serio y confiable-.

Características del problema planteado

Según Bill Curtis, SVP y científico en jefe de la empresa de análisis de software «CAST», determinar las causas exactas del fracaso tomará tiempo: “Los ordenadores de las aerolíneas hacen malabares con varios sistemas que deben interactuar para controlar la puerta, las reservas, la venta de billetes y los volantes frecuentes. Cada una de esas piezas puede haber sido escrita por separado por diferentes empresas.”

“Incluso si una aerolínea tiene sistemas de respaldo, el software que ejecuta esos probablemente tiene la misma falla de codificación. El seguimiento de una falla de software puede ser muy difícil. Es como investigar el crimen; hay una gran cantidad de datos que tienen que tamizar para después tratar de averiguar lo que realmente sucedió.”

En este ambiente de datos dispersos y aparente caos es que planteamos el método de trabajo de Pandora FMS: guardamos toda la información, recopiladas de manera directa o por medio de agentes, segundo a segundo, y es guardado en poderosas bases de datos MySQL (que también podremos poner a trabajar en racimos y réplicas para salvaguardar) y todo esto está disponible para su futuro análisis: somos como la “caja negra” de los aviones ante un “glitch software”.

Conclusiones sobre los “glitch software”

Si bien las aplicaciones informáticas siempre tendrán fallos el contar con un software de monitoreo que recabe la cronología y condiciones al momento de ocurrir un “glitch software” para llevar todos esos datos en un excelente informe bien presentado a los programadores responsables acortarán en gran medida la búsqueda y corrección a futuro, para de esta manera “no volver a tropezar dos veces con la misma piedra”.

«Altéa Suite» es una marca registrada de la empresa «Amadeus», empresa fundada en 1987.

Tiempo de espera a partir de este punto: 4 horas

Shares