QAbalgando por la historia (IV): AT&T en 1990, el gran colapso de la red a larga distancia

27 enero, 2022

Testing de Software

Nuestra serie de post que agrupamos bajo el título ‘QAbalgando por la historia’ continúa con este hecho que nos relata nuestro compañero Fernando Rosique. Un problema con el software, no detectado, generó una grave incidencia en el funcionamiento de los servicios de la compañía de telecomunicaciones AT&T.

[contact-form-7 id="22307" title="Formulario Blog"]

Hoy traemos un caso que invita a la reflexión, ya que afectó a una gran compañía que daba un excelente servicio, cuidando al máximo sus estándares de operatividad y revisando continuamente sus procesos de actualización de software. Sin embargo, en esta ocasión que narramos, si hubieran introducido un requisito de tolerancia al fallo en el diseño del software que pudiera haber manejado problemas menores sin apagarse, podría haber reducido en gran medida los efectos del defecto.

MTP es una empresa que trabaja en la mejora continua del aseguramiento integral de negocios digitales atendiendo a todas las fases del proyecto, con el objetivo de encontrar sutiles deficiencias como esta que comentamos,  que condujo a un bloqueo de las comunicaciones de un país como no se había conocido nunca.

Colapso en las comunicaciones

A las 2:39 PM del 15 de enero de 1990, el Centro de Operaciones de AT&T de Nueva Jersey, USA, detectaba que su red de ordenadores era incapaz de gestionar las llamadas de su red telefónica. El colapso bloqueó 50 millones de llamadas y duró nueve horas, durante las cuales el país entró en pánico.

La red estaba formada por 114 conmutadores computerizados capaces de gestionar 700.000 llamadas por hora. El proceso estándar de detección, reserva  y verificación de calidad de línea llevaba solo unos segundos. Si en este proceso el sistema detectaba un error en uno de los interruptores, este debía reiniciarse y enviar un mensaje al resto de que no recibiría más llamadas hasta nuevo aviso. El software contenía funciones de auto-reparación que aislaban los interruptores defectuosos.

Un defecto de programación permitió la sobreescritura de un mensaje sobre otro anterior, lo que dio lugar a una señal de anomalía que forzó el reinicio de cada unidad y se replicó de un conmutador a otro en modo cascada. El defecto consistía en una única sentencia “break” que se introdujo indebidamente o no se borró durante la programación, y que una vez compilada pasó inadvertida en las pruebas posteriores, permitiendo la sobreescritura.

AT&T, obsesionado con la fiabilidad, había diseñado el sistema bajo una estructura de comprobación llamado de ‘democracia paranoica’, donde los interruptores y otros módulos se monitoreaban constantemente entre sí para determinar si estaban ‘cuerdos’ o ‘locos’. Cuando todos los módulos se ‘volvieron locos’ a la vez, el sistema colapsó.

MTP cubre todos los aspectos del negocio relacionado con el software; además del aseguramiento de la calidad, trabajando en aspectos como experiencia de usuario (UX) o la ciberseguridad, entre otros.

 

Fernando Rosique

DBA Hub

 

 

Otros post de QAbalgando por la historia:

 

QAbalgando por la historia (I): Grace Murray Hopper

Qabalgando por la historia (II): Mars Climate Orbiter, el error de conversión que nos dejó sin fotos de Marte

QAbalgando por la historia (III): La destrucción del Mariner I (1962)

Ver más historias