
Crédito: CC0 Dominio público
El lunes 20 de octubre, millones de usuarios de Internet recibieron una dolorosa respuesta a una pregunta que pocos sabían que existía. La pregunta era: ¿Qué tienen en común Snapchat, Roblox, Fortnite, Signal, las aerolíneas United y Delta y muchos otros sitios y servicios basados en la web?
La respuesta es: todos fueron destruidos por una falla en cascada en un centro de datos en el norte de Virginia, propiedad y operado por Amazon Web Services, una rama de la gigante empresa de comercio electrónico.
AWS es una de las tres principales plataformas en la nube, lo que significa que mantiene los datos de sus clientes en sus propios servidores y gestiona la transferencia y transmisión de esos datos dentro de las empresas clientes y entre estas y los usuarios finales.
Cuando el centro de datos de AWS en el norte de Virginia dejó de funcionar unos minutos antes de la medianoche del domingo, hora de verano del Pacífico, 141 servicios de AWS se apagaron, junto con las empresas clientes que dependían de su centro, lo que produjo una cascada de interrupciones que afectaron a usuarios de todo el mundo. Los usuarios de los dispositivos de seguridad para el hogar Ring de Amazon, como los timbres con video, se vieron afectados.
Amazon no declaró que el problema se había solucionado hasta las 3:53 pm PDT del lunes, aunque algunos clientes todavía informaban problemas hasta el martes.
El daño causado a los clientes de AWS y a sus millones de usuarios es incalculable. Como informó mi colega Queenie Wong, los usuarios de la web no podían acceder a sus servicios o cuentas.
Los clientes de algunos bancos, así como de la correduría web Robinhood, no pudieron completar las transacciones. Los pasajeros de Delta y United no pudieron realizar un seguimiento de las reservas, realizar el check-in en línea ni recuperar sus asignaciones de asientos; Los empleados de las aerolíneas se vieron obligados a recurrir a alternativas manuales, como en tiempos prehistóricos (es decir, anteriores a Internet).
Los propietarios de fundas de colchones Eight Sleep, que cuestan miles de dólares y requieren una tarifa anual de $300 o $400, usan una aplicación web para ajustar la temperatura y la inclinación, informaron estar atrapados en posiciones incómodas y sofocarse bajo un calor incontrolable. El director ejecutivo de la compañía se disculpó en línea y dijo que Eight Sleep implementaría una función que permitiría a los propietarios conectarse con sus camas a través de Bluetooth si fallaba la conexión a Internet.
La interrupción seguramente generará dudas sobre si Amazon (y sus colegas de las grandes tecnologías) supervisan sus sistemas con el rigor apropiado para servicios cruciales con una huella global. Como dicen los abogados, «res ipsa loquitur»: «la cosa habla por sí sola». La respuesta que da es «no».
En los viejos tiempos, cuando el «servicio telefónico simple» o POTS, estaba completamente bajo el control de una sola compañía, AT&T, el compromiso de la compañía era una confiabilidad de «cinco nueves», lo que significaba que funcionaba el 99,999% del tiempo, o no toleraba más de 5,26 minutos de tiempo de inactividad por año. Dado que los sistemas AWS estuvieron inactivos esta semana durante al menos 15 horas, o 900 minutos, efectivamente arrojó ese estándar a la basura.
El estándar de los cinco nueves reflejaba la convicción de que el servicio telefónico era demasiado importante como para no estar, de hecho, siempre activo. Los proveedores de servicios de alta tecnología actuales a menudo parecen adoptar la actitud de que lo suficientemente bueno debería serlo para cualquiera.
Como señalé el año pasado, algunas de las empresas más ricas de la actualidad se embolsan miles de millones de dólares en ganancias, pero no gastan lo suficiente para proteger los datos personales privados de sus clientes de los piratas informáticos; por ejemplo, AT&T, que obtuvo una ganancia antes de impuestos de 16.700 millones de dólares el año pasado, fue tan descuidada a la hora de proteger la información privada de sus clientes que los datos de casi todos esos clientes (110 millones de usuarios) terminaron en manos de piratas informáticos «motivados financieramente».
Amazon ha declarado, hasta ahora de manera convincente, que su interrupción no fue causada por piratas informáticos u otros actores hostiles. Provino enteramente del interior de la casa, por así decirlo.
Para mantener el galimatías técnico al mínimo, digamos simplemente que algo falló en su sistema de nombres de dominio, lo que permite al sistema traducir la dirección web que usted escribe en su navegador para comunicarse con el sitio web mismo. La confusión tecnológica se extendió por toda la estructura de AWS, lo que provocó problemas en el sitio web y en los usuarios. Amazon dice que eventualmente proporcionará un «resumen posterior al evento» que identifique la causa de la interrupción.
Amazon claramente merece la mayor parte de la culpa por el fiasco. Algunos observadores de Amazon han conjeturado que el problema puede estar relacionado con despidos masivos que la compañía implementó en el verano en su unidad de computación en la nube, con los puestos de trabajo supuestamente reemplazados por inteligencia artificial. La empresa confirmó los despidos pero no dijo cuántos puestos de trabajo se eliminaron; Reuters informó que eran cientos.
Amazon descarta las especulaciones de que la interrupción esté relacionada con los despidos. Un portavoz me señaló una entrevista en la que el director ejecutivo de AWS, Matt Garman, desdeñaba la idea de reemplazar el personal de nivel básico con robots de inteligencia artificial, calificándolo de «una de las cosas más tontas que he escuchado». Dicho esto, no está claro quién en la unidad de la nube fue despedido.
Algunos expertos en tecnología han emitido advertencias durante años acerca de que los operadores de sitios web no tienen un plan B a mano para exactamente el tipo de interrupción que se produjo esta semana. AWS no es la única plataforma en la nube que existe. Microsoft y Google son los otros miembros de los tres primeros.
Los usuarios de AWS tampoco están obligados a depender del centro de datos de la empresa en el norte de Virginia. AWS tiene centros de datos en todo el país y recomendó a los usuarios cambiar a cualquiera de los otros, pero con el centro de Virginia fuera de servicio, los usuarios no tuvieron suerte si no habían implementado una solución alternativa antes de este problema.
Los departamentos de TI deberían «diseñar para el fracaso (porque sucederá)», aconsejó esta semana Lydia Leong de la firma de consultoría tecnológica Gartner. «Las aplicaciones modernas nativas de la nube deben distribuir cargas de trabajo en múltiples zonas de disponibilidad y estar listas para conmutar rápidamente a otra región cuando sea necesario», escribió Leong; en otras palabras, estar configuradas para trasladar automáticamente sus datos lejos de los puntos problemáticos. «No se trata de eliminar el riesgo; se trata de reducir el radio de la explosión y el tiempo de recuperación».
Este problema puede ser un artefacto de la historia de Internet, como señaló Jorg Dekker, de la empresa troncal de Internet Arelion. Internet fue diseñado como un sistema neutral que confía en que todos los datos que fluyen a través de sus redes conectadas sean, bueno, confiables.
«Esto significa que se supone que todas las actualizaciones son válidas, que una red puede anunciar lo que quiera y que no se pueden comprobar los recursos disponibles», señaló.
Los diseñadores originales de la red abordaron esa imperfección al permitir que la red alejara los datos de bloqueos u otros problemas. «Internet evita el daño» es el mantra, pero eso no siempre funciona, especialmente cuando el daño está en una funcionalidad central. Y a veces no se debe confiar en las actualizaciones confiables.
Ese fue el caso de la interrupción de CrowdStrike el año pasado. Una actualización mal diseñada de un programa implementado por la empresa de ciberseguridad e instalado automáticamente en las máquinas de los usuarios bloqueó instantáneamente millones de computadoras que ejecutaban programas de Microsoft y las dejó desactivadas hasta que se pudieran realizar correcciones manuales.
La aplicación errante CrowdStrike estaba tan profundamente enterrada en el sistema operativo de Microsoft (como está diseñada para serlo) que cada vez que una máquina se reiniciaba, se topaba con el mismo fallo y volvía a quedar inactiva en un bucle infinito. Como escribí entonces: «Se cancelaron miles de vuelos. Los médicos no pudieron realizar cirugías. Se congelaron las transacciones bancarias. Las líneas de emergencia del 911 quedaron en silencio».
Sin duda, hay beneficios en colocar las columnas vertebrales cruciales de Internet bajo el control de tres de las empresas de tecnología más ricas del mundo. Después de todo, tienen los recursos financieros para mantener la calidad y la confiabilidad. Lo malo es que sus sistemas funcionan absolutamente perfectamente hasta el momento en que dejan de funcionar; Es entonces cuando la dependencia global de unos pocos grandes operadores se convierte en una crisis global.
La característica ineludible de la vida moderna es que, cada vez más, cualquiera que viva en el mundo moderno no tiene dónde esconderse de los errores de los servicios web. No se trata simplemente de que nuestras llamadas telefónicas de voz y datos, correo electrónico y entretenimiento de vídeo se realicen a través de la web, sino que algunos electrodomésticos requieren una conexión a Internet para funcionar.
No puedo ajustar el modo de cancelación de ruido en mis auriculares Bose excepto a través de una aplicación de teléfono; Lo mismo ocurre con mi ultraelegante cafetera automática y mi taza de café autocalentable. El otro día, cuando intentaba agregar una línea a mi cuenta familiar de T-Mobile, T-Mobile insistió en que cargara una aplicación de T-mobile en mi iPhone (que no es de T-Mobile) para completar el trato, y yo estaba sentado en una tienda de T-mobile con un representante de T-mobile en ese momento.
Sin embargo, cada vez se comercializan más electrodomésticos con una capacidad innecesaria de Internet, lo que refleja el nirvana del Internet de las cosas promovido por los promotores web y los fabricantes de electrodomésticos. Una buena regla general puede ser que si su refrigerador o estufa no necesita una conexión a Internet para funcionar, no lo conecte. De esa manera, no se convertirá en un ladrillo con cerebro debido a un error humano en algún lugar del norte de Virginia.
La conectividad web nos ha traído beneficios inimaginables incluso a principios del siglo más reciente. Pero como ocurre con todo, los beneficios conllevan cargas. Unas pocas líneas de código renegado pueden hacer retroceder nuestras vidas en el siglo XXI al mundo de los años cincuenta o sesenta.
En aquel entonces, cuando nuestros electrodomésticos eran mecánicos o eléctricos, no electrónicos, una avería era fácil de diagnosticar y reparar: desconectar un tubo de vacío o apretar un tornillo. Hoy en día, si su televisor se apaga y no puede obtener HBO Max, no puede tener idea de dónde está el problema: dentro del televisor, en su decodificador de cable o en HBO Max.
Sólo tiene que esperar a que alguien solucione el problema, esperando en todo momento que el problema no esté sólo en su casa o en su vecindario, sino que esté lo suficientemente disperso como para que los proveedores de servicios se den cuenta y hagan rodar un camión. Todos vivimos en un acto de equilibrio: la tecnología actual es excelente cuando funciona. Cuando no es así, estamos solos. Hay una lección en alguna parte.
2025 Los Ángeles Times. Distribuido por Tribune Content Agency, LLC.
Citación: La gran interrupción de Amazon nos recuerda que confiamos demasiado en las grandes empresas de tecnología (2025, 24 de octubre) recuperado el 24 de octubre de 2025 de https://techxplore.com/news/2025-10-amazon-big-outage-tech-companies.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.


