Cuando los sistemas primarios de TI de una organización fallan, se utilizan sistemas de conmutación por error para mantener el negocio en funcionamiento. Sin embargo, una vez que los sistemas primarios se arreglan, la organización necesita volver a cambiar, o failback. El failback puede ser un proceso complejo y arriesgado, por lo que es importante contar con un plan antes de que se produzca una interrupción. ¿Cuál es la definición de failback en un clúster? La definición de failback en un clúster es el proceso de pasar un recurso en clúster de un nodo a otro, y luego volver al nodo original cuando esté disponible de nuevo.
¿Cuál es la diferencia entre failover y redundancia?
La principal diferencia entre la conmutación por error y la redundancia es que la conmutación por error es un proceso o técnica que se utiliza para proteger contra los fallos del sistema, mientras que la redundancia es un proceso o técnica que se utiliza para proporcionar una copia de seguridad o capacidad adicional en caso de fallos del sistema.
La conmutación por error es un proceso o técnica que se utiliza para protegerse de los fallos del sistema. Esto puede hacerse teniendo un sistema de reserva que pueda activarse en caso de fallo. La redundancia es un proceso o técnica que se utiliza para proporcionar una copia de seguridad o capacidad extra en caso de fallos del sistema. Esto puede hacerse teniendo capacidad extra o teniendo sistemas duplicados. ¿Cómo define un cluster el failback? Failback es el proceso de devolver un sistema a su ubicación primaria original después de que haya fallado en una ubicación secundaria.
¿Cómo funciona la conmutación por error en HA?
La conmutación por error en HA es un proceso en el que un sistema secundario asume la carga de trabajo de un sistema primario en caso de fallo. El sistema secundario suele estar ubicado en un sitio diferente al del sistema primario, y está configurado para estar en estado de espera. En caso de fallo, el sistema secundario lo detecta y se hace cargo automáticamente de la carga de trabajo.
Hay varias maneras de que el sistema secundario pueda detectar un fallo:
1. Monitoreo de ping: El sistema secundario hace un ping al sistema primario a intervalos regulares. Si el sistema primario no responde al ping, el sistema secundario asume que el sistema primario ha fallado y se hace cargo de la carga de trabajo.
2. Monitorización de aplicaciones: El sistema secundario supervisa la actividad de las aplicaciones del sistema primario. Si el sistema primario deja de responder a las solicitudes de la aplicación, el sistema secundario asume que el sistema primario ha fallado y se hace cargo de la carga de trabajo.
3. Monitorización del sistema: El sistema secundario supervisa la actividad del sistema primario. Si el sistema primario deja de responder a las solicitudes del sistema, el sistema secundario asume que el sistema primario ha fallado y se hace cargo de la carga de trabajo.
Una vez que el sistema secundario se ha hecho cargo de la carga de trabajo, continúa atendiendo solicitudes hasta que el sistema primario vuelve a estar en línea. En ese momento, el sistema primario se hace cargo de la carga de trabajo de nuevo y el sistema secundario vuelve a estar en espera.
¿Qué es la alta disponibilidad y la conmutación por error?
La alta disponibilidad (HA) es un enfoque de diseño de sistemas y de implementación de servicios asociados que garantiza un nivel predeterminado de rendimiento operativo durante un periodo de tiempo determinado. La conmutación por error es un modo operativo de reserva en el que las funciones de un componente del sistema (como un procesador, un servidor, una red o una base de datos) son asumidas por componentes secundarios del sistema cuando el componente principal deja de estar disponible.
Hay muchas maneras diferentes de diseñar la alta disponibilidad, y la cantidad de redundancia y la dispersión geográfica de los componentes redundantes varían dependiendo del enfoque de HA. El enfoque de HA más común es tener componentes redundantes en la misma ubicación, de modo que si un componente falla, el otro puede asumir su función. Este enfoque se denomina a menudo "hot standby" porque los componentes de reserva están siempre "encendidos" y listos para tomar el relevo.
Otro enfoque común de HA es tener componentes redundantes en diferentes ubicaciones, de modo que si una ubicación experimenta una interrupción, la otra ubicación puede tomar el relevo. Este enfoque se conoce a menudo como "redundancia geográfica" o "recuperación de desastres".
La clave para diseñar un sistema de alta disponibilidad es identificar los puntos únicos de fallo y luego diseñar en torno a ellos. Por ejemplo, si una fuente de alimentación es un punto único de fallo, el sistema debe diseñarse con fuentes de alimentación redundantes. Si un servidor es un punto único de fallo, el sistema debe diseñarse con servidores redundantes.
La mayoría de los sistemas de alta disponibilidad están diseñados para que, si un componente falla, el sistema pueda seguir funcionando en un estado degradado hasta que se sustituya el componente que ha fallado. Esto se conoce a menudo como "degradación elegante". Por ejemplo, si una fuente de alimentación falla en un sistema con fuentes de alimentación redundantes, el sistema puede seguir funcionando utilizando la fuente de alimentación restante. Si un servidor falla en un sistema con servidores redundantes, el sistema puede seguir funcionando con los servidores restantes.
El objetivo de la alta disponibilidad es minimizar el tiempo de inactividad y garantizar que el sistema esté siempre disponible para satisfacer las necesidades de la empresa.