Tolerância a falhas é a propriedade de qualquer equipamento ou sistema permanecer operacional após a falha de um ou mais componentes.
A confiabilidade de um sistema tolerante a falhas é caracterizada pelo número de Noves. Por exemplo, qualquer página da Web garante uma operação estável em 99% dos casos, e o banco de dados de uma organização de nível Sberbank garante 99,9999%.
ESPECIFICAÇÕES
Um sistema tolerante a falhas é caracterizado pela presença de elementos redundantes. Convencionalmente, pertencem aos seguintes tipos:
1. A parte do software. A presença de uma aplicação idêntica em cada módulo do sistema de informação. É obrigatório ter um software de controle que monitore o status de cada nó e redirecione a carga.
Um exemplo marcante é o esquema de clustering baseado no módulo Cluster da Veritas. Se um elemento falhar, o aplicativo o desconecta do cluster e redistribui a carga para o restante.
2. A parte de hardware. Semelhante ao anterior, mas aqui a redundância ocorre no nível dos módulos lógicos ou equipamentos. Por exemplo, um sistema de armazenamento de dados possui elementos duplicados: dois controladores, duas fontes de alimentação, dois adaptadores de rede, etc. Se um dos módulos falhar, a carga é distribuída para o segundo.
A redundância no nível do hardware implica a presença de vários dispositivos com características semelhantes. Um exemplo é um servidor de alta densidade com nós de computação instalados em seu interior.
3. A parte resistente a desastres. Esse tipo de reserva é fornecido apenas para sistemas de missão crítica, pois está associado a altos custos financeiros e à disponibilidade de especialistas qualificados.
O esquema de redundância é transferido para a escala dos data centers. Infraestruturas semelhantes estão sendo construídas em dois locais diferentes. A comunicação é estabelecida entre eles e, em seguida, é utilizado um software especializado.
O primeiro desses softwares foi criado pela NetApp, conhecida por suas inovações tecnológicas na área de sistemas de armazenamento de dados. O fornecedor desenvolveu um produto MetroCluster que reserva totalmente todos os componentes do data center em um local remoto. Mesmo que um dos data centers desligue completamente, o segundo se recuperará totalmente em alguns segundos.
Para construir sistemas tolerantes a falhas, A infraestrutura atual do cliente é primeiro auditada para identificar vulnerabilidades.
A próxima etapa determina os riscos Em caso de perda de um dos elementos da infraestrutura. São consideradas diferentes variantes de eventos, nos quais o cliente sofrerá perdas máximas. Com base nas informações recebidas, está sendo desenvolvido um esquema para a construção de um sistema tolerante a falhas de elementos necessários. Como resultado, o cliente recebe uma solução abrangente que cobrirá os riscos o máximo possível a um custo aceitável.
A tolerância a falhas é um indicador importante de qualquer sistema de informação. A redundância pode ocorrer em diferentes níveis do IP, começando com o software e terminando com o data center.