Webinar
Eventos ITGLOBAL.COM
Tolerância a falhas

Tolerância a falhas é a propriedade de qualquer equipamento ou sistema permanecer operacional após a falha de um ou mais componentes.

A confiabilidade de um sistema tolerante a falhas é caracterizada pelo número de Noves. Por exemplo, qualquer página da Web garante uma operação estável em 99% dos casos, e o banco de dados de uma organização de nível Sberbank garante 99,9999%.

ESPECIFICAÇÕES

Um sistema tolerante a falhas é caracterizado pela presença de elementos redundantes. Convencionalmente, pertencem aos seguintes tipos:

1. A parte do software. A presença de uma aplicação idêntica em cada módulo do sistema de informação. É obrigatório ter um software de controle que monitore o status de cada nó e redirecione a carga.

Um exemplo marcante é o esquema de clustering baseado no módulo Cluster da Veritas. Se um elemento falhar, o aplicativo o desconecta do cluster e redistribui a carga para o restante.

2. A parte de hardware. Semelhante ao anterior, mas aqui a redundância ocorre no nível dos módulos lógicos ou equipamentos. Por exemplo, um sistema de armazenamento de dados possui elementos duplicados: dois controladores, duas fontes de alimentação, dois adaptadores de rede, etc. Se um dos módulos falhar, a carga é distribuída para o segundo.

A redundância no nível do hardware implica a presença de vários dispositivos com características semelhantes. Um exemplo é um servidor de alta densidade com nós de computação instalados em seu interior.

3. A parte resistente a desastres. Esse tipo de reserva é fornecido apenas para sistemas de missão crítica, pois está associado a altos custos financeiros e à disponibilidade de especialistas qualificados.

O esquema de redundância é transferido para a escala dos data centers. Infraestruturas semelhantes estão sendo construídas em dois locais diferentes. A comunicação é estabelecida entre eles e, em seguida, é utilizado um software especializado.

O primeiro desses softwares foi criado pela NetApp, conhecida por suas inovações tecnológicas na área de sistemas de armazenamento de dados. O fornecedor desenvolveu um produto MetroCluster que reserva totalmente todos os componentes do data center em um local remoto. Mesmo que um dos data centers desligue completamente, o segundo se recuperará totalmente em alguns segundos.

Para construir sistemas tolerantes a falhas, A infraestrutura atual do cliente é primeiro auditada para identificar vulnerabilidades.

A próxima etapa determina os riscos Em caso de perda de um dos elementos da infraestrutura. São consideradas diferentes variantes de eventos, nos quais o cliente sofrerá perdas máximas. Com base nas informações recebidas, está sendo desenvolvido um esquema para a construção de um sistema tolerante a falhas de elementos necessários. Como resultado, o cliente recebe uma solução abrangente que cobrirá os riscos o máximo possível a um custo aceitável.

A tolerância a falhas é um indicador importante de qualquer sistema de informação. A redundância pode ocorrer em diferentes níveis do IP, começando com o software e terminando com o data center.

Usamos cookies para otimizar a funcionalidade do site e aprimorar nossos serviços. Para saber mais, leia nossa Política de Privacidade.
Configurações de cookies
Cookies estritamente necessários
Cookies analíticos