Tolerância a falhas
É a capacidade de um sistema apresentar um comportamento muito bem definido na ocorrência de falhas ativas, utilizando-se de técnicas que aumentem a segurança e a operacionalidade do sistema.
Há também duas formas intermediárias de tolerância as falhas: o defeito seguro, que garante o estado seguro do sistema, mas nada diz sobre o seu estado operacional; e, tolerância a falhas sem mascaramento, onde o sistema permanecerá operacional, mesmo que ingresse num estado inseguro.
A redundância é a chave para se conseguir a tolerância a falhas e os sistemas distribuídos se utilizam de múltiplas formas de redundância, como:
Técnica conhecida como N-version programming, que considera duas ou mais versões de um só algoritmo;
XReplicação de partes componentes de um sistema, ou até mesmo o sistema como um todo, sendo para alguns a única forma capaz de permitir a tolerância de falhas permanentes;
XHá técnicas que utilizam os códigos de paridade onde a redundância na informação pode ser suficiente;
XSão métodos caracterizados pela repetição da mesma atividade uma ou mais vezes, visto que a causa do problema é de natureza atemporal. É mais utilizada na detecção de erros que resultem da ocorrência de falhas transientes.
X