Um sistema de armazenamento de dados (DSS) é um complexo de hardware e software projetado para armazenar e processar informações, geralmente de grande volume. Informações são arquivos, incluindo mídia, dados estruturados (DBMS) e não estruturados (big data), backups, arquivos. Os discos rígidos são usados como mídia de armazenamento, principalmente SSDs (All Flash Array systems), bem como soluções híbridas que combinam unidades SSD e HDD em um armazenamento.
Os sistemas de armazenamento diferem de um disco rígido do usuário em sua arquitetura complexa, a capacidade de combinar armazenamento em uma rede de dados, a disponibilidade de software separado para gerenciar o sistema de armazenamento, tecnologias avançadas de backup, compactação e virtualização.
Os sistemas de armazenamento de dados diferem em vários parâmetros, cuja escolha determina o uso do armazenamento.
selecione Armazenamento
Níveis de armazenamento
Armazenamento em bloco
O armazenamento é usado como um disco normal, que pode ser formatado, instalado nele pelo sistema operacional e criar discos lógicos. Os dados são armazenados não em arquivos, mas em blocos, o que acelera as operações de E/S. É mais utilizado em redes do tipo SAN (Storage Attached Network). É indicado para computação de alto desempenho, SGBD, armazenamento de grandes quantidades de dados, como ambientes de desenvolvimento (Dev/Test). Das desvantagens: a) a complexidade de configuração e manutenção, que exigem qualificações adequadas; b) Alto custo.
Armazenamento De Arquivos
Os dados são armazenados como arquivos que são colocados em diretórios. Esse sistema de armazenamento é usado para armazenar informações “Frias” que não são necessárias para cálculos operacionais. NAS (Network Attached Storage) geralmente são construídos em armazenamentos de arquivos. Desvantagens: com o acúmulo de grandes quantidades de dados, a hierarquia de pastas se torna mais complicada e a velocidade da operação de armazenamento diminui gradualmente. Não é adequado para cargas que exigem uma alta taxa de resposta.
Armazenamento De Objetos
Um tipo de armazenamento focado em trabalhar com grandes dados não estruturados de até petabytes de tamanho. As informações são armazenadas não como arquivos, mas como “objetos” com um identificador exclusivo e metadados. Portanto, o armazenamento de objetos é semelhante em estrutura a um banco de dados. Ele é usado em análises, big data, aprendizado de máquina, para armazenar arquivos de mídia e backups “pesados”, desenvolver e operar Aplicativos na nuvem e hospedar sites. Em termos de velocidade, é inferior ao armazenamento em bloco em tarefas relacionadas a cargas transacionais.
Acesso à rede
NAS (network-attached storage)
Um servidor de arquivos conectado à rede local. O acesso ao armazenamento em disco é organizado através de protocolos NFS (em sistemas UNIX/Linux) ou CIFS (Windows). O NAS é usado para trabalhar com dados do tipo arquivo que precisam de acesso simultâneo coletivo-por exemplo, a documentos compartilhados do Word e Excel. O NAS funciona “em cima” de uma LAN existente, via switches/roteadores compartilhados.
SAN (storage area network)
Uma rede que é adequada para usar diferentes tipos de armazenamento (discos, unidades ópticas, matrizes de fita), mas que são percebidos pelo sistema operacional como um único armazenamento de dados lógico ou como um disco lógico de rede. Protocolos: iSCSI (IP-SAN) e FibreChannel (FC). Os adaptadores HBA (Host Bus Adapter) são usados para conectar computadores. A SAN usa principalmente um tipo de bloco de armazenamento de dados.
A separação SAN/NAS não é mais tão rígida como era no início dos anos 2000, pois com o advento do protocolo iSCSI, os fabricantes passaram a produzir soluções híbridas.
Tolerância a falhas
Para avaliar a capacidade do armazenamento de se recuperar de falhas, são utilizados dois indicadores — RPO e RTO.
RPO (objetivo do ponto de recuperação)
O período para o qual os dados serão perdidos é entre o momento do acidente e o momento em que o último backup foi criado. Se o RPO for igual a 12 horas, se o armazenamento falhar, os dados acumulados nas últimas 12 horas poderão ser perdidos. O RPO afeta a escolha da tecnologia de recuperação de desastres e depende do custo de perda de uma quantidade específica de dados.
RTO (recovery time objective)
O tempo necessário para restaurar o acesso ao armazenamento. O valor do RTO é importante para estimar o custo do tempo de inatividade do sistema.
Backup
A frequência de backups é selecionado com base em tarefas específicas e no nível de proteção exigido. O mesmo se aplica ao posicionamento: os dados de trabalho e seu backup podem ser armazenados em armazenamento distribuído geograficamente (por exemplo, em data centers localizados em diferentes países e até continentes).
Além dos backups, são feitos snapshots — snapshots que são usados para reverter para a versão de trabalho mais recente do sistema.
Deduplicação é usado para fazer com que os backups ocupem menos espaço. Nesse caso, apenas os dados alterados são copiados para a cópia. A diferença entre backups não ultrapassa 2% em média, então a desduplicação ajuda a economizar espaço em disco.
Como escolher um sistema de armazenamento
Em primeiro lugar, você precisa entender quais tarefas Ele resolverá. Antes de entrar em contato com o fornecedor (ou integrador), você deve determinar vários parâmetros básicos.
Tipo de dados
Diferentes tipos de dados exigem diferentes velocidades de acesso, tecnologias de processamento, compactação e assim por diante. Por exemplo, um sistema de armazenamento para trabalhar com grandes arquivos de mídia difere de um adequado para trabalhar com um DBMS transacional ou de um sistema que funcionará com dados não estruturados para uma rede neural.
A quantidade de dados
A escolha das unidades de disco depende disso. Às vezes você pode fazer com um SSD de consumo—se você sabe que a capacidade de armazenamento, mesmo no pior dos casos, não excederá 300 GB, e a velocidade de acesso não é crítica.
Tolerância a falhas
É preciso imaginar qual é o custo da perda de dados em um determinado período de tempo. Isso ajudará você a calcular o RPO e o RTO, além de evitar custos desnecessários de backup.
Eficiência
Se o armazenamento está sendo comprado para um novo projeto (serviço), cuja carga é difícil de julgar, é melhor se comunicar com colegas que já resolveram esse problema. Ou entre em contato com um fornecedor experiente que já lançou projetos semelhantes. O ideal é testar o armazenamento.
Vendor
Às vezes, até mesmo uma solução de baixo custo ou nível médio (StarWind, Huawei, Fujitsu) é adequada para um serviço com uso intensivo de recursos. No entanto, os principais fabricantes — NetApp, HPE, Dell EMC — possuem uma linha de produtos bastante ampla, e sistemas de armazenamento relativamente baratos também podem ser encontrados aqui. De qualquer forma, é aconselhável não expandir muito o número de fornecedores na mesma infraestrutura.