Hora da revisão: dados estruturados e não-estruturados na nuvem
Você já ouviu falar sobre dados estruturados e não estruturados na nuvem? Não?
Já é lugar comum, ao comentar sobre dados, mencionar a quantidade e velocidade com que vêm sendo obtidos. Enquanto antigamente a obtenção do endereço e número de telefone do cliente representava oportunidades futuras de negócio, hoje isso já não é mais suficiente.
As informações que fazem diferença atualmente são provenientes de dispositivos, redes sociais, questionários, observação, pesquisas em sites de busca, cliques, mineração de dados e assim por diante.
É por meio da filtragem e processamento desses dados que decisões administrativas têm sido tomadas, pelo menos nas grandes empresas.
Contudo, é um erro pensar que apenas empresas com grandes equipes de TI e muitos recursos podem usufruir das informações geradas a partir de dados obtidos na rede.
Saiba como a IT Broker aumentou sua rentabilidade com a ajuda da nuvem!
Confira como a nuvem ajudou a Tracan a otimizar os negócios!
Maximiza é destaque no Microsoft Inspire para soluções Cloud e casos de sucesso, em Washington, D.C.
Qualquer empresa pode criar estratégias a partir da visualização de padrões desde que consiga obter dados suficientes para realizar essa análise. Esse conjunto composto entre obtenção, armazenamento e utilização de dados em larga escala é o que tem sido chamado de Big Data.
Nesse contexto entra a computação em nuvem, que permite não só armazenar remotamente todos esses Terabytes como também utilizar AaaS (Análise como Serviço) remotamente, uma vez que o processamento local em busca de relações é oneroso — para não dizer impossível.
Dessa forma, este texto foi elaborado para ambientar o profissional nesse não tão novo paradigma de armazenamento e utilização de grande quantidade de dados. De forma didática, será explicado como são armazenados dados estruturados e não-estruturados na nuvem.
Mas primeiro veremos quais as características de cada um desses tipos de dados. Vamos lá?
Dados estruturados e não-estruturados
A separação dos dados se dá porque as tecnologias que tornam possíveis sua obtenção, armazenamento e utilização devem ser padronizadas. Os dois tipos de dados utilizados hoje são basicamente o estruturado e não-estruturado.
Além disso, existe o meio termo entre esses dois, o chamado dado semiestruturado.
Estruturados
Dados estruturados possuem etiquetas ou formas fáceis de recuperação, como numeração e classes. São aqueles mais utilizados, mas não mais abundantes. São armazenados em SGBD (Sistemas de Gerenciamento de Banco de Dados, como em SQL) com as mesmas descrições.
Assim, o armazenamento e processamento são feitos em ambientes separados. A análise nesse caso se dá de forma praticamente direta, pois é fácil discretizar ou ranquear seus valores.
Semiestruturados
É um meio termo no qual constam dados que não são mantidos em SGBDs, mas em Data Lakes, conceito de armazenamento que veremos mais para a frente.
São dados web que possuem organização bastante heterogênea e distinção nebulosa entre estrutura e valor, o que dificulta sua consulta e classificação. De forma geral não são estritamente classificados.
Não-estruturados
Dados provenientes de textos, vídeos e áudios fazem parte deste tipo de dados.
Eles vêm de aplicativos e redes sociais diretamente para nuvem. São tipos de arquivos que requerem pré-processamento para que informações possam ser retiradas.
Depois de pré-processados são tratados como dados estruturados, logo se torna necessário sumarizá-los, permitir que sejam auditáveis e submetê-los a políticas de privacidade.
O valor dos dados não-estruturados não é facilmente obtido, visto que são muito variados. Aliás, variedade é um dos quatro grandes “V” da utilização de Big Data. Os outros são volume, velocidade e valor.
Para identificar o quão valiosos são é necessário um monitoramento visual, comparação e descobrimento de fatos interessantes (tarefa atualmente destinado ao cientista de dados).
Por exemplo, não é fácil retirar de milhões de Tweets ou de postagens no Facebook padrões de comportamento de determinado perfil de consumidor.
Outro ponto importante é a forma como se dá o armazenamento.
Modelos de armazenamento
Os modelos de armazenamento seguem as necessidades de processamento e estrutura dos dados que lá são armazenados.
Quando estruturados, é utilizado o tradicional Data Warehouse. Já em casos não-estruturados ou semiestruturados torna-se necessário Data Lake.
Data Warehouses
O tipo de armazenamento mais comum é chamado de Data Warehouse, ou armazém de dados.
Lá são armazenados dados estruturados/processados. Acaba custando caro, pois é demandado por profissionais que exigem níveis altos de segurança.
Dados inseridos em Data Warehouse necessitam de uma modelagem anterior a seu armazenamento, o que fornece formato e estrutura ao dado e que também contribui para aumento do custo.
É um modelo engessado e com pouca agilidade devido às suas configurações preestabelecidas.
Data Lake
É um conceito de armazenamento que muitos dizem ser o mesmo de Data Warehouse. No entanto, Data Lake é um repositório que armazena grande quantidade de dados de todos os tipos em sua forma original.
Neste modelo, a atribuição da estrutura e forma do dado é realizada apenas na leitura. Como desvantagem, Data Lake ainda não tem a segurança maturada, sendo utilizado na sua maioria pela comunidade acadêmica ou por demais usuários com algumas restrições e limitações de uso.
Diferente do modelo anterior, esse tem grande agilidade e permite a reconfiguração de acordo com a aplicação.
Dadas essas características, torna-se desnecessário dizer que esse modelo de armazenamento é o fundamento da Big Data e da utilização de dados não estruturados.
Utilização dos dados em larga escala
Ao contrário dos SGBD (Sistemas de Gerenciamento de Banco de dados, como SQL), que fornecem apenas uma interface para que o aplicativo cliente não precise gerenciar o banco de dados, o Hadoop provê um sistema de processamento integrado.
Hadoop é um framework open source em Java de distribuição de arquivos e execução de aplicativos na nuvem. É utilizado quando se possui muitos dados (não-estruturados, por exemplo) e não se sabe o que fazer com eles, tampouco pode excluí-los.
Como realiza tanto o armazenamento como processamento, não é considerado um banco de dados tradicional. Fornece armazenamento para qualquer tipo de dados, grande poder de processamento e a habilidade de lidar virtualmente com uma infinidade de jobs e tarefas simultâneas.
Consegue lidar com os gargalos existentes em análises tradicionais, pois processa as tarefas em pequenos lotes, separadas em diferentes clusters, que são agrupadas novamente de maneira lógica e eficaz.
Conhecer as ferramentas que permitem que o negócio dê um passo na tomada de melhores decisões é dever do gestor.
Esse objetivo está mais perto de ser atingido com esses conceitos básicos, explicados para atualizar acerca das tecnologias atuais de análise de dados em larga escala e armazenamento de dados estruturados e não-estruturados na nuvem.
Gostou de saber mais sobre dados estruturados e não-estruturados na nuvem? Tem algum amigo que gostaria de saber também? Compartilhe nosso post em suas redes sociais!