Essa sigla significa Extração, Transformação e Carga (em inglês Extract, Transform and Load) e trata da sistematização do tratamento e limpeza dos dados oriundos dos diversos sistemas organizacionais (OLTP) para a inserção, geralmente, em um DW ou Data Mart. ...
ETL é um tipo de data integration em três etapas (extração, transformação, carregamento) usado para combinar dados de diversas fontes. Ele é comumente utilizado para construir um data warehouse.
Um data warehouse é um tipo de sistema de gerenciamento de dados projetado para ativar e fornecer suporte às atividades de business intelligence (BI), especialmente a análise avançada.
Comparação entre data warehouses e data lakes
Data Warehouse é uma organização de banco de dados para análises e business intelligence, surgiu como um conceito acadêmico, criado na década de 1980. Sua arquitetura e desenho é voltado para processamento e armaznemanto de altos volume de dados.
Segundo Date (2004) “Data Warehouse (que no português significa, literalmente armazém de dados) é um deposito de dados orientado por assunto, integrado, não volátil, variável com o tempo, para apoiar as decisões gerenciais”.
Data mining é um processo em que a tecnologia é utilizada para localizar padrões, conexões, correlações ou anomalias em uma grande quantidade de dados, permitindo encontrar problemas, hipóteses e oportunidades com mais facilidade.
Em outras palavras, as ferramentas de Data Mining analisam os dados, descobrem problemas ou oportunidades escondidas nos relacionamentos dos dados, e então diagnosticam o comportamento dos negócios, requerendo a mínima intervenção do usuário.
O data lake é um tipo de repositório que armazena conjuntos grandes e variados de dados brutos em formato nativo. Com os data lakes, você tem uma visão não refinada dos dados. Essa estratégia de gerenciamento é cada vez mais usada por empresas que querem um grande repositório holístico para armazenar dados.
Data Lake é um espaço com grande capacidade de armazenamento de dados. Ele é capaz de abranger todo tipo de informação, seja ela estruturada ou não-estruturada, em qualquer escala. Assim, ele permite que as empresas organizem seus dados a fim de obterem insights para tomada de decisão com rapidez e precisão.
Os dados abrigados no data lake não passaram pelo processo de tratamento de dados, já que sua proposta é armazenar e prover acesso a um número elevadíssimo de dados brutos de categorias variadas em um só lugar. Em outras palavras: simplificação na forma como trabalhar com dados não estruturados.
As 5 fases de um projeto de Data Science
Você precisa garantir que seu leitor ou ouvinte entenda o que você alcançou no seu projeto, assim como explicar cada parte do seu código, se for o caso. Clique aqui e seja um Patreon! Comece falando sobre o objetivo do seu projeto, o que o motivou a fazê-lo, quais perguntas pretende responder e onde conseguiu os dados.
Leia a Seguir
12 passos para planejar um projeto
Quais são todas as 5 fases de um projeto?
É possível dividir o ciclo de vida de um projeto em quatro fases genéricas:
Um processo judicial corresponde a uma ação jurídica iniciada, que visa uma sentença de mérito, uma decisão de um juiz ou tribunal acerca de um direito que foi violado. Basicamente, esse processo é dividido em 5 fases denominadas: postulatória, instrutória, decisória, recursal e executória.