Your Web News in One Place

Help Webnuz

Referal links:

Sign up for GreenGeeks web hosting
May 28, 2021 03:32 pm GMT

Como funciona o sistema de insero de dados na BD

TL;DR: Vamos conhecer um pouquinho sobre como funciona a infraestrutura de insero de dados da Base dos Dados e como voc pode melhorar seu portflio de cientista de dados e/ou desenvolvedor contribuindo com a nossa misso de universalizar o acesso a dados.

A Infraestrutura

Alt Text

O time de infraestrutura da Base dos Dados responsvel pelas ferramentas de ingesto de dados, que englobam desde o upload de dados at a disponibilizao de dados no ambiente de produo; pelo acesso de dados atravs de pacotes em Python e R; e pelo website. Neste cenrio o time atualmente dividido em vrias frentes, tratando da renovao do site e da implementao de pesos e contrapesos automatizados.

Procuramos simplificar e automatizar todos os processos, comeando com o upload de dados e insero dos mesmos no Ambiente de Experimentao. Neste ponto o colaborador pode adicionar dados em sua nuvem do Google, limpar e tratar os dados, e ento criar as tabelas locais com a interface de linha de comando desenvolvida pela infra. Por fim, o colaborador pode submeter a base de dados para reviso, criando um pull request no Github.

Aps o pull request de reviso entra em ao o sistema de Pesos e Contrapesos, com o time de dados checando a qualidade dos dados e metadados. Esse ponto crucial para manter a qualidade dos dados, um diferencial da BD. O time de infra atua procurando automatizar o mximo possvel o processo de reviso dos dados, realizando a validao de metadados como descries e nomes de colunas; e tipos de dados, como dados chaves primrias.

Aps a checagem dos dados, o pull request de insero de dados aprovado e os dados entram no Ambiente de Produo. Logo podem ser acessados por uma de nossas ferramentas, como os pacotes em Python e R, ou diretamente pelo BigQuery.

Paralelamente ao processo de insero de dados, o time de Infra tambm trabalha com a renovao do portal, visando oferecer uma interface moderna.

Contribuindo com dados

No caminho para se tornar um analista de dados ou desenvolvedor nos encontramos com certas dificuldades de entrada no mercado de trabalho. Por vezes no existe balano entre estudo e aplicao prtica, ou somente a anlise de dados de brincadeirinha. Levante a mo quem no passou uma poca paralisado em bases de dados como o Titanic ou Iris. E apesar dessas bases de dados serem uma boa alternativa para aprender novos mtodos ou ferramentas, o conhecimento obtido trabalhando com as mesmas no transfervel para o mundo real.

Uma boa alternativa para lidar com dados reais e melhorar seu portflio ajudar a Base dos Dados com a sua ingesto de dados. No mnimo voc ir lidar com a captura de dados, preferencialmente de forma automatizada, a arquitetura de dados, e a limpeza dos mesmos. Tambm vai interagir com ferramentas do dia a dia de um cientista de dados, como interfaces de linha de comando, YAML e BigQuery. A experincia conquistada pode ser crucial na entrada no mercado de trabalho.

Descrevemos em detalhes esse processo em Colaborando com dados na BD+. Em resumo o processo dividido em quatro partes. Inicialmente voc informa seu interesse para a BD. Ento limpa e trata os dados. Em seguida realiza upload dos dados em seu BigQuery pessoal. E por fim envia os dados para reviso.

Contribuindo com a infra

Alis, outra forma de contribuir e melhorar seu portflio, mas agora de desenvolvedor, colaborando com a infraestrutura da BD.

A colaborao comea conversando conosco, no bate papo da infra ou nas reunies s 19h da segunda-feira, ambas nos canais da infra no Discord. Aps este passo podemos escolher uma feature ou problema para desenvolvimento, isto , caso ainda no tenha escolhido algum problema contido nas issues.

Como voc pode colaborar? Aqui esto algumas ideias:

  • Adicionando novos conjuntos de dados
  • Fazendo a reviso de submisses de dados
  • Aprimorando e criando novas funcionalidades do pacote em Python
  • Aprimorando e criando novas funcionalidades do pacote em R
  • Criando um pacote em Stata
  • Adicionando checagens automticas de dados
  • Adicionando checagens automticas de metadados
  • Desenvolvendo novas features para o site

Nosso projeto j te ajudou de alguma forma? Saiba como nos ajudar:

Texto produzido por Vinicius e Fernanda, com apoio de Diego, Joo e Caio do time de Infra da Base dos Dados


Original Link: https://dev.to/basedosdados/como-funciona-o-sistema-de-insercao-de-dados-na-bd-25dk

Share this article:    Share on Facebook
View Full Article

Dev To

An online community for sharing and discovering great ideas, having debates, and making friends

More About this Source Visit Dev To