An Interest In:
Web News this Week
- April 27, 2024
- April 26, 2024
- April 25, 2024
- April 24, 2024
- April 23, 2024
- April 22, 2024
- April 21, 2024
Como funciona o sistema de insero de dados na BD
TL;DR: Vamos conhecer um pouquinho sobre como funciona a infraestrutura de insero de dados da Base dos Dados e como voc pode melhorar seu portflio de cientista de dados e/ou desenvolvedor contribuindo com a nossa misso de universalizar o acesso a dados.
A Infraestrutura
O time de infraestrutura da Base dos Dados responsvel pelas ferramentas de ingesto de dados, que englobam desde o upload de dados at a disponibilizao de dados no ambiente de produo; pelo acesso de dados atravs de pacotes em Python e R; e pelo website. Neste cenrio o time atualmente dividido em vrias frentes, tratando da renovao do site e da implementao de pesos e contrapesos automatizados.
Procuramos simplificar e automatizar todos os processos, comeando com o upload de dados e insero dos mesmos no Ambiente de Experimentao. Neste ponto o colaborador pode adicionar dados em sua nuvem do Google, limpar e tratar os dados, e ento criar as tabelas locais com a interface de linha de comando desenvolvida pela infra. Por fim, o colaborador pode submeter a base de dados para reviso, criando um pull request no Github.
Aps o pull request de reviso entra em ao o sistema de Pesos e Contrapesos, com o time de dados checando a qualidade dos dados e metadados. Esse ponto crucial para manter a qualidade dos dados, um diferencial da BD. O time de infra atua procurando automatizar o mximo possvel o processo de reviso dos dados, realizando a validao de metadados como descries e nomes de colunas; e tipos de dados, como dados chaves primrias.
Aps a checagem dos dados, o pull request de insero de dados aprovado e os dados entram no Ambiente de Produo. Logo podem ser acessados por uma de nossas ferramentas, como os pacotes em Python e R, ou diretamente pelo BigQuery.
Paralelamente ao processo de insero de dados, o time de Infra tambm trabalha com a renovao do portal, visando oferecer uma interface moderna.
Contribuindo com dados
No caminho para se tornar um analista de dados ou desenvolvedor nos encontramos com certas dificuldades de entrada no mercado de trabalho. Por vezes no existe balano entre estudo e aplicao prtica, ou somente a anlise de dados de brincadeirinha. Levante a mo quem no passou uma poca paralisado em bases de dados como o Titanic ou Iris. E apesar dessas bases de dados serem uma boa alternativa para aprender novos mtodos ou ferramentas, o conhecimento obtido trabalhando com as mesmas no transfervel para o mundo real.
Uma boa alternativa para lidar com dados reais e melhorar seu portflio ajudar a Base dos Dados com a sua ingesto de dados. No mnimo voc ir lidar com a captura de dados, preferencialmente de forma automatizada, a arquitetura de dados, e a limpeza dos mesmos. Tambm vai interagir com ferramentas do dia a dia de um cientista de dados, como interfaces de linha de comando, YAML e BigQuery. A experincia conquistada pode ser crucial na entrada no mercado de trabalho.
Descrevemos em detalhes esse processo em Colaborando com dados na BD+. Em resumo o processo dividido em quatro partes. Inicialmente voc informa seu interesse para a BD. Ento limpa e trata os dados. Em seguida realiza upload dos dados em seu BigQuery pessoal. E por fim envia os dados para reviso.
Contribuindo com a infra
Alis, outra forma de contribuir e melhorar seu portflio, mas agora de desenvolvedor, colaborando com a infraestrutura da BD.
A colaborao comea conversando conosco, no bate papo da infra ou nas reunies s 19h da segunda-feira, ambas nos canais da infra no Discord. Aps este passo podemos escolher uma feature ou problema para desenvolvimento, isto , caso ainda no tenha escolhido algum problema contido nas issues.
Como voc pode colaborar? Aqui esto algumas ideias:
- Adicionando novos conjuntos de dados
- Fazendo a reviso de submisses de dados
- Aprimorando e criando novas funcionalidades do pacote em Python
- Aprimorando e criando novas funcionalidades do pacote em R
- Criando um pacote em Stata
- Adicionando checagens automticas de dados
- Adicionando checagens automticas de metadados
- Desenvolvendo novas features para o site
Nosso projeto j te ajudou de alguma forma? Saiba como nos ajudar:
- Apoie o projeto
- Seja um(a) colaborador(a) de dados na BD
- Colabore com nossos pacotes
- Compartilhe nas redes sociais!
Texto produzido por Vinicius e Fernanda, com apoio de Diego, Joo e Caio do time de Infra da Base dos Dados
Original Link: https://dev.to/basedosdados/como-funciona-o-sistema-de-insercao-de-dados-na-bd-25dk
Dev To
An online community for sharing and discovering great ideas, having debates, and making friendsMore About this Source Visit Dev To