Your Web News in One Place

Help Webnuz

Referal links:

Sign up for GreenGeeks web hosting
April 1, 2022 08:27 pm GMT

Qu es y como crear ETL en AWS Glue Parte 1

Tal vez hayas escuchado el trmino "ETL" ms de una vez o tal vez no lo hayas escuchado nunca. En este blog te explicare que es un ETL y cmo podemos implementarlo de una manera gil y serverless en AWS.

Qu es ETL?

Es el proceso que tiene como objetivo es extraer (Extract) datos de una fuente, estos datos pueden provenir de una base de datos, de un archivo Excel, o de un archivo de texto. Posteriormente se realizar una transformacin (Transform) segn sea necesario, sea que se requiera aplicar un Golden record o simplemente algn criterio de negocio, para la culminacin del proceso se realiza el paso de carga (Load), el cual dependiendo de la necesidad, pueden ser cargados de manera acumulativa significando su almacenamiento y continua transformacin a un reporte o repositorio general, durante un lapso de tiempo o caso contrario mantener un grado de granularidad realizando este proceso en pequeos reportes.

Qu es AWS Glue?
AWS Glue es un servicio ETL (extraccin, transformacin y carga) serverless en la nube de AWS. Que facilita a usuarios la preparacin de sus datos para posterior anlisis. En este artculo, abordar brevemente los conceptos bsicos de AWS Glue y como crear nuestro primer ETL.

Componentes

  • Data catalog: El catlogo de datos contiene los metadatos y la estructura de los datos de la fuente de informacin que utilizaremos, se lo puede considerar como una copia de una tabla Dynamo, un archivo en un S3, o una base de datos relacional. Es un repositorio central que almacena metadatos estructurales y operativos para recursos de datos. Para un conjunto de datos determinado, puede almacenar la definicin de la tabla y la ubicacin fsica, agregar atributos relevantes para la empresa y realizar un seguimiento de cmo los datos han cambiado con el tiempo.

  • Database: Es una base que contiene todas las tablas que ha mapeado el clasificador (crawler).

  • Table: Es una tabla con un esquema especificado al cual se puede realizar consultas.

  • Crawler and Classifier (Rastreadores): Se utiliza para mapear datos de una o varias fuentes mediante clasificadores integrados o personalizados. Crea o usa tablas de metadatos que estn predefinidos en el catlogo de datos. Un rastreador se conecta con un almacn de datos, avanza a travs de una lista priorizada de clasificadores para extraer los esquemas de sus datos y otras estadsticas, y rellena el catlogo de datos de Glue con estos metadatos. Los rastreadores pueden ejecutarse de manera peridica para detectar la disponibilidad de nuevos datos, as como cambios en los datos existentes, incluidos cambios en la definicin de una tabla. Los rastreadores aaden nuevas tablas, nuevas particiones a tablas existentes y nuevas versiones de las definiciones de tablas de manera automtica. Puede personalizar los rastreadores de Glue para que clasifiquen sus propios tipos de archivos.

  • Job (Trabajos): Es un proceso que lleva la lgica de negocio deseada de forma automatizada que lleva a cabo tareas ETL, utiliza internamente Apache Spark y es compatible con lenguajes como Python o Scala.

  • Trigger (Disparador): Un trigger o disparador es una lgica que inicia la ejecucin de un trabajo ETL bajo demanda o en un momento especfico de tiempo.

Creando nuestro primer ETL

Pre-requisitos: Para este ejemplo debemos contar con una tabla en DynamoDB y un archivo csv en un bucket S3.

AWS Glue es compatible de forma nativa con los datos almacenados en Amazon Aurora, Amazon RDS for MySQL, Amazon RDS for Oracle, Amazon RDS for PostgreSQL, Amazon RDS for SQL Server, Amazon Redshift, DynamoDB y Amazon S3, as como tambin en bases de datos de MySQL, Oracle, Microsoft SQL Server y PostgreSQL en su nube virtual privada (Amazon VPC) en ejecucin en Amazon EC2. AWS Glue tambin es compatible con transmisiones de datos de Amazon MSK, Amazon Kinesis Data Streams y Apache Kafka.

Para este ejemplo utilizaremos una tabla y un archivo que poseern algunos registros, el propsito ser extraer los registros que sean similares y transformarlos a un mismo tipo de dato.

Registro en dynamo

Tabla en dynamo

Registros csv

Tanto nuestra tabla como nuestro archivo estar conformado por 4 campos, de los cuales nos interesa verificar si el estado y el monto son los correctos dependiendo del id y del cliente.

Ahora procederemos en la Parte 2 de este tutorial donde crearemos nuestro primer ETL.


Original Link: https://dev.to/davidshaek/que-es-y-como-crear-etl-en-aws-glue-parte-1-3jlj

Share this article:    Share on Facebook
View Full Article

Dev To

An online community for sharing and discovering great ideas, having debates, and making friends

More About this Source Visit Dev To