Como sair do ZERO com SQL na AWS – ETL Parquet S3 Athena e Glue | CURSO GRATUITO
O Luciano Galvão Filho do canal Jornada de Dados está oferecendo GRATUITAMENTE o curso Como sair do ZERO com SQL na AWS – ETL Parquet S3 Athena e Glue.
Sobre o curso
Quer realmente mergulhar no universo de SQL na AWS e construir um pipeline de dados robusto e eficaz do absoluto zero? Neste vídeo detalhado, estou aqui para te acompanhar, passo a passo, no desenvolvimento de um processo ETL (Extract, Transform, Load) completo, explorando algumas das ferramentas mais poderosas e versáteis que a AWS oferece, como o S3, Athena, Glue e o formato Parquet.
Para aqueles que estão dando os primeiros passos, ou até mesmo para profissionais que já possuem uma certa familiaridade com bancos de dados mas desejam aprofundar seus conhecimentos em SQL aplicado ao ambiente de nuvem, este tutorial está desenhado para ser o guia definitivo. Desde a configuração inicial dos serviços AWS até a implementação e a otimização de queries para manipulação de grandes volumes de dados, todas as etapas serão abordadas de maneira clara e objetiva.
Começaremos com uma introdução ao Amazon S3 (Simple Storage Service), explicando como você pode utilizar este serviço para armazenar e recuperar qualquer quantidade de dados, a qualquer momento, de qualquer lugar na internet. Vamos configurar um bucket no S3, entender as políticas de segurança e aprender a melhor maneira de organizar seus dados para maximizar a eficiência e o desempenho.
Avançando, entraremos no mundo do Amazon Athena, uma ferramenta interativa de consulta que permite analisar dados no Amazon S3 usando SQL padrão. Aqui, vou mostrar como configurar o Athena, conectar-se ao seu bucket S3 e executar suas primeiras queries SQL, tudo isso sem a necessidade de provisionar infraestrutura, pois o Athena é totalmente gerenciado pela AWS.
O próximo passo será explorar o AWS Glue, um serviço de preparação de dados sem servidor que facilita a extração, transformação e carregamento de dados para análise. Com o Glue, você pode catalogar seus dados, transformá-los e prepará-los para a análise, ou carregá-los em serviços de armazenamento e análise. Vamos criar um job no Glue para processar os dados armazenados no S3 e transformá-los, utilizando scripts Python gerados automaticamente ou escritos manualmente.
Por fim, abordaremos a utilização do formato Parquet, um formato de armazenamento em colunas altamente eficiente para uso com ferramentas de processamento de dados como Athena e Glue. Vou ensinar como converter seus dados para o formato Parquet para melhorar a performance das queries e reduzir custos de armazenamento.
Ao final deste tutorial, você não só terá um pipeline de dados funcional na AWS utilizando SQL, mas também uma compreensão sólida de como essas ferramentas interagem e podem ser utilizadas para impulsionar sua carreira na área de dados. Prepare-se para adquirir habilidades valiosíssimas e turbinar seu conhecimento em tecnologias de nuvem com este guia completo de SQL na AWS.
Essa foi uma dica da Jonas Santana