L
Engenheiro de dados

Leonardo Heidrich Rocha

R$6000

About Candidate

Como Engenheiro de Dados, desenvolvi Data Lakes utilizando os principais serviços da AWS. Criei pipelines para extrair, processar e disponibilizar dados para análise no Power BI, otimizando o desempenho e reduzindo custos. Atuei fortemente com desenvolvimento em Python, Spark e SQL para tratamento de dados. Atuei na governança de dados, definindo regras de acesso e segurança. Além disso, tenho experiência em streaming de dados, usando tecnologias como SQS, Kubernetes, SQLite, Redis e Polars em Python. Como pesquisador em Machine Learning pela UFFS, apliquei técnicas de aprendizado não supervisionado e processamento de linguagem natural para extrair tópicos de conjuntos de documentos utilizando algoritmos como LDA, K-means e BERTopic para clusterização e NLP com SpaCY, NLTK e bibliotecas Python para análise estatística e ETL. Sou graduado em Ciência da Computação pela UFFS, e estou constantemente participando de bootcamps e cursos na área de dados.

Education

C
Ciência da computação 2019-2024
Universidade Federal da Fronteira Sul

Curso de ciência da computação

Experiences

E
Engenheiro de dados 01/06/2022 - Atual
Compass UOL

- MX Data Lake: Trabalhei na criação e manutenção de pipelines para extrair dados, a fim de trazer dados refinados que atendam às necessidades do usuário final no Power BI. Desenvolvi a Landing Zone, uma camada com código dinâmico que pode ser configurada por meio de parâmetros armazenados no DynamoDB, para todo tipo de ingestão. Atuei na manutenção de outras pipelines existentes nas camadas de ingestão e processamento, melhorando desempenho e diminuindo custos. Defini regras de governança para controlar acessos a tabelas por tipo de usuário. Serviços da AWS usados: Lambda, EC2, Glue (Catálogo e Jobs), DynamoDB, SQS, S3, Athena, API Gateway, Step Functions, CloudWatch, Lake Formation, Secret, etc. Trabalhei no aprimoramento de novos recursos usando Pyspark com tabelas Hudi e Delta para criar slowly changing dimensions type 2 (SCD2). Experiência com ETL, ELT e implementação de Data Lake - Sicredi: Trabalhei na criação de um pipeline de streaming de dados, utilizando SQS, Kubernetes, Glue, S3, Redis e Polars em Python. - Vivo: Trabalhando na criação de um data lakehouse com Azure e Databricks, utilizando Pyspark, SQL e Pydeequ no data quality.

P
Pesquisador Machine Learning 01/06/2020 - 01/06/2022
UFFS

- MX Data Lake: Trabalhei na criação e manutenção de pipelines para extrair dados, a fim de trazer dados refinados que atendam às necessidades do usuário final no Power BI. Desenvolvi a Landing Zone, uma camada com código dinâmico que pode ser configurada por meio de parâmetros armazenados no DynamoDB, para todo tipo de ingestão. Atuei na manutenção de outras pipelines existentes nas camadas de ingestão e processamento, melhorando desempenho e diminuindo custos. Defini regras de governança para controlar acessos a tabelas por tipo de usuário. Serviços da AWS usados: Lambda, EC2, Glue (Catálogo e Jobs), DynamoDB, SQS, S3, Athena, API Gateway, Step Functions, CloudWatch, Lake Formation, Secret, etc. Trabalhei no aprimoramento de novos recursos usando Pyspark com tabelas Hudi e Delta para criar slowly changing dimensions type 2 (SCD2). Experiência com ETL, ELT e implementação de Data Lake - Sicredi: Trabalhei na criação de um pipeline de streaming de dados, utilizando SQS, Kubernetes, Glue, S3, Redis e Polars em Python. - Vivo: Trabalhando na criação de um data lakehouse com Azure e Databricks, utilizando Pyspark, SQL e Pydeequ no data quality.

Skills

Python
90%
Pyspark
65%
SQL
80%
AWS
50%
Databricks
48%
Azure
30%
Docker
60%
Kubernetes
60%

Be the first to review “Leonardo Heidrich Rocha”

Your Rating for this listing