Leonardo Heidrich Rocha
About Candidate
Como Engenheiro de Dados, desenvolvi Data Lakes utilizando os principais serviços da AWS. Criei pipelines para extrair, processar e disponibilizar dados para análise no Power BI, otimizando o desempenho e reduzindo custos. Atuei fortemente com desenvolvimento em Python, Spark e SQL para tratamento de dados. Atuei na governança de dados, definindo regras de acesso e segurança. Além disso, tenho experiência em streaming de dados, usando tecnologias como SQS, Kubernetes, SQLite, Redis e Polars em Python. Como pesquisador em Machine Learning pela UFFS, apliquei técnicas de aprendizado não supervisionado e processamento de linguagem natural para extrair tópicos de conjuntos de documentos utilizando algoritmos como LDA, K-means e BERTopic para clusterização e NLP com SpaCY, NLTK e bibliotecas Python para análise estatística e ETL. Sou graduado em Ciência da Computação pela UFFS, e estou constantemente participando de bootcamps e cursos na área de dados.
Education
Curso de ciência da computação
Experiences
- MX Data Lake: Trabalhei na criação e manutenção de pipelines para extrair dados, a fim de trazer dados refinados que atendam às necessidades do usuário final no Power BI. Desenvolvi a Landing Zone, uma camada com código dinâmico que pode ser configurada por meio de parâmetros armazenados no DynamoDB, para todo tipo de ingestão. Atuei na manutenção de outras pipelines existentes nas camadas de ingestão e processamento, melhorando desempenho e diminuindo custos. Defini regras de governança para controlar acessos a tabelas por tipo de usuário. Serviços da AWS usados: Lambda, EC2, Glue (Catálogo e Jobs), DynamoDB, SQS, S3, Athena, API Gateway, Step Functions, CloudWatch, Lake Formation, Secret, etc. Trabalhei no aprimoramento de novos recursos usando Pyspark com tabelas Hudi e Delta para criar slowly changing dimensions type 2 (SCD2). Experiência com ETL, ELT e implementação de Data Lake - Sicredi: Trabalhei na criação de um pipeline de streaming de dados, utilizando SQS, Kubernetes, Glue, S3, Redis e Polars em Python. - Vivo: Trabalhando na criação de um data lakehouse com Azure e Databricks, utilizando Pyspark, SQL e Pydeequ no data quality.
- MX Data Lake: Trabalhei na criação e manutenção de pipelines para extrair dados, a fim de trazer dados refinados que atendam às necessidades do usuário final no Power BI. Desenvolvi a Landing Zone, uma camada com código dinâmico que pode ser configurada por meio de parâmetros armazenados no DynamoDB, para todo tipo de ingestão. Atuei na manutenção de outras pipelines existentes nas camadas de ingestão e processamento, melhorando desempenho e diminuindo custos. Defini regras de governança para controlar acessos a tabelas por tipo de usuário. Serviços da AWS usados: Lambda, EC2, Glue (Catálogo e Jobs), DynamoDB, SQS, S3, Athena, API Gateway, Step Functions, CloudWatch, Lake Formation, Secret, etc. Trabalhei no aprimoramento de novos recursos usando Pyspark com tabelas Hudi e Delta para criar slowly changing dimensions type 2 (SCD2). Experiência com ETL, ELT e implementação de Data Lake - Sicredi: Trabalhei na criação de um pipeline de streaming de dados, utilizando SQS, Kubernetes, Glue, S3, Redis e Polars em Python. - Vivo: Trabalhando na criação de um data lakehouse com Azure e Databricks, utilizando Pyspark, SQL e Pydeequ no data quality.