Dicionário de Engenharia de Dados
O vocabulário que todo profissional de dados precisa falar com fluência. Mais de 160 termos em ingestão, modelagem, streaming, governança, LLMs e mais.
Backfill
Reexecutar uma pipeline em datas passadas para preencher ou corrigir dados.
CDC (Change Data Capture)
Streaming de INSERT/UPDATE/DELETE em nível de linha lendo o WAL/binlog do banco.
ELT
Extract, Load (raw) e depois Transform no warehouse com SQL/dbt.
ETL
Paradigma antigo: transformar dados em voo antes de carregar.
Watermark
Timestamp armazenado indicando até onde um loader incremental progrediu.
Idempotent
Rodar o job duas vezes dá o mesmo resultado de rodar uma vez.
Upsert / MERGE
Insere se não existe, atualiza se existe — atômico em uma única instrução.
Snapshot
Cópia completa de uma tabela em um ponto no tempo.
Incremental load
Carregar somente as linhas alteradas desde a última execução.
Schema drift
O schema da origem muda sem te avisar.
MAR (Monthly Active Rows)
Unidade de cobrança do Fivetran — cada linha atualizada no mês conta uma vez.
Connector
Integração pronta que extrai de uma fonte (Stripe, Salesforce…).
Tap / Target (Singer)
Convenção Singer: tap lê de uma origem, target escreve em um destino.
Binlog / WAL
Log de transações do banco que ferramentas CDC consomem para capturar mudanças.
Dead Letter Queue (DLQ)
Tópico/tabela lateral para mensagens que a pipeline não conseguiu processar.
Parquet
Formato binário colunar otimizado para analytics.
ORC
Formato colunar do mundo Hive — similar ao Parquet, nativo do Hadoop.
Avro
Formato binário em linha com schema embutido — ótimo para streaming.
Apache Iceberg
Open table format sobre Parquet com ACID, time-travel e particionamento oculto.
Delta Lake
Open table format da Databricks — Parquet + transaction log.
Apache Hudi
Open table format otimizado para upserts e queries incrementais.
Lakehouse
Lake (storage objeto barato) com features de warehouse (ACID, SQL) por cima.
Partition
Dividir uma tabela por uma coluna para que queries pulem arquivos irrelevantes.
Bucketing
Divisão de arquivos por hash dentro de uma partição — ajuda joins e skew.
Z-ordering
Clustering multidimensional dentro dos Parquet para pruning de colunas mais rápido.
VACUUM / Compaction
Remover arquivos antigos/sem referência; juntar arquivos pequenos em maiores.
Small files problem
Milhares de arquivos minúsculos matando performance e metadata.
Time travel
Consultar uma tabela como ela estava em uma versão ou timestamp passado.
Object storage
Storage barato, plano, endereçável por HTTP — S3, GCS, ADLS.
Columnar storage
Armazenar valores coluna a coluna para que scans analíticos leiam só as colunas necessárias.
Schema Registry
Serviço central que armazena e valida schemas em evolução (geralmente Avro).
Star schema
Tabela fato no centro, dimensões em volta — padrão para analytics.
Snowflake schema
Star schema com dimensões normalizadas (dims ligadas a sub-dims).
Fact table
Tabela de eventos mensuráveis (vendas, cliques) com FKs para dimensões.
Dimension table
Contexto descritivo para fatos (quem, o quê, onde, quando).
SCD (Slowly Changing Dimension)
Padrões para rastrear história de mudanças em dimensões: Type 1 (sobrescreve), Type 2 (nova linha + datas), Type 3 (coluna extra).
Surrogate key
Chave primária sintética (ex.: auto-int ou hash), independente das chaves de negócio.
Natural key / Business key
Identificador do mundo real vindo da origem (ex.: order_id, email).
Grain
O que uma linha da fact table representa — declare antes de construir.
Data Vault
Hubs + Links + Satellites — estilo de modelagem otimizado para auditoria e mudança de origem.
Medallion (Bronze/Silver/Gold)
Arquitetura em camadas: bronze raw → silver limpa → gold para consumidores.
Wide / OBT (One Big Table)
Tabela desnormalizada e pré-juntada para leitura rápida — comum em camadas analíticas.
Normalization
Quebrar dados em várias tabelas para remover redundância — padrão OLTP.
Denormalization
Duplicar dados em uma tabela para baratear leituras.
Metrics layer / Semantic layer
Fonte única de verdade para definições de métricas (MRR, ARPU…).
Apache Kafka
Log distribuído append-only — espinha dorsal de dados orientados a eventos.
Topic
Stream nomeada em Kafka — dividida em partições.
Consumer group
Conjunto de consumidores que dividem partições — cada partição vai para um membro.
Exactly-once
Cada evento afeta o estado exatamente uma vez, mesmo com retries e falhas.
At-least-once
Eventos podem ser entregues mais de uma vez — consumidores precisam ser idempotentes.
Watermark (streaming)
Marcador de tempo dizendo ao engine: 'nada mais antigo que isso virá'.
Event time vs processing time
Event time = quando aconteceu. Processing time = quando processamos.
Windowing
Agrupar eventos em blocos finitos (tumbling, sliding, session) para agregação.
Stateful processing
O operador de stream guarda memória entre eventos (agregações, joins, sessões).
Apache Flink
Engine de streaming de verdade — evento a evento, baixa latência, state forte.
Spark Structured Streaming
Streaming em micro-batch sobre o engine Spark — operação mais simples que Flink.
Micro-batch
'Streaming' implementado por mini-batches a cada N segundos.
Kafka Connect
Framework para source/sink connectors que movem dados de/para o Kafka.
ksqlDB / Kafka Streams
SQL streaming / lib Java que processa dados do Kafka sem cluster separado.
Backpressure
Consumidor lento sinaliza upstream pra desacelerar, evitando estouro de memória.
DAG
Grafo dirigido acíclico — nós são tarefas, arestas são dependências, sem ciclos.
Apache Airflow
Scheduler em Python — defina DAGs em código, rode em um cluster.
Dagster
Orquestrador orientado a assets — você declara assets de dados, dependências são inferidas.
Prefect
Orquestrador Python moderno — flows dinâmicos, execução híbrida.
Scheduler
Componente que decide quando disparar um job (cron, sensor, manual).
Sensor
Tarefa que espera por um evento externo (arquivo chegou, tabela atualizada).
SLA / SLO / SLI
SLI=métrica, SLO=meta, SLA=contrato com consequências. Pipelines precisam disso.
Catchup / Backfill (Airflow)
Airflow reexecutando runs históricos quando a DAG fica atrasada.
Retry / Backoff
Re-executar tarefas falhas com delay crescente (exponential backoff).
Idempotency key
Token único que o cliente envia para o servidor deduplicar chamadas em retry.
Data quality
O quanto o dado serve ao propósito: acurácia, completude, freshness, unicidade.
Great Expectations
Lib Python que declara 'expectations' (asserts) sobre dados.
Soda / Soda Core
Checks de dados em YAML — roda em CI ou no warehouse em schedule.
Freshness
Quão recente uma tabela foi atualizada vs expectativa de SLA.
Volume check
Anomalia: row count hoje vs típico — alerta drops/spikes.
Lineage
Grafo de dependências: qual fonte alimenta qual modelo alimenta qual dashboard.
Data observability
Monitorar dado como SRE monitora serviço: freshness, volume, schema, distribuição, lineage.
Anomaly detection
ML ou stats pegando mudanças inesperadas (contagens, distribuições, freshness).
dbt test
Asserts nativos do dbt: unique, not_null, accepted_values, relationships.
Data diff
Comparar duas versões de tabela linha a linha para ver o que uma mudança alteraria.
Data contract
Acordo produtor-consumidor sobre schema, semântica, SLAs — versionado, quebrável só em bump.
Data Mesh
Padrão organizacional: times de domínio são donos e servem seus dados como produtos.
Data product
Um dataset tratado como produto: dono, SLA, doc, contrato, descobribilidade.
Data catalog
Inventário pesquisável de datasets com dono, schema, doc, lineage.
Unity Catalog
Governança unificada da Databricks: tabelas, ML, arquivos, lineage, audit, acesso fino.
PII
Informação Pessoal Identificável — precisa ser tagueada, mascarada, com controle de acesso.
GDPR / LGPD
Leis de proteção de dados da UE / Brasil — direito ao esquecimento, consentimento, finalidade.
RBAC / ABAC
Controle de acesso por papel (RBAC) vs por atributo (ABAC).
Dynamic data masking
Esconder valores sensíveis em query time baseado no papel de quem chama.
Data steward
Pessoa responsável pelas definições, qualidade e acesso de um dataset.
OpenLineage
Standard aberto para emitir eventos de lineage de qualquer ferramenta.
IaC (Infrastructure as Code)
Provisionar infra via código versionado, não clique.
Terraform / OpenTofu
Ferramenta IaC agnóstica de cloud — declara estado desejado, planeja diff, aplica.
VPC
Virtual Private Cloud — rede isolada na AWS/GCP/Azure.
IAM
Identity & Access Management — quem pode fazer o quê em recursos cloud.
Kubernetes (K8s)
Orquestrador de containers — gerencia pods, services, escala.
Serverless
Compute que escala a zero e cobra por invocação (Lambda, Cloud Run).
Egress cost
Cobrança da cloud por dado saindo da rede dela — vilão sorrateiro da fatura.
BigQuery
Warehouse analítico serverless do GCP — paga por byte scanneado ou slot.
Snowflake
Warehouse cloud-native separando storage do compute por segundo (warehouses).
Redshift
Warehouse da AWS — modo provisionado clássico ou Serverless.
Athena
SQL serverless da AWS sobre S3 — Trino por baixo.
AWS Glue
ETL gerenciado da AWS + data catalog em Spark.
Databricks
Spark gerenciado + Delta + ML — virou a plataforma 'lakehouse'.
Microsoft Fabric
Plataforma de dados unificada da Microsoft: OneLake + Synapse + Power BI com preço por SKU.
LLM
Large Language Model — transformer treinado em corpus enorme de texto.
Token
Unidade sub-palavra que o LLM lê/escreve — billing e limites de contexto usam tokens.
Context window
Máx tokens que o modelo considera em uma chamada (input + output).
Embedding
Representação vetorial de texto/imagem — vetores próximos = sentido similar.
RAG (Retrieval-Augmented Generation)
Recupera chunks relevantes, coloca no prompt e gera.
Vector database
DB otimizado para busca por vizinho mais próximo em embeddings (Pinecone, pgvector, Weaviate).
Chunking
Quebrar docs em pedaços do tamanho certo para embedding + retrieval.
Reranker
Modelo de segunda passada que reordena resultados recuperados por relevância real.
Agent
LLM que planeja + chama ferramentas em loop para cumprir um objetivo.
Tool calling / Function calling
LLM emite JSON estruturado para invocar função — seu código executa.
Fine-tuning
Continuar o treino de um modelo base em dados específicos da sua tarefa.
Prompt engineering
Desenhar inputs do LLM (system, role, examples) para sair melhor.
Hallucination
Resposta do LLM com confiança porém errada — inventa fatos.
Eval (LLM evaluation)
Medição sistemática da qualidade da saída do LLM (Ragas, LangSmith, custom).
Guardrails
Filtros/validadores em volta de input/output do LLM (redação de PII, detecção de jailbreak, JSON schema).
MLOps
Práticas DevOps para ML: pipelines de treino, registro de modelos, monitorar drift.
Feature store
Repositório servindo features consistentes para treino E inferência online.
Shuffle
Redistribuir linhas entre nós para um join/group — custo #1 do Spark.
Broadcast join
Replicar o lado pequeno do join em todo executor — pula shuffle.
Data skew
Uma chave tem muito mais linhas que outras — uma task demora pra sempre.
Predicate pushdown
Empurrar WHERE para o file format ler menos linhas.
Column pruning
Ler só as colunas que a query usa — grátis em formatos colunares.
EXPLAIN / Query plan
Plano do engine para executar uma query — scan, join, agregação.
Materialized view
Query pré-computada armazenada como tabela; refresh periódico ou incremental.
Caching (warehouse)
Reusar resultados de queries anteriores quando o dado base não mudou.
AQE (Adaptive Query Execution)
Spark re-planeja em execução baseado em stats reais.
Photon
Engine vetorizado em C++ da Databricks — 2-3x mais rápido que Spark vanilla em SQL.
DuckDB
DB OLAP colunar in-process — o SQLite da analytics.
Lambda architecture
Dois caminhos: batch lento (verdade) + stream rápido (baixa latência), unidos no serve.
Kappa architecture
Um único caminho streaming para tudo — reprocessa histórico fazendo replay.
CQRS
Separar modelos de leitura e escrita — escrita num store, leitura noutro.
Event sourcing
Armazenar cada mudança como evento imutável; estado atual = replay.
Central platform vs Data Mesh
Time central dono de tudo vs domínios donos dos próprios data products.
Fitness function
Check automatizado de que a arquitetura ainda atende metas (perf, deps, custo).
Data warehouse
Store estruturado e otimizado para query analítica (Snowflake, BigQuery, Redshift).
Data lake
Storage objeto barato com dados raw, semi-estruturados e estruturados.
Data mart
Subset do warehouse focado em um domínio (finance, marketing).
Blue/Green deploy
Rodar duas versões; trocar tráfego para a nova só após validada.
Canary release
Mandar uma % pequena de tráfego para a nova versão primeiro.
Rollback
Voltar para o estado bom anterior após deploy ruim.
CI/CD
Build/test automático em cada PR + deploy automático para ambientes.
On-call
Engenheiro responsável por responder a alertas fora do horário.
Runbook
Doc passo-a-passo para resolver um incidente conhecido.
Postmortem
Relato sem culpa de um incidente: o que aconteceu, por quê, o que muda.
Blast radius
Quanto quebra quando um único componente falha.
DORA metrics
Frequência de deploy, lead time, taxa de falha, MTTR — estrelas-guia do DevOps.
MTTR
Mean Time To Recovery — quão rápido restauramos serviço após incidente.
FinOps
Prática de otimizar custo cloud continuamente, dividida entre eng + finance.