153+ termos

Dicionário de Engenharia de Dados

O vocabulário que todo profissional de dados precisa falar com fluência. Mais de 160 termos em ingestão, modelagem, streaming, governança, LLMs e mais.

🔌Ingestão

Backfill

Reexecutar uma pipeline em datas passadas para preencher ou corrigir dados.

“Estamos fazendo backfill dos últimos 90 dias depois do bug de schema.”

Tópico de estudo

🔌Ingestão

CDC (Change Data Capture)

Streaming de INSERT/UPDATE/DELETE em nível de linha lendo o WAL/binlog do banco.

“Usamos CDC com Debezium ao invés de snapshots noturnos — pega deletes.”

Tópico de estudo

🔌Ingestão

ELT

Extract, Load (raw) e depois Transform no warehouse com SQL/dbt.

“Stack moderna é ELT — dbt cuida do T.”

Tópico de estudo

🔌Ingestão

ETL

Paradigma antigo: transformar dados em voo antes de carregar.

“Jobs ETL legados do Informatica estão sendo substituídos por ELT + dbt.”

🔌Ingestão

Watermark

Timestamp armazenado indicando até onde um loader incremental progrediu.

“Cada execução puxa WHERE updated_at > último watermark.”

Tópico de estudo

🔌Ingestão

Idempotent

Rodar o job duas vezes dá o mesmo resultado de rodar uma vez.

“MERGE deixa o loader idempotente — retries não duplicam.”

Tópico de estudo

🔌Ingestão

Upsert / MERGE

Insere se não existe, atualiza se existe — atômico em uma única instrução.

“Use MERGE INTO target USING staging ON id.”

🔌Ingestão

Snapshot

Cópia completa de uma tabela em um ponto no tempo.

“Snapshots diários são simples, mas perdem deletes intradia.”

🔌Ingestão

Incremental load

Carregar somente as linhas alteradas desde a última execução.

“Mude de reload total para incremental quando o volume passar de 1M de linhas.”

🔌Ingestão

Schema drift

O schema da origem muda sem te avisar.

“Bronze tolera drift; silver/gold falham alto.”

Tópico de estudo

🔌Ingestão

MAR (Monthly Active Rows)

Unidade de cobrança do Fivetran — cada linha atualizada no mês conta uma vez.

“Tabelas quentes estouram MAR — modele suas top-5 antes de assinar.”

Tópico de estudo

🔌Ingestão

Connector

Integração pronta que extrai de uma fonte (Stripe, Salesforce…).

“Use o connector Stripe do Airbyte ao invés de construir um.”

🔌Ingestão

Tap / Target (Singer)

Convenção Singer: tap lê de uma origem, target escreve em um destino.

“Meltano compõe tap-postgres + target-snowflake.”

🔌Ingestão

Binlog / WAL

Log de transações do banco que ferramentas CDC consomem para capturar mudanças.

“Postgres expõe WAL; MySQL usa binlog.”

🔌Ingestão

Dead Letter Queue (DLQ)

Tópico/tabela lateral para mensagens que a pipeline não conseguiu processar.

“Eventos ruins vão pra DLQ pra triagem ao invés de travar a stream.”

🗄️Storage & Formatos

Parquet

Formato binário colunar otimizado para analytics.

“Sempre armazene o lake como Parquet, não CSV.”

🗄️Storage & Formatos

ORC

Formato colunar do mundo Hive — similar ao Parquet, nativo do Hadoop.

“Clusters Hortonworks antigos ainda escrevem ORC.”

🗄️Storage & Formatos

Avro

Formato binário em linha com schema embutido — ótimo para streaming.

“Kafka + Avro + Schema Registry é o combo clássico.”

🗄️Storage & Formatos

Apache Iceberg

Open table format sobre Parquet com ACID, time-travel e particionamento oculto.

“Escolhemos Iceberg pela portabilidade entre Spark, Trino e Snowflake.”

🗄️Storage & Formatos

Delta Lake

Open table format da Databricks — Parquet + transaction log.

“Delta é padrão na Databricks; Iceberg domina fora dela.”

🗄️Storage & Formatos

Apache Hudi

Open table format otimizado para upserts e queries incrementais.

“A Uber criou o Hudi para lidar com cargas pesadas de upsert.”

🗄️Storage & Formatos

Lakehouse

Lake (storage objeto barato) com features de warehouse (ACID, SQL) por cima.

“Iceberg + Trino sobre S3 é um lakehouse sem comprar Databricks.”

🗄️Storage & Formatos

Partition

Dividir uma tabela por uma coluna para que queries pulem arquivos irrelevantes.

“Particione fact_events por event_date — nunca por user_id (cardinalidade alta).”

🗄️Storage & Formatos

Bucketing

Divisão de arquivos por hash dentro de uma partição — ajuda joins e skew.

“Faça bucket por user_id para que joins por usuário não façam shuffle.”

🗄️Storage & Formatos

Z-ordering

Clustering multidimensional dentro dos Parquet para pruning de colunas mais rápido.

“ZORDER BY (country, event_type) reduz tempo de scan em filtros.”

🗄️Storage & Formatos

VACUUM / Compaction

Remover arquivos antigos/sem referência; juntar arquivos pequenos em maiores.

“Rode OPTIMIZE + VACUUM semanalmente em tabelas Delta quentes.”

🗄️Storage & Formatos

Small files problem

Milhares de arquivos minúsculos matando performance e metadata.

“Escritas streaming geram o problema de small files — compacte periodicamente.”

🗄️Storage & Formatos

Time travel

Consultar uma tabela como ela estava em uma versão ou timestamp passado.

“SELECT * FROM orders VERSION AS OF 42 para auditar um deploy ruim.”

🗄️Storage & Formatos

Object storage

Storage barato, plano, endereçável por HTTP — S3, GCS, ADLS.

“O lake vive em object storage — compute é separado.”

🗄️Storage & Formatos

Columnar storage

Armazenar valores coluna a coluna para que scans analíticos leiam só as colunas necessárias.

“Parquet é colunar; CSV é em linha e lento para analytics.”

🗄️Storage & Formatos

Schema Registry

Serviço central que armazena e valida schemas em evolução (geralmente Avro).

“Confluent Schema Registry impede produtores de quebrar consumidores.”

🧱Modelagem

Star schema

Tabela fato no centro, dimensões em volta — padrão para analytics.

“fact_orders junta com dim_customer, dim_product, dim_date.”

🧱Modelagem

Snowflake schema

Star schema com dimensões normalizadas (dims ligadas a sub-dims).

“dim_product → dim_category → dim_department.”

🧱Modelagem

Fact table

Tabela de eventos mensuráveis (vendas, cliques) com FKs para dimensões.

“fact_sales tem order_id, FKs de dims, quantidade, receita.”

🧱Modelagem

Dimension table

Contexto descritivo para fatos (quem, o quê, onde, quando).

“dim_customer guarda nome, segmento, data de signup.”

🧱Modelagem

SCD (Slowly Changing Dimension)

Padrões para rastrear história de mudanças em dimensões: Type 1 (sobrescreve), Type 2 (nova linha + datas), Type 3 (coluna extra).

“dim_customer é SCD2 — guardamos histórico de plan_tier.”

🧱Modelagem

Surrogate key

Chave primária sintética (ex.: auto-int ou hash), independente das chaves de negócio.

“Use surrogate key em dim_customer para o histórico SCD2 funcionar.”

🧱Modelagem

Natural key / Business key

Identificador do mundo real vindo da origem (ex.: order_id, email).

“Mantenha a chave natural como coluna mesmo usando uma PK surrogate.”

🧱Modelagem

Grain

O que uma linha da fact table representa — declare antes de construir.

“O grain de fact_orders é uma linha por item de pedido.”

🧱Modelagem

Data Vault

Hubs + Links + Satellites — estilo de modelagem otimizado para auditoria e mudança de origem.

“Bancos adoram Data Vault pela lineage e historização.”

🧱Modelagem

Medallion (Bronze/Silver/Gold)

Arquitetura em camadas: bronze raw → silver limpa → gold para consumidores.

“Dashboards de BI só leem da camada gold.”

🧱Modelagem

Wide / OBT (One Big Table)

Tabela desnormalizada e pré-juntada para leitura rápida — comum em camadas analíticas.

“One Big Table para o dashboard evita custo de join em query time.”

🧱Modelagem

Normalization

Quebrar dados em várias tabelas para remover redundância — padrão OLTP.

“3NF serve para OLTP; analytics preferem estrelas desnormalizadas.”

🧱Modelagem

Denormalization

Duplicar dados em uma tabela para baratear leituras.

“Desnormalize atributos da dim no fact quando joins ficam caros.”

🧱Modelagem

Metrics layer / Semantic layer

Fonte única de verdade para definições de métricas (MRR, ARPU…).

“dbt MetricFlow centraliza o SQL da métrica uma vez, usado por todo BI.”

🌊Streaming

Apache Kafka

Log distribuído append-only — espinha dorsal de dados orientados a eventos.

“Todo evento bate em Kafka primeiro, depois vai para consumidores.”

🌊Streaming

Topic

Stream nomeada em Kafka — dividida em partições.

“orders.created e orders.shipped são tópicos separados.”

🌊Streaming

Consumer group

Conjunto de consumidores que dividem partições — cada partição vai para um membro.

“Escale consumidores até o número de partições para paralelismo.”

🌊Streaming

Exactly-once

Cada evento afeta o estado exatamente uma vez, mesmo com retries e falhas.

“Kafka + Flink com checkpoints dá exactly-once ponta-a-ponta.”

🌊Streaming

At-least-once

Eventos podem ser entregues mais de uma vez — consumidores precisam ser idempotentes.

“A maioria dos sistemas é at-least-once por padrão.”

🌊Streaming

Watermark (streaming)

Marcador de tempo dizendo ao engine: 'nada mais antigo que isso virá'.

“Eventos atrasados além do watermark são descartados ou vão para side output.”

🌊Streaming

Event time vs processing time

Event time = quando aconteceu. Processing time = quando processamos.

“Sempre janele por event time — processing time dá resultado errado em backfill.”

🌊Streaming

Windowing

Agrupar eventos em blocos finitos (tumbling, sliding, session) para agregação.

“Janelas tumbling de 5min contam cliques por página.”

🌊Streaming

Stateful processing

O operador de stream guarda memória entre eventos (agregações, joins, sessões).

“O state backend RocksDB do Flink lida com jobs stateful enormes.”

🌊Streaming

Apache Flink

Engine de streaming de verdade — evento a evento, baixa latência, state forte.

“Escolha Flink para SLAs sub-segundo e joins stateful complexos.”

Tópico de estudo

🌊Streaming

Spark Structured Streaming

Streaming em micro-batch sobre o engine Spark — operação mais simples que Flink.

“Usamos Structured Streaming porque o time já conhece Spark.”

🌊Streaming

Micro-batch

'Streaming' implementado por mini-batches a cada N segundos.

“Snowpipe Streaming e Auto Loader são micro-batch por baixo.”

🌊Streaming

Kafka Connect

Framework para source/sink connectors que movem dados de/para o Kafka.

“O Debezium roda como source do Kafka Connect.”

🌊Streaming

ksqlDB / Kafka Streams

SQL streaming / lib Java que processa dados do Kafka sem cluster separado.

“ksqlDB junta dois tópicos com um SELECT.”

🌊Streaming

Backpressure

Consumidor lento sinaliza upstream pra desacelerar, evitando estouro de memória.

“O Flink propaga backpressure entre operadores automaticamente.”

🎼Orquestração

DAG

Grafo dirigido acíclico — nós são tarefas, arestas são dependências, sem ciclos.

“DAGs do Airflow definem o ETL diário.”

🎼Orquestração

Apache Airflow

Scheduler em Python — defina DAGs em código, rode em um cluster.

“Airflow é o padrão chato e confiável para orquestração batch.”

🎼Orquestração

Dagster

Orquestrador orientado a assets — você declara assets de dados, dependências são inferidas.

“O asset graph do Dagster mapeia bem para seus modelos dbt.”

🎼Orquestração

Prefect

Orquestrador Python moderno — flows dinâmicos, execução híbrida.

“Prefect 2 é mais leve que Airflow para times pequenos.”

🎼Orquestração

Scheduler

Componente que decide quando disparar um job (cron, sensor, manual).

“O scheduler disparou a DAG às 02:00 UTC.”

🎼Orquestração

Sensor

Tarefa que espera por um evento externo (arquivo chegou, tabela atualizada).

“S3KeySensor bloqueia até o arquivo chegar.”

🎼Orquestração

SLA / SLO / SLI

SLI=métrica, SLO=meta, SLA=contrato com consequências. Pipelines precisam disso.

“SLO: 99% das cargas diárias chegam até 6h.”

🎼Orquestração

Catchup / Backfill (Airflow)

Airflow reexecutando runs históricos quando a DAG fica atrasada.

“Coloque catchup=False em dashboards que não devem ser reconstruídos a cada reboot.”

🎼Orquestração

Retry / Backoff

Re-executar tarefas falhas com delay crescente (exponential backoff).

“Coloque retries=3 com backoff exponencial para APIs instáveis.”

🎼Orquestração

Idempotency key

Token único que o cliente envia para o servidor deduplicar chamadas em retry.

“Stripe exige idempotency key em cada cobrança.”

🔍Qualidade & Observabilidade

Data quality

O quanto o dado serve ao propósito: acurácia, completude, freshness, unicidade.

“Testes do dbt pegam problemas de qualidade antes dos usuários de BI.”

🔍Qualidade & Observabilidade

Great Expectations

Lib Python que declara 'expectations' (asserts) sobre dados.

“expect_column_values_to_not_be_null('user_id').”

🔍Qualidade & Observabilidade

Soda / Soda Core

Checks de dados em YAML — roda em CI ou no warehouse em schedule.

“Soda Core verifica freshness < 6h na tabela orders.”

🔍Qualidade & Observabilidade

Freshness

Quão recente uma tabela foi atualizada vs expectativa de SLA.

“Alerta de freshness: dim_user sem atualização há 24h.”

🔍Qualidade & Observabilidade

Volume check

Anomalia: row count hoje vs típico — alerta drops/spikes.

“Volume em fact_orders caiu 80% — chame o on-call.”

🔍Qualidade & Observabilidade

Lineage

Grafo de dependências: qual fonte alimenta qual modelo alimenta qual dashboard.

“OpenLineage emite eventos que o Marquez visualiza.”

🔍Qualidade & Observabilidade

Data observability

Monitorar dado como SRE monitora serviço: freshness, volume, schema, distribuição, lineage.

“Monte Carlo e Datafold são ferramentas de observabilidade.”

🔍Qualidade & Observabilidade

Anomaly detection

ML ou stats pegando mudanças inesperadas (contagens, distribuições, freshness).

“Monte Carlo sinalizou queda de 3σ em user_ids distintos.”

🔍Qualidade & Observabilidade

dbt test

Asserts nativos do dbt: unique, not_null, accepted_values, relationships.

“dbt test quebra o build se uma PK tem duplicatas.”

🔍Qualidade & Observabilidade

Data diff

Comparar duas versões de tabela linha a linha para ver o que uma mudança alteraria.

“Datafold data-diff nos PRs evita quebras silenciosas.”

📜Governança & Contratos

Data contract

Acordo produtor-consumidor sobre schema, semântica, SLAs — versionado, quebrável só em bump.

“O data contract obriga o time de backend a subir versão antes de renomear coluna.”

📜Governança & Contratos

Data Mesh

Padrão organizacional: times de domínio são donos e servem seus dados como produtos.

“Estamos saindo da plataforma central para data mesh.”

📜Governança & Contratos

Data product

Um dataset tratado como produto: dono, SLA, doc, contrato, descobribilidade.

“O data product 'active_users' tem PM e roadmap.”

📜Governança & Contratos

Data catalog

Inventário pesquisável de datasets com dono, schema, doc, lineage.

“DataHub, Atlas, Unity Catalog, OpenMetadata.”

📜Governança & Contratos

Unity Catalog

Governança unificada da Databricks: tabelas, ML, arquivos, lineage, audit, acesso fino.

“Unity Catalog substitui ACL de tabela + Hive metastore.”

📜Governança & Contratos

PII

Informação Pessoal Identificável — precisa ser tagueada, mascarada, com controle de acesso.

“Tagueie email e telefone como PII; mascare fora de prod.”

📜Governança & Contratos

GDPR / LGPD

Leis de proteção de dados da UE / Brasil — direito ao esquecimento, consentimento, finalidade.

“LGPD exige um fluxo de 'apagar dados do usuário' em todo o lake.”

📜Governança & Contratos

RBAC / ABAC

Controle de acesso por papel (RBAC) vs por atributo (ABAC).

“Snowflake usa RBAC; row-access policies habilitam ABAC.”

📜Governança & Contratos

Dynamic data masking

Esconder valores sensíveis em query time baseado no papel de quem chama.

“Analistas veem email mascarado; segurança vê o valor real.”

📜Governança & Contratos

Data steward

Pessoa responsável pelas definições, qualidade e acesso de um dataset.

“Cada domínio tem um data steward registrado no catálogo.”

📜Governança & Contratos

OpenLineage

Standard aberto para emitir eventos de lineage de qualquer ferramenta.

“Airflow, dbt e Spark falam OpenLineage hoje.”

☁️Cloud & Infra

IaC (Infrastructure as Code)

Provisionar infra via código versionado, não clique.

“Terraform gerencia todos nossos buckets e IAM.”

☁️Cloud & Infra

Terraform / OpenTofu

Ferramenta IaC agnóstica de cloud — declara estado desejado, planeja diff, aplica.

“terraform plan; terraform apply.”

☁️Cloud & Infra

VPC

Virtual Private Cloud — rede isolada na AWS/GCP/Azure.

“O warehouse vive na VPC prod; só o bastion faz SSH.”

☁️Cloud & Infra

IAM

Identity & Access Management — quem pode fazer o quê em recursos cloud.

“Dê IAM read-only ao role do loader no bucket.”

☁️Cloud & Infra

Kubernetes (K8s)

Orquestrador de containers — gerencia pods, services, escala.

“Spark no Kubernetes substitui YARN em muitos lugares.”

☁️Cloud & Infra

Serverless

Compute que escala a zero e cobra por invocação (Lambda, Cloud Run).

“Jobs pequenos de ingestão são perfeitos para Lambda.”

☁️Cloud & Infra

Egress cost

Cobrança da cloud por dado saindo da rede dela — vilão sorrateiro da fatura.

“Replicação cross-region dobrou a fatura via egress.”

☁️Cloud & Infra

BigQuery

Warehouse analítico serverless do GCP — paga por byte scanneado ou slot.

“Particionar + clusterizar reduz drasticamente o custo de scan no BigQuery.”

☁️Cloud & Infra

Snowflake

Warehouse cloud-native separando storage do compute por segundo (warehouses).

“Use warehouse XS para dev; aumente para cargas de prod.”

☁️Cloud & Infra

Redshift

Warehouse da AWS — modo provisionado clássico ou Serverless.

“Redshift Serverless tira a dor de cabeça de dimensionar nós.”

☁️Cloud & Infra

Athena

SQL serverless da AWS sobre S3 — Trino por baixo.

“Consulte Parquet no S3 direto com Athena, sem cluster.”

☁️Cloud & Infra

AWS Glue

ETL gerenciado da AWS + data catalog em Spark.

“Glue Crawlers populam o Data Catalog a partir do S3.”

☁️Cloud & Infra

Databricks

Spark gerenciado + Delta + ML — virou a plataforma 'lakehouse'.

“Databricks Workflows substitui Airflow em muitas empresas.”

☁️Cloud & Infra

Microsoft Fabric

Plataforma de dados unificada da Microsoft: OneLake + Synapse + Power BI com preço por SKU.

“O OneLake do Fabric é um lake lógico único entre serviços.”

🤖LLMs & IA

LLM

Large Language Model — transformer treinado em corpus enorme de texto.

“GPT-4, Claude, Llama 3 são LLMs.”

🤖LLMs & IA

Token

Unidade sub-palavra que o LLM lê/escreve — billing e limites de contexto usam tokens.

“1 token ≈ 4 caracteres em inglês; preço é por milhão de tokens.”

🤖LLMs & IA

Context window

Máx tokens que o modelo considera em uma chamada (input + output).

“Não enfie 1M de tokens só porque cabe — custo e latência disparam.”

🤖LLMs & IA

Embedding

Representação vetorial de texto/imagem — vetores próximos = sentido similar.

“Embeda todos os docs, guarda no vector DB, busca por similaridade de cosseno.”

🤖LLMs & IA

RAG (Retrieval-Augmented Generation)

Recupera chunks relevantes, coloca no prompt e gera.

“RAG sobre a documentação dá respostas embasadas com citações.”

🤖LLMs & IA

Vector database

DB otimizado para busca por vizinho mais próximo em embeddings (Pinecone, pgvector, Weaviate).

“pgvector permite Postgres servir também como vector DB.”

🤖LLMs & IA

Chunking

Quebrar docs em pedaços do tamanho certo para embedding + retrieval.

“Faça chunk por fronteira semântica, não por tamanho fixo de token.”

🤖LLMs & IA

Reranker

Modelo de segunda passada que reordena resultados recuperados por relevância real.

“Cohere Rerank empurra os melhores chunks pro topo.”

🤖LLMs & IA

Agent

LLM que planeja + chama ferramentas em loop para cumprir um objetivo.

“O agente busca, lê e depois escreve uma SQL.”

🤖LLMs & IA

Tool calling / Function calling

LLM emite JSON estruturado para invocar função — seu código executa.

“Defina get_weather(city); o modelo decide quando chamar.”

🤖LLMs & IA

Fine-tuning

Continuar o treino de um modelo base em dados específicos da sua tarefa.

“Faça fine-tune do Llama 3 em tickets internos para casar com o tom da empresa.”

🤖LLMs & IA

Prompt engineering

Desenhar inputs do LLM (system, role, examples) para sair melhor.

“Exemplos few-shot batem zero-shot em formatos complicados.”

🤖LLMs & IA

Hallucination

Resposta do LLM com confiança porém errada — inventa fatos.

“RAG reduz alucinação ao se ancorar em docs reais.”

🤖LLMs & IA

Eval (LLM evaluation)

Medição sistemática da qualidade da saída do LLM (Ragas, LangSmith, custom).

“Rode evals em CI antes de subir um prompt novo.”

🤖LLMs & IA

Guardrails

Filtros/validadores em volta de input/output do LLM (redação de PII, detecção de jailbreak, JSON schema).

“Guardrails rejeitam JSON malformado antes de chegar em produção.”

🤖LLMs & IA

MLOps

Práticas DevOps para ML: pipelines de treino, registro de modelos, monitorar drift.

“MLflow rastreia experimentos e registra modelos de produção.”

🤖LLMs & IA

Feature store

Repositório servindo features consistentes para treino E inferência online.

“Feast unifica lookup offline (warehouse) + online (Redis) de features.”

⚡Performance

Shuffle

Redistribuir linhas entre nós para um join/group — custo #1 do Spark.

“Reduza shuffle: bucket de tabelas pre-juntadas, broadcast joins.”

⚡Performance

Broadcast join

Replicar o lado pequeno do join em todo executor — pula shuffle.

“Spark auto-broadcast tabelas abaixo de 10MB.”

⚡Performance

Data skew

Uma chave tem muito mais linhas que outras — uma task demora pra sempre.

“Salt na chave skewed para distribuir carga.”

⚡Performance

Predicate pushdown

Empurrar WHERE para o file format ler menos linhas.

“Parquet suporta predicate pushdown via estatísticas min/max.”

⚡Performance

Column pruning

Ler só as colunas que a query usa — grátis em formatos colunares.

“SELECT * mata o column pruning. Liste as colunas.”

⚡Performance

EXPLAIN / Query plan

Plano do engine para executar uma query — scan, join, agregação.

“EXPLAIN ANALYZE mostra linhas reais vs estimadas.”

⚡Performance

Materialized view

Query pré-computada armazenada como tabela; refresh periódico ou incremental.

“Dynamic tables do Snowflake são MVs com refresh incremental.”

⚡Performance

Caching (warehouse)

Reusar resultados de queries anteriores quando o dado base não mudou.

“Cache de resultados do Snowflake devolve queries repetidas em <1s.”

⚡Performance

AQE (Adaptive Query Execution)

Spark re-planeja em execução baseado em stats reais.

“AQE auto-coalesce partições de shuffle e trata skew.”

⚡Performance

Photon

Engine vetorizado em C++ da Databricks — 2-3x mais rápido que Spark vanilla em SQL.

“Ative Photon em SQL warehouses para $/query menor.”

⚡Performance

DuckDB

DB OLAP colunar in-process — o SQLite da analytics.

“DuckDB consulta Parquet no laptop mais rápido que seu cluster.”

🏗️Arquitetura

Lambda architecture

Dois caminhos: batch lento (verdade) + stream rápido (baixa latência), unidos no serve.

“Histórico hoje — Kappa substituiu na maioria dos stacks.”

🏗️Arquitetura

Kappa architecture

Um único caminho streaming para tudo — reprocessa histórico fazendo replay.

“Kappa funciona quando seu storage pode dar replay eterno.”

🏗️Arquitetura

CQRS

Separar modelos de leitura e escrita — escrita num store, leitura noutro.

“Postgres para escrita, índice de busca desnormalizado para leitura.”

🏗️Arquitetura

Event sourcing

Armazenar cada mudança como evento imutável; estado atual = replay.

“Event sourcing torna auditoria e time-travel nativos.”

🏗️Arquitetura

Central platform vs Data Mesh

Time central dono de tudo vs domínios donos dos próprios data products.

“Abaixo de ~30 engs, central ganha. Acima, mesh começa a compensar.”

🏗️Arquitetura

Fitness function

Check automatizado de que a arquitetura ainda atende metas (perf, deps, custo).

“CI quebra se um plano de query passar do limite de custo.”

🏗️Arquitetura

Data warehouse

Store estruturado e otimizado para query analítica (Snowflake, BigQuery, Redshift).

“Warehouse para BI, lake para raw e ML.”

🏗️Arquitetura

Data lake

Storage objeto barato com dados raw, semi-estruturados e estruturados.

“O lake no S3 guarda tudo; o warehouse só a parte curada.”

🏗️Arquitetura

Data mart

Subset do warehouse focado em um domínio (finance, marketing).

“Marketing tem seu data mart com modelos de atribuição.”

🛠️Operações

Blue/Green deploy

Rodar duas versões; trocar tráfego para a nova só após validada.

“Construa a nova tabela gold em paralelo, depois faça o swap.”

🛠️Operações

Canary release

Mandar uma % pequena de tráfego para a nova versão primeiro.

“Canary do novo modelo dbt em 10% dos dashboards.”

🛠️Operações

Rollback

Voltar para o estado bom anterior após deploy ruim.

“Iceberg deixa fazer rollback para um snapshot com uma instrução.”

🛠️Operações

CI/CD

Build/test automático em cada PR + deploy automático para ambientes.

“GitHub Actions roda dbt build em cada PR antes do merge.”

🛠️Operações

On-call

Engenheiro responsável por responder a alertas fora do horário.

“PagerDuty roda o on-call de dados semanalmente.”

🛠️Operações

Runbook

Doc passo-a-passo para resolver um incidente conhecido.

“O runbook de 'pipeline atrasada' explica como triar e reiniciar.”

🛠️Operações

Postmortem

Relato sem culpa de um incidente: o que aconteceu, por quê, o que muda.

“Todo Sev1 ganha postmortem em 48h.”

🛠️Operações

Blast radius

Quanto quebra quando um único componente falha.

“Quebrar o monólito reduziu o blast radius.”

🛠️Operações

DORA metrics

Frequência de deploy, lead time, taxa de falha, MTTR — estrelas-guia do DevOps.

“Times de dados também deveriam medir DORA.”

🛠️Operações

MTTR

Mean Time To Recovery — quão rápido restauramos serviço após incidente.

“Alertas melhores cortaram MTTR de 2h para 15min.”

🛠️Operações

FinOps

Prática de otimizar custo cloud continuamente, dividida entre eng + finance.

“Revisão de FinOps pegou o slot do BigQuery descontrolado.”