网淘吧来吧,欢迎您!

Senior Data Engineer

2026-03-31 新闻来源:网淘吧 围观:13
电脑广告
手机广告

高级数据工程师

具备构建可扩展、可靠数据系统的生产级数据工程技能

目录

  1. 触发短语
  2. 快速开始
  3. 工作流程
  4. 架构决策框架
  5. 技术栈
  6. 参考文档
  7. 故障排除

触发短语

当您看到以下内容时激活此技能:

Senior Data Engineer

管道设计:

  • "为...设计数据管道"
  • "构建ETL/ELT流程..."
  • "我应该如何从...摄取数据"
  • "设置从...的数据提取"

架构:

  • "我应该用批处理还是流处理?"
  • “Lambda架构与Kappa架构对比”
  • “如何处理延迟到达的数据”
  • “设计数据湖仓”

数据建模:

  • “创建维度模型...”
  • “星型模式与雪花模式对比”
  • “实现缓慢变化维度”
  • “设计数据仓库”

数据质量:

  • “为...添加数据验证”
  • “设置数据质量检查”
  • “监控数据新鲜度”
  • “实施数据合同”

性能:

  • “优化此Spark作业”
  • “查询运行缓慢”
  • “减少管道执行时间”
  • “调整Airflow DAG”

快速入门

核心工具

# Generate pipeline orchestration config
python scripts/pipeline_orchestrator.py generate \
  --type airflow \
  --source postgres \
  --destination snowflake \
  --schedule "0 5 * * *"

# Validate data quality
python scripts/data_quality_validator.py validate \
  --input data/sales.parquet \
  --schema schemas/sales.json \
  --checks freshness,completeness,uniqueness

# Optimize ETL performance
python scripts/etl_performance_optimizer.py analyze \
  --query queries/daily_aggregation.sql \
  --engine spark \
  --recommend

工作流程

→ 详情请参阅 references/workflows.md

架构决策框架

使用此框架为您的数据管道选择正确的方法。

批处理 vs 流处理

评判标准批处理流处理
延迟要求数小时至数天秒至分钟级
数据量大规模历史数据集连续事件流
处理复杂度复杂转换、机器学习简单聚合、过滤
成本敏感性更具成本效益基础设施成本更高
错误处理重新处理更容易需要精心设计

决策树:

Is real-time insight required?
├── Yes → Use streaming
│   └── Is exactly-once semantics needed?
│       ├── Yes → Kafka + Flink/Spark Structured Streaming
│       └── No → Kafka + consumer groups
└── No → Use batch
    └── Is data volume > 1TB daily?
        ├── Yes → Spark/Databricks
        └── No → dbt + warehouse compute

Lambda架构 vs Kappa架构

方面LambdaKappa
复杂性双代码库(批处理 + 流处理)单一代码库
维护成本较高(需同步批处理/流处理逻辑)较低
数据重处理原生批处理层从源头重放数据流
适用场景机器学习训练 + 实时服务纯事件驱动型

何时选择Lambda架构:

  • 需基于历史数据训练机器学习模型
  • 复杂批处理转换难以通过流式处理实现
  • 已有批处理基础设施

何时选择Kappa架构:

  • 事件溯源型架构
  • 所有处理逻辑均可表达为流式操作
  • 从零开始且无遗留系统负担

数据仓库 vs 数据湖仓

特性数据仓库 (Snowflake/BigQuery)湖仓 (Delta/Iceberg)
最适合商业智能、SQL分析机器学习、非结构化数据
存储成本较高 (专有格式)较低 (开放格式)
灵活性写时模式读时模式
性能SQL性能卓越良好,持续改进
生态系统成熟的BI工具不断发展的ML工具

技术栈

类别技术
语言Python、SQL、Scala
编排Airflow, Prefect, Dagster
转换dbt, Spark, Flink
流处理Kafka, Kinesis, Pub/Sub
存储S3, GCS, Delta Lake, Iceberg
数据仓库Snowflake, BigQuery, Redshift, Databricks
数据质量Great Expectations, dbt tests, Monte Carlo
监控Prometheus, Grafana, Datadog

参考文档

1. 数据管道架构

参见references/data_pipeline_architecture.md以了解:

  • Lambda与Kappa架构模式
  • 使用Spark和Airflow进行批处理
  • 使用Kafka和Flink进行流处理
  • 精确一次语义的实现
  • 错误处理与死信队列

2. 数据建模模式

请参阅references/data_modeling_patterns.md以了解:

  • 维度建模(星型/雪花型)
  • 缓慢变化维度(SCD 类型 1-6)
  • 数据仓库建模
  • dbt 最佳实践
  • 分区与聚类

3. DataOps 最佳实践

请参阅references/dataops_best_practices.md以了解:

  • 数据测试框架
  • 数据契约与模式验证
  • 数据管道的 CI/CD
  • 可观测性与数据血缘
  • 事件响应

故障排除

→ 详情请参阅 references/troubleshooting.md

免责申明
部分文章来自各大搜索引擎,如有侵权,请与我联系删除。
打赏

文章底部电脑广告
手机广告位-内容正文底部
上一篇:ClankedIn 下一篇:QMD - Quick Markdown Search

相关文章

您是本站第378270名访客 今日有334篇新文章/评论