Senior Data Engineer技能使用说明

2026-03-31 新闻来源：网淘吧围观:200

电脑广告

手机广告

高级数据工程师

具备构建可扩展、可靠数据系统的生产级数据工程技能

触发短语

当您看到以下内容时激活此技能：

Senior Data Engineer

管道设计：

"为...设计数据管道"
"构建ETL/ELT流程..."
"我应该如何从...摄取数据"
"设置从...的数据提取"

架构：

"我应该用批处理还是流处理？"
“Lambda架构与Kappa架构对比”
“如何处理延迟到达的数据”
“设计数据湖仓”

数据建模：

“创建维度模型...”
“星型模式与雪花模式对比”
“实现缓慢变化维度”
“设计数据仓库”

数据质量：

“为...添加数据验证”
“设置数据质量检查”
“监控数据新鲜度”
“实施数据合同”

性能：

“优化此Spark作业”
“查询运行缓慢”
“减少管道执行时间”
“调整Airflow DAG”

快速入门

核心工具

# Generate pipeline orchestration config
python scripts/pipeline_orchestrator.py generate \
  --type airflow \
  --source postgres \
  --destination snowflake \
  --schedule "0 5 * * *"

# Validate data quality
python scripts/data_quality_validator.py validate \
  --input data/sales.parquet \
  --schema schemas/sales.json \
  --checks freshness,completeness,uniqueness

# Optimize ETL performance
python scripts/etl_performance_optimizer.py analyze \
  --query queries/daily_aggregation.sql \
  --engine spark \
  --recommend

工作流程

→ 详情请参阅 references/workflows.md

架构决策框架

使用此框架为您的数据管道选择正确的方法。

批处理 vs 流处理

评判标准	批处理	流处理
延迟要求	数小时至数天	秒至分钟级
数据量	大规模历史数据集	连续事件流
处理复杂度	复杂转换、机器学习	简单聚合、过滤
成本敏感性	更具成本效益	基础设施成本更高
错误处理	重新处理更容易	需要精心设计

决策树：

Is real-time insight required?
├── Yes → Use streaming
│   └── Is exactly-once semantics needed?
│       ├── Yes → Kafka + Flink/Spark Structured Streaming
│       └── No → Kafka + consumer groups
└── No → Use batch
    └── Is data volume > 1TB daily?
        ├── Yes → Spark/Databricks
        └── No → dbt + warehouse compute

Lambda架构 vs Kappa架构

方面	Lambda	Kappa
复杂性	双代码库（批处理 + 流处理）	单一代码库
维护成本	较高（需同步批处理/流处理逻辑）	较低
数据重处理	原生批处理层	从源头重放数据流
适用场景	机器学习训练 + 实时服务	纯事件驱动型

何时选择Lambda架构：

需基于历史数据训练机器学习模型
复杂批处理转换难以通过流式处理实现
已有批处理基础设施

何时选择Kappa架构：

事件溯源型架构
所有处理逻辑均可表达为流式操作
从零开始且无遗留系统负担

数据仓库 vs 数据湖仓

特性	数据仓库 (Snowflake/BigQuery)	湖仓 (Delta/Iceberg)
最适合	商业智能、SQL分析	机器学习、非结构化数据
存储成本	较高 (专有格式)	较低 (开放格式)
灵活性	写时模式	读时模式
性能	SQL性能卓越	良好，持续改进
生态系统	成熟的BI工具	不断发展的ML工具

技术栈

类别	技术
语言	Python、SQL、Scala
编排	Airflow, Prefect, Dagster
转换	dbt, Spark, Flink
流处理	Kafka, Kinesis, Pub/Sub
存储	S3, GCS, Delta Lake, Iceberg
数据仓库	Snowflake, BigQuery, Redshift, Databricks
数据质量	Great Expectations, dbt tests, Monte Carlo
监控	Prometheus, Grafana, Datadog

参考文档

1. 数据管道架构

参见references/data_pipeline_architecture.md以了解：

Lambda与Kappa架构模式
使用Spark和Airflow进行批处理
使用Kafka和Flink进行流处理
精确一次语义的实现
错误处理与死信队列

2. 数据建模模式

请参阅references/data_modeling_patterns.md以了解：

维度建模（星型/雪花型）
缓慢变化维度（SCD 类型 1-6）
数据仓库建模
dbt 最佳实践
分区与聚类

3. DataOps 最佳实践

请参阅references/dataops_best_practices.md以了解：

数据测试框架
数据契约与模式验证
数据管道的 CI/CD
可观测性与数据血缘
事件响应

故障排除

→ 详情请参阅 references/troubleshooting.md

免责申明

部分文章来自各大搜索引擎，如有侵权，请与我联系删除。

打赏

文章底部电脑广告

手机广告位-内容正文底部

标签

上一篇：ClankedIn技能使用说明下一篇：QMD - Quick Markdown Search技能使用说明