Senior Data Engineer
2026-03-31
新闻来源:网淘吧
围观:13
电脑广告
手机广告
高级数据工程师
具备构建可扩展、可靠数据系统的生产级数据工程技能
目录
触发短语
当您看到以下内容时激活此技能:

管道设计:
- "为...设计数据管道"
- "构建ETL/ELT流程..."
- "我应该如何从...摄取数据"
- "设置从...的数据提取"
架构:
- "我应该用批处理还是流处理?"
- “Lambda架构与Kappa架构对比”
- “如何处理延迟到达的数据”
- “设计数据湖仓”
数据建模:
- “创建维度模型...”
- “星型模式与雪花模式对比”
- “实现缓慢变化维度”
- “设计数据仓库”
数据质量:
- “为...添加数据验证”
- “设置数据质量检查”
- “监控数据新鲜度”
- “实施数据合同”
性能:
- “优化此Spark作业”
- “查询运行缓慢”
- “减少管道执行时间”
- “调整Airflow DAG”
快速入门
核心工具
# Generate pipeline orchestration config
python scripts/pipeline_orchestrator.py generate \
--type airflow \
--source postgres \
--destination snowflake \
--schedule "0 5 * * *"
# Validate data quality
python scripts/data_quality_validator.py validate \
--input data/sales.parquet \
--schema schemas/sales.json \
--checks freshness,completeness,uniqueness
# Optimize ETL performance
python scripts/etl_performance_optimizer.py analyze \
--query queries/daily_aggregation.sql \
--engine spark \
--recommend
工作流程
→ 详情请参阅 references/workflows.md
架构决策框架
使用此框架为您的数据管道选择正确的方法。
批处理 vs 流处理
| 评判标准 | 批处理 | 流处理 |
|---|---|---|
| 延迟要求 | 数小时至数天 | 秒至分钟级 |
| 数据量 | 大规模历史数据集 | 连续事件流 |
| 处理复杂度 | 复杂转换、机器学习 | 简单聚合、过滤 |
| 成本敏感性 | 更具成本效益 | 基础设施成本更高 |
| 错误处理 | 重新处理更容易 | 需要精心设计 |
决策树:
Is real-time insight required?
├── Yes → Use streaming
│ └── Is exactly-once semantics needed?
│ ├── Yes → Kafka + Flink/Spark Structured Streaming
│ └── No → Kafka + consumer groups
└── No → Use batch
└── Is data volume > 1TB daily?
├── Yes → Spark/Databricks
└── No → dbt + warehouse compute
Lambda架构 vs Kappa架构
| 方面 | Lambda | Kappa |
|---|---|---|
| 复杂性 | 双代码库(批处理 + 流处理) | 单一代码库 |
| 维护成本 | 较高(需同步批处理/流处理逻辑) | 较低 |
| 数据重处理 | 原生批处理层 | 从源头重放数据流 |
| 适用场景 | 机器学习训练 + 实时服务 | 纯事件驱动型 |
何时选择Lambda架构:
- 需基于历史数据训练机器学习模型
- 复杂批处理转换难以通过流式处理实现
- 已有批处理基础设施
何时选择Kappa架构:
- 事件溯源型架构
- 所有处理逻辑均可表达为流式操作
- 从零开始且无遗留系统负担
数据仓库 vs 数据湖仓
| 特性 | 数据仓库 (Snowflake/BigQuery) | 湖仓 (Delta/Iceberg) |
|---|---|---|
| 最适合 | 商业智能、SQL分析 | 机器学习、非结构化数据 |
| 存储成本 | 较高 (专有格式) | 较低 (开放格式) |
| 灵活性 | 写时模式 | 读时模式 |
| 性能 | SQL性能卓越 | 良好,持续改进 |
| 生态系统 | 成熟的BI工具 | 不断发展的ML工具 |
技术栈
| 类别 | 技术 |
|---|---|
| 语言 | Python、SQL、Scala |
| 编排 | Airflow, Prefect, Dagster |
| 转换 | dbt, Spark, Flink |
| 流处理 | Kafka, Kinesis, Pub/Sub |
| 存储 | S3, GCS, Delta Lake, Iceberg |
| 数据仓库 | Snowflake, BigQuery, Redshift, Databricks |
| 数据质量 | Great Expectations, dbt tests, Monte Carlo |
| 监控 | Prometheus, Grafana, Datadog |
参考文档
1. 数据管道架构
参见references/data_pipeline_architecture.md以了解:
- Lambda与Kappa架构模式
- 使用Spark和Airflow进行批处理
- 使用Kafka和Flink进行流处理
- 精确一次语义的实现
- 错误处理与死信队列
2. 数据建模模式
请参阅references/data_modeling_patterns.md以了解:
- 维度建模(星型/雪花型)
- 缓慢变化维度(SCD 类型 1-6)
- 数据仓库建模
- dbt 最佳实践
- 分区与聚类
3. DataOps 最佳实践
请参阅references/dataops_best_practices.md以了解:
- 数据测试框架
- 数据契约与模式验证
- 数据管道的 CI/CD
- 可观测性与数据血缘
- 事件响应
故障排除
→ 详情请参阅 references/troubleshooting.md
文章底部电脑广告
手机广告位-内容正文底部
上一篇:ClankedIn
下一篇:QMD - Quick Markdown Search


微信扫一扫,打赏作者吧~