Skip to content

大数据架构

大数据架构处理PB级数据的存储、计算和分析。

目录

  1. 批处理 - Hadoop、Spark
  2. 流处理 - Flink、Kafka Streams
  3. 实时数仓 - Lambda/Kappa架构
  4. OLAP引擎 - ClickHouse、Druid
  5. Hadoop与HDFS - Hadoop生态、HDFS存储
  6. Hive数据仓库 - HiveQL、数据仓库
  7. HBase - NoSQL列式数据库
  8. 数据采集 - Flume、Logstash、Sqoop、Canal
  9. Presto/Trino - 交互式查询引擎
  10. 数据湖 - Iceberg、Delta Lake、Hudi
  11. Airflow - 工作流调度

大数据技术栈

┌────────────────────────────────────────────────────┐
│              大数据技术栈                          │
├────────────────────────────────────────────────────┤
│  数据采集   Flume、Kafka、Logstash、Canal、Sqoop  │
│  数据存储   HDFS、S3、HBase、Cassandra             │
│  数据湖     Iceberg、Delta Lake、Hudi              │
│  批处理     Hadoop MR、Spark、Flink                │
│  流处理     Flink、Storm、Spark Streaming          │
│  数据仓库   Hive、Doris                            │
│  查询引擎   Presto/Trino、ClickHouse               │
│  OLAP       ClickHouse、Doris、StarRocks           │
│  调度       Airflow、Oozie、DolphinScheduler       │
└────────────────────────────────────────────────────┘

开始学习 → 01_batch_processing.md

💬 讨论

使用 GitHub 账号登录后即可参与讨论

基于 MIT 许可发布