大数据架构

大数据架构处理PB级数据的存储、计算和分析。

批处理 - Hadoop、Spark
流处理 - Flink、Kafka Streams
实时数仓 - Lambda/Kappa架构
OLAP引擎 - ClickHouse、Druid
Hadoop与HDFS - Hadoop生态、HDFS存储
Hive数据仓库 - HiveQL、数据仓库
HBase - NoSQL列式数据库
数据采集 - Flume、Logstash、Sqoop、Canal
Presto/Trino - 交互式查询引擎
数据湖 - Iceberg、Delta Lake、Hudi
Airflow - 工作流调度

大数据技术栈

┌────────────────────────────────────────────────────┐
│              大数据技术栈                          │
├────────────────────────────────────────────────────┤
│  数据采集   Flume、Kafka、Logstash、Canal、Sqoop  │
│  数据存储   HDFS、S3、HBase、Cassandra             │
│  数据湖     Iceberg、Delta Lake、Hudi              │
│  批处理     Hadoop MR、Spark、Flink                │
│  流处理     Flink、Storm、Spark Streaming          │
│  数据仓库   Hive、Doris                            │
│  查询引擎   Presto/Trino、ClickHouse               │
│  OLAP       ClickHouse、Doris、StarRocks           │
│  调度       Airflow、Oozie、DolphinScheduler       │
└────────────────────────────────────────────────────┘

开始学习 → 01_batch_processing.md

大数据架构

目录

大数据技术栈

💬 讨论

大数据架构 ​

目录 ​

大数据技术栈 ​

💬 讨论

大数据架构

目录

大数据技术栈