第9阶段:大数据与流处理

目标

理解大规模数据处理的架构模式,包括批处理、流处理、数据湖/仓库、消息队列的深化应用,以及典型的计算引擎和存储方案。

模块概览

模块 核心内容 与已学知识的衔接
9.1 大数据架构模式 Lambda 架构(批+流双路)、Kappa 架构(纯流)、数据湖与数据仓库的概念 承接第4阶段(软件架构),引入数据密集型场景
9.2 批处理系统 MapReduce 模型、Apache Spark(核心、SQL、DataFrame)、Hadoop HDFS、Hive 对比传统数据库 ETL,理解分布式计算的原理
9.3 流处理系统 事件时间与处理时间、窗口(滚动/滑动/会话)、Exactly-once 语义、Apache Flink、Kafka Streams、Spark Streaming 结合第5阶段的消息队列(Kafka),实现实时计算
9.4 消息队列深化 分区(Partition)、消费者组、偏移量提交、幂等性、事务、Kafka 内部原理(ISR、Leader 选举) 基于已学的消息队列基础,深入到生产级配置与调优
9.5 数据存储与格式 列式存储(Parquet、ORC)、文件系统(HDFS、S3)、数据湖格式(Delta Lake、Iceberg、Hudi) 衔接数据库与对象存储,支持大数据分析
9.6 数据集成与 ETL 数据采集(Canal、Debezium、Flume)、ETL/ELT 工具(dbt、DataX)、数据管道编排(Airflow、DolphinScheduler) 将业务数据库的数据同步到数仓或数据湖
9.7 实时数仓与 OLAP 向量化执行、MPP 架构(ClickHouse、Doris、StarRocks)、实时物化视图 提供亚秒级的大数据查询响应
9.8 机器学习与特征平台 特征存储(Feast)、在线/离线特征一致性、模型训练与推理的批流一体 与第5阶段(AI应用架构)结合,构成 AI 工程化闭环

后续阶段预告

  • 第10阶段:现代通信协议(gRPC、GraphQL、WebSocket、QUIC)

请确认是否继续进入第10阶段(最后一个阶段),或需要对第9阶段中某个模块做简单说明。