第9阶段:大数据与流处理
目标
理解大规模数据处理的架构模式,包括批处理、流处理、数据湖/仓库、消息队列的深化应用,以及典型的计算引擎和存储方案。
模块概览
| 模块 | 核心内容 | 与已学知识的衔接 |
|---|---|---|
| 9.1 大数据架构模式 | Lambda 架构(批+流双路)、Kappa 架构(纯流)、数据湖与数据仓库的概念 | 承接第4阶段(软件架构),引入数据密集型场景 |
| 9.2 批处理系统 | MapReduce 模型、Apache Spark(核心、SQL、DataFrame)、Hadoop HDFS、Hive | 对比传统数据库 ETL,理解分布式计算的原理 |
| 9.3 流处理系统 | 事件时间与处理时间、窗口(滚动/滑动/会话)、Exactly-once 语义、Apache Flink、Kafka Streams、Spark Streaming | 结合第5阶段的消息队列(Kafka),实现实时计算 |
| 9.4 消息队列深化 | 分区(Partition)、消费者组、偏移量提交、幂等性、事务、Kafka 内部原理(ISR、Leader 选举) | 基于已学的消息队列基础,深入到生产级配置与调优 |
| 9.5 数据存储与格式 | 列式存储(Parquet、ORC)、文件系统(HDFS、S3)、数据湖格式(Delta Lake、Iceberg、Hudi) | 衔接数据库与对象存储,支持大数据分析 |
| 9.6 数据集成与 ETL | 数据采集(Canal、Debezium、Flume)、ETL/ELT 工具(dbt、DataX)、数据管道编排(Airflow、DolphinScheduler) | 将业务数据库的数据同步到数仓或数据湖 |
| 9.7 实时数仓与 OLAP | 向量化执行、MPP 架构(ClickHouse、Doris、StarRocks)、实时物化视图 | 提供亚秒级的大数据查询响应 |
| 9.8 机器学习与特征平台 | 特征存储(Feast)、在线/离线特征一致性、模型训练与推理的批流一体 | 与第5阶段(AI应用架构)结合,构成 AI 工程化闭环 |
后续阶段预告
- 第10阶段:现代通信协议(gRPC、GraphQL、WebSocket、QUIC)
请确认是否继续进入第10阶段(最后一个阶段),或需要对第9阶段中某个模块做简单说明。
评论
请登录后发表评论
暂无评论,快来发表第一条评论吧!