第九阶段：大数据与流处理

发布日期：2026-05-22 归属：无

第9阶段：大数据与流处理

目标

理解大规模数据处理的架构模式，包括批处理、流处理、数据湖/仓库、消息队列的深化应用，以及典型的计算引擎和存储方案。

模块概览

模块	核心内容	与已学知识的衔接
9.1 大数据架构模式	Lambda 架构（批+流双路）、Kappa 架构（纯流）、数据湖与数据仓库的概念	承接第4阶段（软件架构），引入数据密集型场景
9.2 批处理系统	MapReduce 模型、Apache Spark（核心、SQL、DataFrame）、Hadoop HDFS、Hive	对比传统数据库 ETL，理解分布式计算的原理
9.3 流处理系统	事件时间与处理时间、窗口（滚动/滑动/会话）、Exactly-once 语义、Apache Flink、Kafka Streams、Spark Streaming	结合第5阶段的消息队列（Kafka），实现实时计算
9.4 消息队列深化	分区（Partition）、消费者组、偏移量提交、幂等性、事务、Kafka 内部原理（ISR、Leader 选举）	基于已学的消息队列基础，深入到生产级配置与调优
9.5 数据存储与格式	列式存储（Parquet、ORC）、文件系统（HDFS、S3）、数据湖格式（Delta Lake、Iceberg、Hudi）	衔接数据库与对象存储，支持大数据分析
9.6 数据集成与 ETL	数据采集（Canal、Debezium、Flume）、ETL/ELT 工具（dbt、DataX）、数据管道编排（Airflow、DolphinScheduler）	将业务数据库的数据同步到数仓或数据湖
9.7 实时数仓与 OLAP	向量化执行、MPP 架构（ClickHouse、Doris、StarRocks）、实时物化视图	提供亚秒级的大数据查询响应
9.8 机器学习与特征平台	特征存储（Feast）、在线/离线特征一致性、模型训练与推理的批流一体	与第5阶段（AI应用架构）结合，构成 AI 工程化闭环

后续阶段预告

第10阶段：现代通信协议（gRPC、GraphQL、WebSocket、QUIC）

请确认是否继续进入第10阶段（最后一个阶段），或需要对第9阶段中某个模块做简单说明。

评论

请登录后发表评论

暂无评论，快来发表第一条评论吧！