Spark 笔记
Part 0 前言
Apache Spark 是一个开源的集群计算框架,可以执行大规模数据处理任务,经常和 Scala,Zeppelin 一起配合使用。
这篇笔记主要记录 Scala + Spark + Zeppelin 的使用。
Part 1 Scala
列表
1 | val myList = List(1, 2, 3, 4, 5) |
Part 2 Spark
SparkSession
管理 Spark 应用程序的上下文,类似 Java 中的 JVM。
在 Zeppelin 中,不需要显示创建。
DataFrame
DataFrame 是 Spark SQL 中的主要数据抽象,以列的形式组织分布式数据集,类似关系数据库的 table。
RDD
暂时未使用到
Part 3 Zeppelin
%
魔术命令
用于执行特定的操作,一般放在代码块开头。
%example_spark
类似 Jupyter 中的魔术命令,用以指定代码块的 Spark 解释器。
%example_spark.pyspark
指定代码块的 PySpark 解释器,以执行 Python 代码。
Part 4 Parquet
Parquet 是一种列式数据存储格式,用于高效存储和处理大规模数据集。
读取
假设文件目录为
/home/example
1 | // 读取 Parquet 文件 |
This is copyright.