Spark笔记

Posted by saltyfishyjk on 2023-12-24
Words 271 and Reading Time 1 Minutes
Viewed Times

Spark 笔记

Part 0 前言

Apache Spark 是一个开源的集群计算框架,可以执行大规模数据处理任务,经常和 Scala,Zeppelin 一起配合使用。

这篇笔记主要记录 Scala + Spark + Zeppelin 的使用。

Part 1 Scala

列表

1
val myList = List(1, 2, 3, 4, 5)

Part 2 Spark

SparkSession

管理 Spark 应用程序的上下文,类似 Java 中的 JVM。

在 Zeppelin 中,不需要显示创建。

DataFrame

DataFrame 是 Spark SQL 中的主要数据抽象,以列的形式组织分布式数据集,类似关系数据库的 table。

RDD

暂时未使用到

Part 3 Zeppelin

% 魔术命令

用于执行特定的操作,一般放在代码块开头。

%example_spark

类似 Jupyter 中的魔术命令,用以指定代码块的 Spark 解释器。

%example_spark.pyspark

指定代码块的 PySpark 解释器,以执行 Python 代码。

Part 4 Parquet

Parquet 是一种列式数据存储格式,用于高效存储和处理大规模数据集。

读取

假设文件目录为 /home/example

1
2
3
4
5
// 读取 Parquet 文件
val df = spark.read.parquet("/home/example")

// 显示数据集内容
df.show()

存储


This is copyright.