PySparkのデータ読み込みと書き込みのまとめ

ロウ
2022-01-20
ロウ
2022-01-20

前書き

PySparkのデータ読み込みと書き込みコードをまとめていきます。

データ読み込み

ParquetファイルをDataFrameに読み込みます。

```
df = spark.read.parquet("/tmp/abc.parquet") ```

CSVファイルをDataFrameに読み込みます。

```
df = spark.read.options(header="True", inferSchema="True", delimiter=",").csv("/tmp/abc.csv") ```

JSONファイルをDataFrameに読み込みます。

```
df = spark.read.option("multiline", "true").json("/tmp/abc.json") ```

データ書き込み

DataFrameをParquetファイル形式に書き込みます。

```
df.write.parquet("/tmp/abc.parquet")

# 既存のParquetファイルを追加する
df.write.mode('append').parquet("/tmp/abc.parquet")

# 既存のParquetファイルを上書きする
df.write.mode('overwrite').parquet("/tmp/abc.parquet") ```

DataFrameをCSVファイル形式に書き込みます。

```
df.write.option("header", true).option("delimiter", ",").csv("/tmp/abc") ```

DataFrameをJSONファイル形式に書き込みます。

```
df.write.mode('overwrite').json("/tmp/abc.json") ```