PySparkのデータ読み込みと書き込みのまとめ
2022-01-20
2022-01-20
前書き
PySparkのデータ読み込みと書き込みコードをまとめていきます。
データ読み込み
ParquetファイルをDataFrameに読み込みます。
```df = spark.read.parquet("/tmp/abc.parquet") ```
CSVファイルをDataFrameに読み込みます。
```df = spark.read.options(header="True", inferSchema="True", delimiter=",").csv("/tmp/abc.csv") ```
JSONファイルをDataFrameに読み込みます。
```df = spark.read.option("multiline", "true").json("/tmp/abc.json") ```
データ書き込み
DataFrameをParquetファイル形式に書き込みます。
```df.write.parquet("/tmp/abc.parquet")
# 既存のParquetファイルを追加する
df.write.mode('append').parquet("/tmp/abc.parquet")
# 既存のParquetファイルを上書きする
df.write.mode('overwrite').parquet("/tmp/abc.parquet") ```
DataFrameをCSVファイル形式に書き込みます。
```df.write.option("header", true).option("delimiter", ",").csv("/tmp/abc") ```
DataFrameをJSONファイル形式に書き込みます。
```df.write.mode('overwrite').json("/tmp/abc.json") ```