pandas忘備録

ロウ
2019-09-27
ロウ
2019-09-27

前置き

テキストデータを分析する際、pandasの基本的な使い方はここにメモとして残しておきます。

CSVファイルの読み込みと書き込み

```
import pandas as pd

# CSVファイルを読み込み
pd.read_csv('data.csv')

# CSVファイルを書き込み
df = pd.DataFrame({'title': ['t1', 't2'], 'author': ['a1', 'a2']})
df.to_csv()
```

データ連結

```
>>> df1 = pd.DataFrame({'title': ['t1', 't2'], 'author': ['a1', 'a2']}, index=[0,1])
>>> df2 = pd.DataFrame({'title': ['t3', 't4'], 'author': ['a3', 'a4']}, index=[2,3])
>>> out = pd.concat([df1, df2])
>>> print(out)
title author
0 t1 a1
1 t2 a2
2 t3 a3
3 t4 a4
```

先頭の数行と末尾の数行を表示

```
>>> df = pd.DataFrame({'title': ['t1','t2','t3','t4','t5'], 'author': ['a1','a2','a3','a4','a5']})
 
>>> df.head(2)
title author
0 t1 a1
1 t2 a2
>>> df.tail(2)
title author
3 t4 a4
4 t5 a5
```

データ削除

```
>>> df = pd.DataFrame({'title': ['t1','t2','t3','t4','t5'], 'author': ['a1','a2','a3','a4','a5']})

>>> df.drop(['title'], axis=1)
author
0 a1
1 a2
2 a3
3 a4
4 a5
```

コラム名変更

```
>>> df = pd.DataFrame({'title': ['t1','t2','t3','t4','t5'], 'author': ['a1','a2','a3','a4','a5']})

>>> df.rename(columns={"title": "T", "author": "A"})
T A
0 t1 a1
1 t2 a2
2 t3 a3
3 t4 a4
4 t5 a5
```