pandas忘備録
2019-09-27
2019-09-27
前置き
テキストデータを分析する際、pandasの基本的な使い方はここにメモとして残しておきます。
CSVファイルの読み込みと書き込み
```import pandas as pd
# CSVファイルを読み込み
pd.read_csv('data.csv')
# CSVファイルを書き込み
df = pd.DataFrame({'title': ['t1', 't2'], 'author': ['a1', 'a2']})
df.to_csv()
データ連結
```>>> df1 = pd.DataFrame({'title': ['t1', 't2'], 'author': ['a1', 'a2']}, index=[0,1])
>>> df2 = pd.DataFrame({'title': ['t3', 't4'], 'author': ['a3', 'a4']}, index=[2,3])
>>> out = pd.concat([df1, df2])
>>> print(out)
title author
0 t1 a1
1 t2 a2
2 t3 a3
3 t4 a4
先頭の数行と末尾の数行を表示
```>>> df = pd.DataFrame({'title': ['t1','t2','t3','t4','t5'], 'author': ['a1','a2','a3','a4','a5']})
>>> df.head(2)
title author
0 t1 a1
1 t2 a2
>>> df.tail(2)
title author
3 t4 a4
4 t5 a5
データ削除
```>>> df = pd.DataFrame({'title': ['t1','t2','t3','t4','t5'], 'author': ['a1','a2','a3','a4','a5']})
>>> df.drop(['title'], axis=1)
author
0 a1
1 a2
2 a3
3 a4
4 a5
コラム名変更
```>>> df = pd.DataFrame({'title': ['t1','t2','t3','t4','t5'], 'author': ['a1','a2','a3','a4','a5']})
>>> df.rename(columns={"title": "T", "author": "A"})
T A
0 t1 a1
1 t2 a2
2 t3 a3
3 t4 a4
4 t5 a5