日本語テキストのWord Cloudを作成してみた

ロウ
2020-03-20
ロウ
2020-03-20

Word Cloudとは

Word Cloudとは、テキストデータの中で単語の出現頻度を可視化する手法のひとつです。ここではWord Cloudライブラリと日本語形態素解析エンジンMeCabを用いて、日本語テキストのWord Cloudを作成してみました。

インストール

pipでWord Cloudライブラリとmatplotlibをインストールします。

```
pip install wordcloud
pip install matplotlib
```

次は、ブログの記事「形態素解析エンジンMeCabのインストール」に記載されている手順でMeCabをインストールします。

Word Cloudを作成

今回は記事「ディープリンクについてまとめ」をテキストデータとして使って、Word Cloudを作ってみます。

```
#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import MeCab
from matplotlib import pyplot as plt
from wordcloud import WordCloud

# read data
with open('test.txt', encoding='utf-8') as f:
    read_data = f.read()

# tokenize Japanese text
mecab = MeCab.Tagger("-Owakati")
tokenized_text = mecab.parse(read_data)

# generate word cloud
word_cloud = WordCloud(font_path='/System/Library/Fonts/ヒラギノ明朝 ProN.ttc').generate(tokenized_text)
plt.imshow(word_cloud)
plt.axis('off')
plt.show()
```

実行結果は以下のようになります:


word cloud