日本語テキストのWord Cloudを作成してみた
2020-03-20
2020-03-20
Word Cloudとは
Word Cloudとは、テキストデータの中で単語の出現頻度を可視化する手法のひとつです。ここではWord Cloudライブラリと日本語形態素解析エンジンMeCabを用いて、日本語テキストのWord Cloudを作成してみました。
インストール
pipでWord Cloudライブラリとmatplotlibをインストールします。
```pip install wordcloud
pip install matplotlib
```pip install matplotlib
次は、ブログの記事「形態素解析エンジンMeCabのインストール」に記載されている手順でMeCabをインストールします。
Word Cloudを作成
今回は記事「ディープリンクについてまとめ」をテキストデータとして使って、Word Cloudを作ってみます。
```#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import MeCab
from matplotlib import pyplot as plt
from wordcloud import WordCloud
# read data
with open('test.txt', encoding='utf-8') as f:
read_data = f.read()
# tokenize Japanese text
mecab = MeCab.Tagger("-Owakati")
tokenized_text = mecab.parse(read_data)
# generate word cloud
word_cloud = WordCloud(font_path='/System/Library/Fonts/ヒラギノ明朝 ProN.ttc').generate(tokenized_text)
plt.imshow(word_cloud)
plt.axis('off')
plt.show()
```# -*- coding: utf-8 -*-
import MeCab
from matplotlib import pyplot as plt
from wordcloud import WordCloud
# read data
with open('test.txt', encoding='utf-8') as f:
read_data = f.read()
# tokenize Japanese text
mecab = MeCab.Tagger("-Owakati")
tokenized_text = mecab.parse(read_data)
# generate word cloud
word_cloud = WordCloud(font_path='/System/Library/Fonts/ヒラギノ明朝 ProN.ttc').generate(tokenized_text)
plt.imshow(word_cloud)
plt.axis('off')
plt.show()
実行結果は以下のようになります: