twitter APIとmecabのセットアップがてら、ハイテンションにツイートされるワードを抽出してランキングにしてみました。
やり方
最新のツイートを10万件ぐらい取ってきます。
「!」や「w」をハイテンション、「・・・」などをローテンションなキーワードとみなして、これらと他のワードが一緒にでる割合を調べ、各ワードをスコアリングします。
結果
得られたハイテンションなワードランキングはこちらです。
- 配信
- 抽選
- 本日
- 楽しみ
- 応援
- プレゼント
- 絶対
- みんな
- こちら
- 最高
- お願い
- 参加
- 大丈夫
- ちゃん
- 2019
- 紅白
- 明日
- ゲーム
- 大好き
- 動画
- リプ
- フォロー
- 一緒
- さん
- 今日
- あなた
上位は広告ツイートみたいな雰囲気もありますが・・・
でもエネルギーに満ちた言葉が多いような気がします!
逆に、ローテンションなワードランキングも作ってみました。
- もの
- 日本
- ため
- 自分
- よう
- 幸せ
- ところ
- こと
- 以上
- 気持ち
- 無理
- 交換
- 最近
- 時間
- みたい
- とき
- 仕事
- 好き
- ここ
- それ
- これ
- なん
- 情報
- 写真
- あと
- 感じ
- めちゃくちゃ
- そう
- 画像
ネガティブなワードが並ぶかと思いましたが、意外とそうでもない?
丁寧な言葉が多い印象です。
感想
シンプルな特徴抽出でしたが、それなりにワードの特徴がわかる結果になったと思います。
今回はある程度一般的なワードでフィルタリングして結果を出していますが、単語の範囲を広げると時事ネタが出てきやすくなります。
2019/11/14時点で取ってきたツイートで実験したのですが、「桜を見る会」がローテンションなワード上位に入ってきたりしました。
同じトレンドワードでも、ポジティブなものかネガティブなものかみたいな区分けができるかもしれません。