勉強がてらツイートからボドゲに関する話題のワードを抽出してみる(継続中)

勉強がてらツイッターからボドゲ関連のツイートを抽出してみる(続き)
上記記事の続き。8/14(水)14時「ボードゲーム」をキーワードに「いいね数とRT数が10以上」のツイートを抽出し、そ...

ツイッターからボドゲ関連のツイートを抽出し頻出ワードを分析することでワードクラウドを作成してトレンドの見える化を実施する取り組みの続き(早口

ツイートの抽出とワードクラウド作成まで一通りできるようになり1万5千ツイートぐらいを抽出して分析してみましたがなかなか思うような結果が得られません。

分析対象のツイート数が多くなると名詞以外の単語に引きずられる

「ボドゲ」をキーワードにRT以外を抽出して作成したワードクラウドですが動詞や形容詞が増えてて良く分かりません(笑)まあ「楽しい」とか「好き」っていうワードが多いのは微笑ましい限りではありますが。

とりあえずこの点に関してはMeCabで形態素解析した後、名詞だけを取り出すようにし分析するように修正いたしました。

結局一番重要なのは「どうやってデータを集めるか」

最終的に出来上がったのがTOPの画像ですが、まだまだ理想には遠い。一般的な特に意味のない名詞とかも除外していきたいところですね。これはもはや手作業でやっていくしかないのか、うまい方法がないか悩みどころです。

ぱっと見たところ固有名詞で目立つのは「くにキャラ」「edugame」といったところでしょうか。なにこれ?というわけで調べてみましたが

その① ファミリー対象キャンペーン
フォロー&RT/リポストで抽選で50名様
に「3,500円分のAmazonギフトコード」が当たる!!
応募の詳細は以下の応募規約をご覧ください。

その② ユーザーファミリー対象
エデュゲーシリーズをご購入いただき、
さらに感想を投稿してくれた方の中から先着100名様
におもちゃをプレゼント♪
応募の詳細は以下の応募規約をご覧ください。

これか・・・。大勢がこの教育系ボードゲームの検証ツイート行ったせいでノイズになってしまっていると。データサイエンスでは当たり前のことかもしれませんが、データ分析ってどう分析するかよりどうやってデータを集めるかの方が難しいですね。

もう少しデータ収集を続けながら対応を考えてまいります。

スポンサーリンク
PR
PR

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

スポンサーリンク
PR