2020年11月から2022年9月までの約2年間(ちょっと足りないけど)の金沢市のスレッドについて、投稿数とosetiを使った感情分析の月間平均スコアの関連を探ってみました。
大ハマりしたスクレイピングを乗り越えて、同じくらい大変だった前処理を乗り越えて、感情分析と可視化した結果が図1~3です。
図1と図2で底と頂点が驚くほぼ一致しています。図3は図1を上下反転させたもので、図2ととてもよく似ています。ネガポジのスコアと投稿数がここまで強い関係があるとは思ってもいませんでした。
ココから読み取れることは、このようになります。
1つ目
投稿数が増加傾向にあるとき(緑から赤へ向かうとき)ですが、感情分析スコアは低下し、内容がどんどんネガティブな方向へ向かいます。やがて投稿数がピークに達するのですが(赤点)、この時5ちゃんのスレッドは最も荒れた状態になります。これを過ぎると投稿数は減少し始め、同時に感情分析スコアは好転しポジティブな方向へ向かいます。そして投稿数がこれ以上減らなくなるころに感情分析スコアはピークに達します。
ただしこのデータからは、スレッドが荒れるから投稿数が増えるのか、投稿数が増えるからスレッドが荒れるのかは分かりません。多分相互作用があるのでしょう。
小規模のデモから始まって、人数を増やしながら過激化し、やがて暴動になるみたいなものでしょうか。
2つ目
5ちゃんねるのスレッドには、2~6か月程度の荒れる周期があるようで、荒れる→ポジティブになる→荒れる...を繰り返しています。
1つ目の荒れ:202012~202103(4か月)
2つ目の荒れ:202105~202110(6か月)
3つ目の荒れ:202112~202203(4か月)
4つ目の荒れ:202207~202208(2か月)
このサイクルについての、僕の勝手な仮説です。
投稿数が増加するとき=投稿の内容が荒れつつあるとき
この時は、投降者数が増えるというよりも一部の集団の投稿回数が増えるのではないかと考えています。そして荒れがピークに達する頃には、その集団がスレッドをほぼ支配している状態になります。この状態になると投稿内容がほとんど同種のものばかりになり、その集団からの投稿回数が減り始めます。また共感できない投稿者や興味を失った投稿者はスレッドから大量に離れ、結果として投稿数は急速に減少します。
ネガティブからポジティブに向かうきっかけは、話題がネガティブで同じような内容ばかりで、簡単に言うと「つまらなくなる」だと思います。
しかし、ポジティブからネガティブに向かうきっかけがちょっと想像がつきません。
人間は本質的に荒れることを好むのでしょうか?なんかちょっと怖いですね。
今回は金沢市のスレッドだけの分析でしたが、いろんなジャンルでもやってみる価値はありそうです。