昨日投稿しました「ジブリでクラスタリング」の正解率に誤りがありました。原因は「式が間違っている」という初歩的なミスでした。そこで、たとえば真の値がラピュタのうちラピュタと当てることができたものの率で正解率を求めることにしました。クラスタリングはそもそも「教師なし学習」ですので、正解率というのも変な話なのですが...
結果は
kaguya acc:0.5800
kaguya failure:0.4200
laputa acc:0.9400
laputa failure:0.0600
yamada acc:0.9400
yamada failure:0.0600
ラピュタと山田くんはともに正解率が0.94であるのに対して、かぐや姫が0.58。原因について考えてみました。
この3作品は画像がくっきりしている順に
ラピュタ(とてもくっきり)
かぐや姫(ぼやっとしている)
山田くん(とてもぼやっとしている)
となり、中間のかぐや姫が難しかったようです。
失敗の傾向を見ると
かぐや姫をラピュタと間違えたもの:4
かぐや姫を山田くんと間違えたもの:17
ラピュタをかぐや姫と間違えたもの:3
ラピュタを山田くんと間違えたもの:0
山田くんをかぐや姫と間違えたもの:3
山田くんをラピュタと間違えたもの:0
となり、かぐや姫と山田くんを区別するのが難しかったようです。
ラピュタと山田くんにそれぞれかぐや姫と間違えたものが3つずつあります。これはどんな絵かというと、
ラピュタのほうは、ハトや飛空石からの光が描かれており、これが影響したと考えられます。
山田くんのうち2枚は特に薄暗い絵(水墨画的)でこれが関係しているのかもしれません。