「機械学習エンジニアのためのTransformers」を読みながらTransformersを試してみようと思います。
400ページ近くある本ですが、始まってやっと10ページくらいのところでTransformersの凄さに圧倒されてしまいました。
ある文をポジティブ・ネガティブに分類するだけのタスクです。基本通りやるならば、大量のネガ・ポジの文を集めて、形態素解析器で単語をばらばらにして、記号やストップワードの除去、必要な品詞の抽出などの前処理をして、単語をベクトル化して、学習となります。
感情分析専門のosetiを使う場合でも、単語のベクトル化の前までの作業が必要です。
Transformersでは、文そのまま入れるだけ。あとは学習済みモデルが勝手に判定してくれる。自信たっぷりにネガティブと言っています。
英語は単語は初めからバラバラなので、簡単にできるんじゃないの?日本語入れてみようかな。
できちゃった。こちらも自信たっぷりにネガティブ。正直、エラーが出ると予測していました。
なんと読み込んだ一つのモデルが、何もしなくても多国語対応ですよ。いやぁビックリしたな。
例文は英文も日本語もいずれもAmazonのプレビューで一つ星、つまりネガティブなプレビューですので、Transformers様は大正解でございます。
職人芸のような前処理とかモデル構築は過去の技術になってしまうのかぁ。ちょっと寂しい。