最近、航空写真や国土地理院の地図の画像を不動産の評価に使うことができないかいろいろ試しています。
不動産の価格は、価格形成要因の相互作用で形成されます。
価格形成要因というのは、だいたい以下のようなイメージでとらえることができます。
道路の幅や歩道の有無といった街路条件、
駅、小学校、スーパーなどへの距離といった交通・接近条件
建物が密集しているか、それとも敷地の余裕のある家が多い地域かといった環境条件
市街化区域か市街化調整区域かなどの行政的条件
(これはあくまで例でそれぞれの条件の中にたくさんの要因があります)
道路の幅や距離、行政的な要因はデータとして入手することは比較的容易です。
ところが環境条件は、上下水道や都市ガスがの有無などの例外を除いて、データとして整備されていません。
しかし環境条件というのはデータ化されていないものが価格に対して強い影響を与えています。
何とかこれをデータ化しようとすると、住宅地図とかGoogleMapとにらめっこして、ひとつずつ手入力するしかないのですが、
数万件ものデータに一つ一つ手入力するのは現実的ではありませんし、客観的でもありません。
そこである地点を中心として東西南北に約100m程度の縮尺で取得した航空写真や地理院地図を、環境要因の代わりに使うことはできないか今試しているところです。
これは金沢市都心部の比較的グレードの高い住宅地域
こちらは金沢駅前の北陸で最も地価が高い商業地域
これをうまく使いたいわけです。
でも、そもそもコンピュータはこの画像で住宅地と商業地の区別ができるのでしょうか。
北陸3県の県庁所在地、富山市、金沢市、福井市の3市から約500地点のデータを採用して試してみます。やる前からいうのも何ですが、カラー画像を使って分類の作業をするにはデータ数が全く足りていません。多分過学習します。
機械学習では画像を使った2値分類ということになります。画像から犬と猫を分類する練習問題の応用ですね。
本当ならばCNNを使ってちゃんとやるべきなのでしょうが、今回は分類が本当の目的ではありません。コンピュータが認識できるかどうか、あるいは区別できるかどうかが分かればいいので、簡単にLightGBMでさらさらとやってみます。
結果は、写真を使ったほうは、訓練フェーズで1.0と思いっきり過学習していますが、検証フェーズでも0.832となかなかの数値を示しています。地図のほうは、訓練はやはり1.0,検証で0.816と写真を少し下回っていますがなかなかの精度。
どのような地点を間違ったかをチェックすると、そのすべてが商業地を住宅地と間違えています。おそらく道路があまり広くない地域で小規模の店舗が密集するような商店街を住宅地と間違えたものと考えられます。
今回の実験で、コンピュータは商業地と住宅地をある程度は見分けることができることが分かりました。しかし画像データをそのまま価格を求める作業、つまり回帰に使用すると、説明変数の数がとてつもなく大きくなってしまいます。そこで画像データを例えば「地域要因」という名前の一つの数字に置き換えてみようと思います。
でも今はまだ構想段階で何らいい案が浮かんでいません。何か形になるものができましたらまた報告します。