ブログ
データマネジメント
公開日:2022/09/01
前回「なぜ住所データをクレンジングする必要があるのか」の理由を「コード化させれば扱いが便利になるから」と書きました。住所情報のコード化とはどういうことでしょうか。
電話局番が市外・市内局番で体系づけられているように住所データをコード化するということは何らかのコード体系に紐づける、ということになります。
住所がコード化されたものとして誰もが知っていて自由に使えるのは郵便番号でしょう。日本の郵便番号は1968年に始まり、配達局の区分として5桁で管理されていたものが1998年に7桁化し町域(町・大字)までコードで示すことができるようになりました。
ただし郵便番号にはいくつかの欠点もあります。それはこの7桁コードだけでは都道府県市町村などのカテゴリ分けが難しい点と、それ以上細かい住所(丁目・小字、そして地番)をコードで示せない点です。
前者については、市町村コードの併用で補うことができます。日本郵便のサイトから郵便番号データがダウンロードできますが、その1項目めに「全国地方公共団体コード」がセットされています。これは元々は旧自治省(現総務省)が作った5桁のコード体系で頭2桁が都道府県(北海道が「01」、沖縄県が「47」)、残り3桁で市区町村を表しています。市町村コードと郵便番号があればざっとした地域別のデータを抽出したり並べ替えたりすることが可能となります。
後者についてはカスタマバーコードの利用でカバーが可能です。宛名ラベルにバーコードが付いているダイレクトメールを見たことがないでしょうか。あれがカスタマバーコードです。送付先情報をすべてバーコードデータにしておくことで料金が割引される仕組みです。
このコード内の住所情報は「郵便番号」+「丁目・地番」+「建物の号数」で構成されており、例えば弊社の住所は「東京都渋谷区千駄ヶ谷5丁目29-11 ナカニシビル10階」ですが、郵便番号「151-0051」と丁目・地番・建物番号部分の「5-29-11-10」を足して住所識別部分を「151-00515-29-11-10」と表現します(ルールの詳細は下記参照)。
バーコードに必要な文字情報の抜き出し法
https://www.post.japanpost.jp/zipcode/zipmanual/p17.html
上記のようなコード化を実施しておけば、記述・入力された表記不統一をいちいち直すことなく分類から重複チェックまで住所データの有効活用の道が開けます。
フリーで使えるコードでできるのはここまでです。郵便番号は配達局の都合で配列されたコードであって必ずしもデータクレンジングで利用するために最適化された体系で作られてはいません。
有料の住所マスタを利用すると、丁目・小字まで体系的に捉えることが可能で、住所変更の対応関係や廃止住所を検知することもできます。より精度高く維持し続ける必要があるのであれば有料マスタの利用が欠かせません。しかしコード化はあくまでも手段であり、目的に応じて揃えるものとやるべきことは変わってきます。
先にコード化という手段・方法について考えることになりましたが、本来はクレンジングの目的とメリット、つまりどのように「便利になる」のかについて整理しておく必要があります。
(つづく)