エニイのブログ

郵便番号簿データの活用法(住所雑学シリーズ3)

2018年7月31日 データマネジメント

こんにちは、住所ヲタK又です。前回の直接地番の話で「郵便番号簿」と自治体の地域名認識に微妙な差がある場合があることをご紹介しました。
かつて手紙や年賀状の宛名を書く際、紙の郵便番号簿で郵便番号を調べていたのを30代以上の方なら覚えているでしょう。7桁化する以前はA5くらいのサイズの冊子で7桁化の際にA4の大きさの「ぽすたるガイド」というものになりました。
postal
写真は私の上司が郵便番号7桁化の際に確認用の資料として使っていたもので、付箋が貼りまくってあり、かなりボロボロです。私も手伝いでよくめくっていたので懐かしいです。

今やネットの時代ですので、知りたい郵便番号は検索窓に住所を入力すればすぐに分かりますし、ちゃんと調べたければ日本郵便のサイトで検索できます。そして郵便番号簿のデータは同サイトからダウンロードできます。この郵便番号データはどのくらい活用できるものなのでしょうか。
まず、データの仕様を見てみましょう。
1項目目に「全国地方公共団体コード」とありますね。これ、大変便利なコードです。元々は旧自治省(現総務省)が作ったコードですが、一般的には自治体コード、市町村コードなどと呼ぶことが多いです。
頭2桁が都道府県を指しており、北海道「01」で始まり沖縄「47」で終わります。残り3桁で市町村を表しているのですが、3桁目については「1」が政令指定都市(と東京都特別区)、「2」が市、「3」以降は郡部の町村を指しています。
たとえば、東京都は頭2桁が「13」、特別区の23区の中では千代田区が一番先頭に位置づけられており「13101」と表現します。市では旧東京市(今の23区)に次いで市になった(1917年)八王子市が一番先頭で「13201」、1995年の合併(秋川市と五日市町)で最も新しくできたあきる野市は「201」からの連番の一番最後で「13228」となっています。
3桁目の町村を示す「3」以降については、郡ごとの編成(20ずつ)となるためきっちり連番では埋めれてはおらず、「4」「5」まで行くこともあり、北海道では「7」まで(ただし北方領土)使われています。
この市町村コードをつけておくと北は北海道(札幌市中央区:01101)、南は沖縄(八重山郡与那国町:47382)まで、都道府県内では政令市・市・町村の順にきれいにソートができるようになります。国(役所)が作ってJISの規格にもなっていますので利活用は自由です。使わない手はありません。

次に2項目目「(旧)郵便番号(5桁)」3項目目「郵便番号(7桁)」と続きます。5桁時代の郵便番号は集配局ごとに割り振られたものでしたが、1998年に7桁化され都道府県市町村町域ごとに割り振られるようになりました。これに地番を加えてバーコード化すると、配達局でも機械的に並べ替えが可能になります。
住所(文字列)はカナも漢字も「都道府県名」「市区町村名」「町域名」(4~9項目目)と3段階に分かれています。

ところで7桁郵便番号の単位ともなっている「町域」とはどこまでを指すのでしょうか。勿論この場合の「町」は自治体(行政区)の町(○○郡△△町)ではありません。具体的に例を見てみましょう。

A)東京都新宿区西新宿1丁目8-8
B)青森県下北郡大間町(大字)大間(字)大間52

A)は新宿郵便局、B)は本州最北端の大間郵便局の住所です。
町域の範囲は、A)は「東京都新宿区西新宿」(〒160-0023)までです。丁目は含まれません。「西新宿」は8丁目までありますが、全て同じ郵便番号ですので「西新宿」で集約されます。
B)は「青森県下北郡大間町(大字)大間」(〒039-4601)までで、手前の「大間町」は自治体名で、次の「大間」が町域となります。この「大間」は大字(おおあざ)といって、江戸時代の村(一つの集落・共同体)の一括りくらいとイメージしていただければよいかと思います(前々回ブログ参照)。最後の「大間」はさらに細かく場所を示した小字(こあざ)で、こうした古い地名が残っている地域とそうでない地域があります。
これで郵便番号の単位と町域のイメージはできたかと思います。

基本的には郵便番号の単位=町域なのですが、集配局と地域の都合で必ずしもイコールではありません。たとえば、「東京都」「港区」「芝」(「芝」は含む指定)で検索してみますと、
1050014 東京都 港区 芝(1~3丁目)
1080014 東京都 港区 芝(4、5丁目)
と出てきます。
先ほど「西新宿」の例では丁目は集約されるとご説明しましたが、こういう例外は少なからずあります。丁目だけでなく、小字でも同様のことはあります。「青森県」「青森市」「駒込」(「駒込」は含む指定)で検索してみると、
0300954 青森県 青森市 駒込(月見野)
0300953 青森県 青森市 駒込(蛍沢)
0300955 青森県 青森市 駒込(その他)
と出てきます。
「(大字)駒込」の中で「月見野」と「蛍沢」という小字にはそれ限定で郵便番号が振られており、それ以外の地域(その他)はまとめて同じ郵便番号、ということになっています。
そこでデータ仕様10項目目(一町域が二以上の郵便番号で表される場合の表示)、11項目目(小字毎に番地が起番されている町域の表示)、12項目目(丁目を有する町域の場合の表示)を見てみましょう。「1」は該当、「0」は該当せず、という意味です。
「東京都港区芝」の2レコードは10項目「1」、11項目「0」、12項目「1」、「青森県青森市駒込」の3レコードは10項目「1」、11項目「1」、12項目「0」となっており、郵便番号が丁目・小字展開する地域であることを示しています。
これとは逆に13項目(一つの郵便番号で二以上の町域を表す場合の表示)にフラグが立つものもありますが、概要説明としてはこの辺は割愛します。

さて、このようにコードだけでは必ずしもユニークにはなっていませんが(京都通り名などで文字数制限の問題でレコードが数行に別れていたりという問題も)、郵便番号データで日本の住所をある程度体系的に管理することが可能であることをお分かりいただけたかと思います。住所マスタとして利用するにはもうひと手間が必要ですが、市町村コードと郵便番号の組み合わせでかなりのところまで活用が可能になっています。
興味がある方は一度ダウンロードしてご覧になってみてください。