「Address-Catch」は正確な住所辞書を使用した住所データのクレンジングを実現するプログラムです。30年以上住所を処理し続けてきた膨大なノウハウが詰まっており、社内だけでも扱った住所データ件数は億単位に達しています。市町村合併などによる新旧住所変換、曖昧な表記を正規表現に吸収するなど、住所情報の正規化、コード化(郵便番号、カスタマバーコード、11桁住所コード)が可能となります。
主な機能と特徴
- カスタマーバーコード情報の自動編集
- 正確な住所マスタ(※)の使用による住所管理
- 住所マスターに対応した住所コード(11桁)とデータのステータス(住所レベル)を付与
- 不正・不備住所、住所変更地域の抽出・修正(不備レベルはステータスで判断可能)
- あいまいな表記の住所を自動的に類推
- 高速処理の実現―弊社計測値800万件/0.5h(Core-i7-2.4GHz メモリ8GB OS:Windows-7のPCで処理した場合)
- CSV(テキスト)形式の処理のため、データベースの形式は不問
※Address-Catchは「日本行政区画便覧データファイル」(日本加除出版株式会社)を住所マスターとして採用しております。ご利用の際は、同マスターをご購入いただく必要があります。
あいまいな住所の自動類推例
例えば、正規の住所表記が「東京都渋谷区千駄ケ谷5丁目」という文字列は、下記のようにいくつかのあいまいな文字列で表現されてしまいます。
東京都渋谷区千駄ヶ谷5丁目29-11 |
東京都渋谷区千駄ケ谷五丁目29-11 |
東京都渋谷区千駄が谷5-29-11 |
東京都渋谷区千駄谷5-29-11 |
このような、あいまいな住所をAddress-Catchで変換すると、正規住所文字列の下記のような情報が得られます。
■市町村コード(JIS5) | 13113 |
■郵便番号 | 151-0051 |
■住所コード | 13113xabxxc(※実際の住所コードには著作権が存在します) |
■正規住所文字列 | 東京都渋谷区千駄ケ谷5丁目 |
■非コード化部分 | 29-11 |
漢数字・算用数字 が混在している場合の処理
北海道札幌市北区北24条西6-1-1 |
北海道札幌市北区北24西6-1-1 |
北海道札幌市北区北二四条西六丁目1-1 |
北海道札幌市北区北二十四条西六丁目1-1 |
北海道札幌市北区北二四西六-1-1 |
北海道札幌市北区北二十四西六-1-1 |
■市町村コード(JIS5) | 1102 |
■郵便番号 | 001-0024 |
■住所コード | 01102xbexxe(※実際の住所コードには著作権が存在します) |
■正規住所文字列 | 北海道札幌市北区北24条西6丁目 |
■非コード化部分 | 1-1 |
新旧住所・「字」の混在の処理
埼玉県浦和市大字大門1973-1 |
埼玉県浦和市大門1973-1 |
埼玉県さいたま市大字大門1973-1 |
埼玉県さいたま市大門1973-1 |
■市町村コード(JIS5) | 11109 |
■郵便番号 | 337-0963 |
■住所コード | 11109axexxx(※実際の住所コードには著作権が存在します) |
■正規住所文字列 | 埼玉県さいたま市緑区大字大門 |
■非コード化部分 | 1973-1 |
その他読み込み条件
その他以下の条件でも読み込みを許容いたします。
- 住所フィールドは3項目まで指定可能で、レコードによってデータがどこで区切られて(分割されて)いても可
- 都道府県省略可
- 政令指定都市については市名省略可
- スペース混在可
- 全半角混在可
- 「丁目」は、「-」・「ー」・「の」いずれでも可
- 住所で使用されている可能な限りの異体字を吸収
ステータス一覧
入力された住所情報に対して、下記のステータスコードを付加して出力します。
コード | ステータスレベル | 備考 |
0 | 完全一致 | |
1 | 完全一致 | 郵便番号末尾が”00″ |
2 | ほぼ一致 | 地域名に”町”などが欠落 |
3 | ほぼ一致 | 市町村以下が番地だが郵便番号は判定 |
4 | 旧住所 | 現住所への変換が可能 |
5 | 似た住所 | 地域名の一部文字に不備 |
6 | 旧住所 | 現住所への変換が不可能 |
7 | 市区郡一致 | 地域名に不備-郵便番号は類推付加 |
8 | エラー | 市区町村以外判定不能 |
9 | エラー | 完全に判定不能 |
動作環境
システム(OS):Windows 10、Server2012/2016
HDD:1GB程度の空き容量(変換データの空き容量は含めない)
言語環境:富士通 NetCOBOL Base Edition 運用パッケージ