データ分析・データ加工の2つ目の「壁」を乗り越える - 名寄せ

そもそも名寄せとは?

元々は金融機関において、同一顧客の複数の口座を「一元管理」することを指していましたが、現在では名寄せの定義が拡大し、金融機関に限らずデータの一元管理という意味で利用されているケースが多くなっています。
データベースにおける名寄せとは、データベース上に分散する同一企業、同一人物、同一世帯などを、同じものと認識しデータを統合すること。またはその作業を指します。
具体的には顧客の名前以外にメールアドレス、住所、電話番号などの属性が一致した場合「同一顧客」と判別する方法があります。
顧客管理や顧客のデータ活用をExcel(エクセル)で行う事も多いのですが、Excelでは完全に合致するデータだけで、また複数の属性情報から判別する名寄せが出来ないため、精度の高い結果を出すには名寄せシステム(ツールやソフト)を使う必要があります。

cellular space DiXが持つ認識の違いを解消するさまざまな機能

データは“同じ”と自動認識

データの記述に揺らぎが有っても、強力なデータクレンジングによりcellular space DiXは“同じ”だと認識をします。
・苗字を同じ認識
「齊藤さん」=「斉藤さん」
・住所を同じ認識
「練馬区高松五丁目八番二号JCITY21F」
「東京都練馬区高松5-8-20-21階」
・数字を同じ認識
「壱萬九千弐百」=「19200」
・郵便番号を同じ認識
「〒179-8903」=「1798903」
・法人名を同じ認識
「前田株式会社」=「前田㈱」=「前田(株)」
など

ユーザー辞書で“同じ“と認識

ユーザーが設定可能な辞書を用意しています。
Graph理論に基づく高度な推論機能によりデータマッチングを行います。
・間柄辞書(親子関係で同値とみなす)
例「関東」/「東京」,「神奈川」,「千葉」,「埼玉」・・・
・同義語辞書(同義で同値とみなす)
例「TOKYO」,「東京」,「東京都」
・正規表現辞書
(正規表現にて同値とみなす)
・置換辞書
(指定語句を含む文字列を置換し、同値とみなす)
※ユーザーが作成した間柄辞書と同義語辞書から、自動的に関係性データ(ネットワークデータ)を生成します。このデータを基に推論し、データマッチングを行います。

データを“同じ”と認識できるようにする

データを同じと認識できるように加工もできます。
例えば、「姓」と「名」で別れてしまっているデータでも”JoinField”関数を使えば「姓」と「名」を「氏名」にすることができます。”LeftA”や”RightA”の関数を使えば、その逆も行うことができます。100種類以上の関数が用意されています。

“同じ“値をまとめる"

バラバラな複数のデータでもマウス操作で1つのデータとして統合することができます。
また、キー属性を設定することで、データを集計したり、まとめたりすることができます。
※SQLのUNION、JOIN(LEFT,RIGHT,INNER,OUTER)を直感的なマウス操作のみでおこなうことができます。