データ分析・データ加工の1つ目の「壁」を乗り越える - データクレンジング

そもそもデータクレンジングとは?

データクリーニングとも呼ばれ、データベース上の重複するデータや誤記、株式会社や㈱といった表記の揺れなどを探し出し、修正や削除を行うことで正規化し、データの品質を高めることを指します。
日本でよくあるデータクレンジング作業に、表記の揺れが発生しやすい住所や氏名、法人名のクレンジングが挙げられます。
同一データであるにも関わら表記の揺れにより別データとして処理してしまっては、精度の高い分析結果を得ることができません。
つまり、データを適切に分析するためには、データクレンジングが重要です。
多くの企業で利用されているMicrosoft ExcelやAccessでも文字を置き換えることで、これを代用することもありますが、クレンジング専用辞書が無いため、簡単な処理しかできません。このため、精度の高い分析を求める場合は、クレンジング専用辞書を持つデータクレンジングツールが用いられています。

cellular space DiXで低品質データを高品質データにする

データ品質ツールで「正しい」値に自動修正

データ品質を可視化し、修正するツールを用意してあります。

・品質分析
 “本来は、値が入るべきなのに欠損が生じている”、“数字が入るのに文字が入っている”、“一意(意味や値が一つに確定)なはずなのに、重複した値が入っている”。あるべき正しいデータであるかどうかを分析し、修正します。

・検索分析
 都道府県が入るはずなのに市区町村が入っている、社員コードはKから始まるはずなのに入れていない、これらを検索し、修正します。

・パターン分析
 “電話番号欄に郵便番号が入っている”、“国内データのみに海外データが紛れている”、“4桁の英字なのに6桁の数字が紛れている“、これらを自動分析し、修正します。

・品質管理グラフ
 ヒストグラム(度数分布)、バブルチャート、散布図などを用いた分析を行うことができます。“2000年から2010年までのデータに2014年のデータが紛れ込んでいる”、“1点だけ値が異常に大きい”、これらを自動分析し、修正します。

データ全体でも「正しい」?

データプロファイリングでは、データの全体像を可視化することで、データの品質を確認することができます。

データ加工のための“加工”は不要

Excel(xls、xlsx)、Csv、Txt、Tsvフォーマットのデータに対応しています。
データの属性位置を自動的に判断し、Excelファイルではセル結合された属性でも自動的にデータ化します。cellular space DiXにデータを投入するための加工は不要です。