cellular spaceのホームページにご来訪くださり、ありがとうございます。

前田建設工業 情報システム の コズミkozumi.pngです。

 

 

 

データクレンジング処理の[和文解析]についてご紹介いたします。

 

 

前回の記事はこちら ⇒ 【横結合 第30回】 横結合キー属性設定 データクレンジング処理・住所


 

 

入力ファイルは以下のとおりです。

内容は、簡単な日本語の文章です。

横結合62.png

 

【ファイル設定】 → 【縦結合】 【横結合】 とエレメントを追加します。

 

【横結合】 の [キー属性]には、日本語の文章を入力した「文言」属性を指定します。

 

[データクレンジング処理]の[標準化] を チェックし、

クレンジング内容は [和文解析] を選択します。

 

横結合63.png

 

これで設定は終わりです。

 

 

【イメージデータビューア】で結果を確認します。

 

横結合64.png

 

日本語の文章を形態素に分割し、まとめました。

その結果、文章中の助詞が異なっても、同一の文章として認識しています。

 

例えば・・・

 1レコード目ですが、「彼女」「車」「乗った」で解析しています。

 4レコード目は、句読点があってもなくてもまとまっていることがわかります。

  

 

次回は、[英文解析]クレンジングをご説明いたします。

 

 

使用しているデータは、疑似データです。実在の人物や団体などとは関係ありません。