clusteringText

対象属性内の文字列を近似アルゴリズムによりクラスターを生成します。クラスターの生成には、近似値の閾値(0-100)を設定することで自由に集合させることができます。

 

※近似アルゴリズムは、Damerau-Levenshtein距離を拡張し、挿入・削除・置換・転置のほかに連続性と距離を加えた新しい手法を採用しています。

 

 1)前田建設工業 関西支店 ⇔ 前田建設工業 関東支店 90%

 2)前田建設工業 関西支店 ⇔ 前田建設 関東支店    52%

 3)前田建設工業 関西支店 ⇔ 建設工業 関西支店    34%

※近似値は表示されません

上記の例では、閾値を80に設定すれば、1)のみ同じ集合になります。閾値を40に設定すれば、1)と2)が同じ集合になります。

 

- パラメータ -

 0:対象とする属性

 1:閾値(0-100)

 

- 例 -

引数1に"40"

前田建設工業 関西支店 , Cluster-0

前田建設工業 関東支店 , Cluster-0

前田建設 関東支店 , Cluster-0

建設工業 関西支店 , Cluster-1