ジニ不純度(Gini Impurity)とは、データセットの不均一性を測る指標であり、特に決定木アルゴリズムにおいて、ノードの分割基準を決定するために用いられます。
ジニ不純度は、データセット内の要素が異なるクラスにどれだけ混在しているかを表し、値が小さいほどデータセットが均一であることを示します。
データセットの不均一性を定量化する
ジニ不純度は、あるデータセットに含まれる要素が、異なるクラスにどれだけ混在しているかを数値で表します。具体的には、データセットからランダムに2つの要素を選び出したとき、それらが異なるクラスに属する確率を表します。ジニ不純度の値は0から1の範囲を取り、0はデータセットが完全に均一(単一のクラスのみを含む)であることを、1はデータセットが最も不均一(全てのクラスが等しい割合で含まれる)であることを意味します。
決定木学習における分割基準の指標
決定木アルゴリズムでは、ジニ不純度をノードの分割基準として用いることで、より効率的な分類を行うことができます。具体的には、各特徴量に基づいてデータセットを分割した際に、最もジニ不純度の減少量が大きい分割を選択します。これにより、データセットをより均一な部分集合に分割し、分類精度を高めることができます。
ジニ不純度の計算方法
ジニ不純度は、以下の式で計算されます。
ジニ不純度 = 1 - Σ (p_i)^2
ここで、p_iはデータセット内でクラスiに属する要素の割合を表します。
例えば、あるデータセットにクラスAとクラスBの2つのクラスがあり、クラスAの要素が60%、クラスBの要素が40%である場合、ジニ不純度は以下のように計算されます。
ジニ不純度 = 1 - (0.6^2 + 0.4^2) = 0.48
ジニ不純度の利点と注意点
ジニ不純度は、計算が容易であり、決定木アルゴリズムにおいて効率的な分割基準を提供します。また、ジニ不純度は、エントロピーと同様に、データセットの不均一性を測る指標として広く用いられていますが、エントロピーと比較して計算コストが低いという利点があります。
ただし、ジニ不純度は、クラスの割合に偏りがある場合に、分割基準として適切でない場合があります。このような場合には、他の分割基準(例:エントロピー)を検討する必要があります。

