DataFrameのサマリ

DataFameのサマリをdescribeメソッドで確認できます。

DataFrame.describeでサマリ(要約統計量ともよばれます)が出ますので、全体的な傾向を確認できます。 サマリには、要素数、平均、標準偏差、最小、四分位、最大の値があります。

四分位(しぶんい)とは

四分位は、データを小さい順に並べてデータ数を4分割した時の値を表しています。 25パーセンタイル値を第1四分位数、50パーセンタイル値を第2四分位数、75パーセンタイル値を第3四分位数といいます。 また、50パーセンタイル値は、中央値と呼ぶこともあります。

pandas_etc_01

四分位の見方

describeの出力を見ることによって、要素数が合っているか?、平均が合っているか?などを簡単に確認できます。 また、四分位を見ることによって、おおよその分布をイメージできます。 例えば、50パーセンタイル値が25パーセンタイル値に近ければ、分布の山が小さい方に寄っていると考えられます。 逆に、50パーセンタイル値が75パーセンタイル値に近ければ、分布の山が大きい方に寄っていると考えられます。

四分位の割合は変更できます。describeの引数が空だと[0.5]を指定したのと同じことになります。

数値以外のサマリ

デフォルトでは数値データのみサマリが確認できます。 describe(include='all')と指定すると、数値以外のデータも確認できます。 uniqueは、データの種類の数を、topは先頭の値を、freqは最頻値の個数を表しています。

さらに詳しくは、pandas.DataFrame.describeを参照ください。