DataFrameのサマリ¶
DataFameのサマリをdescribe
メソッドで確認できます。
DataFrame.describe
でサマリ(要約統計量ともよばれます)が出ますので、全体的な傾向を確認できます。
サマリには、要素数、平均、標準偏差、最小、四分位数、最大の値があります。
四分位数(しぶんいすう)とは¶
四分位数は、データを小さい順に並べてデータ数を4分割した時の値を表しています。 25パーセンタイル値を第1四分位数、50パーセンタイル値を第2四分位数、75パーセンタイル値を第3四分位数といいます。 また、50パーセンタイル値は、中央値と呼ぶこともあります。
四分位数の見方¶
describe
の出力を見ることによって、要素数が合っているか?、平均が合っているか?などを簡単に確認できます。
また、四分位数を見ることによって、おおよその分布をイメージできます。
例えば、50パーセンタイル値が25パーセンタイル値に近ければ、分布の山が小さい方に寄っていると考えられます。
逆に、50パーセンタイル値が75パーセンタイル値に近ければ、分布の山が大きい方に寄っていると考えられます。
四分位数の割合は変更できます。describe
の引数が空だと[0.5]を指定したのと同じことになります。
数値以外のサマリ¶
デフォルトでは数値データのみサマリが確認できます。
describe(include='all')
と指定すると、数値以外のデータも確認できます。
uniqueは、データの種類の数を、topは最頻値(の1つ)を、freqは最頻値の個数を表しています。
さらに詳しくは、pandas.DataFrame.describeを参照ください。