pandasを利用したCSVファイルの読み込み

実務上でpandasのDataFrameを作る時は、以下のような既存のデータを読み込むことがほとんどです。

  • CSV, TSVファイル
  • EXCELファイル
  • SQLのSELECT結果
  • HTMLのテーブル
  • JSON

pandasにはさまざまなデータソースからの読み込み手段が存在します。

ここではpandas.read_csv(ファイルパス)を使ってCSVファイル('dataset/health_check.csv')を読み込んでDataFrameを作成しています。 このとき、オプションがなければread_csvは以下のように動作します。

  • 1行目はヘッダーとしてカラム名を読み込む。
  • 区切り文字は , (半角カンマ)
  • データに囲み文字 " (例えばダブルクォーテーション)がないCSVファイル

引数 sep にデリミタを指定できます。タブ区切りのTSVファイル('dataset/health_check.tsv')を読み込む場合は、 sep='\t'を利用します。

また、ヘッダーを持たないCSVファイル('dataset/health_check_nohead.csv')を読み込む場合は、引数namesを指定します。これで、

../../../_images/pandas_read_csv_01.pngread_csv

さらに詳しくは、pandas.read_csvを参照ください。