scikit-learn¶
scikit-learn(サイキットラーン)はPythonのオープンソースの機械学習ライブラリです。 さまざまな機械学習のアルゴリズムが用意されており、さらに異なるモデルでも同じように扱えるので大変便利です。
機能には、大きく6つのカテゴリがあります。
分類(Classification)
回帰(Regression)
モデル選択(Model selection)
クラスタリング(Clustering)
次元削減(Dimensionality reduction)
前処理(Preprocessing)
データと正解となる数値やラベルで行う学習を、教師あり学習といい、正解なしのデータだけで行う学習を教師なし学習といいます。 先ほどのカテゴリの内の5つは、下記のように分類されます。前処理(Preprocessing)は、どちらのデータでも使えます。
教師あり学習 |
教師なし学習 |
---|---|
分類(Classification) |
クラスタリング(Clustering) |
回帰(Regression) |
次元削減(Dimensionality reduction) |
モデル選択(Model selection) |
分類(Classification)¶
データから正解ラベルを予測する手法です。 決定木やSVM(サポートベクターマシン)などのアルゴリズムが使えます。
回帰(Regression)¶
データから数値を予測する手法です。 線形回帰などのアルゴリズムが使えます。
モデル選択(Model selection)¶
モデルやパラメータの比較や検証をサポートします。 交差検証やハイパーパラメータのチューニングなどのアルゴリズムが使えます。
クラスタリング(Clustering)¶
似たようなデータをグループ化する手法です。 k-Means法などが使えます。
次元削減(Dimensionality reduction)¶
データの次元の削減をサポートします。 主成分分析(PCA)などが使えます。
前処理(Preprocessing)¶
精度の低いデータの処理をサポートします。 欠損値の処理などが使えます。
PyQではscikit-learnをブラウザーから操作しながら機械学習の使い方を学べます。 詳しくはクエスト一覧を参照してください。