機械学習エンジニア/データサイエンティストの修行日記

主にデータサイエンス/統計、機械学習、深層学習、Python、数学、ビッグデータに関する知見。

python

Python/scikit-learn/分類精度の評価指標について

前回は、機械学習のクラス分類精度を評価するために、まず混同行列 (Confusion matrix)についてまとめました。 Python/scikit-learn/分類精度を評価する際に使われる混同行列 (Confusion matrix)について - データサイエンティストへの修行日記 今回は、混同…

Python/scikit-learn/分類精度を評価する際に使われる混同行列 (Confusion matrix)について

機械学習のクラス分類精度を評価するために、混同行列 (Confusion matrix)が用いられます。 Confusion matrix - Wikipedia In the field of machine learning and specifically the problem of statistical classification, a confusion matrix, also known …

Python/pandas公式チートシート解説:前処理のゴールとなるTidy Dataとは

pandas githubのドキュメントに公式のチートシートがアップされています。 github.com このpandasチートシートには、重要な概念やコマンド実行方法が整理されていますので、項目をひとつずつ解説していきます。 なお、このチートシートは、もともとR言語のチ…

Python/pandas エンコードされたone-hotデータをデコードする方法

機械学習の学習用データでよく使われるone-hotエンコーディングされたデータがあります。 one-hotエンコーディング処理は、さまざまなライブラリで実装されています。 sklearn.preprocessing.OneHotEncoder — scikit-learn 0.19.1 documentation http://scik…

Python/pandasでグルーピングした複数行をカンマ区切りの一行にする方法

Python/pandasを使って、以下のようにグルーピングした複数行を一行にする方法について解説します。 before col1 col2 0 1 hoge 1 2 fuga 2 3 piyo 3 1 foo 4 2 bar 5 3 baz after:col1でグルーピングした上で、col2を一行に集約 col1 1 hoge,foo 2 fuga,ba…

Pythonで自作関数をモジュールとして読み込む

参考: Python3のimport・下位/上位階層のモジュールをインポートしたい【import】【Python3】 - DRYな備忘録 『ゼロから作るDeep Learning』で自作関数がだんだん説明なしに使われていくので、いったんモジュールにまとめて読み込むことにする。 本番環境な…

Python×数学×人工知能を平行して勉強していく

機械学習や深層学習など人工知能の技術は数学が必須だ。 ライブラリが細かい計算を隠蔽してくれるとはいえ、 「何のためにこの数式を使うか」を理解していないと、 使い方を間違えるし、変更することもできない。 数学は遠い昔にやったが忘れているので、 復…

まずはNumPy配列操作

『ゼロから作るDeep Learning』でディープラーニングに必要な行列処理をPythonでやるための準備。まずは、NumPyで配列操作を学ぶ。 >>> import numpy as np >>> x = np.array([1.0, 2.0, 3.0]) >>> x array([ 1., 2., 3.]) >>> type(x) <class 'numpy.ndarray'> >>> y = np.array([2</class>…

さくらVPS CentOS7にPython3を入れる&ディープラーニング実装環境準備

さくらVPS CentOS7にPython3を入れる # yum install gcc zlib-devel bzip2 bzip2-devel readline readline-devel sqlite sqlite-devel openssl openssl-devel git # git clone https://github.com/yyuu/pyenv.git ~/.pyenv # vim .bash_profile 下記を追記 #…