kaeken(嘉永島健司)Techブログ

主に情報科学/情報技術全般に関する知見をポストします。(最近は、特にData Science、機械学習、深層学習、統計学、Python、数学、ビッグデータ)

Pandas

Python/pandas公式チートシート解説:前処理のゴールとなるTidy Dataとは

pandas githubのドキュメントに公式のチートシートがアップされています。 github.com このpandasチートシートには、重要な概念やコマンド実行方法が整理されていますので、項目をひとつずつ解説していきます。 なお、このチートシートは、もともとR言語のチ…

Python/pandas エンコードされたone-hotデータをデコードする方法

機械学習の学習用データでよく使われるone-hotエンコーディングされたデータがあります。 one-hotエンコーディング処理は、さまざまなライブラリで実装されています。 sklearn.preprocessing.OneHotEncoder — scikit-learn 0.19.1 documentation http://scik…

Python/pandasでグルーピングした複数行をカンマ区切りの一行にする方法

Python/pandasを使って、以下のようにグルーピングした複数行を一行にする方法について解説します。 before col1 col2 0 1 hoge 1 2 fuga 2 3 piyo 3 1 foo 4 2 bar 5 3 baz after:col1でグルーピングした上で、col2を一行に集約 col1 1 hoge,foo 2 fuga,ba…