kaeken(嘉永島健司)のTech探究ブログ

主に情報科学/情報技術全般に関する知見をポストします。(最近は、特にData Science、機械学習、深層学習、統計学、Python、数学、ビッグデータ)

Microsoft Fabric(統合分析プラットフォーム)まとめ

Microsoft Fabricについて整理しました。 by ChatGPT Microsoft Fabricは、企業向けの包括的なデータ分析プラットフォームです。以下は、その概要、具体的な機能、および実用例に関する情報です: 概要 Microsoft Fabricは、データ移動、データサイエンス、…

Microsoft Learnまとめ

概要 Microsoft Learn: Build skills that open doors in your career Microsoft Learnは、Microsoft製品を最大限に活用するためのプラットフォームで、以下のような要素から構成されています。 ドキュメント: 製品の使い方や機能に関する詳細な情報が記載さ…

0-3章:Generative AI for Beginners講座( by Microsoft)まとめ

概要 生成 AI アプリケーションの開発を始めるために必要な全知識を学べる 12 講座 マイクロソフトのクラウド・アドボケイトが提供 生成 AI アプリケーション構築の基礎知識を習得 URL Generative AI for Beginners https://microsoft.github.io/generative-…

MLOpsプラットフォームwandb(Weights & Biases)まとめ

wandb(Weights & Biases)とは Weights & Biases - 機械学習開発者のためのコラボレーションプラットフォーム https://www.wandb.jp/ Weights & Biasesは、開発者がより優れたモデルを迅速に構築できる機械学習プラットフォームです。W&Bの軽量で相互運用可能…

OR(Operations Research)の概要・事例・Pythonサンプル

OR概要 ORとは:最適化手法の一種。 オペレーションズ・リサーチ(英語:operations research、米)、 オペレーショナル・リサーチ(英語:operational research、英[1]、略称:OR)は、 数学的・統計的モデル、アルゴリズムの利用などによって、 さまざまな…

通信課程の帝京大学理工学部情報科学科3年次振り返り

Gerd AltmannによるPixabayからの画像 前提 昨年2020年4月に、以下のとおり、工学学士号取得のため、通信制大学に入学しておりました 工学学士号を取得するため通信制の帝京大学理工学部情報科学科に3年次編入しました(2020.04) - kaekenのTech探究ブログ …

個人開発(自社プロダクト)のメリット・デメリット・始め方・続け方・マネタイズについて

tookapicによるPixabayからの画像 背景 長年、フリーランスとして受託開発をやってきましたが、結局時間を切り売りしたり、成果物を切り売りするだけで、労働収益であることには変わりないです 今後は、受託・プロパー業務と並行して、利益相反しない範囲で…

工学学士号を取得するため通信制の帝京大学理工学部情報科学科に3年次編入しました(2020.04)

近況・背景 フルリモート案件対応しながら、去年2019年後半から今年2020年3月まで、海外を転々としてました 東南アジア(フィリピン、ベトナム、タイ、マレーシア、シンガポール、インドネシア)やオーストラリアを観光・視察(ノマドワーク環境)しつつ、短…

2019.04沖縄合宿で参加した勉強会一覧

花粉症から逃れるため、 フルリモートで東京の仕事を対応しつつ、 自主的に2019.04沖縄合宿を実施しておりました。 1ヶ月弱滞在し、非常に有意義な合宿でした。 クラウド、サーバレスの盛り上がりを体感し、 今後は、クラウド・サーバレス関連も重点的にウォ…

R言語でWebページの総合ランキングを作る方法

概要 Webページを評価する切り口は、さまざまな種類があります。 表示回数 クリック数 直帰率 平均滞在時間 CV数 各種ソーシャルいいね数 ... もし各切り口の単位がバラバラで、ボリュームも異なり、優劣がつけられない場合、 総合的に判断することが難しく…

JupyterNotebookで対話的インターフェイスipywidgetsを使う方法

概要 JupyterNotebookは、セル単位でプログラムを実行できるインターフェイスがあります。 ただ、変数の値を少し変更したり、 設定条件を変えたい場合は、 セルの中身のプログラムを変更する必要があります。 もう少し、マウス操作や、直感的に数値変更でき…

JupyterNotebookでRを使う方法

概要 データ分析など、ブラウザ上で対話的にPythonコマンドを実行できる、 Jupyter Notebookでは、R言語やRubyといった他の言語のカーネルを インストールすることで、他言語も使うことができます。 以下導入方法です。 Rカーネルの導入 パッケージインスト…

RによるRFM分析

概要 RによるRFM分析をご紹介します。 RFM分析 とは、顧客を以下の3つの側面から分析する手法です。 R(Recency, 最近購買しているかどうか, 購買日付) F(Frequency, 頻繁に購買しているかどうか, 購買頻度) M(Monetary, 高額に購買しているかどうか, 購買金…

Rによるデシル分析

概要 Rによるデシル分析についてご紹介します。 デシル分析とは、売上など特定の数値で顧客データを並び替えたあとに、10等分する分析です。 上位に集中する特徴を捉えて、次の施策を考案するために活用します。 準備 データ まず、1カスタマー1データで売上…

Rによる共分散・相関係数・ファイ係数の算出

概要 Rによる共分散・相関係数・ファイ係数の算出方法をご紹介します。 関数 2つの異なるデータ群の共分散を cov() で算出できます。 ただし、単位に依存するので、例えば、身長がm単位なのかcm単位なのかで共分散の値が異なります。 cov() : 共分散 共分散:…

Rによる分散・標準偏差・Z得点・偏差値の算出

概要 Rによる分散・標準偏差・Z得点・偏差値の算出方法をご紹介します。 関数 var(): 不偏分散 不偏分散を算出するには、var()を使います。 x <- c(10, 13, 8, 15, 8) x # [1] 10 13 8 15 8 # 不偏分散 var(x) # [1] 9.7 sd(): 標準偏差 標準偏差を算出する…

Rによるバスケット分析まとめ

概要 Rによるバスケット分析方法をまとめました。 Rのバスケット分析パッケージを使えば、 すぐに詳細なバスケット分析ができます。 書籍『リテールデータ分析入門』のデータを使って、実際に分析してみます。 準備 データの準備 まず、商品カテゴリ(例:お…

レコメンデーションに用いられる3つの指標まとめ

概要 購買データから、同時に購入される商品の傾向を分析することを、 マーケットバスケット分析(ショッピングバスケット分析とも呼ばれる。以下バスケット分析) と呼びます。アソシエーション分析の一種です。 バスケット分析では、 「商品Aを買うときは、…

『リテールデータ分析入門』書誌情報

顧客の購買行動を測定したデータをリテールデータと呼びますが、 大規模なリテールデータに特化したRによる分析ノウハウが記載されている書籍です。 書誌情報 リテールデータ分析入門 上田隆穂/編著 田島博和/編著 奥瀬喜之/編著 斉藤嘉一/編著 出版社名…

『Rによるやさしい統計学』書誌情報

R言語による統計学入門として、『Rによるやさしい統計学』が名著です。 その書誌情報です。 概要 Rによるやさしい統計学 | Ohmsha 著者山田 剛史 杉澤 武俊 村井 潤一郎 共著 定価2,916 円(本体2,700 円+税) A5 420頁 2008/01発行 ISBN978-4-274-06710-5 …

1章 ニューラルネットワークの復習 / 1.1 数学とPythonの復習 |『ゼロから作るDeep Learning2自然言語処理編』

1章 ニューラルネットワークの復習 まずはニューラルネットワークを復習する章なので、復習がてらコード部分を写経。 1.1 数学とPythonの復習 1.1.1 ベクトルと行列 >>> import numpy as np # numpyインポート >>> x = np.array([1,2,3]) # np.array()メソッ…

『ゼロから作るDeep Learning2自然言語処理編』学習開始

『ゼロから作るDeep Learning2自然言語処理編』学習開始。 『ゼロから作るDeep Learning』の続編で、自然言語処理・時系列データがメインテーマ。 機械学習・深層学習の分野は、2年前に『ゼロから作るDeep Learning』を学習したときから比べて、ものすごい…

(2018-02-04)気になるAI/ML/DL/DSネタ:2018年度前期東大AI講座、脳内イメージ映像化、GoogleドライブOCR、など

実データで学ぶ人工知能講座(AIデータフロンティアコース)平成30年度前期募集のご案内 講座について – 2018年度前期講座 – Learn.AI 東京大学では、大阪大学とともに、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)の委託を受け、人工知能…

Python/scikit-learn/分類精度の評価指標について

前回は、機械学習のクラス分類精度を評価するために、まず混同行列 (Confusion matrix)についてまとめました。 Python/scikit-learn/分類精度を評価する際に使われる混同行列 (Confusion matrix)について - データサイエンティストへの修行日記 今回は、混同…

(2018-02-03)気になるML/DL/DSネタ:教えない先生、Custom Vision Service、『仕事ではじめる機械学習』著者座談会

未来を変える技術20 - AI活用で「教えない先生」が登場、1800億円に膨らむ教育×IT市場:ITpro 同社は2014年から東京大学の松尾豊特任准教授と共同で、生徒が動画のどこで躓いたかやコンテンツ間の関連性を分析。先に何を学べば躓かないのかや何を復習すれば…

Python/scikit-learn/分類精度を評価する際に使われる混同行列 (Confusion matrix)について

機械学習のクラス分類精度を評価するために、混同行列 (Confusion matrix)が用いられます。 Confusion matrix - Wikipedia In the field of machine learning and specifically the problem of statistical classification, a confusion matrix, also known …

(2018-02-02)気になるAI/ML/DSニュース・記事・サービスなど

米国500社の財務諸表ビッグデータ分析で見えた7つの事実 - データで見る世界 バイアスを取り除く方法はただ一つ。データ分析です。データは嘘をつきません。賢そうな人の意見を鵜呑みにするのではなく、自分で生のデータを分析すれば、事実にたどり着けます…

Python/pandas公式チートシート解説:前処理のゴールとなるTidy Dataとは

pandas githubのドキュメントに公式のチートシートがアップされています。 github.com このpandasチートシートには、重要な概念やコマンド実行方法が整理されていますので、項目をひとつずつ解説していきます。 なお、このチートシートは、もともとR言語のチ…

Python/pandas エンコードされたone-hotデータをデコードする方法

機械学習の学習用データでよく使われるone-hotエンコーディングされたデータがあります。 one-hotエンコーディング処理は、さまざまなライブラリで実装されています。 sklearn.preprocessing.OneHotEncoder — scikit-learn 0.19.1 documentation http://scik…

気になったAI/ML/DSニュース・サービスなど(2018-02-01)

Google、オープンソース機械学習ライブラリの最新版「TensorFlow 1.5」を発表:使い勝手やモバイル対応、GPUサポートが向上 - @IT http://www.atmarkit.co.jp/ait/articles/1801/30/news038.html 24研究室と1日で会える!人工知能・IoT・ビッグデータ分野で…