kaeken(嘉永島健司)Techブログ

主に情報科学/情報技術全般に関する知見をポストします。(最近は、特にData Science、機械学習、深層学習、統計学、Python、数学、ビッグデータ)

(受験予定)統計検定 CBT「データサイエンス発展」

統計検定 データサイエンス発展|統計検定:Japan Statistical Society Certificate

統計検定では、純粋な統計学の資格だけでなく、機械学習やAI分野を含めたデータサイエンス関連の資格が提供されている。

その中で、統計検定 CBT「データサイエンス発展」の出題範囲が、データサイエンスの網羅的な内容だったので、ピックアップ。

統計検定 CBT「データサイエンス発展」 概要

以下、統計検定 CBT「データサイエンス発展」 出題範囲表

社会におけるデータ・ AI 利活用

社会で活用されている データ

  • 調査データ、実験データ、人の行動ログデータ、機械の稼働ログデータ
  • 1 次データ、2 次データ、データのメタ化
  • 構造化データ、非構造化データ(テキスト、画像/動画、音声/音楽)
  • データ作成(ビッグデータとアノテーション)

データ・AI の活用領域

  • データ・AI 活用領域の広がり(生産、消費、文化活動)
  • 研究開発、調達、製造、物流、販売、マーケティング、サービス
  • 仮説検証、知識発見、原因究明、計画策定、判断支援、活動代替、新規生成
  • 対話、コンテンツ生成、翻訳・要約・執筆支援、コーディング支援

データ・AI 利活用のため の技術

  • データ解析:予測、グルーピング、パターン発見、最適化、シミュレーション・データ同化
  • データ可視化:複合グラフ、2 軸グラフ、多次元の可視化、関係性の可視化、地図上の可視化、挙動・軌跡 の可視化、リアルタイム可視化
  • 非構造化データ処理:言語処理、画像/動画処理、音声/音楽処理
  • 特化型 AI と汎用 AI、今の AI で出来ることと出来ないこと、AI とビッグデータ
  • 認識技術、ルールベース、自動化技術
  • マルチモーダル(画像、音声)、プロンプトエンジニアリング

データ・AI 利活用の現場

  • データサイエンスのサイクル(課題抽出と定式化、データの取得・管理・加工、探索的データ解析、データ 解析と推論、結果の共有・伝達、課題解決に向けた提案)
  • 流通、製造、金融、サービス、インフラ、公共、ヘルスケア等におけるデータ・AI 利活用

データ・AI 利活用の最新 動向

  • AI 等を活用した新しいビジネスモデル(シェアリングエコノミー、商品のレコメンデーション)
  • AI 最新技術の活用例(深層生成モデル、敵対的生成ネットワーク、生成 AI、強化学習、転移学習)
  • 大規模言語モデル、基盤モデル、拡散モデル

データ・AI 利活用に おける留意事項

データ・AI を扱う上での 留意事項

  • ELSI(Ethical, Legal and Social Issues)
  • 個人情報保護、EU 一般データ保護規則(GDPR)、忘れられる権利、オプトアウト、知的財産、インフォーム ドコンセント
  • データ倫理:データのねつ造、改ざん、盗用、プライバシー保護
  • AI 社会原則(公平性、説明責任、透明性、人間中心の判断)
  • データバイアス、アルゴリズムバイアス、標本選択バイアス、帰納バイアス、公表バイアス - AI サービスの責任論、データガバナンス
  • データ・AI 活用における負の事例
  • ハルシネーション、偽情報、有害コンテンツの生成・氾濫

データを守る上での留意事項

  • 情報セキュリティ:機密性、完全性、可用性
  • 匿名加工情報、暗号化、復号、パスワード、悪意ある情報搾取、不正アクセス行為の禁止、個人認証、ユ ーザ認証、アクセス制御、個人識別符号、要配慮個人情報、再識別、秘密の曝露や差別の誘引
  • 情報漏洩等によるセキュリティ事故

データリテラシー

データを読む

  • データの種類、データの分布と代表値、データのばらつき
  • 打ち切りや脱落を含むデータ、層別の必要なデータ、外れ値
  • 相関と因果(交絡、偏相関係数)、回帰(重回帰分析、ロジスティック回帰分析、モデルの評価)
  • 分類とグループ化(階層的クラスタリング、非階層的クラスタリング)
  • クロス集計表、分割表、相関係数行列、散布図行列
  • 母集団と標本抽出(層別抽出、多段抽出、クラスター抽出、母数と統計量の区別、標本分布)
  • 統計情報の正しい理解(誇張表現に惑わされない)

データを説明する

  • データの表現(散布図、ヒートマップ、チャート化)
  • データの比較(条件をそろえた比較、処理の前後での比較、A/B テスト、ランダム化比較試験)
  • 不適切なグラフ表現(チャートジャンク、不必要な視覚的要素)
  • 色の効果や特徴、点の色・大きさ・形状への配慮、線の太さと様々な破線

数理基礎

線形代数

  • 平面ベクトル、空間ベクトル、n 次元ベクトル、ベクトルの和、内積、直交性、ノルム
  • 正方行列、単位行列、転置行列、対称行列、行列の積、逆行列、行列式
  • 線形独立、部分空間

微分積分

  • 指数関数、対数関数、三角関数
  • 積の微分、合成関数の微分、関数の最大最小、線形近似、原始関数、積分と微分の関係
  • 偏微分、接平面、重積分、累次積分

数列

  • 数列の和、Σ記号、極限

デジタル情報とコンピュータの仕組み

デジタル情報

  • 数と表現(2 進数の表現、論理値)
  • 情報量の単位(ビット、バイト、接頭語(k,M,G,T,m,μ,n,pなど)を使った表現)
  • 文字の表現(ASCII コード、シングルバイト文字、ダブルバイト文字)
  • デジタル化(連続値、離散値)、画像・動画(ラスタデータ、ベクタデータ、コーデック)

コンピュータの仕組み

  • 集合、命題、真/偽、否定、論理和、論理積
  • 有効数字、浮動小数点、仮数部、指数部、丸め誤差

アルゴリズム基礎

アルゴリズムの表現

  • フローチャート、アクティビティ図、端子、処理、判断、矢印

アルゴリズムの構造

  • 代入、順次構造、選択構造、繰り返し構造

基本的なアルゴリズム の例

  • 並べ替え(ソート)、探索(サーチ)、合計、併合

データ構造とプログラミング基礎 (主に Python)

データ構造

  • 配列とリスト(メモリ、ベクトル、行列、アドレス)
  • 連想配列(キー、バリュー、連想、辞書、ハッシュ)

プログラミング基礎

  • インタープリタ言語(ソースコード、機械語、実行)
  • 構文(変数、代入、計算、分岐、繰り返し)、演算(オブジェクト、四則演算)
  • 関数(引数、返り値)、制御文(for, while, if 文)、入出力(print 文)

データハンドリング

代表的なデータ形式

  • csv、XML、JSON

その他のデータ形式

  • 離散グラフ、キー・バリュー形式である隣接リスト、NoSQL

データベース

  • データベース管理システム(DBMS)、リレーショナルデータベース、正規化、選択、射影、結合、SQL

データクレンジング

  • 表記の揺れの吸収(文字列、数字、日付、時刻)、名寄せ

データ加工

  • 部分集合の抽出、行の並べ替え、新しい列の追加、プログラミング(Python、R)

データ取得とオープンデータ

日本や世界のオープンデータ

  • 二次利用可能なルール、機械判読への適性、オープンデータ憲章

オープンデータの取得

  • e-Stat、e-Gov データポータル、データカタログサイト、Open Knowledge Foundation、機械判読可能なデー タの作成や表記方法、Web API

統計法

  • 基幹統計調査、調査票情報の二次的利用

確率と確率分布

順列と組合せ

  • 階乗(n!)、順列(mPn)、組合せ(mCn)

確率分布の概念

  • 確率変数、確率関数、確率密度関数、母平均、母分散、同時分布、周辺分布、共分散と相関、独立

主要な確率分布

  • ポアソン分布、指数分布、一様分布、正規分布、2 変量正規分布

統計的推測

統計的モデル

  • 統計的モデル、母数、パラメータ

標本分布

  • 独立同一分布、標本平均、標本分散

点推定

  • モーメント法、最尤法、バイアス、不偏推定量、平均二乗誤差、バイアス分散分解

仮説検定の考え方

  • 帰無仮説、対立仮説、2 種の誤り、有意水準、検出力、p 値、検定統計量

種々のデータ解析

時系列データ解析

  • 時系列データ(トレンド、周期、ノイズ)、季節調整、移動平均

テキスト解析

  • 形態素解析、単語分割、ユーザ定義辞書、n-gram、言語モデル、文章間類似度、かな漢字変換の概要

画像解析

  • 画像データの処理、画像認識、画像分類、物体検出

データ活用実践

教師あり学習

  • 教師あり学習による予測 (例: 売上予測、罹患予測、成約予測、離反予測)
  • データの収集、加工、分析
  • データ分析結果の共有、課題解決に向けた提案

教師なし学習

  • 教師なし学習によるグルーピング (例:顧客セグメンテーション、店舗クラスタリング)
  • データの収集、加工、分析
  • データ分析結果の共有、課題解決に向けた提案

受験概要

対策

TODO 受験後追加

所感

TODO 受験後追加