統計検定 データサイエンス発展|統計検定:Japan Statistical Society Certificate
統計検定では、純粋な統計学の資格だけでなく、機械学習やAI分野を含めたデータサイエンス関連の資格が提供されている。
その中で、統計検定 CBT「データサイエンス発展」の出題範囲が、データサイエンスの網羅的な内容だったので、ピックアップ。
統計検定 CBT「データサイエンス発展」 概要
以下、統計検定 CBT「データサイエンス発展」 出題範囲表
社会におけるデータ・ AI 利活用
社会で活用されている データ
- 調査データ、実験データ、人の行動ログデータ、機械の稼働ログデータ
- 1 次データ、2 次データ、データのメタ化
- 構造化データ、非構造化データ(テキスト、画像/動画、音声/音楽)
- データ作成(ビッグデータとアノテーション)
データ・AI の活用領域
- データ・AI 活用領域の広がり(生産、消費、文化活動)
- 研究開発、調達、製造、物流、販売、マーケティング、サービス
- 仮説検証、知識発見、原因究明、計画策定、判断支援、活動代替、新規生成
- 対話、コンテンツ生成、翻訳・要約・執筆支援、コーディング支援
データ・AI 利活用のため の技術
- データ解析:予測、グルーピング、パターン発見、最適化、シミュレーション・データ同化
- データ可視化:複合グラフ、2 軸グラフ、多次元の可視化、関係性の可視化、地図上の可視化、挙動・軌跡 の可視化、リアルタイム可視化
- 非構造化データ処理:言語処理、画像/動画処理、音声/音楽処理
- 特化型 AI と汎用 AI、今の AI で出来ることと出来ないこと、AI とビッグデータ
- 認識技術、ルールベース、自動化技術
- マルチモーダル(画像、音声)、プロンプトエンジニアリング
データ・AI 利活用の現場
- データサイエンスのサイクル(課題抽出と定式化、データの取得・管理・加工、探索的データ解析、データ 解析と推論、結果の共有・伝達、課題解決に向けた提案)
- 流通、製造、金融、サービス、インフラ、公共、ヘルスケア等におけるデータ・AI 利活用
データ・AI 利活用の最新 動向
- AI 等を活用した新しいビジネスモデル(シェアリングエコノミー、商品のレコメンデーション)
- AI 最新技術の活用例(深層生成モデル、敵対的生成ネットワーク、生成 AI、強化学習、転移学習)
- 大規模言語モデル、基盤モデル、拡散モデル
データ・AI 利活用に おける留意事項
データ・AI を扱う上での 留意事項
- ELSI(Ethical, Legal and Social Issues)
- 個人情報保護、EU 一般データ保護規則(GDPR)、忘れられる権利、オプトアウト、知的財産、インフォーム ドコンセント
- データ倫理:データのねつ造、改ざん、盗用、プライバシー保護
- AI 社会原則(公平性、説明責任、透明性、人間中心の判断)
- データバイアス、アルゴリズムバイアス、標本選択バイアス、帰納バイアス、公表バイアス - AI サービスの責任論、データガバナンス
- データ・AI 活用における負の事例
- ハルシネーション、偽情報、有害コンテンツの生成・氾濫
データを守る上での留意事項
- 情報セキュリティ:機密性、完全性、可用性
- 匿名加工情報、暗号化、復号、パスワード、悪意ある情報搾取、不正アクセス行為の禁止、個人認証、ユ ーザ認証、アクセス制御、個人識別符号、要配慮個人情報、再識別、秘密の曝露や差別の誘引
- 情報漏洩等によるセキュリティ事故
データリテラシー
データを読む
- データの種類、データの分布と代表値、データのばらつき
- 打ち切りや脱落を含むデータ、層別の必要なデータ、外れ値
- 相関と因果(交絡、偏相関係数)、回帰(重回帰分析、ロジスティック回帰分析、モデルの評価)
- 分類とグループ化(階層的クラスタリング、非階層的クラスタリング)
- クロス集計表、分割表、相関係数行列、散布図行列
- 母集団と標本抽出(層別抽出、多段抽出、クラスター抽出、母数と統計量の区別、標本分布)
- 統計情報の正しい理解(誇張表現に惑わされない)
データを説明する
- データの表現(散布図、ヒートマップ、チャート化)
- データの比較(条件をそろえた比較、処理の前後での比較、A/B テスト、ランダム化比較試験)
- 不適切なグラフ表現(チャートジャンク、不必要な視覚的要素)
- 色の効果や特徴、点の色・大きさ・形状への配慮、線の太さと様々な破線
数理基礎
線形代数
- 平面ベクトル、空間ベクトル、n 次元ベクトル、ベクトルの和、内積、直交性、ノルム
- 正方行列、単位行列、転置行列、対称行列、行列の積、逆行列、行列式
- 線形独立、部分空間
微分積分
- 指数関数、対数関数、三角関数
- 積の微分、合成関数の微分、関数の最大最小、線形近似、原始関数、積分と微分の関係
- 偏微分、接平面、重積分、累次積分
数列
- 数列の和、Σ記号、極限
デジタル情報とコンピュータの仕組み
デジタル情報
- 数と表現(2 進数の表現、論理値)
- 情報量の単位(ビット、バイト、接頭語(k,M,G,T,m,μ,n,pなど)を使った表現)
- 文字の表現(ASCII コード、シングルバイト文字、ダブルバイト文字)
- デジタル化(連続値、離散値)、画像・動画(ラスタデータ、ベクタデータ、コーデック)
コンピュータの仕組み
- 集合、命題、真/偽、否定、論理和、論理積
- 有効数字、浮動小数点、仮数部、指数部、丸め誤差
アルゴリズム基礎
アルゴリズムの表現
- フローチャート、アクティビティ図、端子、処理、判断、矢印
アルゴリズムの構造
- 代入、順次構造、選択構造、繰り返し構造
基本的なアルゴリズム の例
- 並べ替え(ソート)、探索(サーチ)、合計、併合
データ構造とプログラミング基礎 (主に Python)
データ構造
- 配列とリスト(メモリ、ベクトル、行列、アドレス)
- 連想配列(キー、バリュー、連想、辞書、ハッシュ)
プログラミング基礎
- インタープリタ言語(ソースコード、機械語、実行)
- 構文(変数、代入、計算、分岐、繰り返し)、演算(オブジェクト、四則演算)
- 関数(引数、返り値)、制御文(for, while, if 文)、入出力(print 文)
データハンドリング
代表的なデータ形式
- csv、XML、JSON
その他のデータ形式
- 離散グラフ、キー・バリュー形式である隣接リスト、NoSQL
データベース
- データベース管理システム(DBMS)、リレーショナルデータベース、正規化、選択、射影、結合、SQL
データクレンジング
- 表記の揺れの吸収(文字列、数字、日付、時刻)、名寄せ
データ加工
- 部分集合の抽出、行の並べ替え、新しい列の追加、プログラミング(Python、R)
データ取得とオープンデータ
日本や世界のオープンデータ
- 二次利用可能なルール、機械判読への適性、オープンデータ憲章
オープンデータの取得
- e-Stat、e-Gov データポータル、データカタログサイト、Open Knowledge Foundation、機械判読可能なデー タの作成や表記方法、Web API
統計法
- 基幹統計調査、調査票情報の二次的利用
確率と確率分布
順列と組合せ
- 階乗(n!)、順列(mPn)、組合せ(mCn)
確率分布の概念
- 確率変数、確率関数、確率密度関数、母平均、母分散、同時分布、周辺分布、共分散と相関、独立
主要な確率分布
- ポアソン分布、指数分布、一様分布、正規分布、2 変量正規分布
統計的推測
統計的モデル
- 統計的モデル、母数、パラメータ
標本分布
- 独立同一分布、標本平均、標本分散
点推定
- モーメント法、最尤法、バイアス、不偏推定量、平均二乗誤差、バイアス分散分解
仮説検定の考え方
- 帰無仮説、対立仮説、2 種の誤り、有意水準、検出力、p 値、検定統計量
種々のデータ解析
時系列データ解析
- 時系列データ(トレンド、周期、ノイズ)、季節調整、移動平均
テキスト解析
- 形態素解析、単語分割、ユーザ定義辞書、n-gram、言語モデル、文章間類似度、かな漢字変換の概要
画像解析
- 画像データの処理、画像認識、画像分類、物体検出
データ活用実践
教師あり学習
- 教師あり学習による予測 (例: 売上予測、罹患予測、成約予測、離反予測)
- データの収集、加工、分析
- データ分析結果の共有、課題解決に向けた提案
教師なし学習
- 教師なし学習によるグルーピング (例:顧客セグメンテーション、店舗クラスタリング)
- データの収集、加工、分析
- データ分析結果の共有、課題解決に向けた提案
受験概要
対策
TODO 受験後追加
所感
TODO 受験後追加