第4章：データ前処理と特徴量エンジニアリング

2025年12月29日

フリー検定

AIエンジニアに関する検定はこちら

面倒な会員登録も不要！すぐに受験！

無料で受験する

1. データのクレンジング

収集した生のデータ（ローデータ）には、エラーや不足が含まれていることが多いため、まずはこれらを整理します。

欠損値の処理: データの一部が空欄（NaN）になっている場合、その行を削除するか、平均値や中央値などで穴埋めをします。
外れ値の取り扱い: 入力ミスや特殊な事情で、他のデータから大きく離れた異常な値（例：年齢が200歳など）を検出し、修正または除外します。

2. 特徴量の作成と選択（特徴量エンジニアリング）

AIが学習しやすい形にデータを加工する作業です。

正規化（Normalization）と標準化（Standardization）: 「身長（cm）」と「体重（kg）」のように単位が違う数値を、0〜1の範囲に収めたり、平均0・標準偏差1に変換したりして、スケールを揃えます。
カテゴリ変数のエンコーディング: 「赤・青・緑」といった文字列を、AIが計算できる「0・1・2」などの数値に変換します。代表的な手法に One-Hotエンコーディング があります。
特徴量の生成: 「生年月日」から「年齢」を計算して新しい列を作るなど、予測に役立ちそうな情報を既存のデータから作り出します。

3. データの分割

作成したモデルの本当の実力を測るために、データを分けて使用します。

ホールドアウト法: 手元のデータを「学習用（Training）」と「テスト用（Test）」の2つに分割します。学習に使っていないテスト用データで精度を確かめることで、過学習を防ぎます。
交差検証（クロスバリデーション）: データを5つや10つのブロックに分け、テスト用にするブロックを交代させながら何度も学習と評価を繰り返す手法です。データの偏りによる評価のブレを抑えられます。

AIエンジニアに関する検定はこちら

面倒な会員登録も不要！すぐに受験！

無料で受験する

第4章：セキュリティ・ガバナンスとコンプライアンス

4-1. 高度な暗号化と鍵管理単にパスワードをかけるだけでなく、多層的な保護戦略を設計します。TDE (Transparent Data Encryption)...

ITエンジニア DBエンジニア

2025.12.29

第3章：高度なデータ分析と大規模データ基盤

3-1. DWH（データウェアハウス）とデータレイク大量のデータを分析するためには、通常のデータベースとは異なる構造が必要です。カラムナ（列指向）ストレージ:デ...

ITエンジニア DBエンジニア

2025.12.29

第2章：NoSQLとマルチモデル・データベース

2-1. データモデルごとの使い分けNoSQLは「RDBではない」という消去法的な名称ですが、実際には大きく4つのモデルに分類されます。キー・バリュー型（KVS...

ITエンジニア DBエンジニア

2025.12.29

第1章：分散データベースとモダンアーキテクチャ

1-1. CAP定理とBASE特性分散システムを設計する上で避けて通れないのがCAP定理です。CAP定理以下の3つの要素のうち、同時に満たせるのは最大で2つまで...

ITエンジニア DBエンジニア

2025.12.29

第4章：可用性とスケーラビリティ

大規模なサービスでは、1台のデータベースサーバー（DB）ですべてを賄うのはリスクが高く、限界もあります。そこで、複数のDBを連携させる技術が必要になります。4-...

ITエンジニア DBエンジニア

2025.12.29

第3章：高度なデータベース設計と管理

3-1. 非正規化の判断基準スタンダードでは「重複をなくす（正規化）」を学びましたが、アドバンストではあえて重複を許容する**「非正規化（崩し）」**を学びます...

ITエンジニア DBエンジニア

2025.12.29

第4章：データ前処理と特徴量エンジニアリング

目次 AYCF AIエンジニア-スタンダードの目次

AIエンジニアに関する検定はこちら

1. データのクレンジング

2. 特徴量の作成と選択（特徴量エンジニアリング）

3. データの分割

AIエンジニアに関する検定はこちら

検定一覧はこちらから

関連記事

第4章：セキュリティ・ガバナンスとコンプライアンス

第3章：高度なデータ分析と大規模データ基盤

第2章：NoSQLとマルチモデル・データベース

第1章：分散データベースとモダンアーキテクチャ

第4章：可用性とスケーラビリティ

第3章：高度なデータベース設計と管理

第4章：データ前処理と特徴量エンジニアリング

目次 AYCF AIエンジニア-スタンダード の目次

AIエンジニアに関する検定はこちら

1. データのクレンジング

2. 特徴量の作成と選択（特徴量エンジニアリング）

3. データの分割

AIエンジニアに関する検定はこちら

検定一覧はこちらから

関連記事

第4章：セキュリティ・ガバナンスとコンプライアンス

第3章：高度なデータ分析と大規模データ基盤

第2章：NoSQLとマルチモデル・データベース

第1章：分散データベースとモダンアーキテクチャ

第4章：可用性とスケーラビリティ

第3章：高度なデータベース設計と管理

目次 AYCF AIエンジニア-スタンダードの目次