本サイトは広告により収益を得ています

第4章:データ前処理と特徴量エンジニアリング

第4章:データ前処理と特徴量エンジニアリング

2025年12月29日
フリー検定
広告

目次

現在: 4 / 5

AIエンジニアに関する検定はこちら

面倒な会員登録も不要!すぐに受験!

無料で受験する

1. データのクレンジング

収集した生のデータ(ローデータ)には、エラーや不足が含まれていることが多いため、まずはこれらを整理します。

  • 欠損値の処理: データの一部が空欄(NaN)になっている場合、その行を削除するか、平均値や中央値などで穴埋めをします。

  • 外れ値の取り扱い: 入力ミスや特殊な事情で、他のデータから大きく離れた異常な値(例:年齢が200歳など)を検出し、修正または除外します。

2. 特徴量の作成と選択(特徴量エンジニアリング)

AIが学習しやすい形にデータを加工する作業です。

  • 正規化(Normalization)と標準化(Standardization): 「身長(cm)」と「体重(kg)」のように単位が違う数値を、0〜1の範囲に収めたり、平均0・標準偏差1に変換したりして、スケールを揃えます。

  • カテゴリ変数のエンコーディング: 「赤・青・緑」といった文字列を、AIが計算できる「0・1・2」などの数値に変換します。代表的な手法に One-Hotエンコーディング があります。

  • 特徴量の生成: 「生年月日」から「年齢」を計算して新しい列を作るなど、予測に役立ちそうな情報を既存のデータから作り出します。

3. データの分割

作成したモデルの本当の実力を測るために、データを分けて使用します。

  • ホールドアウト法: 手元のデータを「学習用(Training)」と「テスト用(Test)」の2つに分割します。学習に使っていないテスト用データで精度を確かめることで、過学習を防ぎます。

  • 交差検証(クロスバリデーション): データを5つや10つのブロックに分け、テスト用にするブロックを交代させながら何度も学習と評価を繰り返す手法です。データの偏りによる評価のブレを抑えられます。

AIエンジニアに関する検定はこちら

面倒な会員登録も不要!すぐに受験!

無料で受験する
広告

検定一覧はこちらから

様々なジャンルの検定から選んで、あなたの知識を試してみましょう。

検定一覧を見る

関連記事

広告