【2025年新卒AI研修資料を解説】機械学習の基礎からサービス応用まで!MIXI社の資料から紐解くAI導入の最前線

MIXI社の資料から紐解くAI導入の最前線

こんにちは。バックオフィスアウトソーシングのDFEです。

AI技術が社会のあらゆる側面で進化を続ける中、その中核をなす機械学習(Machine Learning; ML)への理解は、今やビジネスパーソンにとって不可欠なスキルとなりつつあります。今回は、MIXI社が2025年新卒向けに実施したAI研修の講義資料を基に、機械学習の基本概念から最先端技術、そして実際のサービスへの応用方法まで、そのエッセンスを凝縮してお届けします。

この講義の最大の目的は、「あれに使えるかもしれない!自分から触ってみよう!」と思えるよう、皆さんのAIへの壁を取り払うことにあります。本記事を通じて、AI技術がどのように私たちのサービスや生活を豊かにできるのか、その可能性を一緒に探っていきましょう。

講義は、MIXI開発本部たんぽぽ室AIモデリンググループの宮脇祐太氏(MLエンジニア)と、みてね事業本部みてねプロダクト開発部Data Engineeringグループの木内貴浩氏(MLエンジニア)が担当されました。お二人の豊富な経験に裏打ちされた知見は、まさに必見です。


講義概要:AI研修で学ぶ6つのセクション

本研修では、以下の6つのセクションを通じて機械学習の深淵に迫ります。

  • Section 1: 機械学習とは何か
  • Section 2: Deep Learning
  • Section 3: 勾配ブースティング
  • Section 4: その他のML技術
  • Section 5: ML技術のデプロイ
  • Section 6: サービスについて考える

Section 1: 機械学習とは何か?その本質と応用

機械学習の定義とプログラミング・統計との違い

機械学習とは「過去のデータから知見を得て、それを次の決定に利用すること」です。
これは、数値、画像、音声、テキストなど、多様な形式の「過去のデータ」に含まれる統計的なルールを「ブラックボックスな関数 f(x)」としてモデル化し、「現在の状態 (x) から未来 (y) を予測する」というプロセスを指します。

プログラミングがルールを自分で決めて表現するのに対し、機械学習は過去のデータの中からルールを得るという点で異なります。また、統計がデータからルールを得て可視化・分析・説明することを目的とするのに対し、機械学習は目的のタスクの予測に活かし、精度を上げていくことを目的とします。

機械学習で解決できる問題の幅広さ

機械学習は、非常に多岐にわたる分野で問題を解決できます。

  • 画像・動画処理: 書類の文字認識、モーションキャプチャ、アニメーション生成など。
  • 自然言語処理: 翻訳、書類のチェック、コードレビューの補助、カスタマー対応など。
  • 音声処理: 音声合成、声質変換、音声認識など。
  • 時系列: 需要・コスト予測、不審な決済ログの洗い出しなど。
  • その他(テーブルデータ): 商品のレコメンド、競馬/競輪のオッズ予測、検索機能の最適化、ゲームデッキのレコメンド、ゲームAI、自動運転など。

機械学習の3つの主要な分類

機械学習は、学習の方法によって大きく3つに分類されます。

  1. 教師あり学習 (Supervised Learning)
    • ラベル付けされたデータを使用し、直接のフィードバックを受けながら、成果予測や未来予測を行います。
    • 分類 (Classification): 出力が離散値(例:True/False、犬/猫/人)で、データに与えられたクラス(カテゴリ)を予測します。例えば、モンストキャラの画像や特徴からキャラを予測するケースなどが挙げられます。
    • 回帰 (Regression): 出力が連続値(例:金額、人数、温度)で、数字の大小に意味がある値を予測します。過去のモンストの売上から明日の売上を予測する、といった用途が考えられます。
    • 学習は、ラベル付けされた教師データとモデルの出力の損失(loss)を最小化することを目指して行われます。代表的な損失関数には、多クラス分類問題のCategorical Cross Entropyがあり、最適化関数には最急降下法(Gradient Descent)などがあります。
  2. 教師なし学習 (Unsupervised Learning)
    • ラベルと目的変数のないデータを扱い、フィードバックなしにデータから隠れた構造を見つけます。
    • クラスタリング (Clustering): 構造が不明なデータを意味のあるグループ(クラスタ)として構造化し、データのパターンを見つけます。
    • 次元削減 (Dimensionality Reduction): 高次元のデータからノイズを取り除き、特性を保持しつつ重要な情報だけを抜き出す手法で、データ圧縮に用いられます。
  3. 強化学習 (Reinforcement Learning)
    • 意思決定プロセスに焦点を当て、環境とやり取りして行動の報酬をもらうことでエージェントが一連の行動を学習します。

Deep Learningと3つの学習方法の関係性

Deep Learningは、先述の教師あり学習、教師なし学習、強化学習の3つの学習方法を実現するための手法であり、f(x)を表すためのモデルの仕組み、つまり「道具」の種類であると理解してください。


Section 2: Deep Learning — より複雑な問題を解くための強力な「道具」

Deep Learningは、主にDeep Neural Network(DNN)という枠組みを用いて、より複雑な問題を解くことができます。

未学習(underfitting)と過学習(overfitting)

モデルの学習において重要な概念が、未学習(underfitting)と過学習(overfitting)です。

  • 未学習: データの特徴を捉えきれていない状態。
  • 過学習: 訓練データにモデルが適合しすぎてしまい、未知のデータへの予測精度が悪化する状態。これは、データが少なすぎる場合や、データに対してモデルが複雑すぎる場合に発生しやすくなります。

過学習を防ぐためには、データを訓練データ検証データテストデータに分け、検証データを用いて訓練データの学習を制御することが重要です。

過学習を防ぐための主要な手法

過学習に対する対策には、様々な手法があります。

  • Early Stopping: 監視する精度(Loss, Accuracyなど)が一定期間上がらない場合、学習を停止させます。主に検証データのLossを監視指標とします。
  • Data Augmentation: 既存のデータを加工して新しいデータを作り、データ量を水増しすることで、過学習を抑制します。画像の場合、回転、位置変更、縮尺変更などが行われます.
  • 正則化 (Regularization): 目的関数にペナルティ(正則化項)を導入することで、モデルが複雑になりすぎるのを防ぎます。L1/L2 Normalizationなどがあります.
  • Dropout: ニューラルネットワークの学習時に、一部のニューロンからの出力を0にすることで、特定のニューロンへの依存を抑制し、過学習を防ぎます.

ニューラルネットワーク(NN)とActivation関数

Deep Learningのモデルは、基本的にニューラルネットワーク(NN)で構成されています。NNでは、層の途中にActivation関数(非線形変換)を挟むことで、線形分離ができない問題も解けるようになり、より複雑な表現が可能になります。

学習前に予め決めておく必要がある値としてハイパーパラメータがあり、学習率、バッチサイズ、パラメータの数、使用するアルゴリズムの係数などが挙げられます。

深層学習における代表的なネットワーク

深層学習には様々なネットワークが存在します。

  • DNN (Deep Neural Network): ニューラルネットワークの層を深くした基本的なネットワーク。
  • CNN (Convolutional Neural Network): 画像など近傍値間で関連が高いデータに使うネットワークで、畳み込み層とプーリング層が存在します。画像処理におけるフィルタ処理を学習するという思想に基づいています。
  • RNN, LSTM: 時系列データに特化したネットワーク。
  • Transformer: 自然言語処理分野で提案され、Attention機構により時系列的に離れた情報との関係性もモデル化可能。
  • GAN (Generative Adversarial Network): 画像生成などに用いられる。

また、転移学習(Transfer Learning)という手法では、学習済みモデルの一部を利用し、解きたいタスクの学習を追加で行うことで、精度向上や学習の高速化が期待できます。


Section 3: 勾配ブースティング — 構造化データに強いモデル

深層学習(Deep Learning)系のモデルが非構造化データ(音楽、画像、動画、テキストなど)に優れる一方、構造化データ(表形式データ、RDB内のテーブルデータ、csvデータなど)に対しては、勾配ブースティング決定木(GBDT)系のモデルがより優れた精度を発揮することが多いです。

GBDTモデルの基礎

  • 決定木 (Decision Tree): 二分木の構造を用いて分類・回帰を行う手法で、複数の条件を二分していき最終的な出力を決定します。
  • ランダムフォレスト (Random Forest): 単一の決定木を深くするのではなく、複数の決定木を作成し、それぞれの出力値の多数決や平均を使うことで最終的な出力を得る手法です.
  • 勾配ブースティング決定木 (GBDT): 学習時に各決定木の教師データとの誤差を使って出力値ごとのスコアを算出し、その誤差を次の決定木へと伝播させることで推論の精度を高めます。

GBDT系の代表的なライブラリにはLightGBMがあり、目的変数(objective)、損失関数(metric)、モデルの構造(n_estimators, learning_rate, num_leaves, max_depth)などの主要な学習パラメータを設定します。

特徴量エンジニアリング

特徴量エンジニアリングとは、特徴量を前もって学習しやすい形に加工することです。良い特徴量の条件としては、「目的に関係している値であること」「推論のタイミングで利用可能であること」「意味のある数値(ベクトル)に変換できること」「人間の洞察が含まれていること」が挙げられます。


Section 4: その他のML技術 — 最先端のAI技術

このセクションでは、時系列データ、自然言語処理、画像解析、音声処理といった分野で活用される最新のML技術について解説されました。

時系列データ

  • RNN (Recurrent Neural Network): 言語、株取引、音楽などの時系列データに適用するネットワーク。
  • Encoder-Decoder Model: 時系列データXを特徴量ベクトルにエンコードし、そこから時系列Yを推論するモデル。
  • Transformer: 「Attention Is All You Need」という論文で提案されたモデルで、Attention機構を用いて時系列的に離れた情報との関係性もモデル化可能です。

自然言語処理 (Natural Language Processing; NLP)

人間が日常的に使う自然な言葉をコンピュータが理解し、処理する技術です。機械翻訳、チャットボット、音声アシスタントなどで活用され、主要なDeepLearningモデルとしてRNNやTransformerがあります。

  • GPT (Generative Pre-trained Transformer): TransformerのDecoderのみを用いたモデルで、過去の文章から次の単語を予測するように学習します。自己教師あり学習と呼ばれ、大規模なテキストデータでの事前学習が可能です。
  • ChatGPT: GPTを発展させた高精度なChatbot AIで、Reinforcement Learning from Human Feedback (RLHF)が特徴です。
  • LLM (Large Language Model): ディープラーニング技術を用いて構築された超巨大な言語モデルで、データ量、計算量、モデルのパラメータ数が大規模である点が特徴です。
  • RAG (Retrieval Augmented Generation): LLMに自前コンテンツの検索を組み合わせることで、LLMのハルシネーション(それっぽい誤情報)対策になる技術です。
    • Retriever: 大規模なデータセットから関連情報を検索・抽出します。
    • Generator: Retrieverから得られた情報を用いて、質問に即した回答を生成します。
  • LangChain: LLMを用いた開発を効率的に行うためのライブラリです。手軽に新しい技術を試せるメリットがある一方、過度な抽象化によるカスタマイズ性の問題や、破壊的アップデートが多いというデメリットもあります。Text Embeddingによりテキストを抽象化ベクトルに変換し、テキスト間の類似度を距離で表現できます。

画像解析

  • ViT (Vision Transformer): Transformerの仕組みを画像分野に応用したモデルです。画像をパッチと呼ばれるものに均一に分割し、これを単語のように扱うことで、CNNベースモデルよりも精度が高い場合があります。
  • Stable Diffusion: 入力されたテキスト情報を元に画像を生成する技術です。

音声処理

  • 音声認識 (Automatic Speech Recognition; ASR): 音声をテキストに変換する技術で、スマートスピーカーや字幕生成などに活用されます。OpenAIのWhisperなどが代表的です。
  • 音声合成 (Speech Synthesis): テキストから自然な音声を作る技術で、読み上げソフトやナビ音声などに活用されます。

Section 5: ML技術のデプロイ — プロダクトへの応用

機械学習をプロダクトに応用するには、段階的かつ継続的な検証が不可欠です。

要件定義:機能要件とシステム要件

ML技術導入の際は、以下の要件定義が重要です。

  • 機能要件:
    • ML技術で解決すべき問題か? ルールベースとの費用対効果(ROI)を比較し、ルールベースで解けるならML技術は不要です。
    • 適切な定量評価の指標設定: モデル学習の目的関数、モデル性能測定の評価指標、ビジネス目標達成度測定のKPIの3つを設定します。
    • 比較対象(ベースライン)の設定: 既存システムや単純なモデルと比較対象を設定します。
  • システム要件:
    • MLモデルを動かすタイミング: 非同期処理(バッチ処理、ストリーム処理)か同期処理か。
    • 推論速度: リアルタイム推論で許容されるレイテンシーはどのくらいか、速度と精度どちらを優先するか。

MIXIの事例として、「家族アルバム みてね」の顔検出・顔解析(非同期処理、パイプライン化)や、「minimo」のスタイリスト検索結果並び替え(リアルタイム推論、OpenSearch、AWS SagemakerEndpoint)が紹介されました。

モデル実装、PoC構築、本実装

要件定義で決めた指標を元に、以下のフェーズを進めます。

  1. モデルの実装: 評価指標を最大化するモデルを構築します。
  2. PoC構築: モデル精度だけでなく、システム組み込み可能性も検討し、ビジネス側と継続判断の基準を擦り合わせます。
  3. 本実装: モデルのサービスへの組み込みを行います。

継続的学習:MLOps

MLモデルもプロダクトとして継続的にアップデートしていく必要があります。これを実現するのがMLOps (Machine Learning Operations)です。MLOpsは、MLシステムの開発(Dev)と運用(Ops)を統合するエンジニアリング手法で、CI/CDに加えて継続的トレーニング(CT)を行い、MLモデル更新の自動化とモニタリングを推進します。


Section 6: サービスについて考える — AIの可能性を広げるために

研修の最後に、受講者は自身のサービスにML技術を用いてどんな価値を提供できるかを考えるよう促されました。

  • 何に対して機械学習を適用できるか?
  • どんな解決したい課題があるか?
  • どんなデータを持っているか?それは学習できそうか?
  • 既存のモデルは存在しないか?
  • サービスに入れる評価基準は決められそうか?
  • どういう風にサービスと繋ぐか?

これらの問いは、AI技術をビジネスに導入する上で常に考えるべき重要な視点です。


まとめ:AI技術をサービス改善の選択肢に

今回の新卒AI研修は、機械学習の基礎からDeep Learning、勾配ブースティングといった主要技術、さらにはLLMやRAG、MLOpsといった最新トレンドまで、AI技術の全体像を深く理解する貴重な機会を提供しました。

AIによるコーディング支援が当たり前になった今、GPT-5のような強力なツールを使いこなすには、明確なコンテキストを与え、思考をガイドし、行動を適切に管理することが重要です。DFEの過去記事でも紹介した「GPT-5を使いこなす6つの裏ワザ」も参考に、AIを最高のパートナーとして活用してみてください。

この研修や本記事を通じて学んだり思考したことをきっかけに、皆さんが日々のサービス改善の選択肢としてAI導入を検討し、自ら触ってみるきっかけとなれば幸いです。困ったときは、社内のMLエンジニアに相談することも忘れずに。