用語集

本教材に登場する主要な用語を、日本語（English）の対訳形式でまとめました。授業スライドが英語のため、英語表記もあわせて確認できるようにしています。本文中の用語（English）をクリックすると、この一覧の該当項目へ移動します。（現在は85語のシード版です。）

活性化関数（Activation Function）: ニューロンの線形和に非線形性を加える関数です。シグモイド・tanh・ReLU などがあり、これがないと何層重ねても直線的な変換に留まります。登場: M2, M3
Adam （Adam）: 勾配の移動平均（慣性）に加え、パラメータごとに学習率を自動調整する最適化手法です。よく動くパラメータの歩幅を控えめに、あまり動かないものの歩幅を大きく取ることで、多様な問題で安定して収束します。登場: M4
API （API）: アプリケーション同士が機能を呼び出し合うための標準的な窓口（インタフェース）です。大規模言語モデルも提供者のAPIに問い合わせるだけで、自前でモデルを訓練しなくても利用できます。登場: M3
アーキテクチャ（Architecture）: モデルを構成するネットワークの設計、つまり何層をどうつなぐかという骨格のことです。機械の構造設計に相当し、入力と出力の形・途中の計算の流れを決めます。登場: M1
人工知能（Artificial Intelligence）: 人間が行う推論・判断・学習などの知的な働きをコンピュータで実現しようとする研究分野の総称です。機械学習・深層学習はその中の一手法であり、「AI⊃機械学習⊃深層学習」という入れ子の関係にあります。登場: M1
バックボーン（Backbone）: 転移学習で特徴抽出に使う、事前学習済みCNNの本体部分（ResNet・VGG・EfficientNetなど）です。機械でいう骨格・フレームに相当し、後段の分類ヘッドに豊かな特徴を渡す役割を担います。登場: M6
誤差逆伝播法（Backpropagation）: 出力側の誤差を連鎖律で入力側へ順に伝え、各パラメータの勾配を効率よく求める手法です。勾配を層から層へバケツリレーする、と考えると直感的です。登場: M4
バッチ正規化（Batch Normalization）: ミニバッチ内の各チャンネルの活性化を平均0・分散1に揃えてから、学習可能なスケール γ とシフト β で戻す処理です。工場のセンサ信号を正規化してから制御する発想に似ており、学習が速く安定し汎化にも良い効果をもたらします。登場: M5
バイアス（Bias）: ニューロンの重み付き和に加える定数の下駄で、出力全体を一定量ずらす役割を持ちます。センサのゼロ点ずれと同様に、ニューロンが反応するしきい値の位置を調整します。登場: M2
ビッグデータ（Big Data）: インターネットの普及で手に入るようになった、従来とは桁違いの大量のデータのことです。容量の大きい深層学習モデルは大量のデータがあって初めて過学習せずに実力を発揮します。登場: M1
バウンディングボックス（Bounding Box）: 物体検出において、画像中の各物体を囲む長方形の枠のことです。左上座標と幅・高さ（またはx, y, x', y'）で表され、物体の位置と大きさを記述します。登場: M7
連鎖律（Chain Rule）: 合成関数の微分則で、「外側の微分×内側の微分」という形で勾配を伝える数学的道具です。誤差逆伝播法はこの連鎖律を層から層へ繰り返し適用することで、すべてのパラメータの勾配を効率よく求めます。登場: M4
CIFAR （CIFAR）: 10種類（CIFAR-10）または100種類（CIFAR-100）の物体画像を計6万枚集めたデータセットです。MNISTより難しく、画像認識モデルの比較・評価のベンチマークとして広く使われています。登場: M2
コンピュータビジョン（Computer Vision）: コンピュータに画像や動画を「見て理解させる」ための技術・研究分野です。画像分類・物体検出・セグメンテーションなど、目的に応じた様々なタスクがあります。登場: M1
畳み込み（Convolution）: 同じ重み（カーネル）を位置をずらしながら画像全体に適用する線形演算です。重みを使い回すためパラメータ数が少なく、位置によらない特徴を捉えられます。登場: M3
畳み込みニューラルネットワーク（Convolutional Neural Network）: 畳み込み層を中心に構成された、画像認識に特化したニューラルネットワークです。同じカーネルを画像全体にスライドさせる特性により、位置によらない特徴を少ないパラメータで捉えられます。登場: M3
交差エントロピー（Cross-Entropy）: 予測した確率分布と正解のone-hotラベルのズレを測る損失関数です。正解クラスに高い確率を割り当てるほど損失は小さくなり、外れるほど指数関数的に大きなペナルティがかかります。登場: M3, M7
データ（Data）: 入力と正解（ラベル）の組を集めたもので、モデルの学習・評価に使います。実験における測定サンプルの母集団にあたり、量と質の両方が学習の成否を左右します。登場: M1
データ拡張（Data Augmentation）: 既存の画像を反転・切り出し・色変換などで変形し、見かけ上のデータ数を人工的に増やす手法です。モデルが特定の向きや明るさに依存しなくなるため、汎化性能が高まります。登場: M5
決定境界（Decision Boundary）: 分類器が「このクラス」と「あのクラス」を切り分ける境界のことです。1つのニューロンは入力空間に1本の直線（超平面）を引き、その両側に異なるラベルを割り当てます。登場: M2
深層学習（Deep Learning）: 多層のニューラルネットワークを用いる機械学習の一分野です。層を深く重ねることで、画像や言語のような複雑なデータの特徴を段階的に捉えます。登場: M1
ドロップアウト（Dropout）: 訓練のたびにランダムにニューロンを一定割合で「休ませ」てから学習する正則化手法です。休むニューロンが毎回変わるため異なるサブネットワークが協調して学習し、擬似的なアンサンブル効果で過学習を抑えます。登場: M5
アンサンブル（Ensemble）: 複数のモデルに予測させてその平均（または多数決）を取る手法です。単体では平凡なモデルでも、寄せ集めると単体を上回る性能が得られることが多い、精度を引き出す定番の手段です。登場: M5
エポック（Epoch）: 訓練データ全体を一通り使い切った学習の1周のことです。1000枚のデータをミニバッチ100枚で回すなら10回の更新で1エポックとなり、合計何エポック回すかで全体の学習量を管理します。登場: M4
特徴抽出器（Feature Extractor）: 生の入力から意味のある特徴ベクトルを取り出す役割を持つ部分（層）です。振動解析でFFTによりスペクトルに変換するのと同じ発想で、事前学習済みCNNを特徴抽出器として使うと高品質な特徴が得られます。登場: M6
特徴空間（Feature Space）: 特徴抽出器が出力する特徴ベクトルたちが位置する多次元の空間です。うまく学習されたモデルでは、同じクラスの特徴ベクトルが近くに集まり、異なるクラスは遠ざかる構造になります。登場: M6
汎化（Generalization）: 訓練で使ったデータだけでなく、まだ見ていない新しいデータに対しても正しく答える能力です。学習の真の目的は損失を下げることそのものではなく、この汎化性能を高めることです。登場: M1, M5
大域最小（Global Minimum）: 損失関数の全変数空間にわたる、もっとも低い点で最善の解にあたります。深層学習の損失地形は複雑で多峰（谷が複数）なため、必ずしも大域最小に到達するとは限りません。登場: M4
GPU （GPU）: もともと画像処理用に設計された、行列演算を並列に高速実行できる計算装置です。ニューラルネットの学習は大量の行列演算の塊であり、GPUの並列処理と相性が抜群です。登場: M1
勾配（Gradient）: 損失関数をパラメータで微分したベクトルで、各パラメータが損失を増やす向きを示します。多変数関数の傾きの多次元版であり、その逆向きに進むことで損失を最も速く下げられます。登場: M4
勾配降下法（Gradient Descent）: 損失を小さくする向き（勾配の逆向き）へパラメータを少しずつ動かす最適化法です。ボールが谷を転がり落ちる様子、学習率はその一歩の幅にたとえられます。登場: M4
画像分類（Image Classification）: 1枚の画像を入力とし、「何が写っているか」を1つのラベルで答えるタスクです。「この画像は猫」のように画像全体に1つの答えを返す、コンピュータビジョンの基本タスクです。登場: M1
ImageNet （ImageNet）: 約1400万枚・1000クラスにわたる巨大な画像データセットで、深層学習ブームの引き金を引いた歴史的な存在です。ここで事前学習されたモデルの重みが、転移学習の出発点として広く公開・活用されています。登場: M6
IoU （Intersection over Union）: 2つのバウンディングボックスの重なり具合を測る指標で、共通部分（Intersection）の面積を和集合（Union）の面積で割った比率（0〜1）です。0なら重なりなし、1なら完全一致を意味し、検出精度の評価や非最大抑制の判定に使います。登場: M7
カーネル（Kernel）: 畳み込み操作で画像上をスライドさせる小さな重みの窓（フィルタ）です。エッジや角などの特徴に反応するよう学習で調整され、同じカーネルを全位置に使い回すことでパラメータ数を大幅に削減できます。登場: M3
KLダイバージェンス（KL Divergence）: 2つの確率分布がどれだけ異なるかを測る指標で、相対エントロピーとも呼ばれます。交差エントロピーはKLダイバージェンスと密接に関係しており、正解分布からの「隔たり」を数値化します。登場: M3
L2正則化（L2 Regularization）: 損失関数に重みの二乗和を加算することで、極端に大きな重みを抑制する正則化手法です。重みを全方向に均等に引っ張るゴムひものように働き、モデルが特定の入力に過度に反応するのを防ぎます。登場: M7
大規模言語モデル（Large Language Model）: 大量のテキストデータで事前学習した、数十億〜数千億のパラメータを持つ超大規模な言語モデルです。文章生成・翻訳・要約・プログラミング支援など、自然言語を扱う幅広いタスクを高精度にこなします。登場: M1
Leaky ReLU （Leaky ReLU）: 負の入力に対してもわずかな傾き（例: 0.01z）を残すReLUの改良版です。ReLUで起こり得る「負の領域に入ったニューロンが二度と反応しなくなる」死んだニューロン問題を緩和します。登場: M3
学習曲線（Learning Curve）: 横軸にエポック・縦軸に損失（または精度）を取り、訓練データと検証データの2本の曲線を並べたグラフです。2本の開きが大きければ過学習、両方とも高い損失のままなら未学習と診断できます。登場: M5
学習率（Learning Rate）: 勾配の逆向きに1回の更新でどれだけパラメータを動かすかを決める係数（η）です。大きすぎると谷を飛び越えて発散し、小さすぎると収束に時間がかかります。ボールが転がるたとえでは「一歩の幅」にあたります。登場: M4
学習率スケジューリング（Learning Rate Scheduling）: 学習の進行に合わせて学習率を変化させる手法です。初期は大きく踏み出して谷に近づき、終盤は歩幅を小さくして谷底に丁寧に着地させることで、最終的な精度が上がります。登場: M4
局所最小（Local Minimum）: 損失関数の中で周囲よりは低いが、大域的には最善ではない谷底の点です。勾配降下法でここにはまると抜け出せなくなり、モデルの性能が理論限界を下回ることがあります。登場: M4
ロジスティック回帰（Logistic Regression）: 入力特徴の線形結合をシグモイド関数で確率に変換し、クラスを分類する手法です。名前に「回帰」とありますが実際には分類器であり、転移学習で得た特徴の上に載せる古典的な分類器として広く使われます。登場: M7
ロジット（Logit）: ニューラルネットワークの最終層が出力する、正規化前の生の実数値です。大小バラバラなこの値をsoftmaxなどで確率分布に変換してから、損失の計算や予測に使います。登場: M3
損失関数（Loss Function）: モデルの予測と正解のズレを一つの数値で表す関数で、小さいほど良い状態を示します。学習はこの損失を最小化するようにパラメータを調整する作業です。登場: M1, M4
機械学習（Machine Learning）: データから規則性を学び取り、未知の入力に対して予測や分類を行う手法の総称です。人間が規則を書き下す代わりに、例からモデルのパラメータを調整します。登場: M1
ミニバッチ（Mini-batch）: 全訓練データからランダムに取り出す小さな部分集合（32枚・128枚など）で、1回の勾配計算に使います。全データを使うと計算が遅く、1件ずつだと勾配が暴れるため、その中間を取る実用的な妥協策です。登場: M4
MNIST （MNIST）: 手書き数字（0〜9）の画像を7万枚集めた定番の画像データセットです。深層学習の入門課題として広く使われ、モデルの動作確認や教育目的の実験に向いています。登場: M2
モデル（Model）: 入力 x からパラメータ θ を使って出力を計算する関数 y = f(x; θ) のことです。学習とは、このパラメータ θ を良い値に調整する作業を指します。登場: M1
モデル容量（Model Capacity）: モデルが表現できる複雑さの大きさを表す指標です。直線あてはめは容量が小さく、多層ニューラルネットは容量が大きい、と考えてください。登場: M1
モメンタム（Momentum）: 過去の勾配から蓄積した「勢い」を現在の更新に加味する最適化の工夫です。物理の慣性と同じ発想で、谷の底に向かって加速しながら収束し、細かい振動も抑えられます。登場: M4
ニューロン（Neuron）: 入力を重み付けして足し合わせ（wᵀx + b）、活性化関数を通して出力する計算単位です。ニューラルネットワークの最小部品です。登場: M2
非最大抑制（Non-Maximum Suppression）: 物体検出で1つの物体に重複して生成された複数の候補枠から、最もスコアが高い枠を残して他を除去する後処理アルゴリズムです。IoUを閾値として重複度合いを判定し、同一物体に対して1つの枠だけが残るよう整理します。登場: M7
物体検出（Object Detection）: 画像の中に何が、どこにあるかを四角い枠（バウンディングボックス）とクラス名で出力するタスクです。「何が」と「どこに」を同時に答える点が画像分類との違いです。登場: M1, M7
one-hotエンコーディング（One-Hot Encoding）: カテゴリラベルを「どれか1つだけが1で残りは0」のベクトルで表す方法です。たとえば3クラスの2番目なら (0,1,0) と表し、多クラス分類の正解ラベルや選択的演算の受け渡しに使います。登場: M2, M3
最適化（Optimization）: 損失関数を最小化するためにパラメータを繰り返し更新する手続きです。勾配降下法がその代表であり、ボールが谷を転がり落ちる様子にたとえられます。登場: M1
過学習（Overfitting）: 訓練データに合わせ込みすぎて、新しいデータへの予測が悪くなる状態です。実験ノイズまで再現してしまう過剰な曲線あてはめをイメージすると分かりやすいです。登場: M1, M5, M6
パディング（Padding）: 畳み込みの前に画像の縁に0の枠を付け足す操作です。これにより畳み込み後の出力サイズを入力と同じに保て、縁の情報が失われるのを防ぎます。登場: M3
パラメータ（Parameter）: モデルの振る舞いを決める内部の調整つまみで、学習によって値が変わります。直線あてはめの傾き a と切片 b がパラメータの典型例で、深層学習では数百万〜数千億個のパラメータが存在します。登場: M1
プーリング（Pooling）: 特徴マップの一定区画内の最大値や平均値を取り、空間解像度を下げる操作です。情報を圧縮しながら特徴を保持し、位置のわずかなずれに対する頑健性も高めます。登場: M3
事前学習済みモデル（Pretrained Model）: ImageNetなどの大規模データで予め学習された、重みを持った状態のモデルです。豊かな特徴抽出能力を引き継ぐことで、少ないデータの転移学習でも高い精度が得られます。登場: M6
正則化（Regularization）: 過学習を抑えるためにモデルの複雑さにペナルティを課す手法の総称です。Dropout・BatchNorm・L2正則化など様々な方法があり、いずれもモデルに制約を加えることで汎化性能を高めます。登場: M5, M7
ReLU（正規化線形関数）（ReLU）: 入力が正ならそのまま、負なら0を返すシンプルな活性化関数（f(z) = max(0, z)）です。正の領域で傾きが常に1なので勾配が消えにくく、深いネットワークでも学習が安定します。登場: M3
セマンティックセグメンテーション（Semantic Segmentation）: 画像の各ピクセルが何のクラスに属するかを塗り分けるタスクです。外観検査で欠陥領域を正確に切り出す場面など、ピクセル単位の精密な判断が求められる用途で使います。登場: M1
シグモイド関数（Sigmoid）: 任意の実数を0〜1の範囲に滑らかに押し込むS字カーブの関数で、σ(z) = 1/(1+e⁻ᶻ) で定義されます。出力を確率として解釈できる利点がある一方、入力が極端に大きいと傾き（勾配）がほぼ0になる弱点があります。登場: M2, M3
シグモイド関数（Sigmoid Function）: 任意の実数を0〜1の確率に変換するS字カーブの関数で、σ(z) = 1/(1+e⁻ᶻ) で表されます。ロジスティック回帰の出力段や二値分類の最終層で用いられます。登場: M7
符号関数（Sign Function）: 入力が正なら1、負なら0（または‑1）を返す階段状の関数です。しきい値を超えた瞬間に出力がパチンと切り替わる、リレースイッチのような素直な活性化関数です。登場: M2
softmax（ソフトマックス）（Softmax）: ロジット（生の実数値）を全クラスの確率（合計が1）に変換する関数です。各値の指数を取って合計で割ることで、最大値がより強調された確率分布が得られます。登場: M3
確率的勾配降下法（Stochastic Gradient Descent）: ミニバッチごとに勾配を計算してパラメータを更新する最適化手法です。毎回ランダムに選んだ一部のデータを使うため勾配が揺らぎ、この揺らぎが局所最小からの脱出に役立つことがあります。登場: M4
ストライド（Stride）: 畳み込みでカーネルをずらす歩幅（ステップ幅）のことです。ストライドを2にすると1つ飛ばしで適用され、出力の縦横がおおよそ半分に縮みます。登場: M3
tanh（双曲線正接）（Tanh）: 入力を‑1〜1の範囲に収めるS字カーブの活性化関数で、tanh(z) = (eᶻ − e⁻ᶻ)/(eᶻ + e⁻ᶻ) で定義されます。シグモイドより出力の中心が0になり学習が安定しやすい一方、端では勾配が消える弱点はシグモイドと同様です。登場: M3
ten-crop拡張（Ten-Crop Augmentation）: 1枚のテスト画像から四隅＋中央の5箇所を切り出し、さらに左右反転して計10枚を作るデータ拡張の手法です。10枚全部をモデルに通して予測を平均することで、見え方の違いによる判定のばらつきを吸収できます。登場: M7
テンソル（Tensor）: 行列を3次元以上に拡張した多次元配列のことです。カラー画像は「チャンネル×高さ×幅」の3次元テンソルで表され、CNNの中でテンソルの形状が層ごとに変化していきます。登場: M3
テストデータ（Test Set）: モデルの最終的な汎化性能を測るためだけに取っておくデータです。期末試験の本番にあたり、学習・検証の途中には一切触れてはいけません。登場: M2
テスト時データ拡張（Test Time Augmentation）: 推論時に1枚の画像を複数の変形バージョンに展開し、各々の予測を平均する手法です。アンサンブルと同じ「多数決」の効果で判定を安定させ、精度を底上げできます。登場: M5
トークン（Token）: 大規模言語モデルが文章を処理する際の最小単位で、おおむね単語や漢字数文字に相当します。APIの利用料金は、送受信したトークン数に応じて課金されることが多いです。登場: M3
訓練データとテストデータの分割（Train/Test Split）: データをモデルの学習に使う訓練分と、最終性能評価に使うテスト分に分ける操作です。テストデータを一切学習に使わないことで、本当の汎化性能を公正に測れます。登場: M6
学習（Training）: データをもとにモデルのパラメータを良い値に自動調整する作業です。損失を最小化する方向へパラメータを繰り返し更新することで進みます。登場: M1
訓練データ（Training Set）: モデルのパラメータを学習するために使うデータの集まりです。答えを見ながら練習する段階にあたり、このデータだけで成績を判断すると本当の汎化性能が見えません。登場: M2
転移学習（Transfer Learning）: 大規模データで事前学習したモデルの特徴抽出能力を、手元の小さなデータの課題に流用する手法です。少ないデータでも過学習を避けて高い精度を得やすくなります。登場: M4, M6
未学習（Underfitting）: モデルの容量が足りず、訓練データにすら合わせられない状態です。曲がったデータに直線を無理やり引いてどうしても合わない、あてはめ不足の状態です。登場: M1, M5
検証データ（Validation Set）: 層数や学習率などの設計の善し悪しを比べるために、学習には使わずに取り分けておくデータです。模擬試験にあたり、テストデータを消費せずに設計をチューニングするのに使います。登場: M2, M5
勾配消失（Vanishing Gradient）: シグモイドやtanhのような活性化関数の端で、傾き（勾配）がほぼ0になってしまう現象です。層が深いほど勾配が掛け合わされて消えていき、初期層のパラメータがほとんど更新されなくなります。登場: M3
重み（Weight）: ニューロンへの各入力信号を何倍にして足し合わせるかを決める係数です。物理でいう「感度係数」に相当し、学習によって調整されてデータの重要性を反映します。登場: M2