AWS Certified Machine Learning – Specialty試験に出てきそうな用語とかをまとめる

2021年5月30日

「AWS 認定機械学習 – 専門知識」の試験対策その２。
分類とかあんまりあってない気がします。

1. 機械学習
2. 機械学習モデルとアルゴリズム
3. データ前処理
4. モデルの性能改善と評価
5. AWSの機械学習

機械学習

機械学習のフロー

教師あり学習（supervised learning）

与えられたデータから、そのデータがどんなパターンになるかを学習し識別・予測する。
教師データ（training data）が必要になる。
過去の売り上げから将来の売り上げを予測したり、画像の中の物体を識別したり、翻訳などに利用できる。

回帰と分類

連続値を予測することを回帰（regression）と呼ぶ。正解データは数値となる。
離散値を予測することを分類（classification）と呼ぶ。正解データは文字列やいくつかの整数になる。

note（ノート）

機械学習の回帰と分類の違いがやっとわかった！｜ぷもん｜note

https://note.com/pumonmon/n/n79ee54a304b8

こんにちは！ぷもんです。以前、アヤメのデータセットを使った機械学習完結！！学習して評価するというnoteで機械学習の分類をやりました。次は機械学習の回帰をやっていきます。まず、今回は・回帰とはなんなのか？・回帰と分類の違いは何か？について書きます。回帰とは連続値の予想をすることのできる教師あり学習です。教師あり学習とは正解のラベルと値のセットを使って学習する方法で分類では setosa、versicolor、virginicaのようなアヤメの品種（＝正解のラベル）とがく片の長さ、がく片の幅、花弁...

教師なし学習（unsupervised learning）

与えられたデータから、データそのものが持つ構造・特徴を学習する。
ヒューリスティックアプローチ。

クラスタリング（clustering）

特徴量を学習しグループ分けを行う。

Ledge.ai

クラスタリングとは | 概要・手順・活用事例を紹介 | Ledge.ai

https://ledge.ai/clustering/

クラスタリング（clustering）とは、機械学習における教師なし学習の1種で、データ間の類似度にもとづいて、データをグループ分けする手法です。この記事ではクラスタリングの概要・手順・分類との違いのほか、群平均法・ウォード法・k-means法のクラスタリングで代表的な3手法についても紹介します。

次元削減（dimensionality reduction）

高次元空間から低次元空間へのデータの変換。
ざっくりいうとデータの要約。

Qiita

30分でわかる機械学習用語「次元削減(Dimensionality Reduction)」 - Qiita

https://qiita.com/aya_taka/items/4d3996b3f15aa712a54f

機械学習用語としての「次元削減(Dimensionality Reduction)」について、「次元削減という言葉を初めて聞いた」という程度の方を対象に、次元削減の目的・方法から、どんな方法で実現するのかという話までを説明する記事です...

強化学習（Reinforcement Learning）

エージェントが行動した結果得られる報酬を最大化する方策を求めさせる。
ロボット掃除機のルート決定などに利用させる。

転移学習（Transfer Learning）

Udemy メディア

転移学習とは？ディープラーニングで期待の「転移学…｜Udemy メディア

https://udemy.benesse.co.jp/data-science/deep-learning/transfer-learning.html

転移学習とは、ある領域ですでに学習させたモデルを別の領域に適応させる機械学習の技術です。転移学習のおかげで、人工知能の学習時間の短縮や学習の効率性が上がるため、学習に対するコストを抑えることがでます。この記事では今注目の転移学習のメリットとアプローチ手法に加え、混同されがちなファインチューニングとの違いについても詳しく解説します。

機械学習モデルとアルゴリズム

畳み込みニューラルネットワーク（CNN）

アイマガジン｜i Magazine｜IS magazine

畳み込みネットワークの「基礎の基礎」を理解する　～ディープラーニング入門｜第2...

https://www.imagazine.co.jp/畳み込みネットワークの「基礎の基礎」を理解す/

　ディープラーニングにはいくつかの手法が存在するが、そのなかで最も成功しているのが、畳み込みネットワークである。畳み込みネットワークは主に画像認識で用いられ、その圧倒的な精度ゆえにディープラーニングが注目される1つの要因

再帰的ニューラルネットワーク（RNN）

アイマガジン｜i Magazine｜IS magazine

再帰型ニューラルネットワークの「基礎の基礎」を理解する　～ディープラーニング...

https://www.imagazine.co.jp/再帰型ニューラルネットワークの「基礎の基礎」/

　前回は、ディープラーニングの中でも、とくに画像認識で利用される畳み込みネットワークを取り上げた。画像認識はディープラーニングの応用分野として、最も研究が盛んで、適用事例も多いエリアである。しかし、そのほかの分野でもさま

主成分分析法 (PCA)

教師なし機械学習アルゴリズム。

www.stats-guild.com

主成分分析（Principal component analysis）

https://www.stats-guild.com/analytics/15794

主成分分析 Principal component analysis

オートエンコーダ（自己符号化器）

教師なし機械学習アルゴリズム。

jp.mathworks.com

オートエンコーダ/自己符号化器

https://jp.mathworks.com/discovery/autoencoder.html

オートエンコーダ（自己符号化器）とは、ニューラルネットワークを利用した教師なし機械学習の手法の一つです。次元削減や特徴抽出を目的に登場しましたが、近年では生成モデルとしても用いられています。オートエンコーダの種類や利用例を詳しく解説します。

k-means法

教師なし機械学習アルゴリズム。
クラスタリングアルゴリズム。

データ前処理

特徴量エンジニアリング

人為的にAIの予測精度を上げるため用いる技術。

外れ値（outlier）

データセットの中で、他の値に比べ明らかに大きすぎたり小さすぎたりする値。

欠損データへの対処

Qiita

平均値で埋めるだけじゃない！少し踏み込んだ欠損値補完 - Qiita

https://qiita.com/bigshiny_0328/items/d6b8eb1be2971e1e81be

欠損値の種類実は、欠損値には３種類ありますたくさんの文献を漁ったところ、こちらがわかりやすかったので引用させていただきます。これら３つの種類に合わせて欠損値を補完していくことが、精度向上のために必要です。Miss...

不均衡データへの対処

Qiita

機械学習における不均衡データの扱い方 - Qiita

https://qiita.com/r-takahama/items/631a59953fc20ceaf5d9

注意この記事は Dealing with Imbalanced Classes in Machine Learning を和訳したものです。元記事中で class imbalance や imbalanced classi...

二項分類（バイナリ分類）

オブジェクトの集合を個々のオブジェクトがある特定の属性を持つかどうかで2種類にグループ分けする分類作業
https://ja.wikipedia.org/wiki/二項分類

ラベルエンコーディング

カテゴリに対して一意の数値を割り振る。

one-hotエンコーディング

ダミー変数を用いた前処理。

機械学習入門コースの決定版!機械学習エンジニアを目指すならcodexa（コデクサ）

ダミー変数（One-Hotエンコーディング）とは？実装コードを交えて徹底解説

https://www.codexa.net/get_dummies/

ダミー変数（別名：One-Hotエンコーディング）とはカテゴリカル（質的）データを0又は1で表現した変数を指します。本稿では機械学習でもよく用いられるダミー変数について実装可能なサンプルコードを踏まえて詳しく解説していきます。

tf-idf

クラスメソッド発「やってみた」系技術メディア | DevelopersIO

tf-idfについてざっくりまとめ_理論編 | DevelopersIO

https://dev.classmethod.jp/articles/yoshim_2017ad_tfidf_1-2/

概要こんにちは、yoshimです。当エントリは「Machine Learning Advent Calendar 2017」の4日目のエントリです。今回は「文書の特徴」を表現するために「文書に含まれる単語の重要度」 …

モデルの性能改善と評価

過学習（overtraining）

過剰適合（overfitting）とも。
モデルが教師データに過剰に適合してしまうこと。

正則化（regularization）

Qiita

機械学習における正則化の意味を分かりやすく説明する - Qiita

https://qiita.com/kenta1984/items/91ab29fae8cd3920cf2b

はじめに機械学習（ディープラーニング含む）に触れたことがある人であれば、正則化という言葉を一度は耳にしたことがあるでしょう。英語ではregularizationと言います。一般的には、機械学習において過学習を防ぐための手法...

L1正則化

特定のデータの重みを0にする事で、不要なデータを削除する。

L2正則化

データの大きさに応じて0に近づけて、滑らかなモデルとする。

エポック（epoch）数

一つの訓練データを繰り返して学習させる回数。

Early Stopping

St_Hakky’s blog

エポック(epoch)数とは【機械学習 / Deep Learning】 - St_Hakky’s blog

https://www.st-hakky-blog.com/entry/2017/01/17/165137

こんにちは。今日はエポック数について調べましたので、そのことについて書きます。エポック数とはエポック数とは、「一つの訓練データを何回繰り返して学習させるか」の数のことです。Deep Learningのようにパラメータの数が多いものになると、訓練データを何回も繰り返して学習させないとパラメータをうまく学習できないません(逆にやりすぎると過学習を起こすわけなんですが)。多すぎずに少なすぎないエポック数を指定することによって、パラメーターをうまく学習させることができます。どうなっていると「良い」エポック数なの...

勾配消失

AI研究所

勾配消失問題 |

https://ai-kenkyujo.com/term/gradient-loss-problem/

勾配消失問題とは勾配消失問題とは、機械学習手法のひとつであるニューラルネットワークの設計において、勾配が消失することで学習が進まなくなる技術的な問題のことです。ニューラルネットワークによる学習を行う際、最もシンプルなモデルである単純パーセプトロンでは線形分離可能な問題しか学習できませんでした。したがって、非線形分離が必要となる問題では、パーセプトロンを多層化する必要があります。多層化する場合に新たに問題になるのは、予測値と実際の値の差分である誤差を最小化する、いわゆる最適化問題が複雑化す...

バイナリモデルインサイト

docs.aws.amazon.com

バイナリモデルインサイト - Amazon Machine Learning

https://docs.aws.amazon.com/ja_jp/machine-learning/latest/dg/binary-model-insights.html

多くのバイナリ分類アルゴリズムの実際の出力は予測スコアです。スコアは、指定された観測が正のクラスに属しているというシステムの確実性を示します (実際のターゲット値は 1)。Amazon ML バイナリ分類モデルは、0 から 1 の範囲のスコアを出力します。このスコアのコンシューマーとして、観察を 1 または 0 に分類するかどうかを決定するには、分類しきい値を選択してスコアを解釈するか、カットオフして、それに対するスコアを比較します。カットオフよりも高いスコアを持つ監視はターゲット = 1 として予測されます。カットオ...

AWSの機械学習

Amazon SageMaker

ビルトインアルゴリズム

https://www.blog.danishi.net/2021/05/25/post-5001/

推論パイプライン

前処理、予測、後処理タスクなどの複数のステップを組み合わせることができる

クラスメソッド発「やってみた」系技術メディア | DevelopersIO

SageMakerの推論パイプラインについて調べてみた | DevelopersIO

https://dev.classmethod.jp/articles/yoshim-sagemakerinference-pipeline/

「Amazon SageMaker」の「推論パイプライン」について調べてみました

Amazon Elastic Inference (EI)

SageMakerのインスタンスにGPUをアタッチできる。

Amazon Web Services, Inc.

Amazon Elastic Inference（深層学習の推論を高速化）| AWS

https://aws.amazon.com/jp/machine-learning/elastic-inference/

Amazon SageMaker Ground Truth

フルマネージド型のデータラベル付けサービス。

Amazon Web Services, Inc.

Amazon SageMaker Ground Truth（機械学習トレーニングデータセット構築）| AWS

https://aws.amazon.com/jp/sagemaker/groundtruth/

AWS AIサービス

Amazon Web Services, Inc.

人工知能サービス

https://aws.amazon.com/jp/machine-learning/ai-services/

Amazon Mechanical Turk

ja.wikipedia.org

Amazon Mechanical Turk - Wikipedia

https://ja.wikipedia.org/wiki/Amazon_Mechanical_Turk

AWS DeepRacer

人工知能は人間を超えるか (角川ＥＰＵＢ選書)

調べてみたAmazon SageMaker, AWS, AWS認定, 機械学習

Posted by danishi

AWS Certified Machine Learning – Specialty試験に出てきそうな用語とかをまとめる

機械学習

機械学習のフロー

教師あり学習（supervised learning）

回帰と分類

教師なし学習（unsupervised learning）

クラスタリング（clustering）

次元削減（dimensionality reduction）

強化学習（Reinforcement Learning）

転移学習（Transfer Learning）

機械学習モデルとアルゴリズム

畳み込みニューラルネットワーク（CNN）

再帰的ニューラルネットワーク（RNN）

主成分分析法 (PCA)

オートエンコーダ（自己符号化器）

k-means法

エルボー法

ロジスティック回帰

サポートベクターマシン（support vector machine：SVM）

異常検知

N-gram

Bag of Words

レコメンド

データ前処理

特徴量エンジニアリング

外れ値（outlier）

欠損データへの対処

不均衡データへの対処

二項分類（バイナリ分類）

ラベルエンコーディング

one-hotエンコーディング

tf-idf

モデルの性能改善と評価

過学習（overtraining）

正則化（regularization）

L1正則化

L2正則化

エポック（epoch）数

Early Stopping

勾配消失

バイナリモデルインサイト

AWSの機械学習

Amazon SageMaker

ビルトインアルゴリズム

推論パイプライン

Amazon Elastic Inference (EI)

Amazon SageMaker Ground Truth

AWS AIサービス

Amazon Mechanical Turk

AWS DeepRacer