【G検定】自然言語処理・音声認識に関する用語まとめ

形態素解析

形態素(意味を持つ表現要素の最小単位)を辞書の情報と照らし合わせて、
品詞の種類まで解析する。

構文解析

定義した文法に則って、形態素を関連づけるように解析する。

意味解析

構文解析した文章が表現する意味構造を解析。
意味が通じるか、文法として正しいかをチェックする。

センチメント解析

文章のポジティブ or ネガティブを分析。

含意解析分析

2つの文があった場合、一方の文が他方の文の意味を含むかを解析する。

文脈解析

単体の文ではなく文章全体に意味を解析する処理。

照応解析

文章内に存在する代名詞などの照応表現が示す場所を特定する。

分散表現

単語の意味をベクトル表現で表すこと。

分布仮説

単語の意味は周囲の単語によって形成される

Word2vec

自然言語処理の定番手法。
単語の分散表現+分布仮説+カウント/推論を含めている。
代表手法モデルとしてCBOW(Countinuous Bag-of-WordsとSkip-gram)が存在している。
Skip-gramでは前後から離れた文中の言葉の分類も可能。

後継としたfastTextやELMoが存在。

qiita.com

BOW(bag-of-words)

データをベクトル化する手法

TF-IDF

分割した単語の重要度を評価する手法う

トピックモデル

文章中の話題(トピック)やテーマを抽出するモデル。
代表手法として潜在的意味解析(LSI,LSA)が存在しており、
文章の類似度を知るために、意味別で単語のグルーピング化や情報量の凝縮も行う。
LSAの応用手法として確率的潜在意味解析(PLSA)や
さらにPLSAの応用手法として潜在的ディリクレ配分法(LDA)も存在する。

ルールベース機械翻訳

統計的機械翻訳の対抗馬だったが、最近勢いがない。
登録済みの文法を適用させ、訳文を生成する。
文法を登録するのに大変なようである。

統計的機械翻訳

ニューラル機械翻訳の対抗馬だったが、最近勢いがない。
パラレルコーパス(テキストデータ)を与え、統計的モデルに基づいて、
訳文を出力させる。
最近はコーパスデータが少なくとも、高機能である。

系列変換モデル(Seq2Seqモデル)

2014年に提案された機械翻訳生成モデル。
RNNベースのAutoEncoderモデルを適用。

Transformer

Seq2Seqと比べて高速で精度が高く、
RNNやCNNを用いずにSelf-Attention+AutoEncoderモデルなので計算量も改善される。
並列計算も可能な様子。
BERT(2018)、XLNet(2019)、GPT-2(2019)、T5(2019)などの文章生成モデルのベースともなっている。
ちなみにGPT-2はOpenAIが発明したが、FakeNewsを生み出す可能性があるため、オープンソース化されなかった。

qiita.com

qiita.com

Universal Sentence Encoder

文章をEncoder化する手法。
2つのモデルが提案されている。
Deep Averaging Networkでは文法知識を必要としないため、
学習にかかる時間や計算量は小さくなる。
Transformerでは精度は高いが計算量を要する。

qiita.com

Google NMT

2016年にGoogleが発案した機械翻訳モデル。
LSTMに長期的な時系列データを与え、
GPUやTPU(機械学習に特化した集積回路であるテンソル処理ユニット)により処理を実現している。
LSTMやSkip-Connectionを取り入れたRNNモデル。

隠れマルコフモデル(Hidden Markov Model)

マルコフ性とは直前の結果のみから次の結果を確率的に求める。
出力記号系列を観測して、状態記号系列を観測できないモデルを隠れマルコフモデルと呼ぶ。
株価や音声信号,言語で用いられる。

qiita.com

Connectionist Temporal Classification

従来のHMMではなくLSTMを適用した音声認識モデル。
音響的特徴の確率分布モデル+音素の時系列モデル+言語モデルを用いて、
音響的特徴から単語、音素、音節を出力できる。

qiita.com

WaveNet

WaveNet ディープラーニング音声合成に利用したアルゴリズム
Google Homeに使われている。

参考文献

qiita.com