自然言語処理の基本と技術

1章

2章

  • コーパス / corpus
  • 均衡コーパス / balanced corpus
  • 辞書 / dictionary
  • 形態素解析用辞書 / morphological processing dictionary
  • 現代日本語均衡書き言葉コーパス (BCCWJ) / Balanced Corpus of Contemporary Written Japanese
  • Brown Corpus
  • 知識獲得 / knowledge acquisition
  • 異表記 / orthographic variants
  • 部分全体関係 / whole-part relationship
  • 上位下位関係 / hyponymy
  • 意味カテゴリ関係 / semantic category relation
  • 属性関係 / attribute (/property) relation
  • 分布仮説 / distributional hypothesis
  • 分布類似度 / distributional similarity
  • 単語のクラスタリング / word clustering
  • 単語のベクトル表現 / word representation
  • 語彙統語パターン / word sytactic patterns
  • 言い換え / paraphrasing
  • シソーラス / thesaurus
  • データベース / database
  • ワードネット / WordNet
  • オントロジー / ontology
  • 知識ベース / knowledge base
  • 情報抽出 / information extraction/retrieval
  • 固有表現抽出 / Named Entity Extraction/Resolution (NER)
  • 関係抽出 / relation extraction
  • イベント情報抽出 / event extraction
  • スロット付きのテンプレート / slotted template
  • 分野適応 / domain adaptation
  • テキストマイニング / text mining
  • 形態素 / morpheme
  • 単語分割 / word segmentation
  • 未知語 / missing word

3章

Markov chains in a nutshell:

Hidden Markov Models (HMM) and the Viterbi algorithm (the decoder step in an HMM):

4章

Traditionally, machine translation has been classified according to four levels:

  1. word-for-word
    • Take a word string from one language and translate, word by word, into another.
  2. syntactic transfer
    • Take a syntactic parse of one language and, using special syntactic transfer rules, generate a syntactic parse for another language.
  3. semantic transfer
    • Take a semantic parse (usually a syntactic parse with additional semantic parse information) of one language and, using special semantic and syntactic transfer rules, generate a semantic parse for another language.
  4. knowledge-based translation
    • Translate via a language-independent knowledge representation.
Taken from [@Manning2003].

Alignment

Phrase-based Translation

Phrase- and tree-based machine translation are implemented in the Moses system.

Neural Machine Translation

  • Following the trend of joint learning of a task over splitting it into several independent components (alignment and translation in the case of MT), @DBLP:journals/corr/BahdanauCB14 present a new deep learning approach that jointly learns how to align and translate between languages.
  • Tensorflow provides a English-French sequence-to-sequence model here.

Evaluation

  • Overview in Japanese
  • “An Awkward Disparity between BLEU/RIBES Scores and Human Judgements in Machine Translation” by @tanawkward [[PDF](http://www.aclweb.org/website/old_anthology/W/W15/W15-5009.pdf)]
BLEU

Read the description on Wikipedia.

RIBES

A description of RIBES with source code in Python is available on NTT Communication’s site.

Commercial Machine Translation systems

Open Source MT systems

Phrase/Statistics-based (SMT) open-source systems

Neural network-based open-source systems

MT Resources

Parallel corpora

Human translator workflow (translation memory)

5章

情報検索システム

用語:文書,情報要求,検索質問(クエリ),適合文章,構造化された情報⇔非構造された情報

情報検索の基礎

用語:全文検索,ランキング(ranking),索引(index)

索引付け

用語:索引語,索引語行列,索引付け(indexing),疎行列(そぎょうれつ; sparse matrix),転置索引(inverted index),文章処理,見出し語化(lemmatization),語幹化(stemming),整数列圧縮(integer sequence compression)

ブーリアンモデル

用語:クエリ処理,AND/OR/NOT,NEAR

ベクトル空間モデル

用語:TF(Term Frequency; 索引語頻度),IDF(Inverse Document Frequency; 逆文書頻度),TF-IDF,文章ベクトル,コサイン類似度(cosine similarity)

tf = log10(n) + 1

$$idf = log_{10}(\frac{N}{df})$$

tfidf = tf × idf

Web検索

用語:クローリング(crawling),クローラー(crawler),スニペット(snippet),クエリサジェスチョン(query suggestion)

ランキング

用語:適合性フィードバック,CTR(click-through rate),PageRank(ページランク)

情報検索の評価

用語:適合文章,正解文書,偽陽性(False Positive),偽陰性(False Negative),精度precision,再現率(recall),曲線,評価指標(MAP, MRR, DCG)

情報検索システムの現在と課題

用語:クロスリンガル情報検索,自然文検索,言外の意味,LSI/PLSI/LDA/Word2Vec等

6章: Webと自然言語処理

自然言語処理のWebサービスへの応用

用語:サービス,大規模,ノイズ

文章分類

用語:文章分類,クラス,クラス重み,素性,サポート・ベクトル・マシン(SVM),ロジスティック回帰(Logistic Regression),言語識別,著者推定,スパム,

類似文書検索

用語:類似度,TF-IDF

連想検索:Webcat Plus

クラスタリング

用語:k平均法(k-means),階層的クラスタリング(hierarchical clustering),系統樹(dendrogram)

マイニング

用語:テキストマイニング,関係抽出,評判分析(sentiment analysis)

スペル訂正

用語:スペラー,表記誤り,表記揺れ,同義語,類義語

レコメンド

用語:レコメンド(recommendation (engine)),強調フィルタリング(collaborative filtering),コンテンツに基づくレコメンド,コールドスタート問題

文書要約

用語:文書要約(document summarization),単一・複数文書要約,リード法,抽出型要約,抽象型要約,MMR(Maximal Marginal Relevance),代表的な文⇔冗長でない文

質問応答

用語:質問応答(QA/Q&A),ファクトイド型質問,ノンファクトイド型質問,文書に対する質問応答システム,構造化データベースに対する質問応答

Webサービスにおける自然言語処理の課題

用語:新しい応用技術,頑健な言語解析,深いレベルのマイニング,機械読解(machine reading

7章

文の意味を知る技術

用語:部分文字列,マークアップ(HTML/XMLなど),アノテーション,ガゼッター(gazetteer),固有表現の曖昧性,辞書の保守性,Infobox

  • 固有表現抽出 (Named Entity Recognition)
  • 述語項構造解析/格解析()
    • 用語:格,格構造,必須格,任意格,格フレーム,表層格,事象性名詞,述語⇔項,意味役割付与
  • 語義曖昧性解消
    • 用語:分類問題,正解(教師)データ,新しい語義の検出
  • 感情推定・評判解析
    • 消費者生成メディア/CGM(Consumer Generated Media),肯定的⇔否定的,極性,中性,段階評価,回帰分析(Linear Regression)

文を超えたつながりを知る技術

  • 照応省略解析
    • 用語:照応,省略,先行詞(antecedent),照応詞,中心性アルゴリズム(センタリング理論)
  • 談話と対話
    • 用語:独話,発話,談話,談話表示構造(DRS),チャットシステム,タスク指向対話システム,ボット(bot),対話管理,音声対話システム,音声認識,音声合成
  • 含意関係認識
    • 用語:含意関係認識((recognizing) textual entailment),モダリティ

自然言語処理の限界・課題

  • 適応分野の広がりと機械学習の発展
    • 未知語(UNK),分野適応(domain adaptation),能動学習(active learning),半教師あり学習(semi-supervised learning),正解データ,正解なしデータ,教師なし学習(unsupervised learning),クラスタリング
    • See Yann Le Cun’s “cake” for a recent take on some of these concepts at the NIPS2016
  • 多様化・大規模化
    • 用語:ビッグデータ,オンライン学習(online learning)⇔バッチ学習(batch learning)
  • 「意味」の問題

References