はじめに

Natsume

Hinokiプロジェクト

URL: hinoki-project.org

Natsume: 検索画面

Natsume: 共起表現検索

Natsume: ジャンル別比較

Natsume: 例文参照

使用されている外部コーパス及びツール

科学のコーパス

コーパス統計

ジャンル形態素数(短単位)文章数
人文社会学論文16,130,8941,508
科学技術論文23,156,7194,865
社会科学専門書4,159,08528
BCCWJ検定教科書1,125,261412
BCCWJ白書5,493,8221,500
BCCWJ法律1,203,009346
BCCWJ広報紙4,727,809354
BCCWJ新聞1,035,1111,473
BCCWJ雑誌5,112,5711,996
BCCWJ書籍70,409,99422,058
BCCWJ国会会議録5,598,034159
BCCWJYahoo!ブログ13,130,51252,676
BCCWJYahoo!知恵袋12,110,67591,445
BCCWJ韻文237,637252

単位

UniDicの短長

Natsumeの“単語”単位:問題定義

Natsumeの“単語”単位:品詞

16品詞 → 11品詞

Natsume: 文節内の分類

  1. 内容的品詞:verb, noun, adverb, adjective, preposition
  2. 内容機能両方共指せる品詞:suffix, prefix, utterance, auxiliary-verb, symbol
  3. 機能的品詞:particle
[1.             + 2.]        → 2.
[X              + symbol]    → X
[symbol         + X]         → X
[X              + X]         → X
[verb           + noun]      → verb
[adjective      + noun]      → adjective
[adjective      + verb]      → adjective
[noun           + adjective] → noun
[verb           + adjective] → verb
[verb           + prefix]    → verb
[verb           + adverb]    → adverb
[auxiliary-verb + verb]      → verb
[auxiliary-verb + adjective] → adjective
[suffix         + noun]      → noun
[noun           + prefix]    → noun
[adverb         + noun]      → noun
[noun           + particle]  → noun
[noun           + symbol]    → noun
  • 文節内で左から右にルールを適応していく
  • 「言ったかも知れないが」など文節内にモダリティ表現+助詞のような異なる要素があるが,1つとして扱う

Natsume: 文節統合対象

Natsume: 文節の境界線

Universal Dependencies

Universal Dependenciesにおける日本語コーパス

UDの品詞体系

UDの形態論情報

UDの係り受け体系

UD問題及び可能性

大輝らのから引用

分散表現

分散表現/Word embeddings

word2vec [@DBLP:journals/corr/abs-1301-3781]: word (単語) → vector(ベクトル)

Continuous Bag-Of-Words

  • 入力:wk − 2, wk − 1, wk + 1, wk + 2
  • 出力:選択中の語wk
  • タスク:コンテクストから語を予測する
  • 計算が高速

Skip-gram

  • 入力:選択中の語wk
  • 出力:選択中の後の前後にある語wk − 1, wk − 2, wk + 1, wk + 2(コンテクスト)
  • タスク:語から語のコンテクストを予測する
  • 選択中の語からの距離で重み付け
  • 少ないデータでも比較的に性能が良いとされている

日本語単語類似度データセット

[@DBLP:journals/corr/SakaizawaK17]

word1word2meansub1sub2sub9sub10
排除する無視する4.65356
排除する除外する6.67657

分散表現の評価方法

注意

結果

考察

考察

今後の課題

今後の課題

参考文献