コーパスと基礎的なテキスト処理
Test stringとして下記のテキストをペースト(Pride and Prejudiceの冒頭から)
“My dear Mr. Bennet,” said his lady to him one day, “have you heard that Netherfield Park is let at last?” Mr. Bennet replied that he had not. “But it is,” returned she; “for Mrs. Long has just been here, and she told me all about it.” Mr. Bennet made no answer. “Do you not want to know who has taken it?” cried his wife impatiently. “You want to tell me, and I have no objection to hearing it.” This was invitation enough.
[.?]
\.”|\.?”
([?.]”[ ][A-Z])|([.][ ]“[A-Z])
(?<!Mr)(?<!Mrs)[\.\?]”?(?:$|\s(?![a-z]))
[^\b]
or [^\s]
[A-Za-z]+
[A-Za-z][a-z]+
[a-zA-Z]+\.?(?!\s?[“”])(?!$)
U.S.A.
...
:
+ 改行14.6
必ずしも理想的な正規表現が存在しない。単語は言語の書記法にもよるが、少なからず辞書を合わせて行うのが通常である。後で紹介するSpacyでは係り受け構造を踏まえた文割手法を採用している。
以前紹介した資源であるが、どちらもコーパスであるか?
Wikipediaは?
Wikipediaのコーパス記事では:「コーパス(英: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞、統語構造など)を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい[1]。コンピュータ利用が進み、電子化データとして提供している[2]。」
単なるテキストが存在するのではなく、何らかの目的(方針)があって収集したものがより真相に近い…
自然言語処理の技術の進歩に連れ、アノテーションをコーパス側で用意することの多くが不要となった。ただし、その技術(ツール)自体の開発のためには未だアノテーションが必要不可欠である(→教師有り学習)。
“I desire you will do no such thing. Lizzy is not a bit better than the others; and I am sure she is not half so handsome as Jane, nor half so good-humoured as Lydia. But you are always giving her the preference.”
上記のテキストを例に文割、トーケン化、品詞タグ及び形態論情報付与、係り受け解析します。