‘Standard Ebooks’とspaCyを例に
Bor Hodošček
2022/2/4
“Free and liberated ebooks, carefully produced for the true book lover.”
Unicodeを惜しまないできれいにtypesettingをしているのが特徴
マニュアル及びプログラムによるチェックでEbookとしての統合性を図っている https://github.com/standardebooks/tools/blob/master/se/se_epub_lint.py
様々なメタ情報付与
subject
: “Fiction”, “Mystery”, “Shorts”)現時点で629件の電子書籍としてはGutenbergより小さい
nlp
前後(Text, Doc)のサポートが目的―
should be replaced with -
(space dash space) or just -
(dash)(大幅に解消された)(tokenizerのカスタマイズ周りの説明もわかりやすくなった)Doc
object is not meant for texts the size of books (you will run out of memory); best to use it at the paragraph level, as the Doc
object has a notion of sentences, but not paragraphs(nlp.pipeの導入である意味前より複雑になったこともいえる)https://github.com/brucewlee/lingfeat “LingFeat - A Comprehensive Linguistic Features Extraction ToolKit for Readability Assessment” spaCyを内蔵しているため,独自に処理してこのパッケージに渡すこと,他のパッケージと組み合わせにくい設計
https://github.com/dpalmasan/TRUNAJOD2.0 “A text complexity library for text analysis built on spaCy” スペイン語に焦点を当てているため今回は試していないが,目的がtext complexity analysisとして一番機能があるパッケージのようだった(→今後検証する)