様々な分野のテキストに対して係り受けを付与しており、分野適応を含む、係り受け解析の研究・実験に用いることができます。
日本語の既存の係り受けコーパスではアノテーションの単位を分節ごとに行っていましたが、JDCは他の言語における係り受けコーパスと同様に単語ごとのアノテーションを行っています。 単語の単位は、現代日本語書き言葉均衡コーパス ( The Balanced Corpus of Contemporary Written Japanese; BCCWJ ) の短単位を採用しています。 唯一の相違点として、活用語尾を分割しています。
倒置などを含まない日本語の書き言葉は、右から左への係り受けのみであり、現在のコーパスには、逆向きの係り受けは含まれていません。
しかしながら、日常的な文章には交差する係り受けが出現することもあります。
分野 | 文数 | 単語数 | 文字数 | ||
BCCWJ | ClassA + 2012 (train) |
OC | 1,614 | 33,078 | 46,435 |
OW | 1,552 | 62,735 | 90,610 | ||
OY | 1,858 | 31,563 | 46,481 | ||
PB | 2,254 | 53,037 | 73,194 | ||
PM | 2,514 | 42,800 | 65,245 | ||
PN | 2,590 | 57,319 | 83,985 | ||
小計 | 12,382 | 280,532 | 405,950 | ||
ClassA-1 (test) |
OC | 500 | 9,846 | 13,752 | |
OW | 504 | 23,952 | 34,203 | ||
OY | 509 | 9,239 | 13,340 | ||
PB | 511 | 11,792 | 16,512 | ||
PM | 495 | 7,415 | 10,396 | ||
PN | 505 | 12,621 | 18,456 | ||
小計 | 3,024 | 74,865 | 106,661 | ||
小計 | 15,406 | 355,397 | 512,611 | ||
EHJ | train | 11,700 | 147,964 | 198,196 | |
test | 1,300 | 16,433 | 21,950 | ||
小計 | 13,000 | 164,397 | 220,146 | ||
NKN | train | 9,023 | 263,425 | 398,567 | |
test | 1,002 | 29,037 | 43,694 | ||
小計 | 10,025 | 292,462 | 442,262 | ||
RCP | train | 662 | 12,008 | 18,174 | |
test | 62 | 1,139 | 1,786 | ||
小計 | 724 | 13,147 | 19,961 | ||
JNL | train | 322 | 12,263 | 20,332 | |
test | 32 | 1,116 | 1,868 | ||
小計 | 354 | 13,379 | 22,200 | ||
NPT | train | 1,750 | 71,208 | 111,394 | |
test | 250 | 10,497 | 16,409 | ||
小計 | 2,000 | 81,705 | 127,803 | ||
SKT | train | 1,819 | 7,226 | 64,350 | |
test | 202 | 5,093 | 7,226 | ||
小計 | 2,021 | 50,118 | 70,616 | ||
合計 | 43,530 | 970,605 | 1,415,657 |
根となる単語を除くそれぞれの単語にはその親となる単語 ( 係り先 ) がアノテーションされています。 このため、コーパスの係り受けの数は単語数から文数を引いた数となります。 日本語係り受けコーパスの出典を以下に示します。
単文
基本的に日本語はSOV言語で、単純な文は主語、目的語、動詞の順番となります。 ほとんどの名詞句は格マーカーを持ち、動詞の役割を決めています。 主動詞節のみ文の最後に来る必要があり、主語 (subj.)、直接目的語 (d-obj.)、関節目的語 (i-obj.)、副詞句などの動詞修飾の順序は決まっていません。
複合語
複合語はその構造を記述するようにアノテーションしています。 右の例のように、複合語の修飾句は複合語の親に係り、そこから出て行く係り受けがただ一つ存在します。
コピュラ文
いくつかの文はコピュラ構造を持ちます。ほとんどのコピュラ文は以下の形式をとります:
N 1 は. N 2 だ
ここで "は" は、助動詞 "だ" ではなく、N 2に係るようにしています。 これは、助詞"と"を伴う節や並列文などで助動詞 "だ" が省略される場合 ( 右図参照 ) にも構造が変わらないようにするためです。
並列文
2つ以上の句が並列構造となっている日本語文では、そのマーカーとして"と"が多く出現します。 このマーカーは英語の"and"と同様にそれぞれの要素を接続します。
テスト\学習 | BCCWJ | All full | +partial |
ClassA-1-OC.tree | 93.09 | 92.99 | |
ClassA-1-OW.tree | 88.72 | 88.91 | |
ClassA-1-OY.tree | 92.30 | 92.46 | |
ClassA-1-PB.tree | 90.68 | 90.94 | |
ClassA-1-PM.tree | 93.14 | 92.59 | |
ClassA-1-PN.tree | 91.17 | 91.33 | |
EHJ-test.tree | 96.43 | 96.97 | |
NKN-test.tree | 91.43 | 92.77 | |
RCP-test.tree | 86.63 | 92.85 | |
JNL-test.tree | 84.23 | 90.59 | |
NPT-test.tree | 87.41 | 92.64 | |
- A Japanese Word Dependency Corpus
- Shinsuke Mori, Hideki Ogura, Tetsuro Sasada
- LREC, pp.753-758, 2014.
- A Pointwise Approach to Training Dependency Parsers from Partially Annotated Corpora
- Daniel Flannery, Yusuke Miyao, Graham Neubig, Shinsuke Mori
- Natural Language Processing, Vol.19, No.3, pp.167-191, September, 2012.
- Training Dependency Parsers from Partially Annotated Corpora
- Daniel Flannery, Yusuke Miyao, Graham Neubig, Shinsuke Mori
- IJCNLP, pp.776-784, 11/10, 2011.