日本語係り受けコーパス (Japanese Dependency Corpus)

概要

日本語係り受けコーパス (Japanese Dependency Corpus; JDC) を作成・公開しています。

様々な分野のテキストに対して係り受けを付与しており、分野適応を含む、係り受け解析の研究・実験に用いることができます。

日本語の既存の係り受けコーパスではアノテーションの単位を分節ごとに行っていましたが、JDCは他の言語における係り受けコーパスと同様に単語ごとのアノテーションを行っています。単語の単位は、現代日本語書き言葉均衡コーパス ( The Balanced Corpus of Contemporary Written Japanese; BCCWJ ) の短単位を採用しています。唯一の相違点として、活用語尾を分割しています。

倒置などを含まない日本語の書き言葉は、右から左への係り受けのみであり、現在のコーパスには、逆向きの係り受けは含まれていません。しかしながら、日常的な文章には交差する係り受けが出現することもあります。

コーパスの詳細

分野			文数	単語数	文字数
BCCWJ	ClassA + 2012 (train)	OC	1,614	33,078	46,435
		OW	1,552	62,735	90,610
		OY	1,858	31,563	46,481
		PB	2,254	53,037	73,194
		PM	2,514	42,800	65,245
		PN	2,590	57,319	83,985
		小計	12,382	280,532	405,950
	ClassA-1 (test)	OC	500	9,846	13,752
		OW	504	23,952	34,203
		OY	509	9,239	13,340
		PB	511	11,792	16,512
		PM	495	7,415	10,396
		PN	505	12,621	18,456
		小計	3,024	74,865	106,661
	小計		15,406	355,397	512,611
EHJ	train		11,700	147,964	198,196
	test		1,300	16,433	21,950
	小計		13,000	164,397	220,146
NKN	train		9,023	263,425	398,567
	test		1,002	29,037	43,694
	小計		10,025	292,462	442,262
RCP	train		662	12,008	18,174
	test		62	1,139	1,786
	小計		724	13,147	19,961
JNL	train		322	12,263	20,332
	test		32	1,116	1,868
	小計		354	13,379	22,200
NPT	train		1,750	71,208	111,394
	test		250	10,497	16,409
	小計		2,000	81,705	127,803
SKT	train		1,819	7,226	64,350
	test		202	5,093	7,226
	小計		2,021	50,118	70,616
合計			43,530	970,605	1,415,657

右表に日本語係り受けコーパスの詳細を示します。

根となる単語を除くそれぞれの単語にはその親となる単語 ( 係り先 ) がアノテーションされています。このため、コーパスの係り受けの数は単語数から文数を引いた数となります。日本語係り受けコーパスの出典を以下に示します。

BCCWJコアデータ BCCWJコアデータのサブカテゴリを以下に示します。
- OC: Yahoo!知恵袋
- OW: 白書
- OY: Yahoo!ブログ
- PB: 書籍
- PM: 雑誌
- PN: 新聞
辞書の例文
- EHJ: 日常会話のための辞書の例文 (英語表現辞典)
経済新聞の記事
- NKN: 日本経済新聞
レシピ
- RCP: クックパッドデータセットの一部
論文抄録
- JNL
特許
- NPT: 特許機械翻訳のためのNTCIR-9 shared task setの一部

係り受けアノテーション基準

ここでは頻出する言語現象におけるアノテーションのガイドラインを述べます。

単文

基本的に日本語はSOV言語で、単純な文は主語、目的語、動詞の順番となります。ほとんどの名詞句は格マーカーを持ち、動詞の役割を決めています。主動詞節のみ文の最後に来る必要があり、主語 (subj.)、直接目的語 (d-obj.)、関節目的語 (i-obj.)、副詞句などの動詞修飾の順序は決まっていません。

複合語

複合語はその構造を記述するようにアノテーションしています。右の例のように、複合語の修飾句は複合語の親に係り、そこから出て行く係り受けがただ一つ存在します。

コピュラ文

いくつかの文はコピュラ構造を持ちます。ほとんどのコピュラ文は以下の形式をとります:

N 1 は. N 2 だ

ここで "は" は、助動詞 "だ" ではなく、N 2に係るようにしています。これは、助詞"と"を伴う節や並列文などで助動詞 "だ" が省略される場合 ( 右図参照 ) にも構造が変わらないようにするためです。

並列文

2つ以上の句が並列構造となっている日本語文では、そのマーカーとして"と"が多く出現します。このマーカーは英語の"and"と同様にそれぞれの要素を接続します。

EDA による解析結果

EDAによる各分野の解析精度
テスト＼学習	BCCWJ	All full	+partial
ClassA-1-OC.tree	93.09	92.99
ClassA-1-OW.tree	88.72	88.91
ClassA-1-OY.tree	92.30	92.46
ClassA-1-PB.tree	90.68	90.94
ClassA-1-PM.tree	93.14	92.59
ClassA-1-PN.tree	91.17	91.33
EHJ-test.tree	96.43	96.97
NKN-test.tree	91.43	92.77
RCP-test.tree	86.63	92.85
JNL-test.tree	84.23	90.59
NPT-test.tree	87.41	92.64

参考として、 EDA parser による解析精度を表に示しています。学習コーパスは

BCCWJ: 2012の6,406文 [Mori, et al., LREC2014]
All full: BCCWJ 2012 + 残りの train
(under const.) +partial: All full + partial

とし、テストデータは BCCWJ の ClassA-1 と各分野の test としています。

ファイル

JDC-2015-06.tar.gz フルアノテーション係り受けコーパス(2015-06版)
under const. 部分的アノテーション係り受けコーパス(2015-06版)
※研究メンバー以外の方はダウンロードできません

リンク

メンバー

森信介
小椋秀樹 (立命館大学)
笹田鉄郎

参考文献

A Japanese Word Dependency Corpus
Shinsuke Mori, Hideki Ogura, Tetsuro Sasada
LREC, pp.753-758, 2014.

A Pointwise Approach to Training Dependency Parsers from Partially Annotated Corpora
Daniel Flannery, Yusuke Miyao, Graham Neubig, Shinsuke Mori
Natural Language Processing, Vol.19, No.3, pp.167-191, September, 2012.

Training Dependency Parsers from Partially Annotated Corpora
Daniel Flannery, Yusuke Miyao, Graham Neubig, Shinsuke Mori
IJCNLP, pp.776-784, 11/10, 2011.

Last Change: 2015/10/29 by Tetsuro Sasada

京都大学学術情報メディアセンター自然言語処理グループ