日本語教育におけるコーパスの種類や活用法をわかりやすく解説

日本語コーパスの種類と活用方法

日本語教育能力検定試験では「コーパス」について問われることがあります。

コーパスは聞いたことがあるけど….
具体的にどんなコーパスがあるのかな…

このように感じている方もいらっしゃると思います。

本記事は「日本語教育におけるコーパスの種類や活用法」についてわかりやすく解説。

検定試験の対策をされている方、コーパスの活用法に関心がある方は最後までお読みください。


本メディア日本語教師キャリア マガジンを運営している「日本語教師キャリア」は10,000名以上の日本語教師が登録する業界最大規模の求人情報サービスです。非公開求人や企業からの求人など、一般には出回らないレアな求人も多数掲載しています。

また「日本語教師アカデミー」は複数の日本語教師養成講座の資料を無料で一括請求できるサービスです。「検定試験合格を目指しつつ、420時間日本語教師養成講座の受講も検討してみよう」という方はぜひご利用ください。


コーパスについて理解しよう

検定試験の出題範囲において、コーパスは「社会・文化・地域」の「言語政策」に該当します。

区分主要項目
社会・文化・地域世界と日本の社会と文化/日本の在留外国人施策/多文化共生(地域社会における共生)/日本語教育史/言語政策/日本語の試験/世界と日本の日本語教育事情
言語と社会社会言語学/言語政策と「ことば」/コミュニケーションストラテジー/待遇・敬意表現/言語・非言語行動/多文化・多言語主義 
言語と心理談話理解/言語学習/習得過程(第一言語・第二言語)/学習ストラテジー/異文化受容・適応/日本語の学習・教育の情意的側面
言語と教育日本語教師の資質・能力/日本語教育プログラムの理解と実践/教室・言語環境の設定/コースデザイン/教授法/教材分析・作成・開発/評価法/授業計画/教育実習/中間言語分析/授業分析・自己点検能力/目的・対象別日本語教育法/異文化間教育/異文化コミュニケーション/コミュニケーション教育/日本語教育とICT/著作権
言語一般言語学/対照言語学/日本語教育のための日本語分析/日本語教育のための音韻・音声体系/日本語教育のための文字と表記/日本語教育のための形態・語彙体系/日本語教育のための文法体系/日本語教育のための意味体系/日本語教育のための語用論的規範/受容・理解能力/言語運用能力/社会文化能力/対人関係能力/異文化調整能力

「コーパス」は実際に使われた言語のデータを大量に集めたデータベースのことです。

日本語授業では学習者に例文を提示する場面が多いかと思います。学習者に例文を提示する際は、日本語ネイティブが実生活でよく使う、使用頻度が高い例文を提示することが大切です。コーパスで検索することで、提示すべき例文のためのヒントを得ることができます。

日本語教育に役立つコーパスはさまざまあり、国立国語研究所言語資源開発センターでは、日本語の全貌を把握するための言語コーパスを作成しています。

本記事では、代表的なコーパスの種類と、その活用法についてお話していきます。

現代日本語書き言葉均衡コーパス(BCCWJ)

国立国語研究所 コーパス ホームページ

「現代日本語書き言葉均衡コーパス(Balanced Corpus of Contemporary Written Japanese)」は国立国語研究所が開発した、現代日本語の書き言葉のコーパスです。

書籍全般、雑誌全般、白書、新聞、広報誌、教科書、ブログなど、1億430万語にのぼる大規模なデータを格納しています。

現代日本語書き言葉均衡コーパスには、登録不要で無償で利用できる「少納言」、登録必要で無料で利用できる「中納言」、「BCCWJ有償版」の3つがあります。

〇 BCCWJの特徴と活用法

BCCWJは、短単位と長単位2種類の解析単位があること、固定長と可変長2つのサンプルサイズがあること、アノテーション(既存のコーパスをより高度に活用するために必要とされる研究用付加情報のこと)が充実していること、無作為抽出ができることなどが挙げられます。

「少納言」は文字列検索が可能、「中納言」は文字列検索に加え、品詞による検索や長単位検索などもできます。形態素解析の精度は約98%で、データの精度も非常に高いのが特徴です。

日本語話し言葉コーパス(CSJ)

「日本語話し言葉コーパス(Corpus of Spontaneous Japanese)」は日本語の自発音声を大量に集めて、多くの研究用情報を付加した、話し言葉研究用のコーパスです。

国立国語研究所、情報通信研究機構、東京工業大学が共同開発した、質、量ともに世界最高水準の話し言葉データベースとして知られています。

日本語話し言葉コーパスは、日本語教育、日本語学、言語学、音声学、辞書編纂など、さまざまな分野で活用されているのが特徴です。「中納言」という登録すれば無償で利用できるコーパス検索アプリケーションと「CSJ有償版」の2つがあります。

〇 CSJの特徴と活用法

CSJは第1刷から第9刷まで歴代のデータを公開しており、データには音声データ、転記テキスト、形態論情報、短単位辞書、説単位情報、印象評定データ、分節音・イントネーションラベル、係り受け構造情報、要約・重要文情報、談話構造情報、XML文書、音響モデル、言語モデル、話者情報、マニュアル、音声・テキストブラウジングツールなどが含まれています。

幅広い場面や話者の話し言葉をできるだけバランスよく盛り込んでいるのがCSJの特徴です。総数3302講演にものぼるモノローグ音声、対話、朗読などの音声のほか、話し手(第9刷では延べ3302名、異なり1417名)の性別、生年代、収録時の年齢情報、出生地、居住歴などの情報などから、ほしい情報を抽出し、ダイナミックに分析することができます。

多言語母語の日本語学習者横断コーパス(I-JAS)

「多言語母語の日本語学習者横断コーパス(International Corpus of Japanese as a Second Language)」は日本語学習者の話し言葉と書き言葉を調査しデータを集めた世界最大規模の日本語学習者コーパスです。

日本を含む20カ国とそれらの地域で、異なる12言語を母語とする1000人の日本語学習者を対象に、教室環境(日本語を学ぶ目的で学校に通っている環境下)や自然環境(就労目的や国際結婚で学校に通わない環境下)で学習者の発話データと作文データを収集、807.6万語を収録しています。

I-JASは「中納言」にユーザー登録を行い、I-JASへ利用申請すれば全て無償で使えます。

〇 I-JASの特徴と活用法

I-JASには、作文と発話データ、文字化データと音声データ、7種類のタスク(ストーリーテリング、対話、ロールプレイ、絵描写、ストーリーライティング、エッセイ、eメール)があります。

12言語(中国語、韓国語、英語、フランス語、ドイツ語、ロシア語、スペイン語、ハンガリー語、トルコ語、タイ語、ベトナム語、インドネシア語)の学習者群を比べることで、学習者の母語の特徴をデータから得ることもできます。

また、習熟度別の比較、学習のスタイル、日本語母語話者との交流やアルバイト、日本国内で生活する日本語学習者のビザ別の比較なども可能です。

まとめ

本記事は「日本語教育におけるコーパスの種類や活用法」について解説してきました。

内容をまとめると….

  • 「コーパス」:実際に使われた言語のデータを大量に集めたデータベース
  • 「現代日本語書き言葉均衡コーパス(BCCWJ)」:1億430万語を格納している現代日本語の書き言葉のコーパス。「少納言(登録不要・無償版)」「中納言(無償版)」「有償版」がある
  • 「日本語話し言葉コーパス(CSJ)」:日本語の自発音声を大量に集めて、多くの研究用情報を付加した、話し言葉研究用のコーパス。「中納言(無償版)」「有償版」がある
  • 「多言語母語の日本語学習者横断コーパス(I-JAS)」:異なる12言語を母語とする1000人の日本語学習者の話し言葉と書き言葉を調査しデータを集めた世界最大規模の日本語学習者コーパス。無償で利用できる

「ら抜き言葉」は、「話し言葉」での使用が多いとされています。
実際にコーパスを使って、書き言葉と話し言葉で比較してみるのも面白いかもしれません。

The following two tabs change content below.

池田早織

運営情報
フリーランスの日本語教師兼ライター。日本語教育能力検定試験合格、日本語教師養成講座420時間修了。公的教育機関での常勤講師、技能実習生向けの日本語会話動画作成など、社会人や留学生、外国人児童・生徒への指導を含め上級者から初級者まで幅広く経験。アジア圏、欧米圏問わずこれまで約5,000人以上の指導に携わる。
日本語コーパスの種類と活用方法