SST

ACTFL-ALCの英語スピーキングテスト

NICT JLEコーパス

200万語にも及ぶスピーキングデータを収容

SSTの受験者1281人の協力を得て、独立行政法人・情報通信研究機構が主体となって作成した、日本人英語学習者の話し言葉を収集したものが『NICT JLEコーパス』です。 学習者の発話コーパスとしては現在、世界最大規模といわれ、言語研究の分野で注目を浴びています。

「学習者コーパス」とは、母国語話者ではなく、学習者が話したり、書いたりした言語データのデータベースのことです。 スピーキングデータですと、多くても50万語程度と言われますので、『NICT JLEコーパス』の200万語というデータ量はスピーキングデータのコーパスとしては最大規模ということになります。 また、SSTというインタビュー形式のスピーキングテストのデータを利用していますので、自然な会話に近い一方、まったく統制されていない「雑談」のデータでもありません。

また、もう一点特徴的なのは、すべてのSSTインタビューが2人、もしくは3人の公認SST評価官により客観的に9段階で評価されるので、学習者の習熟度によって発話が分類できることです。 このような特徴を持つのも『NICT JLEコーパス』だけと言えます。

NICT JLEコーパスの可能性

「学習者コーパス」にはエラーが多く含まれ、このエラー分析をすることに大きな意味があります。 たとえば、語彙の微妙な意味の違いによる間違いなどは、多くの英語教師は経験的に知っていますが、実際の数字として把握することは困難です。 このように、ある単語の正しい使い方が生徒にとって難しいのでは、という印象を教師が持ったとき、その印象に現実性を与えてくれるのが学習者コーパスです。「教師の経験に基づく勘」が科学的に証明できると、さらに現実に即した教材や教授法を考案することが可能になります。

また、NICT JLEコーパスに付属するコーパス(サブコーパス)も充実しています。 中でも、ネイティブスピーカーがSSTに準じるテストを受けた際のデータを書き起こしたNormative Corpus (正解コーパス)は大変利用価値が高いものです。 「学習者コーパス」とNormative Corpusを比較すると、ネイティブスピーカーが頻繁に使う表現のうち、日本人学習者はどのようなものを避けるのかがわかります。 また、『NICT JLEコーパス』の一部を日本語に訳した、日本語訳コーパス (back-translation corpus) も作成されています。 日本語訳コーパスとNICT JLEコーパスを観察することにより、母国語の干渉度合いなどを知ることができます。

このように、『NICT JLEコーパス』には無限の可能性があり、研究者、教職者の皆様に活用していただけることを願ってやみません。

■ NICT JLEコーパス開発の概要
 
『NICT JLEコーパス』に関する研究報告 (PDF)
〜 「平成15年度 通信・放送機構 研究発表会 予稿集」より 〜

日本人1200人の英語スピーキングコーパス

日本人1200人の英語スピーキングコーパス

NICT JLEコーパスをCD-ROMに収めた書籍を小社から刊行しました。 CD-ROMにはサブコーパスやコーパスの解析ツールも収録しています。ぜひご利用ください。

アルク・オンラインショップ サンプルデータを見る

書籍内容(目次より抜粋)
 
The NICT JLE Corpus 概要
英語スピーキングテストSSTとは何か
解析ツールの使いこなし方法
The NICT JLE Corpusに見る英語学習者の発表語彙の使用状況
日本人英語学習者の要求の発話の発達
日本人英語学習者の英語冠詞習得傾向の分析
自動英語誤り検出システムの開発

  • SSTの概要
  • インタビュー方法
  • テスト結果
  • SST誕生の経緯