Welcome to ISEKI Sugako's Homepage.


コーパス

コーパスとは?

「コーパス」という語は英語のcorpusに由来します。シンプルにいうと「電子化された言語テキスト」のことです。詳しくいうと,「言語研究に使用するために大量に収集された書き言葉および話し言葉のテキスト」と定義されています(Collins COBUILD)。

そしていわゆる「コーパス言語学」という言い方がありますが,これは「コーパスを利用した言語研究」といえます。

このコーパスを利用した研究は英語で特に応用が進んでいて,文献学や通時的な言語研究だけでなく,辞書や文法書への活用はもちろんのこと,すでに用意された充実したソフトで語の頻度数を数えたり,語の共起を調べたりして言語研究を行ったり,英語学習へ生かされたりしています。それに対し現代日本語のコーパスは,数,環境ともに揃っている英語のコーパスと違い,現在はまだまだ整備中の段階といえ,いわゆる整備されたコーパス(狭義のコーパス)は少なく,さらにデーターを扱う上でのソフトなどもわずかです(コーパスの研究は大きな量のデーターを扱います。そのためそれらを操作するためのある程度の知識,ソフトも必要です)。

しかし,先程国研が五年計画で日本語書き言葉コーパスの構築に動き出すなど,日本語のコーパスもいよいよ今後目が離せない存在です。またコーパスは,研究だけでなく,教育の現場にも多くの面で活用ができます。ここでは,そんなまだ発展途上中(?)ともいえる日本語のコーパスの情報について,私自身もまだまだ勉強中ですが,少しずつですが紹介していきたいと思います。

参考文献:
 「コーパス言語学」『日本語学』第22巻 4月臨時増刊号
 後藤斉(2003)「言語理論と言語資料 ―コーパスとコーパス以外のデータ」 『日本語学』第22巻 4月臨時増刊号「コーパス言語学」

日本語のコーパス

日本語のコーパスを利用した研究でよく見られるコーパスは以下のようなものがあります。
これらは,市販のものもあればWeb上のものがあり,さらに有料のものもあれば,フリーのものもあります。

以下主に書き言葉のコーパスを中心にその情報とWeb上から採取,確認できるものを中心にいくつか紹介します。これらの中にはWeb上から直接取ることの出来るテキストファイルは多くありますが,その扱い方法などはそれぞれ検討する必要があります。また使用においてはそれぞれの著作権などに注意する必要があります。

*総合的なもの

*電子化された日本語 (主にリンク集)

*青空文庫とその周辺

  • 『蔵書3000』(「青空文庫の全収録作品3700冊以上(2004年3月末時点)を一枚のCD-ROMにおさめました。」¥580(売切中))
  • azur (青空文庫専用ソフト/シェアウェア¥2100)

*辞書開発や言語研究などのために開発,整備されたもの

*新聞,及び新聞CD-ROM

*議事録

*白書など

*パラレルコーパス

To be continued・・・

©2003-2006 ISEKI Sugako All Rights Reserved.
First Created: 2002-05;last update: 2006-12-13
e-mail: hasenjunges[@]yahoo.co.jp