コーパス
コーパスとは?
「コーパス」という語は英語のcorpusに由来します。シンプルにいうと「電子化された言語テキスト」のことです。詳しくいうと,「言語研究に使用するために大量に収集された書き言葉および話し言葉のテキスト」と定義されています(Collins COBUILD)。
そしていわゆる「コーパス言語学」という言い方がありますが,これは「コーパスを利用した言語研究」といえます。
このコーパスを利用した研究は英語で特に応用が進んでいて,文献学や通時的な言語研究だけでなく,辞書や文法書への活用はもちろんのこと,すでに用意された充実したソフトで語の頻度数を数えたり,語の共起を調べたりして言語研究を行ったり,英語学習へ生かされたりしています。それに対し現代日本語のコーパスは,数,環境ともに揃っている英語のコーパスと違い,現在はまだまだ整備中の段階といえ,いわゆる整備されたコーパス(狭義のコーパス)は少なく,さらにデーターを扱う上でのソフトなどもわずかです(コーパスの研究は大きな量のデーターを扱います。そのためそれらを操作するためのある程度の知識,ソフトも必要です)。
しかし,先程国研が五年計画で日本語書き言葉コーパスの構築に動き出すなど,日本語のコーパスもいよいよ今後目が離せない存在です。またコーパスは,研究だけでなく,教育の現場にも多くの面で活用ができます。ここでは,そんなまだ発展途上中(?)ともいえる日本語のコーパスの情報について,私自身もまだまだ勉強中ですが,少しずつですが紹介していきたいと思います。
「コーパス言語学」『日本語学』第22巻 4月臨時増刊号
後藤斉(2003)「言語理論と言語資料 ―コーパスとコーパス以外のデータ」 『日本語学』第22巻 4月臨時増刊号「コーパス言語学」
日本語のコーパス
日本語のコーパスを利用した研究でよく見られるコーパスは以下のようなものがあります。
これらは,市販のものもあればWeb上のものがあり,さらに有料のものもあれば,フリーのものもあります。
以下主に書き言葉のコーパスを中心にその情報とWeb上から採取,確認できるものを中心にいくつか紹介します。これらの中にはWeb上から直接取ることの出来るテキストファイルは多くありますが,その扱い方法などはそれぞれ検討する必要があります。また使用においてはそれぞれの著作権などに注意する必要があります。
*総合的なもの
- 国立国語研究所 特定領域研究
「代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備」(略称「日本語コーパス」)
- 東北大学 後藤斉先生 テキスト処理とコーパス言語学 【コーパス関連総合リンク、。論文へのリンクもあり】
- 言語運用を基盤とする言語情報学拠点 多言語コーパス【複数言語,機能のコーパス】
- 麗澤大学 言語研究センター コーパスリンク集
【学習者,会話コーパスなどは一応こちらを参考にしてください(メンテナンス止まっていますが…)】
*電子化された日本語 (主にリンク集)
- 日本文学等テキストファイル (岡島昭浩さん)
- 日本文学関係テキストファイル等 (菊池真一さん 作品別・五十音順)
- 電子文藝館 (日本ペンクラブ 掲載者の生年順が出ている)
- 電子化された日本語テキスト (M.Shibata さん)
- 書籍デジタル化委員会
- 電子化資料リンク集
- 日本文学電子図書館
- 近現代日本文学研究・リンク集
- 自然言語データに関する情報 (奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座 松本研究室)
- 民話・昔話コレクション (ドコモ電子図書館)
- 小松左京コーパス (旧サーバ:新サーバはこちらですが現在ダウンしています。)
- 日外アソシエーツ オリジナルデータ・サービス (出版物をCD-ROM化したもの)
- 日本語学関係のCD-ROM (M.Shibata さん)
*青空文庫とその周辺
- インターネット図書館 青空文庫 (青空文庫の解説本。4843作品を収録したDVDつき)
- 青空文庫の提案 (青空文庫がどのようにスタートしたか)
- 青空文庫のしくみ (青空文庫の運営のしくみ)
- aozora blog (青空文庫管理人さんたちによるblog 問題点や今後の課題などが読める)
- 青空文庫検索リンク (青空文庫内を主にサイト指定で検索 但し,リンク切れ多し)
- 電子テキストがある場所 (青空文庫による電子テキストリンク集 更新停止中)
- 夷石寿賀子, 千葉 庄寿, 陳君慧 (2006)「『青空文庫』を言語コーパスとして使おう―メタデータ構築による歴史的・社会言語学的研究への応用の試み―」(言語処理学会第12回年次大会 (NLP2006) 発表論文集 pp.915-918, PDFファイル, 237KB)
*辞書開発や言語研究などのために開発,整備されたもの
- CASTEL/J CD-ROM バージョン1.2(:Computer Assisted System for TEaching & Lea rning / Japanese 日本語教育支援システム研究会)
- CASTEL/J CD-ROM 2000(同上 ミレニアム特別版)
- EDR電子化辞書 日本語共起辞書 バージョン2.0/日本語コーパス バージョン2.0(独立行政法人情報通信研究機構(旧・通信総合研究所))
- 計算機用日本語基本動詞/形容詞/名詞辞書 IPAL (独立行政法人情報処理推進機構(旧・情報処理振興事業協会))
- 分類語彙表-増補改訂版- (国立国語研究所)
- 泉鏡花を読む (鏡花作品語彙のKWIC)
*新聞,及び新聞CD-ROM
- CD-毎日新聞データー集 (入手方法)
- 日経CD-ROM (オンラインショップ)
- 日外アソシエーツ (学術研究・開発研究のための言語資源コーパスの案内)
- 京都大学テキストコーパス :毎日新聞1995年版CD-ROMが必要。
(「京都大学の形態素解析システム(JUMAN),構文解析システム(KNP)で自動解析を行いその結果を人手修正したテキストコーパスです」)
*議事録
*白書など
- 内閣府経済白書データベース (内閣府)
- 環境白書・循環型社会白書 (環境省)
- 法令等データベースシステム (厚生労働省法令等データベースシステム)
- 法令データ提供システム (E-Gov:電子政府の総合窓口より)
- Yahoo!JAPAN 政治 政府資料 白書、青書
- 法令情報データベース (第一法規株式会社:CD-ROM販売)
*パラレルコーパス
- 日英対訳文対応付けデータ (独立行政法人情報処理推進機構 自然言語グループ)
- 朝尾幸次郎応用言語学 公開資料:パラレルコーパス (立命館大学)
- パラレルコーパス検索 (クマぞーの何でも研究室内 日本国憲法などのパラレルコーパス検索)
- 科学技術(日英・英日)コーパス辞典 (丸善:本体18,000円+税)