自然言語処理の研究において,コーパスは大切な資源です.特に有用なのはタグ付きコーパスなのですが,高品質なタグの付与やバランスの調整にはノウハウの蓄積が必須で,とても手間がかかります.そこで,個人で作れる・個人で使えるくらいの簡単なコーパスを目指しています.

名前 概要
日本語ウェブコーパス 2010 2010 年 6 月から 9 月にかけて収集した約 1 億件のウェブページから作成したコーパスです.ダウンロードした HTML 文書をそのまま保存したアーカイブに加えて,形態素 N-gram と文字 N-gram のアーカイブがあります.