N-gram コーパス - 日本語ウェブコーパス 2010

トップ / コーパス / 日本語ウェブコーパス 2010 / N-gram コーパス

概要

ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています.
N-gram コーパスの構築においては,Google N-gram コーパスと同様の前処理を施しています.句点・感嘆符・疑問符を文の区切りとして利用しているので,「モーニング娘。」や「Yahoo!」などの固有名詞については,不適切な文の区切りがおこなわれています.また,文の区切りは削除するようになっているため,コーパス中に句点・感嘆符・疑問符は出現しません.
形態素 N-gram コーパス,文字 N-gram コーパスともに,文境界マーク(<S>,</S>)は採用していますが,未知語トークン(<UNK>)は採用していません.また,文字 N-gram コーパスについては,半角空白をトークンの区切りとして用いるため,文中に出現する半角空白をトークンとして扱わないようにしました.英単語などが連結されている点にご注意ください.

利用条件

特にありません.二次配布も自由です.

ダウンロード

各 N-gram コーパスについて,構成ファイルのリストを提供しています.ファイルのサイズ・数ともに大きいので,手作業によるダウンロードは手間がかかります.手作業による誤りを防ぐためにも,ダウンロード用のソフトウェアを使うことをおすすめします.例えば,wget を使えば,ディレクトリの構成も含めて保存することができます.
$ wget -xnH -i filelist
形態素 N-gram のファイルリスト:頻度 10 以上頻度 100 以上頻度 1000 以上
文字 N-gram のファイルリスト:頻度 10 以上頻度 100 以上頻度 1000 以上

Amazon EC2

Amazon AWS のアカウントを持っている方であれば,N-gram コーパスを保存した Amazon EBS のスナップショットがご利用いただけます.ダウンロードするにはサイズが大きすぎるとか,とりあえず内容を確認したいというとき,Amazon EC2 上であれば,簡単に N-gram コーパスにアクセスできて便利です.
Region Name Snapshot ID Capacity Description
US-East nwc2010-ngrams snap-e4a9918f 30GiB Nihongo Web Corpus 2010 - N-gram Corpus (ext3)

書式

Google N-gram コーパスと同様に,Ngms/Ngm-KKKK.xz というファイルに 1000 万 N-gram ずつ格納しています.拡張子を見れば分かるように,各ファイルは xz により圧縮されているため,展開には XZ Utils が必要です.また,各行を構成するのは N 個のトークンと頻度であり,トークン同士の間は半角空白,トークンと頻度の間は水平タブになっています.

サンプル

形態素 N-gram のサンプルです.
$ xz -cd 4gms/4gm-0043.xz | head -5
周辺 の 売 地	75
周辺 の 売 家	14
周辺 の 売 物件	64
周辺 の 売り 土地	65
周辺 の 売り 地	12
文字 N-gram のサンプルです.
$ xz -cd 7gms/7gm-0073.xz | head -5
会 的 常 識 に 欠 け	185
会 的 常 識 に 照 ら	40
会 的 常 識 の あ る	137
会 的 常 識 の な い	52
会 的 常 識 の 欠 如	58

内容

形態素 N-gram コーパスに含まれる N-gram の異なり数です.
頻度 10 以上 頻度 100 以上 頻度 1000 以上
1-gram 4,027,882 894,405 270,214
2-gram 79,569,943 16,912,785 3,422,928
3-gram 369,685,887 51,401,622 6,395,754
4-gram 607,054,802 57,191,326 4,965,726
5-gram 596,934,604 41,693,785 2,948,810
6-gram 470,456,046 26,618,140 1,695,705
7-gram 347,097,023 16,901,591 1,023,609

文字 N-gram コーパスに含まれる N-gram の異なり数です.
作成中 頻度 10 以上 頻度 100 以上 頻度 1000 以上
1-gram 18,709 11,873 7,822
2-gram 5,207,473 2,459,929 992,239
3-gram 91,405,609 25,711,287 6,024,672
4-gram 385,242,752 70,564,608 10,737,235
5-gram 762,384,131 99,004,573 11,025,757
6-gram 1,011,206,166 100,819,467 8,980,103
7-gram 1,072,241,151 86,194,515 6,512,889

E-mail: ‮moc.liamg@atay.umusus‭