トップ / コーパス / 日本語ウェブコーパス 2010
| HTML アーカイブ | 
      約 1 億件の HTML 文書 圧縮時 197GB,展開時 3.25TB  | 
    
|---|---|
| テキストアーカイブ | 
      HTML アーカイブから抽出されたテキスト 圧縮時 69GB,展開時 396GB  | 
    
| 
       | 
     
      MeCab を使えば簡単に作成できるので削除しました. | 
    
| N-gram コーパス | 
      形態素 N-gram:圧縮時 12.1GB,展開時 75.2GB 文字 N-gram:圧縮時 11.8GB,展開時 81.7GB  | 
    
| タグ使用頻度 | HTML タグの使用頻度(TF・DF) | 
| セクションターゲット | セクションターゲット(AdSence)の用例 | 
| ツールキット | テキストアーカイブや N-gram コーパスの作成ツール | 
E-mail: moc.liamg@atay.umusus