トップ / コーパス / 日本語ウェブコーパス 2010
HTML アーカイブ |
約 1 億件の HTML 文書 圧縮時 197GB,展開時 3.25TB |
---|---|
テキストアーカイブ |
HTML アーカイブから抽出されたテキスト 圧縮時 69GB,展開時 396GB |
|
MeCab を使えば簡単に作成できるので削除しました. |
N-gram コーパス |
形態素 N-gram:圧縮時 12.1GB,展開時 75.2GB 文字 N-gram:圧縮時 11.8GB,展開時 81.7GB |
タグ使用頻度 | HTML タグの使用頻度(TF・DF) |
セクションターゲット | セクションターゲット(AdSence)の用例 |
ツールキット | テキストアーカイブや N-gram コーパスの作成ツール |
E-mail: moc.liamg@atay.umusus