日本語ウェブコーパス 2010

HTML アーカイブ	約 1 億件の HTML 文書圧縮時 197GB，展開時 3.25TB
テキストアーカイブ	HTML アーカイブから抽出されたテキスト圧縮時 69GB，展開時 396GB
~~形態素解析結果~~	MeCab を使えば簡単に作成できるので削除しました． ~~タグなしテキストの形態素解析結果（MeCab）~~ ~~圧縮時 115GB，展開時 4.36TB~~
N-gram コーパス	形態素 N-gram：圧縮時 12.1GB，展開時 75.2GB 文字 N-gram：圧縮時 11.8GB，展開時 81.7GB
タグ使用頻度	HTML タグの使用頻度（TF・DF）
セクションターゲット	セクションターゲット（AdSence）の用例
ツールキット	テキストアーカイブや N-gram コーパスの作成ツール

HTML アーカイブ

約 1 億件の HTML 文書
圧縮時 197GB，展開時 3.25TB

テキストアーカイブ

HTML アーカイブから抽出されたテキスト
圧縮時 69GB，展開時 396GB

~~形態素解析結果~~

MeCab を使えば簡単に作成できるので削除しました．
~~タグなしテキストの形態素解析結果（MeCab）~~
~~圧縮時 115GB，展開時 4.36TB~~

N-gram コーパス

形態素 N-gram：圧縮時 12.1GB，展開時 75.2GB
文字 N-gram：圧縮時 11.8GB，展開時 81.7GB

タグ使用頻度

HTML タグの使用頻度（TF・DF）

セクションターゲット

セクションターゲット（AdSence）の用例

ツールキット

テキストアーカイブや N-gram コーパスの作成ツール

概要

本コーパスの HTML アーカイブは，ipadic-2.7.0 の見出し語をシードとして，かつての Yahoo! Web API による検索結果に含まれるウェブページを収集したものです．テキストの抽出においては，文字コードを UTF-8 に統一した後，いくつかの記号をデリミタとして文への分割をおこない，さらに文を構成する文字の種類や数によるフィルタリングを施しています．N-gram コーパスについては，テキストアーカイブに出現する頻度 10 以上の N-gram を収録しています．
本コーパスの英語名称は Nihongo Web Corpus 2010 (NWC 2010) です．

謝辞

本コーパスの作成においては，様々なウェブサービス，ツール，コーパスを利用させていただきました．開発者・研究者の皆様に感謝いたします．

コーパスの作成・保存・配布には Amazon Web Services を利用しています．
ウェブ検索には Yahoo! JAPAN 検索 Web API を利用しています．
ウェブコーパスのシードには IPAdic を利用しています．
文字コードの変換には日本語用のパッチを適用した libiconv を利用しています．
Unicode の正規化には ICU を利用しています．
形態素解析には MeCab を利用しています．
コーパスの圧縮には XZ Utils を利用しています．
他にも様々なソフトウェアを利用しています．