テキストアーカイブ - 日本語ウェブコーパス 2010

トップ / コーパス / 日本語ウェブコーパス 2010 / テキストアーカイブ

概要

HTML アーカイブの文字コードを UTF-8 に統一してからタグを除去し,いくつかのフィルタリングを施すことにより得られた,圧縮時 69GB,展開時 396GB のアーカイブです.フィルタリングについては,Google N-gram コーパスの前処理を真似したので,NFKC への正規化,句点・感嘆符・疑問符を区切りとする文抽出,文の長さや文字の種類・割合による除外ルールの適用という内容になっています.

利用条件

2009 年度における著作権法の改正(文化庁 | 著作権 | 著作権制度に関する情報 | 著作権制度の解説資料 | 最近の法改正について | 平成 21 年通常国会 著作権法改正等について)に基づき,情報解析研究への利用に限定します.
情報解析研究への利用に限定されるのであれば,所属組織などによらず,他の研究者との共有を制限することはありません.また,情報解析研究の成果については,著作権者の利益が害される程度が低ければ,自由に利用・配布しても問題ないと思います.

ダウンロード

いろいろと無理です.

Amazon EC2

Amazon EC2 をご利用の方は,US East リージョンにおいて,タグなしテキストを保存した Amazon EBS のスナップショットが利用できます.
Region Name Snapshot ID Capacity Description
US-East nwc2010-texts snap-4096ae2b 70GiB Nihongo Web Corpus 2010 - Plain Text (ext3)
ご利用を希望される方は,ページ下部のメールアドレス宛てに AWS Account Number をご連絡ください.上記のスナップショットから EBS を作成する権限をこちらで設定いたします.

書式

空行を文書の区切りとするテキストになっています.アーカイブを構成する各ファイル texts/XX/YYYYYYYY.xz には,展開時のサイズが 2GB より小さくなるように,テキストを格納しています.XZ Utils(xz -9e)の利用により,圧縮時のサイズは展開時の約 17% になっています.

サンプル

各ファイルの内容は,以下のようになっています.
文書 1,文 1
文書 1,文 2

文書 2,文 1


文書 4,文 1
...

E-mail: ‮moc.liamg@atay.umusus‭