HTML アーカイブ - 日本語ウェブコーパス 2010

トップ / コーパス / 日本語ウェブコーパス 2010 / HTML アーカイブ

概要

2010 年 6 月から 9 月にかけて収集された,約 1 億ウェブページ,圧縮時 197GB,展開時 3.25TB のアーカイブです.ウェブページの収集においては,ipadic-2.7.0 の見出し語を Yahoo! Web API により検索し,検索結果に含まれるウェブページを収集の対象としました.結果として,特定のウェブページを起点にリンクを辿ることで作成されたアーカイブと比べると,偏りの少ないアーカイブになっていると思います.

利用条件

2009 年度における著作権法の改正(文化庁 | 著作権 | 著作権制度に関する情報 | 著作権制度の解説資料 | 最近の法改正について | 平成 21 年通常国会 著作権法改正等について)に基づき,情報解析研究への利用に限定します.
情報解析研究への利用に限定されるのであれば,所属組織などによらず,他の研究者との共有を制限することはありません.また,情報解析研究の成果については,著作権者の利益が害される程度が低ければ,自由に利用・配布しても問題ないと思います.

ダウンロード

いろいろと無理です.

Amazon EC2

Amazon EC2 をご利用の方は,US East リージョンにおいて,HTML アーカイブを保存した Amazon EBS のスナップショットが利用できます.
Region Name Snapshot ID Capacity Description
US-East nwc2010-htmls snap-7c407a17 200GiB Nihongo Web Corpus 2010 - HTML Archive (ext3)
ご利用を希望される方は,ページ下部のメールアドレス宛てに AWS Account Number をご連絡ください.上記のスナップショットから EBS を作成する権限をこちらで設定いたします.

書式

検索により得られた各 URL について,URL,ステータスコード,HTTP ヘッダとメッセージボディ(HTML 文書)を以下の書式で保存しています.
URL
ステータスコード
HTTP ヘッダの長さ
HTTP ヘッダ
メッセージボディの長さ
メッセージボディ
HTML アーカイブを構成する各ファイル htmls/XX/YYYYYYYY.xz には,展開時のサイズが 2GB より小さくなるように,上記の書式でウェブページを格納しています.また,圧縮時のサイズを小さくするため,URL による整列をおこなっています[1].XZ Utils(xz -9e)の利用により,圧縮時のサイズは展開時の約 6% になっています.

サンプル

以下のようなテキストが,連結された状態で各ファイルに保存されています.
http://www.example.com/
200
78
Date: Wed, 22 Sep 2010 06:06:01 GMT
Connection: close
Content-Type: text/html
88
<html>
 <head>
  <title>Title</title>
 </head>
 <body>
  Hello, world!
 </body>
</html>

参考文献

[1] Paolo Ferragina and Giovanni Manzini. On Compressing the Textual Web, WSDM 2010, 2010.

E-mail: ‮moc.liamg@atay.umusus‭