セクションターゲット - 日本語ウェブコーパス 2010

トップ / コーパス / 日本語ウェブコーパス 2010 / セクションターゲット

概要

HTML アーカイブからセクションターゲットを含む HTML 文書のみを取り出し,さらにホストの重複も取り除いてからアーカイブにしました.用例文書は,コメントやタグの属性を取り除き,各文字を字種を示す記号で置き換えた内容になっています.タグ使用頻度については,用例文書におけるタグの出現頻度になっています.各タグについて,単純な出現頻度(TF: Term Frequency, Term = Tag)と出現文書数(DF: Document Frequency)がタブ区切りで保存されています.
用例文書については,セクションターゲットの範囲を示すコメント(<!-- google_ad_section_start -->, <!-- google_ad_section_start(weight=ignore) -->, <!-- google_ad_section_end -->)を除き,宣言とコメントは削除してあります.その他のタグについては,class, id, name 以外の属性を取り除きました.テキスト要素については,script と style の中身を削除し,他の部分に対しては以下の置換を適用しています.
字種 置換後 置換前(x–y は x 以上 y 以下の範囲)
空白 ' ' '\t', '\r', ' ', U+00A0, U+202F ,U+205F, U+3000, U+FEFF, U+2000–U+200B
改行 '\n' '\n'
読点 ',' ',', U+3001, U+FF0C, U+FF64
句点 '.' '.', U+3002, U+FF0E, U+FF61
数字 '0' '0'-'9', U+FF10–U+FF19
大文字 'A' 'A'-'Z', U+FF21–U+FF3A
小文字 'a' 'a'-'z', U+FF41–U+FF5A
ひらがな 'h' U+3040–U+309F
カタカナ 'k' U+30A0–U+30FF, U+31F0–U+31FF, U+FF66–U+FF9F
漢字 'K' U+3400–U+4DBF, U+4E00–U+9FFF, U+F900–U+FAFF, U+20000–U+2FA1F
その他 'x' その他
タグのカウントにおいては,タグ・属性の名前を小文字に統一し,class, id, name 以外の属性を取り除きました.例えば,<A HREF="index.html"> は <a> としてカウントされていますが,<a name="abc"> と <a> は別々にカウントされています.オープンタグとクローズタグは別々にカウントされているので,<a> の代わりに </a> の TF・DF を利用することも可能です.

利用条件

特にありません.二次配布も自由です.

ダウンロード

それほど大きなファイルではないので,気軽にダウンロードできます.
用例文書(41.2MiB) DF 1 以上のタグ一覧(1.65MiB) DF 10 以上のタグ一覧(74.7KiB)

書式

用例文書については,サイズ行と本文が交互に保存されています.例えば,Python であれば以下のようにして読み込むことができます.以下の例では,サイズが保存されている行を読み込み,取得したサイズの本文を読み込むというループをファイルの終端にいたるまで継続しているだけです.タグ以外の '<' と '>' は文字参照に置き換えられているので,正規表現を利用すれば,簡単にタグとテキスト要素を切り分けることができます.
while sys.stdin:
  size = sys.stdin.readline()
  if not size:
    break
  size = int(size)
  body = sys.stdin.read(size)
タグ使用頻度については,TF,DF,タグという順番で,水平タブが区切りになっています.以下のサンプルを見た方が分かりやすいと思います.

サンプル

用例文書のサンプルです.サイズ行の直後が空行になっているのは,元の文書に空行が含まれていたことによる偶然の産物です.タイトルは字種を表す記号の並びに変換されています.
xz -cd htmls.xz | head -10
10791
    
<html> 
<head> 
<meta /> 
<meta name="description" /> 
<meta name="verify-v1" /> 
<meta name="keywords" /> 
<title>KxhhhhxhKKKKh0K0KkkkkKKkkkKK! x kkkk x kkkkkAA</title> 
<link>
タグ使用頻度のサンプルです.TF,DF,タグという順番になっています.
$ xz -cd tf-df-tag.10.xz | sort -rnk 2 | head -5
26944	26705	</title>
26935	26699	<title>
3770558	26691	</a>
2992562	26676	<a>
26937	26672	</head>
$ xz -cd tf-df-tag.10.xz | sort -rnk 2 | head -1000 | tail -5
639	243	<img class="emoticon bleah" />
243	243	<input name="url" id="url" />
243	243	<div class="next_page_links_spacer">
342	242	<ul class="navi">
478	240	<div class="trackback">

内容

用例文書に含まれる文書の数とタグの異なり数は以下のとおりです.
文書数 26,725
タグの異なり数(DF 1 以上) 410,463
タグの異なり数(DF 10 以上) 51,133

E-mail: ‮moc.liamg@atay.umusus‭