トップ / コーパス / 日本語ウェブコーパス 2010 / セクションターゲット
用例文書 |
セクションターゲットを含む HTML 文書のアーカイブ 圧縮時 41.2MiB,展開時 576MiB |
---|---|
タグ使用頻度 TF・DF |
DF 1 以上のタグ一覧 圧縮時 1.65MiB,伸長時 16.1MiB |
DF 10 以上のタグ一覧 圧縮時 74.7KiB,伸長時 384KiB |
字種 | 置換後 | 置換前(x–y は x 以上 y 以下の範囲) |
---|---|---|
空白 | ' ' | '\t', '\r', ' ', U+00A0, U+202F ,U+205F, U+3000, U+FEFF, U+2000–U+200B |
改行 | '\n' | '\n' |
読点 | ',' | ',', U+3001, U+FF0C, U+FF64 |
句点 | '.' | '.', U+3002, U+FF0E, U+FF61 |
数字 | '0' | '0'-'9', U+FF10–U+FF19 |
大文字 | 'A' | 'A'-'Z', U+FF21–U+FF3A |
小文字 | 'a' | 'a'-'z', U+FF41–U+FF5A |
ひらがな | 'h' | U+3040–U+309F |
カタカナ | 'k' | U+30A0–U+30FF, U+31F0–U+31FF, U+FF66–U+FF9F |
漢字 | 'K' | U+3400–U+4DBF, U+4E00–U+9FFF, U+F900–U+FAFF, U+20000–U+2FA1F |
その他 | 'x' | その他 |
用例文書(41.2MiB) | DF 1 以上のタグ一覧(1.65MiB) | DF 10 以上のタグ一覧(74.7KiB) |
while sys.stdin: size = sys.stdin.readline() if not size: break size = int(size) body = sys.stdin.read(size)タグ使用頻度については,TF,DF,タグという順番で,水平タブが区切りになっています.以下のサンプルを見た方が分かりやすいと思います.
xz -cd htmls.xz | head -10 10791 <html> <head> <meta /> <meta name="description" /> <meta name="verify-v1" /> <meta name="keywords" /> <title>KxhhhhxhKKKKh0K0KkkkkKKkkkKK! x kkkk x kkkkkAA</title> <link>タグ使用頻度のサンプルです.TF,DF,タグという順番になっています.
$ xz -cd tf-df-tag.10.xz | sort -rnk 2 | head -5 26944 26705 </title> 26935 26699 <title> 3770558 26691 </a> 2992562 26676 <a> 26937 26672 </head>
$ xz -cd tf-df-tag.10.xz | sort -rnk 2 | head -1000 | tail -5 639 243 <img class="emoticon bleah" /> 243 243 <input name="url" id="url" /> 243 243 <div class="next_page_links_spacer"> 342 242 <ul class="navi"> 478 240 <div class="trackback">
文書数 | 26,725 |
---|---|
タグの異なり数(DF 1 以上) | 410,463 |
タグの異なり数(DF 10 以上) | 51,133 |
E-mail: moc.liamg@atay.umusus