タグ使用頻度 - 日本語ウェブコーパス 2010

トップ / コーパス / 日本語ウェブコーパス 2010 / タグ使用頻度

概要

HTML アーカイブにおけるタグの出現頻度を求めたデータです.各タグについて,単純な出現頻度(TF: Term Frequency, Term = Tag)と出現文書数(DF: Document Frequency)を求め,タブ区切りのデータを作成しました.ダウンロードできるのは,DF 10/100/1000 以上のタグを一覧にしたファイルです.
タグのカウントにおいては,タグ・属性の名前を小文字に統一し,class, id, name 以外の属性を取り除きました.例えば,<A HREF="index.html"> は <a> としてカウントされていますが,<a name="abc"> と <a> は別々にカウントされています.オープンタグとクローズタグは別々にカウントされているので,<a> の代わりに </a> の TF・DF を利用することも可能です.

利用条件

特にありません.二次配布も自由です.

ダウンロード

それほど大きなファイルではないので,気軽にダウンロードできます.
DF 10 以上のタグ一覧(34.7MiB) DF 100 以上のタグ一覧(9.95MiB) DF 1000 以上のタグ一覧(2,67MiB)

書式

TF,DF,タグという順番で,水平タブが区切りになっています.以下のサンプルを見た方が分かりやすいと思います.

サンプル

タグ使用頻度のサンプルです.TF,DF,タグという順番になっています.
$ xz -cd tf-df-tag.1000.xz | sort -rnk 2 | head -5
98018942	96534612	</title>
97813195	96403445	<title>
97303827	96210846	<head>
97435923	96167526	</head>
97366516	96105699	</html>
$ xz -cd tf-df-tag.1000.xz | sort -rnk 2 | head -10000 | tail -5
66382	66377	<ul id="textLink">
240661	66372	<div class="POST_ADMIN">
128514	66366	<div class="more-wrap clearfix">
66623	66356	<a name="628">
253659	66355	<div class="associatelink_list">

内容

各ファイルに含まれるタグの異なり数は以下のとおりです.
DF 10 以上 DF 100 以上 DF 1000 以上
タグの異なり数 7,335,164 1,655,963 366,003

E-mail: ‮moc.liamg@atay.umusus‭