日本語ウェブコーパス 2010

トップ / コーパス / 日本語ウェブコーパス 2010

概要

本コーパスの HTML アーカイブは,ipadic-2.7.0 の見出し語をシードとして,Yahoo! Web API による検索結果に含まれるウェブページを収集したものです.テキストの抽出においては,文字コードを UTF-8 に統一した後,いくつかの記号をデリミタとして文への分割をおこない,さらに文を構成する文字の種類や数によるフィルタリングを施しています.N-gram コーパスについては,テキストアーカイブに出現する頻度 10 以上の N-gram を収録しています.

謝辞

本コーパスの作成においては,様々なウェブサービス,ツール,コーパスを利用させていただきました.開発者・研究者の皆様に感謝いたします.

E-mail: ‮moc.liamg@atay.umusus‭