漢字データベース

 2010年改訂の『常用漢字表』に掲載れている2,136字について,毎日新聞の11年分 (2000年から2010年まで) のコーパスを使って,Web上 (英語のサイト) で漢字頻度な どさまざまな特性が検索できる。このコーパスの語彙の重なり頻度 (type frequency) は368,841語で,延べ頻度 (token frequency) は282,816,611語である。 また,漢字だけでなく,検索サイトの「Select Jukugo from database」から検索し たい漢字を含んだ漢字2字からなる熟語 (Jukugo) を検索することもできる。さらに ,「Look up Jukugo」で,熟語の頻度を検索することもできる。


ダウンロード(詳細は以下の論文):

Tamaoka, Katsuo, Shogo Makioka, Sander Sanders and Rinus G. Verdonschot (2017). www.kanjidatabase.com: a new interactive online database for psychological and linguistic research on Japanese kanji and their compound words. Psychological Research, 81, 696-708. [ダウンロード]


日韓中越同形二字漢字語データベース

 日本語では2字語が頻繁に使われており,これらの語彙が日本語の51,962の見出し語からなる国語辞典の約70%を占める (Yokosawa and Umeda, 1988)。 旧・『日本語能力試験出題基準』(2007,改訂版) 4級から2級の2字漢字語2,060語(あるいは,「伯母」と「叔母」,「叔父」と「伯父」を同じ語として数えると2,058語) を対象として,2字漢字語の日本語能力試験の級,朝日新聞 (1985 年から 1998 年までの 14 年間の記事) での頻度,毎日新聞(2000年から2010年までの11年間の記事)での頻度, 品詞性,日中の意味的関係,音韻類似性,書字を検索できるようにした。朝日および毎日新聞の共通に頻度がみつかる2,029語についてのピアソンの積率相関係数は,r=0.87 (p<.001) である。

 また,日韓中越の4言語間の同形2字漢字語の音韻類似性を,「音素類似性 (phoniic similarity)」と「音韻的距離 (phonological distance)」の2つの指標を検索できるようにした。音素類似性は,0から1の範囲で変化する値で,数値が大きいほど類似性が高い。一方,音韻的距離は,Rのcbaパッケージで提供されるsdists関数 (Buchta & Hahsler, 2016) で計算した一般化レーベンシュタイン距離 (generalized Levenshtein distance) で,数値は整数で示され,大きいほど類似性が低い。日中の2字漢字同形語1,864語の音素類似性 (M=0.45, SD=0.19) と音韻的距離 (M=0.45, SD=0.19) のピアソンの積率相関係数は,r=-0.89 (p<.001) という高い逆相関であり,2つの指標は類似している。


ダウンロード(詳細は以下の論文):

  • 于劭贇・金志宣・玉岡賀津雄 (2018). 2字漢字語の音韻類似性・音韻的距離に関する日韓中越データベースのオンライン検索エンジンの構築 [ダウンロード]
  • 于劭贇・玉岡賀津雄 (2015). 日韓中同形二字漢字語の品詞性ウェブ検索エンジン [ダウンロード]
  • 熊可欣・玉岡賀津雄 (2014). 日中同形二字漢字語の品詞性に関するデータベース [ダウンロード]
  • 朴善婤・熊可欣・玉岡賀津雄 (2014). 同形二字漢字語の品詞性に関する日韓中データベース概要 [ダウンロード]
  • 朴善婤・熊可欣・玉岡賀津雄 (2014). 同形二字漢字語の品詞性に関する日韓中データベース [ダウンロード]

モーラ・バイモーラ頻度検索エンジン

 毎日新聞1998年から2015年までの18年間の記事のテキストデータを使用して,モーラ頻度とバイモーラ頻度を計算した。 このコーパスの形態素数 (重なり頻度: type frequency) は663,243,記号を除いた総頻度は398,406,147である。 形態素は,MeCab 0.996 (工藤・山本・松本, 2004) で解析した。ここでいう形態素は,言語学で定義される「意味上の最小単位」とは異なる。 たとえば,固有名詞の「愛知時計電機」は,「愛知」「時計」「電機」で3語であるが,形態素1つとして数えられている。そのため,コーパスの総語数は約4億語であると推定される。このコーパスでモーラとバイモーラを検索することができる。

 たとえば,/ka/のモーラ頻度は,検索欄に平仮名で「か」あるいは片仮名で「カ」と入力して検索する。/ka/の重なり頻度は70,548回で,延べ頻度は31,176,377回と検索結果が表示される。重なり頻度は,/ka/を含む形態素・語彙数であり,延べ頻度は/ka/の総頻度である。また,/ka/を含む語彙が頻度の高い順に1,000語まで提示される。バイモーラ頻度も同様に検索できる。たとえば,/kawa/というバイモーラは,「かわ」または「カワ」と入力すると,重なり頻度が2,377回で,延べ頻度が659,508回と表示される。同時に,/kawa/を含む語彙が頻度の高い順に1,000語まで提示される。これは,玉岡賀津雄(名古屋大学)の企画のもとで,牧岡省吾(大阪府立大学)がデータを作成して,于劭贇(名古屋大学)が検索エンジンを作成した。


語彙頻度検索エンジン

 モーラ・バイモーラと同様の毎日新聞18年間の新聞記事テキストデータをMeCab 0.996 (工藤・山本・松本, 2004) で解析した結果を使用して,2字漢字語ばかりでなく,さまざまな語の頻度と品詞を検索することができる。たとえば,平仮名で「さくら」または片仮名で「サクラ」と入力すると,/sakura/という発音の語彙がすべて表示される。もっとも頻度が高いのが,漢字の「桜」で15,729回,「さくら」が6,975回,「佐倉」が2,678回,「サクラ」が1,582回,「櫻」が306回である。玉岡賀津雄(名古屋大学)の企画のもとで,牧岡省吾(大阪府立大学)がデータを作成して,于劭贇(名古屋大学)が検索エンジンを作成した。