文字情報基盤事業の資産(1)

ようやく、IPAとの信託譲渡契約が締結段階に入った。そろそろ、軸局から手続き終了の知らせた入るころ。
コロナウィルス騒ぎで、自宅にいる時間が少し(以前からそれなりに閑だったけれど)増えたこともあり、ここのところ、IPAから信託譲渡される文字情報基盤事業の成果物(以下、MJ資産)について、主にPythonで簡単なプログラムを書いて、いろいろ調べている。それこそ、時の経つのを忘れるぐらい、面白い。
MJ資産の主軸は、あくまでも、すでに公開されているMJ文字情報一覧表とIPAmj明朝にあることは言うまでもないけれど。
当初からこの事業に係わってきた身としては、一覧表成立に至るまでのさまざまな中間成果物に、魅力とある種の愛着を覚えるわけだ。中でも、市販の大型漢字辞典関係の情報は、多くの好事家にとっても、垂涎物だろうと思う。
MJ事業で対象とした辞書は、以下の5点。
大漢和辞典(大修館書店)
新大字典(講談社)
大字源(角川書店)
日本語漢字辞典(新潮社)
大漢語林(大修館書店)
大漢和辞典は別格としても、日本を代表する大型辞典が網羅されている。
MJ事業で調査した情報は、大きく3つに分類出来る。
なによりも、MJ文字図形名と各辞書の検字番号との対応表。
次に、各辞書の検字番号と掲載ページの対応表。
そして、各辞書に記載されている見出し文字間の関係。
MJ文字図形名と検字番号の対応関係は、一覧表に掲載されている。
見出し文字間の関係は、MJ文字図形とJIS X 0213の縮退マップを開発する際に、大いに役立った。
問題は、検字番号と掲載ページの対応表。
以前、大修館書店の担当者と情報交換を行った際、この対応表は、絶対に公開しないでもらいたい、と強く言われた。この対応表があると、ページイメージベースであれば、電子辞書が簡単に開発出来てしまう。
実際、ぼく自身は、上記の辞書すべてを私費で購入したうえで自炊し、ページごとのPNGファイルに分解してあるので、それこそ、Pythonから簡単に呼び出すことができるようになっている。
辞書系の電子書籍の核心がインデックスにあるということが、自分の体感からも大修館書店担当者の謂からも、よくわかる。
ともあれ、この検字番号とページとの対応表は、死蔵するにはあまりにも惜しい情報だ。何とか、版元の利益を毀損しない形で、世に出すことは出来ないものか。

一方、各辞書を自炊した目的の一つに、各見出し文字の切り出しがあった。こちらの方も、Pythonを使って、いろいろ悪戦苦闘してなしとげたのだけれど、今調べているのは、MJ文字図形との対応関係が取られていない見出し字について。
戸籍法だったか戸籍法施行規則だったかに、戸籍に記載してよい文字の条件に、「市販の辞書に記載されていること」という条項があったように思う。だとすると、MJ文字と対応関係の取れない見出し文字が、将来、戸籍統一文字に追加され、MJ文字一覧表やIPAmj明朝でも対応を迫られることがないとは言えない。
実際、最近も《ささ》という字が、日本語漢字辞典に掲載されていることを根拠に、戸籍統一文字に追加されたという事態もあったことだし。

以下、辞書関係のデータの中身を、すこしずつ見ていこう。

まずは、それぞれの辞書の総文字数。ぼくは、OED(Oxford English Dictionary)を気取って、それぞれの辞書に3文字のアブリビエーションを充てて使っている。

大字源:DGJ
大漢語林:DKR
大漢和:DKW
日本語漢字辞典:NKJ
新大字典:SDJ

DJG:12300
DKR:13938
DKW:51110
NKJ:15375
SDJ:21094

対応するMJMJ文字図形名を持たない見出し字の数は、下記の通り。

戸籍統一文字に追加するための要件の一つが市販の漢字辞典に記載されていること、だとすると、これらの文字は、潜在的に将来戸籍統一文字に加えられる可能性がある、ということになる。とは言え、字体弁別の尺度は、これまた辞書によっても異なる。辞書に別見出しとして掲げられているからといって、無条件に(戸籍統一文字の尺度で)別字体だとは断言出来まい。このあたりは、今後の漢字行政上の大きな論点になりそうな。

DJG:41
DKR:41
DKW:1610
NKJ:620
SDJ:491


「文字情報基盤事業の資産(1)」への1件のフィードバック

  1. 私は、大字源・大漢語林・大漢和・日本語漢字辞典・新大字典のいずれかに収録されている文字は戸籍統一文字・住基統一文字に収録されていなくとも文字情報基盤に収録すべきだと考えていますが、同形異字・重出・デザイン差などの問題があるので単純に欠けている番号の文字を全て追加すれば済む問題では無さそうですね……
    単に誤字・訛字・略字であるために戸籍統一文字に収録されていない文字は機械的に追加しても良さそうですが、それ以外の文字については追加するか否か慎重な検討が必要だと思います。

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

上部へスクロール