コロナウィルス騒ぎで、ほぼ自宅蟄居状態なのをいいことに、文字情報基盤の成果物をいろいろいじくっている。最終的には、6万字ほどもあるMJ文字図形から一文字を対話的に探し出せるプログラムのプロトタイプを作りたいなあ、などと。
漢和辞典などでは、音訓索引を使うか、部首画数順で調べる、というのが常套だし、UCSのCJKもパート毎には、(原則的には)康煕字典の部首画数順に並んでいるので、部首画数というのが基本になる。
とはいえ、なにしろ、6万字もあると、生産性の高い部首(たとえば、氵とか木とか艹とか魚など)では、同一画数に百字以上も、ずらーとならんだりする。さらに、画数がくせ者で、IRGの議論でも、ちょっと複雑な字になると、なかなか一意には決まらない。
そんなこともあり、数年前から新しい文字セットの提案に当たっては、漢字を要素の構造で表現するIDS(Ideographic Description Sequence)を必ず添付することになっている。
まあ、このIDSもなかなか一意には定めにくいので、なんだかなあ、というところもあるのだが、ないよりはずっとありがたい。
IDSに関しては、世界的に見ても、京都大学の守岡さんChiseプロジェクトのものが最も充実していて、データとしてもきれいに書かれているように思う。
で、閑だし、久々に、というか、自分自身の目と手では、多分初めて、ChiseのIDSを調べてみた。
驚いたことに、そして、大変ありがたいことに、いつのまにか、拡張FまでのUCSすべてにIDSが付いている。それに、UCSに含まれない字形構成要素を用いる場合も、XMLなどで標準的に用いられている外部実体宣言(&と;で囲んだ文字列)の書式を用いていてくれているので、はなはだ扱いやすい。
というわけで、ChiseのGitHubから、全データをダウンロードして、いろいろ眺めている。
眺めていて気付いたのだが、なんと、MJ文字図形名やAJ1のいわゆるCID番号が構成要素として、結構な数、埋め込まれている。
おっ、守岡さん、なかなかやるねえ。
とはいえ、ぼくのゴールは、漢字の構造を正確かつ厳密に記述することではなく、あくまでも、漢字を探すことなので、構成要素の細かな差異に拘泥する必要はない。むしろ、疑わしきは捕捉、という感じで、字形が似た字は、適度に拾い上げられた方が、都合がいい。それに、検索の際に、知らない字や入力の面倒な字を、検索画面に入力することもないだろうし。
そんなわけで、ChiseのIDSデータを、ぼくなりに、少し加工して、いろいろ調べている。
まず、やったことは、MJ文字図形名やAJ1のCID名を、UCSの符号位置に置き換えること。その際、IVSは無視して、全部、UCSのベースキャラクターに置き換えた。MJやAJ1以外の外部実体宣言で書かれた要素も、えいやで、〓(ゲタ)に置き換えた。
で、いろいろ試していることの報告は、明日にでも。