-212x300.jpg)
一般社団法人 文字情報技術促進協議会
会長
小林 龍生
ChiseプロジェクトのIDS
コロナウィルス騒ぎで、ほぼ自宅蟄居状態なのをいいことに、文字情報基盤の成果物をいろいろいじくっている。最終的には、6万字ほどもあるMJ文字図形から一文字を対話的に探し出せるプログラムのプロトタイプを作りたいなあ、などと。
漢和辞典などでは、音訓索引を使うか、部首画数順で調べる、というのが常套だし、UCSのCJKもパート毎には、(原則的には)康煕字典の部首画数順に並んでいるので、部首画数というのが基本になる。
とはいえ、なにしろ、6万字もあると、生産性の高い部首(たとえば、氵とか木とか艹とか魚など)では、同一画数に百字以上も、ずらーとならんだりする。さらに、画数がくせ者で、IRGの議論でも、ちょっと複雑な字になると、なかなか一意には決まらない。
そんなこともあり、数年前から新しい文字セットの提案に当たっては、漢字を要素の構造で表現するIDS(Ideographic Description Sequence)を必ず添付することになっている。
まあ、このIDSもなかなか一意には定めにくいので、なんだかなあ、というところもあるのだが、ないよりはずっとありがたい。
IDSに関しては、世界的に見ても、京都大学の守岡さんChiseプロジェクトのものが最も充実していて、データとしてもきれいに書かれているように思う。
で、閑だし、久々に、というか、自分自身の目と手では、多分初めて、ChiseのIDSを調べてみた。
驚いたことに、そして、大変ありがたいことに、いつのまにか、拡張FまでのUCSすべてにIDSが付いている。それに、UCSに含まれない字形構成要素を用いる場合も、XMLなどで標準的に用いられている外部実体宣言(&と;で囲んだ文字列)の書式を用いていてくれているので、はなはだ扱いやすい。
というわけで、ChiseのGitHubから、全データをダウンロードして、いろいろ眺めている。
眺めていて気付いたのだが、なんと、MJ文字図形名やAJ1のいわゆるCID番号が構成要素として、結構な数、埋め込まれている。
おっ、守岡さん、なかなかやるねえ。
とはいえ、ぼくのゴールは、漢字の構造を正確かつ厳密に記述することではなく、あくまでも、漢字を探すことなので、構成要素の細かな差異に拘泥する必要はない。むしろ、疑わしきは捕捉、という感じで、字形が似た字は、適度に拾い上げられた方が、都合がいい。それに、検索の際に、知らない字や入力の面倒な字を、検索画面に入力することもないだろうし。
そんなわけで、ChiseのIDSデータを、ぼくなりに、少し加工して、いろいろ調べている。
まず、やったことは、MJ文字図形名やAJ1のCID名を、UCSの符号位置に置き換えること。その際、IVSは無視して、全部、UCSのベースキャラクターに置き換えた。MJやAJ1以外の外部実体宣言で書かれた要素も、えいやで、〓(ゲタ)に置き換えた。
で、いろいろ試していることの報告は、明日にでも。
活字箱と漢字の使用頻度(1)
文字情報技術促進協議会(CITPC)の最大の趣旨の一つが、日本の情報通信環境からの外字の解消にあることは、設立当初から一貫して変わっていない。
技術的には、国際標準化という局面では、すでにゴールに到達し、その実装という局面でも、着々とゴールに近づいている。
しかし、その普及という局面では、まだまだゴールまでは遠いなあ、というのが実感だ。
ゴールが遠い理由の一つは、わりと単純で、でも、根が深いところにある。
即ち、既存の文字を探すよりも、外字を作ってしまう方が、簡単で楽だから、という、ちょっとがっかりな事実。
では、それを解決するにはどうしたらいいか。
これも、答えはちょっとバカっぽく単純で、探す(欲しい)漢字を簡単に見つけられるようにすればいい。
このブログの大きなテーマの一つだ。
手始めに、漢字を探すってどういうことなのか、について、しばらく考えていきたい。というか、ぼく的には、結構長く考えてきたわけで。
一つの大きなヒントが、活版時代、採字工の前に置かれていた活字箱。この活字箱に収められていた活字はだいたい4千種類だったと、小林敏さんに聞いたことがある。4千字ね、意外と少ないなあ。
ちなみに、日本の代表的な文字セット/文字集合を見てみると。
常用漢字表:2136種
教育漢字:1026字
JIS X0213(漢字合計):1050字
JIS X0213(第一水準):2965字
JIS X0213(第二水準):3990字
JIS X0213(第三水準):1259字
JIS X0213(第四水準):2436字
常用漢字表の字数を確かめようと思って、文化審議会答申の本文を見ていたら、その「3字種・音訓の選定について」の一部に、「実際に検討した漢字は、調査A(書籍860冊分の凸版組版データ)において、常用漢字としては、最も出現順位の低かった「銑」(4004位)と同じ出現回数を持つ漢字までとしたので、4011字に上る」という記述が目に入った。
このように見てくると、敏さんが言っていた活字箱の4千字という数字は、実践的には、印刷屋さんにとっては、必要にして(ほぼ)十分、という数だったのだろう。
そう言えば、京都の阿辻哲次さんの著書で、父君が印刷屋さんを営んでおり、高校生の阿辻青年が、自転車で足りない活字を買いに行く、という場面が描かれていた。買いに行った活字が、4千字種のうちにあって使用頻度が高かったために底をついたのか、それとも4千字種からはみだした頻度の低い活字だったのか、その既述があったかどうかは、よく覚えていない。
いすれにしても、日ごろから敬服している、阿辻さんの見識と慧眼の背後に、この高校生時代の活字箱の原風景があったであろうことは、想像に難くない。
今日の雑談は、ここまでね。次回は、国立国語研究所の高田智和さんらのJIS X 0213の頻度調査を中心に、もう少し、この辺りのことを考えてみたい。
会長室のおもちゃ箱
忘れられないテレビドラマのシーンがある。
一つは、佐藤浩市がタブロイド紙(多分夕刊フジがモデル)の編集長をやっていたドラマ。親会社(多分産経新聞がモデル)から飛ばされてきた女性記者を、夕方ラッシュ時のターミナル駅に連れ出して、しばらく駅前のキヨスクを観察させて、「ライバルは何だ」と質問する。女性記者は当然ながら、「日刊ゲンダイです」と答える。編集長「違う。缶コーヒーだ」
このシーンは、マーケティング一般の問題と考えても、新しいメディアと従来メディアとの相克の問題に置き換えても、なかなか含蓄がある。
もう一つのシーン。ぼくが、ここで話したいことの主眼はこっちの方なのだけれど。
橋爪功がやっていた大手自動車メーカーの会長役。そのメーカーのはみだし社員が、型破りな新車の企画を会長室に直訴に行く。勇躍乗り込んでみたら、会長が会長室で手作りのラジコンカーで遊んでいる。
多分、モデルは、本田宗一郎。ものすごく分かるような気がした。
このドラマを見たころ、多分、10年以上前のことだと思うけれど、ぼくも業界の中で立場だけだんだん偉くなって、ともすると業界内でもパワーポリティクスにうんざりしたりしていたのではなかったか。ISO/IEC JTC1/SC2の国際議長とかね。
そんな折に見たこのシーンだった。そう、手仕事だよな、いつまでも現場感覚を忘れちゃいけない。そういえば、佐藤浩市が豊田喜一郎役をやったドラマもあったっけ。「リーダーズ」。こちらの方も、手作業感覚満載だった。
ぼくら(文字コード屋とかIT屋)にとっては、符号表を眺めたり、ちょっとしたコードを書くのが手仕事。大先達の日立におられた小池建夫さんとか、拡張Bを開発していたころ、「定規をあててザザザット見ていけば、BMPにある字かない字か、だいたい分かるよね」って言っておられた。この感覚。
ぼくも、この感覚を忘れたくない。で、コロナウィルス騒ぎで、閑だし。そのまえから、ま、閑だったし。事務局長の田丸さんに無理を言って、会長用のブログページを作るように依頼した。
田丸さんも、同類と見えて、くそ忙しいに違いないのに、自ら手作業で、協議会のWordPressをいじくって、作ってくれたのがこのページ。
以後、すこしずつ、新しいネタやら昔のネタやら、文字と文字コードに係わる、どうでもいいchores(以前、樋浦秀樹さんに教わった言葉)を書き綴っていきたいと思う。