会長室のおもちゃ箱
日々気になったことを書き留めています。
小林龍生

一般社団法人 文字情報技術促進協議会 会長
小林 龍生

文字情報基盤事業の資産(1)

ようやく、IPAとの信託譲渡契約が締結段階に入った。そろそろ、軸局から手続き終了の知らせた入るころ。
コロナウィルス騒ぎで、自宅にいる時間が少し(以前からそれなりに閑だったけれど)増えたこともあり、ここのところ、IPAから信託譲渡される文字情報基盤事業の成果物(以下、MJ資産)について、主にPythonで簡単なプログラムを書いて、いろいろ調べている。それこそ、時の経つのを忘れるぐらい、面白い。
MJ資産の主軸は、あくまでも、すでに公開されているMJ文字情報一覧表とIPAmj明朝にあることは言うまでもないけれど。
当初からこの事業に係わってきた身としては、一覧表成立に至るまでのさまざまな中間成果物に、魅力とある種の愛着を覚えるわけだ。中でも、市販の大型漢字辞典関係の情報は、多くの好事家にとっても、垂涎物だろうと思う。
MJ事業で対象とした辞書は、以下の5点。
大漢和辞典(大修館書店)
新大字典(講談社)
大字源(角川書店)
日本語漢字辞典(新潮社)
大漢語林(大修館書店)
大漢和辞典は別格としても、日本を代表する大型辞典が網羅されている。
MJ事業で調査した情報は、大きく3つに分類出来る。
なによりも、MJ文字図形名と各辞書の検字番号との対応表。
次に、各辞書の検字番号と掲載ページの対応表。
そして、各辞書に記載されている見出し文字間の関係。
MJ文字図形名と検字番号の対応関係は、一覧表に掲載されている。
見出し文字間の関係は、MJ文字図形とJIS X 0213の縮退マップを開発する際に、大いに役立った。
問題は、検字番号と掲載ページの対応表。
以前、大修館書店の担当者と情報交換を行った際、この対応表は、絶対に公開しないでもらいたい、と強く言われた。この対応表があると、ページイメージベースであれば、電子辞書が簡単に開発出来てしまう。
実際、ぼく自身は、上記の辞書すべてを私費で購入したうえで自炊し、ページごとのPNGファイルに分解してあるので、それこそ、Pythonから簡単に呼び出すことができるようになっている。
辞書系の電子書籍の核心がインデックスにあるということが、自分の体感からも大修館書店担当者の謂からも、よくわかる。
ともあれ、この検字番号とページとの対応表は、死蔵するにはあまりにも惜しい情報だ。何とか、版元の利益を毀損しない形で、世に出すことは出来ないものか。

一方、各辞書を自炊した目的の一つに、各見出し文字の切り出しがあった。こちらの方も、Pythonを使って、いろいろ悪戦苦闘してなしとげたのだけれど、今調べているのは、MJ文字図形との対応関係が取られていない見出し字について。
戸籍法だったか戸籍法施行規則だったかに、戸籍に記載してよい文字の条件に、「市販の辞書に記載されていること」という条項があったように思う。だとすると、MJ文字と対応関係の取れない見出し文字が、将来、戸籍統一文字に追加され、MJ文字一覧表やIPAmj明朝でも対応を迫られることがないとは言えない。
実際、最近も《ささ》という字が、日本語漢字辞典に掲載されていることを根拠に、戸籍統一文字に追加されたという事態もあったことだし。

以下、辞書関係のデータの中身を、すこしずつ見ていこう。

まずは、それぞれの辞書の総文字数。ぼくは、OED(Oxford English Dictionary)を気取って、それぞれの辞書に3文字のアブリビエーションを充てて使っている。

大字源:DGJ
大漢語林:DKR
大漢和:DKW
日本語漢字辞典:NKJ
新大字典:SDJ

DJG:12300
DKR:13938
DKW:51110
NKJ:15375
SDJ:21094

対応するMJMJ文字図形名を持たない見出し字の数は、下記の通り。

戸籍統一文字に追加するための要件の一つが市販の漢字辞典に記載されていること、だとすると、これらの文字は、潜在的に将来戸籍統一文字に加えられる可能性がある、ということになる。とは言え、字体弁別の尺度は、これまた辞書によっても異なる。辞書に別見出しとして掲げられているからといって、無条件に(戸籍統一文字の尺度で)別字体だとは断言出来まい。このあたりは、今後の漢字行政上の大きな論点になりそうな。

DJG:41
DKR:41
DKW:1610
NKJ:620
SDJ:491


活字箱と漢字の使用頻度(2)

漢字使用頻度の続き。
前回触れた、凸版印刷の頻度調査資料、じつは、ぼくも一部持っている。正確に言うと、持っていた。書架の資料の増殖に耐えきれずに、自炊してしまったので。
以前ジャストシステムに勤めていたころ、ちょうど、千年紀の変わりめあたりの表外漢字字体表策定の折、浮川和宣社長が当時の国語審議会の委員を委嘱され、浮川社長を補佐するために、国語審議会の審議を継続的に傍聴していた。それと相前後して、当時文化庁国語課の専門官だった淺松絢子さんや氏原基余司さんの知遇を得た。まあ、その役得で、国語課が、委員会審議のために準備したさまざまな資料集を分けていただいた。その中の一冊。
それにしても、ぼくが管見しただけでも、凄まじく貴重な労作がそろっている。中でも、小宮山博史さんが明治以降の活字見本帳を切り貼りした字形集など、垂涎物。
いずれにしても、常用漢字表が、これらものすごい資料に立脚して策定されているということは忘れてはならないだろうな。
で、この凸版の資料を(自炊してしまっていたことを失念して)書架で探し回っていたら、「JIS X 0213:2004運用の検証」という平成21年9月発行の国立国語研究所の研究成果報告書が目に留まった。
研究リーダーだった高田智和さんに頂戴したものだけれど、その時は、あまり詳しく見ることなく書架に眠ったままになっていた。灯台下暗し。改めて眺めてみると、これがものすごく面白いの。

この高田さんらの研究報告「JIS X 0213:2–4運用の検証」は、下記からPDF版をダウンロードすることが出来る。
https://pj.ninjal.ac.jp/corpus_center/bccwj/doc/report/JC-D-09-01.pdf
検証のために用いられた資料は、『現代日本語書き言葉コーパス』の一部。
ちょっと面白うなあ、と思うのが、国語審議会(今は文化審議会国語分科会)のための凸版データとの相違。
凸版のデータは、凸版が扱った商業出版物のデータを元にしているのに対し、高田さんの調査は、国研のコーパスという優れて正規化されたデータを元にしている。いま、不用意にと言うか、なにげなくと言うか、「正規化」という言葉を遣ったけれど、もしかしたら、ここが大問題なのだな。
先に進めなくなってしまったか。活字箱問題に逆戻り。
先に、活版時代の文選工の前に置かれた活字箱には、ほぼ4千種の活字が収められていた、と書いた。
文選工は、著者の原稿を目の前において、活字箱から活字を一本一本ピンセットで拾い上げて、手元の箱に収めていく。悪筆の高名な作家に、専属の文選工がいて、担当編集者も読めない原稿から正確に活字を拾っていった、といった伝説もある。このような印刷工場の現場の知が、活版時代のゆたかな出版文化を支えていたことに間違いはないのだが。
この現場の営為と表裏をなすものとして、校閲ないしは校正と呼ばれる、編集者側の営為があった。編集者時代のぼくは、ザル校で有名だったので、あまり偉そうなことは言えないけれど。

高田さんらの研究報告書に戻って。

この報告書で、一番、印象的だったのは、表5のJIS X 0213:2004による符号化(延べ字数)。

第1水準から第4水準別に、非漢字も含めて、用いられた符号位置の累積頻度が非漢字も含めた表なので、漢字だけに絞って、それも、全資料の分だけ、換算してみると。

第1水準:99.478%
第2水準:0.459%
第3水準:0.061%
第4水準:0.004%

前回書いたように、JIS X 0208の第1水準の漢字総数は、2965字。これだけの字数で、一般的な日本語文書の99%以上が表記かのうなわけ。JIS X 0208が発行されたのは1978年。漢字選択は林大氏を中心にすすめられたと聞くが、今になってもこの選択がいかに適切だったか、ということが分かる。

まあ、JIX X 0208は、その後の、1983年の改正の折に行った非互換な字体変更や、符号位置の入れ替えが、その後に禍根を残すことになるけれど、それはまた別の物語。

林大氏らの、原案作成委員会の方々が、当時はまだまだ現役として稼働していた活版の活字箱を覗いていた姿を想像するだけで、何だかわくわくしてくる。

世紀をまたいだ2020年現在でも、たとえば、飯田橋の印刷博物館を訪れると、活字箱を用いた活版印刷の姿が動態保存されているのを見ることが出来る。

ChiseプロジェクトのIDS

コロナウィルス騒ぎで、ほぼ自宅蟄居状態なのをいいことに、文字情報基盤の成果物をいろいろいじくっている。最終的には、6万字ほどもあるMJ文字図形から一文字を対話的に探し出せるプログラムのプロトタイプを作りたいなあ、などと。
漢和辞典などでは、音訓索引を使うか、部首画数順で調べる、というのが常套だし、UCSのCJKもパート毎には、(原則的には)康煕字典の部首画数順に並んでいるので、部首画数というのが基本になる。
とはいえ、なにしろ、6万字もあると、生産性の高い部首(たとえば、氵とか木とか艹とか魚など)では、同一画数に百字以上も、ずらーとならんだりする。さらに、画数がくせ者で、IRGの議論でも、ちょっと複雑な字になると、なかなか一意には決まらない。
そんなこともあり、数年前から新しい文字セットの提案に当たっては、漢字を要素の構造で表現するIDS(Ideographic Description Sequence)を必ず添付することになっている。
まあ、このIDSもなかなか一意には定めにくいので、なんだかなあ、というところもあるのだが、ないよりはずっとありがたい。
IDSに関しては、世界的に見ても、京都大学の守岡さんChiseプロジェクトのものが最も充実していて、データとしてもきれいに書かれているように思う。
で、閑だし、久々に、というか、自分自身の目と手では、多分初めて、ChiseのIDSを調べてみた。
驚いたことに、そして、大変ありがたいことに、いつのまにか、拡張FまでのUCSすべてにIDSが付いている。それに、UCSに含まれない字形構成要素を用いる場合も、XMLなどで標準的に用いられている外部実体宣言(&と;で囲んだ文字列)の書式を用いていてくれているので、はなはだ扱いやすい。
というわけで、ChiseのGitHubから、全データをダウンロードして、いろいろ眺めている。
眺めていて気付いたのだが、なんと、MJ文字図形名やAJ1のいわゆるCID番号が構成要素として、結構な数、埋め込まれている。
おっ、守岡さん、なかなかやるねえ。
とはいえ、ぼくのゴールは、漢字の構造を正確かつ厳密に記述することではなく、あくまでも、漢字を探すことなので、構成要素の細かな差異に拘泥する必要はない。むしろ、疑わしきは捕捉、という感じで、字形が似た字は、適度に拾い上げられた方が、都合がいい。それに、検索の際に、知らない字や入力の面倒な字を、検索画面に入力することもないだろうし。
そんなわけで、ChiseのIDSデータを、ぼくなりに、少し加工して、いろいろ調べている。
まず、やったことは、MJ文字図形名やAJ1のCID名を、UCSの符号位置に置き換えること。その際、IVSは無視して、全部、UCSのベースキャラクターに置き換えた。MJやAJ1以外の外部実体宣言で書かれた要素も、えいやで、〓(ゲタ)に置き換えた。
で、いろいろ試していることの報告は、明日にでも。

活字箱と漢字の使用頻度(1)

文字情報技術促進協議会(CITPC)の最大の趣旨の一つが、日本の情報通信環境からの外字の解消にあることは、設立当初から一貫して変わっていない。
技術的には、国際標準化という局面では、すでにゴールに到達し、その実装という局面でも、着々とゴールに近づいている。
しかし、その普及という局面では、まだまだゴールまでは遠いなあ、というのが実感だ。
ゴールが遠い理由の一つは、わりと単純で、でも、根が深いところにある。
即ち、既存の文字を探すよりも、外字を作ってしまう方が、簡単で楽だから、という、ちょっとがっかりな事実。
では、それを解決するにはどうしたらいいか。
これも、答えはちょっとバカっぽく単純で、探す(欲しい)漢字を簡単に見つけられるようにすればいい。
このブログの大きなテーマの一つだ。
手始めに、漢字を探すってどういうことなのか、について、しばらく考えていきたい。というか、ぼく的には、結構長く考えてきたわけで。
一つの大きなヒントが、活版時代、採字工の前に置かれていた活字箱。この活字箱に収められていた活字はだいたい4千種類だったと、小林敏さんに聞いたことがある。4千字ね、意外と少ないなあ。
ちなみに、日本の代表的な文字セット/文字集合を見てみると。
常用漢字表:2136種
教育漢字:1026字
JIS X0213(漢字合計):1050字
JIS X0213(第一水準):2965字
JIS X0213(第二水準):3990字
JIS X0213(第三水準):1259字
JIS X0213(第四水準):2436字

常用漢字表の字数を確かめようと思って、文化審議会答申の本文を見ていたら、その「3字種・音訓の選定について」の一部に、「実際に検討した漢字は、調査A(書籍860冊分の凸版組版データ)において、常用漢字としては、最も出現順位の低かった「銑」(4004位)と同じ出現回数を持つ漢字までとしたので、4011字に上る」という記述が目に入った。
このように見てくると、敏さんが言っていた活字箱の4千字という数字は、実践的には、印刷屋さんにとっては、必要にして(ほぼ)十分、という数だったのだろう。

そう言えば、京都の阿辻哲次さんの著書で、父君が印刷屋さんを営んでおり、高校生の阿辻青年が、自転車で足りない活字を買いに行く、という場面が描かれていた。買いに行った活字が、4千字種のうちにあって使用頻度が高かったために底をついたのか、それとも4千字種からはみだした頻度の低い活字だったのか、その既述があったかどうかは、よく覚えていない。
いすれにしても、日ごろから敬服している、阿辻さんの見識と慧眼の背後に、この高校生時代の活字箱の原風景があったであろうことは、想像に難くない。

今日の雑談は、ここまでね。次回は、国立国語研究所の高田智和さんらのJIS X 0213の頻度調査を中心に、もう少し、この辺りのことを考えてみたい。

会長室のおもちゃ箱

忘れられないテレビドラマのシーンがある。

一つは、佐藤浩市がタブロイド紙(多分夕刊フジがモデル)の編集長をやっていたドラマ。親会社(多分産経新聞がモデル)から飛ばされてきた女性記者を、夕方ラッシュ時のターミナル駅に連れ出して、しばらく駅前のキヨスクを観察させて、「ライバルは何だ」と質問する。女性記者は当然ながら、「日刊ゲンダイです」と答える。編集長「違う。缶コーヒーだ」

このシーンは、マーケティング一般の問題と考えても、新しいメディアと従来メディアとの相克の問題に置き換えても、なかなか含蓄がある。

もう一つのシーン。ぼくが、ここで話したいことの主眼はこっちの方なのだけれど。

橋爪功がやっていた大手自動車メーカーの会長役。そのメーカーのはみだし社員が、型破りな新車の企画を会長室に直訴に行く。勇躍乗り込んでみたら、会長が会長室で手作りのラジコンカーで遊んでいる。

多分、モデルは、本田宗一郎。ものすごく分かるような気がした。

このドラマを見たころ、多分、10年以上前のことだと思うけれど、ぼくも業界の中で立場だけだんだん偉くなって、ともすると業界内でもパワーポリティクスにうんざりしたりしていたのではなかったか。ISO/IEC JTC1/SC2の国際議長とかね。

そんな折に見たこのシーンだった。そう、手仕事だよな、いつまでも現場感覚を忘れちゃいけない。そういえば、佐藤浩市が豊田喜一郎役をやったドラマもあったっけ。「リーダーズ」。こちらの方も、手作業感覚満載だった。

ぼくら(文字コード屋とかIT屋)にとっては、符号表を眺めたり、ちょっとしたコードを書くのが手仕事。大先達の日立におられた小池建夫さんとか、拡張Bを開発していたころ、「定規をあててザザザット見ていけば、BMPにある字かない字か、だいたい分かるよね」って言っておられた。この感覚。

ぼくも、この感覚を忘れたくない。で、コロナウィルス騒ぎで、閑だし。そのまえから、ま、閑だったし。事務局長の田丸さんに無理を言って、会長用のブログページを作るように依頼した。

田丸さんも、同類と見えて、くそ忙しいに違いないのに、自ら手作業で、協議会のWordPressをいじくって、作ってくれたのがこのページ。

以後、すこしずつ、新しいネタやら昔のネタやら、文字と文字コードに係わる、どうでもいいchores(以前、樋浦秀樹さんに教わった言葉)を書き綴っていきたいと思う。

Scroll to Top