例年、当協議会の総会を機に開催している特別セミナーの記録映像と発表資料が公開された。
[https://moji.or.jp/seminar/]
前半は、当協議会副会長の山本太郎さんによる、『文字サイズの標準化の歴史をたどる』というちょっとディープなお話。文字の大きさを指定するポイントの歴史を辿りながら、その話題自体が、活版印刷からDTPをへて、現在のデジタル出版に至る印刷技術史を俯瞰するものになっていて、秀逸。
後半は、『日本のITと行政との接面での《外字》とは何か』と題したパネル。
パネリストには、今、MJ+の議論でチョー話題となっているデジタル庁の前田みゆきさん、地方自治体の行政現場を知悉している一般財団法人全国地域情報化推進協(APPLIC) 企画部担当部長の吉本明平さん、そして、実装実務を担うベンダー代表みたいな感じで、当協議会事務局長で、日本マイクロソフトのNTO(National Technology Officer)のご存じ田丸健三郎さん。田丸さんは、デジ庁職員でもある。
ぼくも、モデレータとして登壇した。けれど、司会をしていて後悔した。自分で言いたいことが、山と出て来て、冷静に司会なんてやっていられなくなってしまった。まあ、反省と言えば反省だけれど、それだけ議論が熱かったってことかな。
委細は、記録映像をご覧いただくこととして、ぼく的には、このパネルを通して、感じたこと、考えたことを書いておこうと思う。
外字とは何か
前田さん、吉本さん、田丸さん、それぞれが、ポジショントークで述べてくれたことを、一言でまとめると。
前田さん:MJ文字情報一覧表に同定できない文字が外字。
吉本さん:複数のシステム(自治体)で、相互運用性がとれない文字が外字。
田丸さん:国際標準で標準化さんれていない文字が外字。
それぞれの立ち位置がはっきり表れていて、これだけでも面白いね。
で、ぼく的には、当然と言えば、当然だけれど、田丸さんに一票。
というか、前田さんのMJ+プロジェクトについては、ぼくも、有識者検討会の末席に加えていただいているので、もはや当事者の一人になってしまっているわけで。で、この有識者検討会には、将来の国際標準化に向けたアドバイスをする、みたいな役割分担を仰せつかっている。この有識者検討会で、ぼくが申し上げたことは、一言で言えば、MJ+プロジェクトのゴールは、現在のMJ文字情報一覧表からこぼれ落ちる文字を、国際標準(IVDを含めて)と紐付けることですよ、紐付けられないものの新規符号化提案も含めて、ということになる。検討会の時に、つい、口をすべらせて「国際標準との整合性がゴールで、まあ、MJとの関係なんてどうでもいいんです」などと、文字情報技術促進協議会会長としては、いささか問題発言もしてしまったけれど。
で、田丸さんの「国際標準で標準化されていない文字が外字」という立場について、もう少し敷衍すると(田丸さん自身が記録映像で話していることだけれど)、現今の情報システムでは、広い意味での国際標準に準拠していないシステムは事実上、開発出来ない、ということになる。事実上、というのは、コストの面とWTO/TBT的な意味での非関税障壁という両方の意味を持っている。
逆に言えば、国際標準になってしまえば、前田さん的な意味での、MJとの整合性も担保できる(文字情報基盤としてMJ+への拡張を行わないという選択肢はない!)し、吉本さん的な意味での、相互互換性も担保できる。
符号化文字集合屋がやるべきこと
一つ前のブログ(水平拡張提案の公開レビュー)にも書いたことだが、国際標準は、専門家(コンテンツエキスパートとプロシージャエキスパート)が少人数で原案を作り、それに対するコメントを広く求めて、練り上げていく、というやり方が一番高品質なものを短時間で作ることが出来る(とぼくは信じている)。MJ+について言えば、文字の検討については、すでに、早稲田大学の笹原宏之を筆頭に、当協議会の仲間である京都大学の安岡孝一さんや国立国語研究所の高田智和さんも係わってきておられるみたいだし、プロシージャに関しては、JSC2のメンバーの多くが当協議会のメンバーとも重なっているので、こちらの方も役者はそろっている。敢えて難があるとすると、みなさん、いい人過ぎるんだよな。
村田真ではないが、国際標準化活動には、ある種の悪巧み、というか、手練手管が必要な場面がないわけではない。
今回のMJ+について言えば、スピード最優先。
標準屋の一部には、というか、多くは、ぼく自身も含めて、ある種の美意識を持っている。標準(Standard)というよりも規格(Specification)としての側面。全体として一貫性と整合性があり、不必要な文言がない簡潔で十分な記述、みたいな。
しかし、この辺りを追求していくと、結構時間と手間がかかる。特に、符号化文字集合は、相手が言語や文字であるだけに、そもそも、体系そのものに矛盾や不整合満載。特に、CJKパートは、東アジア漢字文化圏全体(チュノムを用いるヴェトナムも含む)に係わっているため、台湾や香港を含む中国語の地域差や、歴史的変遷もあり、もうしっちゃかめっちゃか状態。
そうした中で、日本の現代社会における人名・地名を表すために用いられる漢字を、情報システムで扱うために必要最小限の整合性(文字集合として、その構成要素が固有名(符号列)と排他的に結びついていること)を担保しつつ、可及的速やかに国際標準化することが必要になる。
この文字集合としての整合性を担保することが困難だという問題は、じつは、今に始まったことではなく、潜在的にはUCSがCJK統合漢字というモデルを採用したときからあった問題で、ぼくが故樋浦秀樹さんらとともに提案したVS(variation selector)というメカニズムも、統合規則と国や地域によって異なる字体の弁別粒度との折り合いを付けるためのものだったりする。
もう一つのキーは、UCSのAnnex A(部分集合用図形文字の組)というヤツ。
ここには、Unicodeの過去のversionに対応する部分集合から、日本の常用漢字に対応する部分集合にいたるまで、さまざまなレベル、さまざまな性格の部分集合が収められている。部分集合といっても、単に、UCSの符号位置(と符号位置の列)を列挙しただけのものなのだが、UCSの一部の符号位置だけを使って、UCSへの準拠性を主張するときには、とても便利。このAnnex Aの規定がないと、使いたいUCSの符号位置をぜ〜んぶ列挙しなければならない。ヤレヤレ。
JSC2では、ここ数年にわたって、このAnnex Aに、JISの漢字集合を中心に、日本の現在の社会で必要だと思われる部分集合を積極的に提案している。この動きは、ある意味では、JISの漢字集合の記述内容を、JISを用いずにUCSだけで閉じた形で記述することでもある。JIS意外にも、常用漢字字体表など、じつは、Annex Aのコレクションとして記載されるまで、国内規格も含め、公的な標準規格情報としては、UCSの符号位置との対応関係の記述は存在していなかった。(ちょっとややこしい話だが、JIS X 0213には、ある面区点位置が常用漢字に含まれるという情報はあるが、それが常用漢字表のどの字であるかは、印刷された例示字形をヒントにして、結びつけるしかない。しかも、その例示字形は、参考情報であって規格本文ではない! とはいえ、現在の常用漢字表はMJ明朝体を用いて作成されているので、実質的には文字情報基盤文字情報一覧表の常用漢字についての記載内容で、UCSと常用漢字の対応関係は明確なのだけれど。)
一方、JISとUCSとの関係を見ていくと、ところどころ、包摂規準と統合規則のズレを中心に、矛盾する個所がある。
卑近な例を二つばかり挙げると、吉(U+5409, 1-21-40)と𠮷(U+20BB7,1-21-40)、髙(U+9AD8,1-25-66)と髙(U+9AD9,1-25-66)。括弧内の前の方がUCSの符号位置で、後の方がJIS X 0213の面区点位置。それぞれ、「土ヨシ」「はしごダカ」といった言い方で、姓などで区別して使われることが多いが、JIS X 0213では同一面区点位置に包摂されている。現状のJIS規格では、これらを区別して扱うことは事実上出来ないわけだ。
𠮷にしても、髙にしても、UCSに入っているのは、日本以外の国や地域から提案された結果であり、あくまでも日本の工業標準としては、吉と𠮷、高と髙の区別をしていない。(規格としての美しさ、という点では、これらの区別は、JIS X 0213の例示字形をベースキャラクターとして、VSで区別するのが理想的なのだけれど、今改めて文字情報一覧表を確認してみたら、現状ではIVDを用いずに、UCSの別符号位置を充てている。)
いずれにしても、今後のこととして、JIS X 0213では包摂されていて、IVDのコレクションで区別をしている字体が、他の国や地域から提案されて、別符号位置が付与される可能性は大いにありうることだ。このことは、日本の行政や社会生活上の漢字使用にとっては、大きな混乱の種となりうることだ。
パネルの際、吉本さんが強調しておられた相互運用性にとって、符号化文字集合に限って言えば、その文字集合が閉じている(集合論で言えばcompact setになっている)ことが、とても重要なことなのだ。
ところが、自然言語における文字は、変幻自在、国や地域、時代によって、さまざまに変化する。
そんなわけで、吉本さんと前田さんの立場の違いというのは、相互運用性のための文字集合としての厳密さを採るか、住民感情まで配慮した例外をも(ある程度)容認するか、といったところにあったのではないか。まあ、ぼくなりの偏見的独断かもしれないけれど。
現状のユニコードというのは、どちらかというと、前田さんの立場に近い。「だって、欲しいと言っている人がいるのだから入れてしまおうよ」みたいな。
随分と、些末、オタク的議論にはまり込んでしまったが。
上に挙げたような、地域や国、使用目的の違いによる、字体分別粒度の差異と、それに起因する文字集合としての破綻を最小限に留めるためには、できるだけ使用目的に則した部分集合を定めて、使用範囲をその部分集合に限定するのが手っ取り早い。
ぼくが、Annex Aにこだわっているのは、まさに、そのためなのだ。
このアーティクルの前の方に、MJ+の最終目的は、国際標準としてのUCSとの整合性を取ることだ、と書いた。しかし、もうお分かりのように、ゴールはもう一つある。Annex AにMJ+コレクションを追加すること。こうすることによって、中国をはじめとする他の東アジア漢字圏からの(日本の社会的要請とは衝突する)提案の影響を受けずに、相互運用性を担保することが可能となる。
日本の文字符号屋にも、まだまだやることがあるなあ。