まず、二組の漢字字形を見ていただきたい。
1-36-45、U+585A
1-15-55、U+585A
1-46-20、U+968
1-93-61、U+9686
ツカとリュウ、大塚隆といった感じで、姓や名に多出するし、一里塚とか筋肉隆々とかいった一般名詞にもよく用いられる字だ。
しかし、よく見ると、ツカもリュウも、それぞれ少しずつ異なっている。
先に素性の種明かしをしておくと、1-36-45と1-46-20は、常用漢字表(平成22年6月7日改定版、以下同)に掲示されている字形で、1-15-55と1-93-61は、常用漢字表では丸括弧に入れられた字形で、いわゆる康煕字典体。
ちなみに、貼り込んだ画像は、MJ明朝体。CITPCの文字検索システムからコピーしてきた。字体は、常用漢字表に掲載されている例示字形と同じ。というか、常用漢字表も、MJ明朝体を用いているのだけれど。
常用漢字のなかには、いわゆる康煕字典体と字体が異なるものがいくつかある、ということ。ちなみに、常用漢字以外の漢字の字体をどのように考えるか、という問題については、2000年に当時の国語審議会が出した「表外漢字字体表」に仔細な論述がある。
とはいえ、今回議論したいのは、常用漢字表字体といわゆる康煕字典体との違いといったことではなく、これらツカとリュウの扱いが、JIS X 0208単独の場合と、JIS X 0213の一部としてのJIS X 0208とで、じつは異なっているということ。
規格票のそのものにそって、経緯を復習しておこう。手元に、文化庁文化部国語課が、当時の国語審議会における審議に資するために復刻したJIS C 6226:1978がある。これを見ると、36区45点の字形は、の形に近い。
一方、同じ資料に含まれているJIS X 0208:1983では、36区45点の字形は、の形に近い。そして、JIS X 0208:1997。この版の、36区45点の記述が面白い。過去の規格票の字形(参考)の欄に、78としてに近い字形が、78/4Xとしてに近い字形が掲げられている。そして、JIS X 0208:1990から加えられた包摂規準では、129)として、豕(いわゆるいのこ)の点があるものとないものを包摂している。(ぼくの手元には、JIS X 0213:1990がないので、JIS X 0213:1997を参照している。)
JIS X 0208では、(たぶん)ツカに関しては、一貫して常用漢字字体といわゆる康煕字典体とを包摂している。
そして、JIS X 0213:2000。
ちょっとやっかいな話だが、JIS X 0213には、JIS X 0208のすべての面区点位置が含まれている。表層的には、JIS X 0213は、JIS X 0208の区点位置に、新たにいくつかの面区点位置を追加した形となっている。
しかし、JIS X 0213の規格票には、面区点位置の一覧表部分にJIS X 0208相当の例示字形が掲載されているが、附属書6(規定)漢字の分類及び配列には、追加部分だけが記載されていて、JIS X 0208相当部分についての詳説はない。
(ということは、漢字の分類及び配列に関しては、JIS X 0208を見ろよな、ということなのかなあ。)
とについても見ておこう。
こちらの方は、JIS X 0208では、一貫してに近い字形が掲載されている。
その上で、包摂規準のd)連番132で、に近い字形とに近い字形が包摂されることが明記されている。
そして、JIS X 0213。に新しい面区点位置を与えた上で、包摂規準の詳説については、連番133としてJIS X 0208とほぼ同等のものを掲げている。あれれ、別の面区点位置を与えながら、包摂規準に掲げていいのかなあ。(いまさら、このような細部をほじくり返しても、なんだかなあ、という気がするので、これ以上深追いしないが、何だか釈然としない。)
JIS X 0208で包摂されていながら、JIS X 0213では、別の面区点位置を与えていた例は、他にもいくつもある。いわゆる包摂分離。
今回の議論の眼目は、まさに、この包摂分離(Unicodeの場合はDisunification、統合分離)の符号化文字集合における情報交換上の問題についてだ。
JIS X 0208を単体で運用した場合の36-45と、JIS X 0213の一部として運用された場合の1-36-45では、たとえ、そこに掲示されている例示字形が全く同じであっても、その区点位置、面区点位置に帰属する字形の範囲が異なる、ということ。
JIS X 0213では、に類似した字形(よりも一画多い)は、JIS X 0213では、別の面区点位置1-36-45に帰属する。
事情は、一般的にJIS X 0213で包摂されており、Unicodeでも統合されていた文字が、Unicodeで統合分離された場合でも、変わりがない。
次のように言い換えてもいいだろう。
ある字形が対応付けられる字体は、その字体を要素として含む字体集合が異なれば、たとえ同じ文字名を持った字体であっても、その字形が同じ名前の字体に帰属することは保証されない。
もう一つ、別の言い方。
符号化された文字列が送信者側と受信者側で同一であることを保証するためには、送信者側と受信者側が同一の符号化文字集合を用いなければならない。
当たり前と言えば当たり前の話だが、一見同じ字体集合に見えても、改正等で包摂分離や統合分離が行われると、それらの字体集合は互いに非互換となり、通信における同一性は保証されなくなる。
Annex Aの重要性
先に述べたように、どのような場合であれ、ある符合位置を包摂分離もしくは統合分離すると、分離以前と以後では、情報交換上非互換となる。特に、UCSあるいはUnicodeでは、日本、中国、台湾、韓国などが、統合漢字領域を共有しているので、一部の国や地域の都合で行われた統合分離が、該当する文字を統合を前提として運用している他の国や地域で、混乱をもたらす可能性が大きくなる。
たとえば、(U+5409)と(U+20BB7)。業界では「サムライよし」と「ツチよし」などと称して、以前から話題に上ることが多いが。JISでは、一貫して、「サムライよし」と「ツチよし」は、包摂されている。
UCSにCJK統合漢字拡張Bが追加制定された際、この「サムライよし」に台湾の典拠により、独立した符合位置が付与された。ご自分のお名刺などに「ツチよし」を使っておられた方の一部には、欣喜雀躍してこの拡張Bの符合位置を用いて、電子メールなどに使われた方があるかもしれない。しかし、あにはからんや、JI X 0213に対応する符合位置にしか対応していないフォントで表示すると、文字化けというかこの拡張Bの符合位置が欠落してしまう事態となり、なんだかなあ、という結果を招来する。
文字情報基盤では、「ツチよし」にも文字図形名を付与し、今般、UCSの水平拡張によって、UCSの側にも、MJ文字図形名を日本典拠として追加してもらったので、規格論的には、いわば日本の漢字として堂々と使えるようには、なっている。
(ただし、JIS X 0213とMJ文字図形集合との関係は依然として変わっていない。即ち、JIS X 0213の面区点位置に対応するUCSの符合位置全体から成る文字集合と、MJ文字図形全体から成る文字集合では相互の情報交換は保証されない。)
このような問題は、IVDが絡んでくるとますます厄介になる。
例えば、ぼくの名前の一部の。これには、という異体字があって、IVDにも<9F8D,E0104>として登録されている。は、<9F8D,E0103>。
は、名刺など(特に楷書体で刷られたもの)でもそうだが、賀状や凧などにもデザイン的に好んで使われている。ぼくのオヤジも、ぼくの名前を書くときには、の字形を使っていたことを懐かしく思い起こす。
システムやアプリケーションがIVSをサポートしており、MJ明朝体フォントがインストールしてあれば、とを自由に使い分けることが出来る。システムやアプリケーションがIVSをサポートしていなかったり、MJ明朝体フォントがインストールされていなければ、UCSの規定では、VSの符合位置を読み飛ばすことになっているので、元のU+9F8Dに対応するフォントが表示される。
以下は、仮の話だが。
このに独立したUCSの符合位置が与えられたらどうなるだろう。
先に挙げた拡張Bの「ツチよし」と同様の事態が出来する。
日本が、IVDに汎用電子情報交換環境整備プログラムのコレクション登録を要請していたころから、IRGでは、新規符号化に当たって、それまでバイブル視されていた附属書S(いわゆるUnification Rule)に反する統合分離が散見されるようになってきた。また、IRGにはcognate ruleというのだが、字形が類似していても元々の意味が異なれば異なる符合位置を与える、というものがある。逆に言えば、cognateであれば、少々の字形の相異は捨象してunifyする、ということでもある。cognateかnon-cognateか、といった使い方をする。
しかし、このころから、IRGでは、字形が酷似していれば、non-connateであっても同一の符合位置を付与する、という流れが大きくなってきた。新規符号化の対象となる文字が、どんどん拡散し、固有名詞など典拠を明確に示すことが困難になってきた、という事情もあった。
そんなわけで、日本としては、IRGの場でコントロール不能となった非互換な統合分離に関して、国内でのUCS利用に伴うリスクを低減するための、防衛的な対応が必要となった。
ここで、日本が採った戦略が、Annex Aの積極的活用だった。
すなわち、Annex Aに日本の社会生活に必要な符合位置と符合位置の組を切ったコレクションを標準化し、このコレクションを明示することで、UCSに準拠した上で、使用する符合位置の範囲を限定しよう、というものだった。
UCSのAnnex A、翻訳規格のJIS X 0221では、附属書A(規定) 部分集合用図形文字の組のパートを見ても、さまざまな部分集合の名前と含まれる符合位置及び符合位置の組とをだらだらと羅列しただけのものにすぎない。では、なぜ、このAnnex Aが重要なのかというと、キモは規格書本体の4 適合性 4.3 装置の適合性のところにある。
ちょっと面倒だが、JIS X 0221:2022から該当部分を引用する。
「適合性を主張する場合、(中略)、採用した符号化形式、符号化方式、部分集合及び個条11に従って採用した制御機能の種類を明記しなければならない(部分集合は、組及び/又は文字の一覧によって示す。)。」
UCSに適合していると主張するためには、他のゴチャゴチャとした項目とともに、該当する装置で用いるUCSの符合位置を明記しろよな、符合位置すべてをダラダラと記述するのが面倒なら、Annex Aに記載されている組の名前を使ってもいいよ、ということ。
ぼくが文字コードの標準化に係わり始めたころは、装置やフォントの規格への適合性といっても、次々に新しく規格化された符号化方式や符合位置に対応していくことに精一杯で、装置から、不要な、もしくは、いたずらをする符合位置を排除した上で、規格適合性を主張するなどという必要性が顕在化することはなかったように思う。
拡張Bが規格化されて、康煕字典の見出し文字すべてが曲がりなりにも統合漢字に含まれるようになったころから、国や地域に特有の異体字を区別して使いたい、というニーズが顕在化してきた。汎用電子情報交換環境整備プログラムで、人名や地名に用いられる多くの異体字を拾い集めた日本も例外ではなかった。そんな需要に応えるために、随分以前に規格としては成立していたVSのメカニズムを、統合漢字に適用し、登録制度を設けることで国や地域による必要性の差異を解決しようとしたのが、Unicode Consortiumが提案した、IVD(Ideographic Variation Databese)の仕組みだった。
しかし、この仕組みは日本とUS以外のIRGのメンバーにはなかなか理解されず、規格の整合性という点からは目も当てられぬような非互換な統合分離が、繰り返されている。
このような状況の中で、日本の現代社会で必要不可欠な符合位置(と符合位置の列)とを、用途毎に明確にAnnex Aのコレクションとすることで、不要もしくは害悪を及ぼす符合位置を排除しよう、というのが、近来のJSC2(情報処理学会情報規格調査会SC2専門委員会)の基本的な戦略となっている。
Annex Aを用いれば、例えば、JIS X 0208だけとか、JIS X 0213の漢字部分とJIS X 0208全体とか、常用漢字と仮名文字だけ、とかいった部分集合をUCSの中だけで、宣言することが可能となる。
WTO/TBTとの関連
この実際に使用するUnicodeのサブセットとしての文字集合を明示することの重要性が増してきたもう一つの理由は、WTOやTBT協定といった貿易に関する国際条約の側から、国内の工業規格が非関税障壁とならないように国際標準に則った調達を促進する動きが強まったことがある。
例えば、現在では、JIS X 0213に適合した装置といえば、JISの面区点位置に対応するUCSの符合位置と符合位置の列のすべてをUCSの符号化方式で符号化したもの、といったことのなるが、かつてのShift JISなどは、典型的なWTO/TBT違反とったことになってしまう。
ちかごろ、デジタル庁で行政事務標準文字の策定が進んでいるが、これも、現時点でUCSにもIVDのMJコレクションにも対応する符合位置や符合位置の組を持たないものを標準化したりIVD登録した上で、Annex Aに新たなコレクションを切ることで、晴れて国際標準準拠を謳うことができるようになる。
国際標準とWTO/TBTとの関係については、下記を参照のこと。
CREPDL
ISO/IEC JTC1には、UCSのみならず、ある装置に用いる文字レパートリを明示的に記述するための言語が規格化されている。ISO/IEC 19757-7:2020。
この翻訳規格が、JIS X 4177-7 (文書スキーマ定義言語(DSDL)—第7部:文字レパートリ記述言語(CREPDL))。
国際規格、翻訳規格共々、悪友村田真(当協議会の副会長)が中心となって規格化を行った。
今後、地域や用途毎に、半ばカオスと化したUCSの中で、必要な符合位置と符合位置の組とを明示的に限定する用途はますます増大するものと思われる。そのためにも、機械的な処理でUCSへの適合性を検証できる仕組みの必要性も増してくることだろう。
CREPDLのJIS化経緯については、村田真の下記の報告が参考になる。
最後に
ちょっとまとまりのない流れになってしまったので、簡単に整理し直しておこう。
一旦統合されて同じ符合位置を与えられた文字を、複数の字体とみなして統合分離することは、規格の相互非互換となり混乱を招く。
それを避けるためには、メカニズムとしてはIVSを用いることが好ましい。
自国の状況に反して非互換な統合分離が行われた場合は、弊害をもたらす符合位置を排除するため、用いるべき符合位置と符合位置の列を明示的に宣言するために、Annex Aを用いることが有効である。
この方式は、国際規格に準拠した上で、国や地域のニーズに対応するという点で、WTO/TBTの観点からも好ましい。
以下2点について、意見を出します。
(1)「塚」の画像について、一部が「塜」(U+585C、MJ009218)になってしまっています。
「塜」の字形は(JIS X 0221以外の)JISの例示字形に使われたことがないようです。
(2)「自国の状況に反して非互換な統合分離が行われた場合は、弊害をもたらす符号位置を排除する」とありますが、他国が非互換な統合分離を行った場合は日本もそれにならって用いる符号位置を変更すべきで、そうしないとUnicodeに違反することになると思います。
例えば、MJ008040を使う場合はU+53F1 U+E0103のシーケンスは適切ではなく、U+2B738の符号位置を用いて表現すべきと考えられます。(もちろん、互換性の観点からU+53F1 U+E0103のシーケンスも入力されるデータとしては許容すべきですし、U+53F1 U+E0103のシーケンスに対してMJ008040を表示できるようにすべきであることはいうまでもありません)