「字形概念と字体概念の関係」「文字集合の独立性」と、符号化文字集合にとって重要な考え方について、述べてきた。最後は、「固有名詞の字体同定」について。
じつは、これって、結構厄介な問題なのだ。
この手の問題を考えるとき、ぼくがいわばバイブルとして参照する豊島正之さんの「JIS批判の基礎知識」を、再度紐解いてみよう。
https://joao-roiz.jp/mtoyo/on-JCS/mt-gene.pdf
固有名詞の典拠性について、下記のような記述がある。
1.1.1 旧 JIS の「文字概念」の語の問題
(前略)
文字の符号化自体は、具象的な図形そのものではなく、その概念上の存在に対して行われるものであり、且つ、 図形文字の概念は、(字義の差は図形差に反映されるという前提の下での) 図形概念に依存しているから、文字概念は、字義 (字の意味・用法) と字の図形概念とが相互に規定しつつ結ばれたもので、つまり、それ自体が記号で ある。
1.1.3 字義の合意 意味の指定は難しいので、字義の合意は、何らかの文献参照で替えられる事が多い。この場合、文献自体に就て の合意があれば参照底本とし易いので、著名な字典、法律、経典等を用いて、これらは既に本文と字体が定まって いるという合意を利用する。(中略) 尚、字義を殆ど欠いた固有名詞では、その名前を持つもの (referent) の存在を参照対象とするしかなく、同定は 時に困難で、「人の名前は本人が違うといったら文字は絶対違う」(坂村健,1997) と、同定を諦める見解も現れる事 になる。
豊島さんのこの部分は、JIS X 0208のいわゆる新旧JIS問題に関連して、《文字概念》について論じたものなので、必ずしも現時点でのぼくの立場と完全に一致しているわけではない。その上で、重要なのは、第一に、
「意味の指定は難しいので、字義の合意は、何らかの文献参照で替えられる事が多い。」この場合、(中略)著名な字典、法律、経典等を用いて、これらは既に本文と字体が定まって いるという合意を利用する。」
という部分。IRGが康煕字典(中華書局版)を典拠の中軸に据えていることは、豊島さんのこの部分の議論に見事に対応する。国際標準化活動としての符号化文字集合という立ち位置(すなわちぼく自身の立ち位置)で、重要なことはこの中華書局版の学術的な正統性云々(このアーティクルで省略した豊島さんの議論)ではなく、標準化活動の主体(ここではISO/IEC JTC1/SC2)として、康煕字典(中華書局版)を典拠の中軸としますよ、と宣言することなのだ。
UCSの統合漢字部分に、各カラムごとに典拠情報が記載されているのも、同じ文脈で理解することが出来る。すなわち、統合漢字として符号化するIdeographは、それぞれの国や地域のauthenticな辞字典類や公的な符号化文字集合規格、そして、公的な文字データベース(文字情報基盤の文字図形を国際提案するに当たって、日本の提案で追加された)など。IRGでの実際の文字同定の作業は、突き詰めると、それぞれの典拠に掲示されている文字相互の同定、ということになる。
そして、もっと重要なのは、後半。
「字義を殆ど欠いた固有名詞では、その名前を持つもの (referent) の存在を参照対象とするしかなく、同定は 時に困難」という部分。
要は、固有名詞の字体の異同については、当事者に聞くしかない、ということ。前々回のアーティクルで詳述したように、符号化文字集合で符号化しているのは、あくまでも抽象的で視覚的に見ることの出来ない字体。なので、ご本人に聞くべき問いかけは、例示字形を手がかりとして「あなたがお名前に使われている字体は、この字体集合の中のどの字体に帰属しますか」といったことになる。
行政事務標準文字に即して、前々回の思考実験(字体に対応する百均の小袋モデル)で考えると。電子化の対象となる行政文書(戸籍や住民票など)に含まれる人名や地名などの固有名詞を構成する文字について、小袋に貼り付けてある字形を頼りに、どの小袋に入れるのが一番適当かを探していくことになる。行政事務の担当者が迷った場合は(本来は迷わなかった場合も)、最終的にはご本人もしくはご遺族などの当事者に確認する必要があろう。
厄介なのは、当事者が、該当する小袋が見つかりません、とおっしゃった場合。
解決策は、二つしか無い。
一つ。字形が一番近そうな小袋を示して、これでいかがですか、と提案して納得してもらう。
一つ。新しい小袋を用意して、該当する字形を小袋に貼り付けて、新たな字体の例示字形とする。当然ながら、後者の事後的な手続きには、膨大な手続きとコストが発生する。
行政事務標準文字は、デジタル庁の担当部署が、各自治体の全面的な協力を得て、戸籍関連文書を中心とする現今の行政文書に現れる人名や地名などの固有名詞に含まれる字形を渉猟した上で、ある一定の粒度で整理統合した字体集合になっているので、後者の可能性は、限りなくゼロに近いだろう。
包摂規準(統合規則)の大切さ
ここまで来れば、考えなければならないことは、案外単純なことだ。
対象となる字形につき、字体を代表(represent)する例示字形とのある一定粒度の類似性のみに拠って、帰属する字体を選ぶこと。
その類似性を具体的に示したのが、他ならぬ包摂規準(統合規則)なのだ。そして、その包摂規準は、字体集合ごとにそれぞれ異なっている。
再び、豊島さんのバイブルを見てみよう。
1.1.4.1 精度規定としての包摂規準 実際に存在する字形は、一回限りの存在であり、二つとして同じ字形は存在しない。こうした存在を符号化する 為には、それらの図形的な差を捨象して、抽象化せねばならない。全ての字形 (加算無限) に符号を振る符号化は、 (理論的には可能だが) 現実的ではなく、「見た目により同一形状の文字は統合する」(坂村健,1996b) のが、符号化 の一般である。 (中略) こうした「捨象」をどの程度まで行うかに就ての合意が「包摂規準」であり、工業規格としての符号化文字集合 では、いわば情報交換の「精度」の規定であると見てよい。
この部分も、包摂概念の記述として、間然とするところがない。
特に、最後の行『情報交換の「精度」の規定』のところ。今までのぼくの議論に引き寄せると、文字集合が異なると(包摂分離が行われると)、包摂の精度が変化するのだ。言い換えると、文字集合が異なれば包摂規準も異なるのだ。ぼく自身は、このような包摂の精度を勝手に字体弁別粒度と呼んでいる。
さらに言えば、包摂規準は、文字集合全体に一律に適用されるものではなく、厳密には、集合の個々の要素となる字体毎に独立しているものなのだ。例を挙げた方が分かりやすいだろう。
たとえば、点のあるなし。JIS X 0213の「6.6.3.2漢字の字体の包摂規準の詳細」を見ると、d)1点画の増減の違いとして、124)大、犬(便宜上、該当する文字そのものを記しているが、実際には、偏や旁などに用いられる校正要素)が掲げられている。そして、(1-51-26)が掲げられている。CITPCの漢字検索ページの要素図形検索で「戻」をキーとして検索をかけると、(MJ043010、U+5533、<5533,E0103>と(MJ043250、U+5533、<5533,E0105)がヒットする。また、(MJ198250、U+6D66、1-86-83)、( MJ015472、U+6DDA、1-86-83)もヒットする。
細かく見ていくときりがないが、概ね常用漢字体は点なし、いわゆる康煕字典体が点あり、ということのようだ。ともあれ、ここでの議論は、構成要素としてやを持っている漢字でも、JISで包摂されたりUCSで統合されるものと、JISで包摂されなかったり、UCSで統合されなかったりするものがある、ということ。構成要素としてやを持つものの中では見つけられなかったが、前回のアーティクルで議論したように、JISで包摂されながら、UCSでは統合分離されているものもある。(ちなみに、JISで包摂されていないものは、原規格分離の原則を援用して、互換漢字に符合位置を与えている。)
簡単な例を挙げるつもりだったのに、かえってややこしい話になってしまったが。要は、包摂規準や統合規則といっても、全ての漢字に適用されているわけではなく、(標準化活動の当事者の一人としてははなはだ忸怩たるものがあるけれど、)結構いい加減に使われている、ということ。
さてと。気を取り直して、今回のアーティクルの結論めいたことを纏めておこう。
固有名詞に用いられる文字は、辞書や古典籍などの典拠があるわけではないので、字形のみをよりどころにして、対象となる符号化字体集合(前回の議論の文脈では、Annex Aを用いて宣言されたUCSのサブセット)のどの字体に紐付けるかを決定しなければならない。最終的には、当事者に、例示字形をたよりに、より近いと思われる字体を選んでいただくことになる。その際、字体集合の中では同じ字体とみなす字形の相異部分を列挙したリスト(JISでは包摂規準、UCSでは統合規則)が、判断のより所として有用だ。ただし、当事者が、この字体集合の中には、自分の姓を表記する文字(字体)が存在しないと、強固に主張されたときは、面倒でも、しかるべき手続きをとって字体集合そのものへの追加と、その国際標準化をやらなければならない。