字体と字形、改めて

ここ一年ほどお手伝いしてきた、デジタル庁の「地方公共団体情報システムにおける文字要件の運用に関する検討会」がひとまず終結した。当初、ぼくの方も、デジ庁の担当の方々も、ゴールの設定を含めて手探り状態だったのが、終盤にさしかかるころには（少なくともぼくの方では）目指すべき方向性というか、符号化文字集合を用いた公共的情報システムに求められる要件が何かについて、かなり明確に理解できるようになったのではないか、と思う。いまさらなにを、という声も聞こえてきそうだが、1995年にユニコードの技術委員会に顔を出すようになってから、四半世紀以上経って、自分が何をなし、何を考えてきたかが、ようやくほの見えてきた、といったところか。一区切りついたところで、過去をも振り返りつつ、いくつかの基本資料に触れながら、符号化文字集合とはいかなるものなのかについて、ぼくなりの考えをまとめておきたい。
というわけで、ぼくの符号化文字集合論、その一。

常用漢字表

字体と字形、初めの初め

[https://www.bunka.go.jp/kokugo_nihongo/sisaku/joho/joho/kijun/naikaku/kanji/]
まずは、この二つの言葉から始めよう。《字体》と《字形》。
この二つの概念の相違についての理解がなければ、そもそも符号化文字集合についての議論は成り立たない。とはいえ、関係者の間でも、符号化文字集合の文字集合が何を意味しているかについて、完璧な合意があるわけでもない。ユニコードにしてもJISの漢字集合にしても、文字とは何かについて開発者間で明確な合意があるとは言い難い。以下は、あくまでぼく個人の考え。
《字体》とは字の骨組み（骨格）を表す抽象的案概念。
《字形》とは、視覚的に認知できる具体的な字の形。
この概念の違いは、多分、符号化文字集合だけでなく、もう少し広い範囲の専門家の間でも共有されているように思える。例えば、内閣告示となっている常用漢字表。これは、符号化を前提としない純粋な文字表（文字集合）だが、字体概念と字形概念を明確に切り分けて記述されている。さすが。
常用漢字表を策定した側（文化審議会国語分科会の委員の方々と文化庁国語課の専門官）では、常用漢字表は字体集合だという明確な意識をお持ちだということがよく分かる。しかし、字体は抽象概念なので、それを視覚的にどう表現するかにものすごくご苦労なさっている。下記の記述など、そんなご苦労の跡がにじみ出ていて、何だかニヤニヤしてしまう。

「個々の漢字の字体については、現行の常用漢字表同様、印刷文字として、明朝体が現在最も広く用いられているので、便宜上、そのうちの一種を例に用いて示した。このことは、ここに用いたものによって、現在行われている各種の明朝体のデザイン上の差異を問題にしようとするものではない」（改定常用漢字表平成22年6月7日、(15)ページ）
ちなみに、この改定常用漢字表の印刷には、IPAMJ明朝体が用いられているのですよね。エヘン。
このような字体表の視覚的表現に明朝体フォント（活字）を用いるという手法は、JISの漢字集合でも採用されていて、これも、苦し紛れといえば苦し紛れながら、JISの規格票に印刷された視覚的字形は、あくまでも参考情報としての例示字形ということになっている。なので、JISについても（そして、UCSについても）、ここで引用した常用漢字表記述の後段には、まったくもって納得がいく。
さらにちなみに。常用漢字表の前身である当用漢字字体表は、ある意味で、むしろ潔い。明朝体ではなく、手書きのそれも太さに変化が少ない、太めの鉛筆で書いたような書体で字体を示している。この方が、字体は文字の骨格であることがより明確に伝わってくる。

[https://www.bunka.go.jp/kokugo_nihongo/sisaku/joho/joho/kakuki/syusen/tosin05/index.html]

『行政用文字の調査研究』（高田智和・井手順子・虎岩千賀子）

『行政用文字の調査研究における文字同定』（高田智和）

https://doi.org/10.15084/00002197
行政用文字の調査研究 : 汎用電子情報交換環境整備プログラム
高田, 智和,井手, 順子,虎岩, 千賀子,TAKADA, Tomokazu,IDE, Junko,TORAIWA, Chikako
日本語科学, 23, p. 95-110, 2008-04-22

https://doi.org/10.15084/00002218
行政用文字の調査研究における文字同定 : 辞書同定と辞書非掲載字に対する文献資料・非文献資料による同定
高田, 智和,TAKADA, Tomokazu
日本語科学, 25, p. 131-141, 2009-04-24

上記の二つの論文は、CITPCの理事でもあり文字情報基盤委員会の委員長もお願いしている国立国語研究所教授の高田智和さんの国研の紀要に掲載された論文。
この論文自体、人名に用いられる漢字の扱いがいかに困難ことなのかを、汎用電子情報交換環境整備プログラムから文字情報基盤整備事業に至る豊富な実体験に立脚して論じていて、自治体の現場で実務に係わる方々には、ぜひ、読み込んでいただきたいものなのだが、白眉は、じつは、この論文に掲載されている図。高田さんは、図よりも本文！と文句を言うかもしれないが、この図ほど、字種、字体、字形の違いを明確に示したものをぼくは他に知らない。というか、上にぼくが書いた説明など、この図を見れば瞭然、説明など全く必要ない、というものだ。
(img)(img)
左側が共著、右側が単著。字種、字体、字形の階層構造が一目瞭然。この図を目にするだけでも、両論文を参照する価値がある、というものだ。
あえて、言わずもがなの説明を加えると。これらの図が、優れているのは、字種、字体、字形の違いが階層構造で分かりやすく表現されているところにある。一つの字種に複数の字体があり、さらに、それぞれの字体にも複数の字形があることが、まさに一目瞭然なのだ。特に、左側の図で、一つの字体（明朝体の字形で代表させている）の下に、明朝体字形と手書き字形を並べて掲げてあるところ。まさに、字形が具体的な視覚イメージであり、字体が抽象的な文字の骨格であることが、簡単に理解できる。

字体と字形の狭間で（小林龍生）

文字情報基盤整備事業を例として

[https://www.jstage.jst.go.jp/article/johokanri/58/3/58_176/_article/-char/ja/]
拙論でいささか気恥ずかしいのだが、もう一つだけ、字体概念と字形概念の違いを理解するための、試行実験の例を掲げておく。
題記の論文は、国立研究開発法人科学技術振興機構（JST）が刊行していた「情報管理」vol.58 no.3,2015に掲載されたもの。手前味噌だが、わりとうまく書けていると思う。2016年に発表された文化審議会国語分科会報告『常用漢字表の字体・字形に関する指針』の編集を担当していた文化庁国語課（当時）の武田さんが、文字情報基盤整備事業の委員会が終わったとき、わざわざ、歩み寄ってきて、絶賛してくれた。ものすごく嬉しかった。
閑話休題。
この論文に、書いた思考実験。

簡単な思考実験で説明する。
さまざまな新聞や雑誌などから切り取ってきた多数の文字（具体的な字形の集合）を，視覚的類似性を手がかりに複数のグループにまとめる。まとまった字形のグループを，小さな箱か袋にまとめて入れる。これらの箱や袋に，他と明確に区別できる整理番号や固有の名前を付ける。
この整理番号や固有名を字体と見なすのである。
すなわち，同一の箱に入れられた字形は同じ字体に属し，異なる箱に入れられた字形は字体が異なる，と考える。
読者の多くは，はぐらかされたように感じられると思うが，情報技術としての符号化文字集合では，ラベル（整理番号や固有名）そのものを伝達や複製などの処理の対象としても，何ら不都合は生じない。逆にいえば，情報処理装置は，ビット列に還元でき
るラベルしか扱うことができない。
字体とは異同を判別するために字形の集合に付けられた固有名である。
(情報監理2015 vol.58 no.3 p177）

最初の常用漢字表の説明に戻ると、常用漢字表に印刷されている明朝体の文字も、新聞や雑誌、手書きメモなどから切り取ってきたさまざまな文字を入れた袋や小箱に貼り付けられたラベルのようなものなのだ。原理的には、このラベルは、文字として判別できれば、明朝体だろうが、ゴシックだろうが、手書きだろうが、どのような書体でもいいのだが、デザイン的に統一されていた方が見やすいし、間違いも起こりにくい、ということで、便宜上ある明朝体書体（この場合は、IPA MJ明朝体）に統一しておく、といったことと考えればいい。

常用漢字表

字体と字形、初めの初め

『行政用文字の調査研究』（高田智和・井手順子・虎岩千賀子）

『行政用文字の調査研究における文字同定』（高田智和）

字体と字形の狭間で（小林龍生）

文字情報基盤整備事業を例として

《抽象的な概念である字体は、何らかの具体的な字形を通してしか人に伝えられない。》

コメントする返信をキャンセル

常用漢字表

字体と字形、初めの初め

『行政用文字の調査研究』（高田智和・井手順子・虎岩千賀子）

『行政用文字の調査研究における文字同定』（高田智和）

字体と字形の狭間で（小林龍生）

文字情報基盤整備事業を例として

《抽象的な概念である字体は、何らかの具体的な字形を通してしか人に伝えられない。》

コメントする 返信をキャンセル

コメントする返信をキャンセル