文字コード技術部会

Code Technology

Character Code Technology

主査　山本太郎
アドビ株式会社

主な目的

コンピュータやインターネットなど、デジタル技術を用いて文書などの文字情報を伝達したり、文字の表示や印刷を行う場合には、文字コードが利用されます。文字コードとは、それぞれの文字に固有の番号を割り当てて、その番号をデジタルデータ（0と1の組み合わせ）にしたものです。その文字コードの割り当て方法を定めた、Unicodeという国際的な標準が定められ、現在の多くのコンピュータ上のソフトウェアはUnicodeに基づいた文字コードを利用しています。

ローマ字や、日本を含む東アジアの漢字圏で使われている漢字、日本の平仮名やカタカナや句読符号等に対しても、Unicodeの文字コードが割り当てられています。しかし、例えば、日本では、人名などを表記する場合に、同じ文字に対して、複数の異なる形を区別して用いる場合があります。例えば、次の「龍」という文字の場合、一つの例だけを挙げると、次のような異なる形が人名に用いられる場合あります。

従来の文字コードでは、このような具体的な漢字の構成上の差異を識別することはできませんでした。そこで、Unicodeでは、IVS（漢字字形識別子）という一連の文字コードを定義して、それを用いて、このような個別の具体的な文字の形に近いレベルの差異を識別することができるようにしました。この方法では、複数の用途や由来の異なるIVSの集合（IVD Colleection）を登録できるようにしています。IVSは、基本となる漢字の文字コード（基底文字）にVS（字形識別子）を後ろに付け加えた形になっています（上図参照）。

文字コード技術部会では、上記のIVS/IVDを含むUnicodeを用いる上での相互運用性の向上を目的とした調査・提案活動を行ってきました。それには、上記の異なるIVD Collection間の対応関係を定義したマッピングテーブルの作成などが含まれます。今後も、この部会では、IVSの相互運用性の向上を中心課題として調査・検討作業を継続し、問題解決に向けた提案につなげたいと考えています。さらに、将来的には文字コード全般に関係する、より幅広い内容を活動対象とすることが期待されます。

現在の活動内容

日本ではUnicodeが用いられる場合にも、特に人名や地名の情報を多く含むデータベースなどにおいて、上に述べたように、漢字の形のバリエーションを区別する必要が生じる場合があります。これらは従来、専用システム上で非標準的な特殊な文字コードを割り当てることで対応が行われてきました。このような現実のニーズに対応しながら、現代の国際的な文字コード標準であるUnicodeを用いて相互運用性の高い日本語情報処理をいかに実現するかが課題となっています。

国際的な文字コード標準であるUnicodeでは、前述のようにIVSを用いて、漢字の形の微細な差異を識別することを定めています。しかし、そのようなIVSを含む文字列を照合し並べ替える（コレーションを行う）方法については、現在まで標準的な方法が確立されていません。そのために、既存のデータベースをUniccodeベースに切り替える場合や、新しいデータベースをUnicodeベースで構築する場合に、システムやアプリケーション間で、IVSを含むデータのコレーション方法が標準化されていないために、一貫性を保つことができず、その種のデータ交換における予測可能性と信頼性が損なわれるリスクが指摘されていました。

現在、文字コード技術部会では、このIVSを含む文字列のコレーションを可能にする技術的な方法について調査と検討を進めています。最終的には何らかの実現可能な方法を提案し、課題の解決につなげたいと考えています。