ラウンドテーブル

文字情報技術促進協議会・独立行政法人情報処理推進機構国際標準推進センター共催

ラウンドテーブル「日本語の言語資産継承を目指して」記録公表にあたって

文字情報技術促進協議会では、独立行政法人情報処理推進機構が進めてきた文字情報基盤事業の一環として開発された文字情報基盤データベースの公開を記念し、同機構国際標準推進センターと共催で、日本語を下支えする言語資産としての文字データベースの将来の姿を探るため、識者による自由な討論の場として、「日本語の言語資産継承を目指して」と題するラウンドテーブルを開催した。 ラウンドテーブルの概要は、下記の通りである。

 

 ■ 日時:2016年10月26日(水)14時〜17時
 ■ 会場:日本マイクロソフト株式会社 品川本社 VIP Board Room

(敬称略)
 ■ 報告者:

  • 田代秀一(独立行政法人情報処理推進機構 国際標準推進センター長)
  • 高田智和(国立国語研究所准教授、当協議会エキスパート)
  • 神崎正英(ゼノン・リミテッド・パートナーズ代表)

■ 討議者:

  • 坂倉基(KADOKAWA)
  • 西田裕一(平凡社)
  • 山形巧哉(北海道森町役場)
  • 山本太郎(アドビシステムズ、当協議会副会長)

■ コーディネーター:

  • 小林龍生(当協議会会長)

 討議は、主催者側の当初の予想をはるかに超えて、広範な論点についての奥行きのあるものとなり、今後の活動への多くの示唆を得ることが出来た。 この議論を、単に文字情報基盤事業および当協議会の文字情報技術促進の活動に資するのみならず、さまざまな方面で、日々日本語の言語資産を守り次の世代に伝える営為を続けている方々とも共有したく、このささやかな記録を公表することとした。各位のご高評を乞う次第である。

《謝辞》

 このラウンドテーブルの開催と記録作成には、多くの方々にお力添えを頂戴した。記して謝意を表す。
 ラウンドテーブルの報告者、田代秀一さん、高田智和さん、神崎正英さん、討議者の坂倉基さん、西田裕一さん、山形巧哉さん、山本太郎さん、そして、オブザーバーとして参加してくださった方々。
 参考文献の再掲を快諾してくださった平本健二さん、師茂樹さんと、科学技術振興機構情報管理編集部、国立国語研究所、漢字文献情報処理研究会。
 快く会場を提供してくださった日本マイクロソフト株式会社。
 そしてなにより、この記録に形を与えてくださった仲俣暁生さん。

 

第一部:報告

田代秀一(独立行政法人情報処理推進機構 国際標準推進センター長)
「文字情報基盤が目指す世界」

高田智和(国立国語研究所准教授、当協議会エキスパート)
「文字と文字とをつなぐ」

神崎正英(ゼノン・リミテッド・パートナーズ代表)
「MJデータベースとリンクする漢字データ」

※本ラウンドテーブルの第一部では以上の三名がそれぞれの視点から報告を行った。
(各報告者のプレゼン資料及び関連論文を巻末付録に収めた)

報告①

田代秀一 (国際標準推進センター長)

「文字情報基盤が目指す世界」

【概要】
文字情報基盤(MJ)プロジェクトを推進する独立行政法人情報処理推進機構の立場から、「電子行政の共通基盤としての文字データベース」の必要性について述べる。文字データベースの重要性は、オープンデータへの流れをみても明らかだ。アメリカでは2001年の同時多発テロを契機に政府が情報公開に積極的に取り組み、Open Governmentの流れができた。日本でも2011年の東日本大震災を機に、被災状況の共有や被災地支援のためのオープンデータの必要性が認識された。議論の高まりをうけて政府は「電子行政オープンデータ戦略」(2012)を策定し、さらに「世界最先端IT国家創造宣言」が発表された。このなかに文字基盤、語彙基盤の推進という方向性がはっきりと書き込まれている。
こうしたなかでIPA国際標準化推進センターでは、「文字情報基盤整備事業」と「共通語彙基盤整備事業」の二つを柱とし、文字や語彙の標準化と、それらをデータベース化し価値を生み出すための基盤づくりを進めてきた。
2010年から始まった文字情報基盤では、常用漢字(2,136文字)、JIS漢字コード(10,050文字)、戸籍統一文字(漢字55,270文字)、さらに問題の多い住民基本台帳ネットワークシステム統一文字(漢字19,563文字)を包含する、約6万字(58,814文字)の漢字をIPAmj明朝フォントによって提供した。マイナンバー制度の導入で人名の正しい漢字をコンピュータで扱う必要が強まっている。IPA国際標準化推進センターでは、これらを整理して国際標準化にも対応しつつ、フォントのかたちに実装して誰もが使えるようにしている。
ひとくちに文字といっても「字形」と「字体」のレベルがある。「字体」とは具体的な文字のデザインを意味する「字形」の上位にある、抽象的な文字のかたちのことだ。文字情報基盤が扱うのはこの「字体」の部分であり、その国際標準化作業を積極的に進めている。
「字体」だけでなく、このラウンドテーブルの報告者でもある神崎正英氏と共同で、RDF(Resource Description Framework)による文字情報記述と、文字の関係性をデータ化する試みを始めたところだ。今後は情報交換の基礎にとどまらず、人間のあらゆる活動の基盤となる情報をレジストリ化し、活用できるようにしていくことが必要である。

 

報告②

高田智和 (国立国語研究所准教授、当協議会エキスパート)

「文字と文字とをつなぐ」

【概要】
文字を同定する、つまり「同じ文字」、「別の文字」をどう判別するか、という話から始めたい。漢字には「形」「音」「義」の三要素があり、これを手がかりに同定することが多い。とくに文字は目に見えるものなので、まずは「形」が手がかりとなる。
同じ字のようでも、「字形」のレベルでの違い、「書体」のレベルでの違い、同一書体内の「デザイン」の違いによって、「別の文字」と認識されることもある。あるいは、「字形」に対して、より抽象的な「字体」のレベルでの違いもある。字体レベルでの形の違いは、異体字の存在を知らなければ「同じ字」であることに気づけない。文字は字種・字体・字形という順で階層構造をなしており、これらを整理して考えなければならない。
2002年度から08 年度にかけて、国立国語研究所、情報処理学会、日本規格協会の三者でコンソーシアムを組み、経産省の委託事業として「汎用電子情報交換環境整備プログラム」を行った。この事業の目的は文字情報交換の安定性と信頼性を高めることで、行政事務の電算化において、個々のシステムに登載されている文字の集まりを調査した。
このなかで国立国語研究所のミッションは、「文字情報の整理・体系化」であった。住民基本台帳ネットワークシステム統一文字(住基統一文字)、戸籍統一文字、登記統一文字の間の相互対応付けをはじめ、国の漢字施策や、符号化文字集合、さらには漢和辞典類との対応付けまでをこのプログラムで実施した。その成果物が「文字一覧表」である。文字情報基盤による「MJ文字情報一覧表」は、このときの成果を踏まえてつくられたものだ。
今回の「MJ文字情報一覧表」では、「MJ文字図形」をハブとして、さまざまな文字セット(戸籍統一文字、住基統一文字、X0208、UCS、常用漢字表、大漢和辞典など)が相互にリンクしあっている。こうした異なる文字の集合間で「文字と文字をつなぐ」ためには、文字の形の階層を設定することが肝要であった。異体字のグルーピングや体系化には、用途や対象となる集合によって束ね方が異なり、汎用的なやりかたは存在しないが、計量言語学的なアプローチによって打開できるかもしれない。

 

報告③

神崎正英 (ゼノン・リミテッド・パートナーズ代表)

「MJデータベースとリンクする漢字データ」

【概要】
漢字のデータベース化は、テーブル(表)を用いた方法では、異なる文字情報(行政文字、辞書などの文字集合や字体、字形など)の関係を表現することが難しい。より望ましいモデルをもとめて研究してきたことを報告する。
漢字のデータベースを一覧表にすることの困難は、「横一列がひとつのレコードで、縦軸にいろいろな属性がある」というかたち、すなわち項目と値による「属性値ペア」という形式にすっきり収まらないからだ。そこで、この二つの値に、その主体となる対象を組み合わせ、「対象―属性―値」の三つの情報によって表現するグラフモデルの利用を検討した。
たとえば「楽」という漢字の総画数は13である。ここでは「楽」「総画数」「13」の三要素がグラフを形成する。「楽」と「13」を節点(ノード)とし、両者を結ぶ弧(アーク)には「総画数」というラベルを貼る。そうすることで、対象や値が同じ(同じ文字、同画数など)の場合は節点を介し、グラフ同士を連結することができる。また、この方法で入れ子構造になったグラフも表現可能になる。こうした方法をとることで、一覧表では表現できない複雑なものを表現できるのがグラフモデルの特徴である。
さらにこの「対象―属性―値」に対してURIを与えることが、文字の同定において有効な方法となる。対象にURIを与えることで、その対象に対してLinked Dataの方法で語ることが可能になる。漢字においては「字種」「字体」「字形」「用例」をリンクさせて表現できるほか、漢字に関する文献や論考もこれらとリンクさせることができる。
この方法をMJデータベースに対して用いることで、さまざまなことが実現できる。あるMJ文字図形を、「戸籍統一」「住基統一」「入管正字」「登記統一」「JISX0219」「常用漢字であるか」などのアークで行政文字と結びつけたり、さまざまな辞書の「検字番号」や「要素図形」、「平成明朝」といった書体や、「戸籍法上の人名漢字に対応する常用漢字」といったアークで対応要素と結びつけ、文字や情報を表す関連ノードを一つの集合として表すことができる。
この関連付けにはそれぞれの文字や情報をどのように名指す(識別する)かが重要だが、一般の人がある漢字を思い浮かべたとき、その「代表」にあたる識別子が存在しない。これを名指せばこの漢字について語ることができる、という代表的な「漢字情報」がURIとして示され、そこがハブとなって漢字をめぐる様々なデータがリンクするような仕組みが求められる。

 

第二部:討議

日本語の言語資産継承を目指して


行政実務にどう生かすか

■小林 まず、このプロジェクトが当初から一番の利用者層として想定していた地方自治体職員の立場から、山形さんの感想をうかがいたい。できれば、思いっきり現場に即した素人的な視点でお願いしたい。

■山形 今日は初めて聞いた内容が相当に多く、たいへんためになった。共通語彙基盤はすでにある程度使っているので、今日の話を聞いて、さらにこのように推進していけばいい、というイメージが湧いた。
だが行政マンという立場の一ユーザーとしていうと、文字情報基盤については、どう使っていけばいいのか、わからないところがある。みなさんのお話を聞きながら、うちの町の職員に、どうしたら難しいことを意識することなく使ってもらえるのか、と考えていた。いまはあくまでも基盤を作っている段階で、具体的な利用方法などについてはこれから、ということなのか。あとはメーカーや利用者側でうまくやってくれよ、というニュアンスなのか?

■田代 IPA(独立行政法人情報処理推進機構)のプロダクトとしては、文字情報基盤に関しても、MJ明朝フォントやMJ文字情報一覧表、さきほど紹介した文字情報基盤データベースやMJ縮退マップなど、いろいろなものを提供している。
その目的は、日本に現在1700ほどある自治体がバラバラに人名外字を作り、相互運用性がなくなっている実態を解消することにある。すでに文字情報基盤データベースを導入している自治体も出てきているが、文字情報基盤の成果物を導入する方法は、大きく分けて二通りある。
一つはIPAのMJ明朝フォントをまるごと導入して、これまでのシステムに対応づけた上で置き換えてしまうやり方だ。もう一つのやり方は、すでに情報システムが導入されている自治体でも、たとえば戸籍のシステム、住民基本台帳のシステム、職員の給与管理システム、あるいは税などのシステムなどがあり、いろんな会社がバラバラに作っている場合が多々ある。そういう場合、それぞれで違う外字を使っていたりするので互換性がない。そこで、MJ文字図形を軸にして、それらを対応づける表やフォントや一覧表を作り、システムを更改するときに使ってもらう。
文字情報基盤データベースは、各自治体の現場の職員が使うことも想定している。たとえば窓口にどこかから転入してきた人が来て、「自分の名前はこの字でやってほしい」と言ってきたときに、すでに使っている字との対応関係を検索で見出す、といったときに使えないか。実際に、大量に代替文字を決めなくてはいけないときに使っていた自治体もある。人間とのインターフェイスで文字情報基盤データベースを使う部分は、現場でそうした検索などに使っていただけると嬉しい。
APIとしてはシステムベンダーが何かの新しいアプリケーションやシステムを構築するときに使うことも想定している。我々がまだ思いついていない面白いアプリができてほしい。神崎さんが作られている「ビジュアライズ辞書」からはすでに繋いでいただいているが、そうしたものが他にも出てくるだろう。使いやすく機械可読的なものとしてデータを出しておけば、あとから我々が考えも及ばない使い方も出てくるだろう。そういうことで、具体的に何かをあらかじめ考えているわけではない。

■小林 このデータベースを利用して、ベンダー側は何かビジネスができそうか?

■オブザーバー(久良木、富士ゼロックスシステムサービス株式会社) 一つのきっかけにはなる。今後、機械と人間がコミュニケーションをとるときの共通の軸になるのではないか。これまでは文字とは人間が読むものだったが、機械にも認識させられれば、そういうところでも使える。
ただ、私たちをふくめ、現場のSEたちが、文字情報基盤のことをまだよく知らない。文字についての考えがきちんと整理できていないのは共通の指針がないのが大きな原因の一つなので、このあたりへのコンサルティングなど、いろんなかたちでビジネスの発展がありうる。ただし使いこなす側と、使わせたい側がうまくつながらないと「場」が生まれない。そういう意味でも、このようなラウンドテーブルという場で議論を進めていくのは意義がある。

■オブザーバー(袴田、日本電気株式会社) 弊社でも文字情報基盤に対して、いろいろな外字込みの業務システムがもっている固有の文字セットを整理するための、リファレンスとなる対応表を作っている。その対応表を作るのはけっこう大変で、結局、いまは字形だけに着目している。文字情報基盤データベースは、自社のもの以外の、もう一つのレファレンスとして使える。
こうした対応表は、いまは静的(スタティック)に作っておくしかないが、文字情報基盤データベースのAPIをうまく使うと、動的に作れるかもしれない。
行政で持っているデータを、ビッグデータ的な解析の対象にすることの是非は別として、データ自体が日々更新されて変動する場合、事前に全データの対応表を作っておくことは現実的には不可能だ。扱う文字の集合を、ある程度まで小さくしないと解析自体もやりにくいので、こういうデータベースと連携して、動的にマッチングして縮退していくしかない。

■オブザーバー(下川、イースト株式会社) 2000年にXKP(WindowsNT漢字処理技術協議会)というPUAの6400のエリアに動的に文字を割り当てていくというプロジェクトをマイクロソフトさんと一緒に推進した。これはとても楽しいプロジェクトで、利益も出た。紀伊國屋書店さんの『今昔文字鏡』をはじめとして、これまでいくつかの文字ソリューションや自社開発のパッケージ製品を提供してきたが、いまもそのときの1880文字の文字セットが売れていたりする。
そうしたなかで、文字情報基盤データベースがなかなか広まらないのは、さきほどの方が言われたとおり、まだこの仕組みとサービスが知られていないからだ。システムを更新しないと文字情報基盤ベースにならない。文字というのはITの「米」なので、その部分の認知とシステムを変えていくという作業が大変だ。そのために広がらないのではないか。

■山形 ありがとうございます。文字情報基盤の話を聞いたとき、森町でも使えないものかと、いろいろなベンダーと話をした。そのときに、文字のクレンジングが大変なこと、基幹系システムなので入れ替えのタイミングでないと絶対に無理だということを言われた。森町の基幹系システムはNECの汎用機を使っていて、入れ替えのタイミングとなるとNECさんの対応も必要となる。そのために、まだ文字情報基盤に乗ることができていない。
さきほど、データベースで検索して出た外字を使えば、職員も使えるとのお話があったが、じつは文字情報基盤データベースができたとき、すぐに利用してみようと思った。IPAmj
明朝フォントを入れて、学校の先生に「これを使えば子どもの名前もポンと出せる」と説明しようとしたのだが、データベースで検索した漢字が出ても、それをパソコンに表示できなかった。私は電算担当でマシンは得意なつもりなのだが、私にもできなかった。メーカーの方は「こんなに簡単にできます」というが、やられていることが高度で、エンドユーザーにとっては敷居が高い。我々にとっては「そんなの難しい」という世界であり、そこはなんとかしてほしい。

■田代 文字情報基盤には、エンドユーザーの使い勝手を追究しきれていないところが、たくさんあるのは確かだ。ただ、データベースの検索で出た文字が別のアプリケーションに入れられないのは、国際標準化が終わっていない字が残っているせいもあり、それらは図形で入れるしかない。それ以外の字はIVSに対応しているアプリケーションソフト、たとえばマイクロソフトのWordなどの、それなりに新しいバージョンならば大丈夫なはずだ。対応フォントをインストールし、アプリケーションも対応しているなど条件がすべて揃っていれば、必ず出る。ただし、国際標準化が終わっていないために出せない字もいくつかあり、バリアがあることはたしかだ。
ベンダーの対応には、いくつかの方法がある。フォントをまるごと置き換えるのも一つの方法で、実際にそれをやった自治体もあるが、現状ではあまりお勧めできない。IPAが提供しているMJ文字情報一覧表をハブにして既存のフォントと対応付けておけば、別のシステムへの接続も作りやすくなる。そうしないと、n通りのシステムをつなぐために、n×n通りの対応マップを作らなければならなくなる。実際、そういうやりかたで導入している自治体もいくつかあると聞いている。

■小林 議論の初っぱなから、文字情報基盤事業の現在の問題点と、目指すべき方向性が少し見えてきたような気がする。

 

字体と字形のはざま

■小林 MJ文字図形一覧表の役割の一つは、さまざまなシステムに含まれる外字の同定と交換の軸として使うことだ、という話が出たが、同定の基準をどうするか、というのは頭の痛い問題だ。高田さんのプレゼンテーションにあった、字体と字形の問題もある。

■山本 平成14年度から平成17年度にかけて実施された汎用電子情報交換環境整備プログラムでは、戸籍統一文字及び住民基本台帳ネットワーク統一文字を対象として、人名、地名等に使用される文字について調査研究を行い、また登記などに使用される文字についても対象として、文字情報データベースの整備を行った。そのときは、明朝体のなかでの◯◯明朝体と✕✕明朝体の差異のような純粋にデザイン上の差異と、それ以上のレベルで識別すべき差異との境界を、どう引くかということが、難しい問題だった。
歴史的様式である明朝体にも多様なデザインが存在している。汎用電子のデータベース用にデザインされた書体は平成明朝体だったので、そのデザインの一貫性を維持するために、デザイン上の微細なバラつきを統一する、「デザイン統一」の作業を行ったが、これは必ずしも完全には実現できなかった。今回のIPAmj明朝フォントでは、あえてデザイン統一はしなかったと聞いている。

■小林 汎用電子でデザイン統一した文字を、文字情報基盤でもう一度作り分けたことを指しているのか。

■山本 そうだ。純粋に書体デザイン上の観点からは、本来同じデザインに統一するべき文字の形を、IPAmj明朝フォントでは、そうはせずに、微細な文字の形の差異を区別してどちらも利用可能にした場合があるということだ。
本来はデザイン差であるべき文字の形の差異を、そうではないと恣意的あるいは意図的に断定してしまって区別することにしてしまうと、文字をデザインする上での自由度が狭くなり、むしろ書体デザインの多様性を損なってしまうことが危惧される。
もちろん、何らかの理由で微細なデザイン差を別の文字として区別する必要がある場合もあるのかもしれないが、どういう場合に、どのような根拠でそれが許容されるのか。汎用電子情報交換環境整備プログラムと、その後の文字情報基盤整備事業の間でデザイン差についての対応が異なることになった事実は、過去から今後の教訓を得る上でも、慎重に再吟味する必要があるのではないか。

■小林 いまの山本さんの問題意識は、重要なポイントだと思っている。行政実務の現場では、一旦区別してしまった字形の相異を、それがフォント設計の視点からは単なるデザイン差であっても、システムの後方互換性の観点から区別を維持して欲しい、という強い要望があった。そのことと、今後の問題として、社会全体として、字形の微細な差異に拘泥しない方向に持っていく、という話はまた別のものだろう。
田代さん、そもそもMJ文字図形一覧表の文字図形というのは、字形レベルのものなのか字体レベルのものなのか。

■田代 あれは「字体」を示しているつもりだ。

■オブザーバー(武藤) MJ文字情報のそれぞれのレコードに例として示されている図形(字形)が、字体とその属性情報情報と一体化してしまい、非常に混乱をきたしている。

■田代 それは先ほどの神崎さんの問題提起に戻る。どうしても図形が欲しいのであれば、ワイヤーフレームみたいなもので文字を表現するしかない。

■小林 かつて当用漢字表でやった針金文字がそれにあたる。

■オブザーバー(守岡、京都大学) GT書体も同じことをして作った。過去、何度も同じような夢があって、かえって傷口を広げてきた面がある。

■小林 形をもたない、抽象的なレファレンスとしてのモデルがあると心強い。字体と字形の関係についてはずっと考えてきたが、喩えて言えばこういうことではないか。同じ字体に属すると思われる字形を集めてきて、100円ショップで買ってきたビニールの袋に入れる。そしてその袋に対して番号をつける。そのビニールの袋につけた番号のことを「字体」と言ったらどうか。
字体というものは、なんらかの字形を通してしか表現できない。そこにものすごいジレンマがある。だったら字体というものに対して、いっさい字形をもたない、URLかURIのような抽象的なものを置いて、「空ノード」みたいな代表字形をもたない字体表現をしたらどうか。
そういうモデルに対して、多くの人が使える安定したURLが普及したらいい。なおかつ、この字体は何かといったとき、いくつかのわかりやすい字形の集合を示すような、抽象的な字体をビジュアライズして認知させる仕組みがほしい。

■オブザーバー(守岡) 現在CHISEとUnihan Database とGlyphWiki は相互参照している。ようするに同じような文字の同定を、グループ間で相互にしあうようなネットワークを作っている。こういうやり方のほうが現実的ではないか。

■神崎 表のなかに入っている個々の要素が、まったく別の表として独立してあるのか、それとも集合同士が重なっているけれども違う表なのか、というところによって違ってくる。ぜんぜん違うものなら、いったん何かにマッピングした上で繋ぐしかない。
現実的にはいまは、皆がUCS(ISO/IEC 10646)に一回マッピングして、同じUCSを指す、というところで双方いちおう繋がるというケースが多い。では、UCSは何を表しているのか。「キャラクター」といっているが、あれは概ね「字体」でよいのか。

■小林 概ね「字体」だ。ただし複数の字体を統合して一つの「キャラクター」としているケースがしばしばある。

■神崎 そういうレベルであれば、いまはUCSを介して表同士を繋ぐことはできる。それとは違うレベルで繋ぎたければ、マッピングのためのあらたな何かが欲しい。

■小林 マッピングとは、「私はこの文字をUCSの符号域にマッピングします」という一種の宣言(declaration)であって、それ以上でもそれ以下でもない。
守岡さんの考え方は、UCSにマッピングしている文字の表が複数あったとして、それらが相互にスクラムを組む感じで、UCSというよくわからないものを支えている。そうしたマッピング情報の総体がUCSだという理解でいいのか。

■オブザーバー(守岡) 実際には個々のアプリケーションごとに、そういうマッピングが成立しうるセマンティクスを採用している、という使い方をせざるを得ない。MJ文字情報一覧表で行くとしたら、そこに書いてあり、その記述に矛盾しないセマンティクスを採用していることになる。

■神崎 何かの表がこの表に対してマッピングしてあって、相手もこの表に対してマッピングしてある、ということによって初めて両者の間のマッピングは成り立つ。いまUCSがそのための一つの表になっているとすると、それとは別の意味でのマッピングのための表というものは、ありうるかもしれない。
さきほどの報告で辞書のエントリーがその可能性を担うかもしれない、とお話ししたのは、「この字とこの字とこの字は一つにまとめる」ということを、それぞれの辞書がやっているからだ。それは表にはなっていないが、そのまとまり自体を固めると、新しい表になる。そのまとめかたに賛同するかどうかはわからないが、それに対してマッピングすると、いまとは違う文字と文字の繋がりが、たぶん出てくる。

 

思想としての文字の表

■小林 どうも、話を聞いていると、文字の同定というのは、個々の文字を見ていただけではだめで、その文字が含まれる文字の表全体の中で考えなければならない気がする。 このラウンドテーブルに先立ってメーリングリストでやり取りをした。今日はいらしていないが、そのなかで花園大学の師茂樹さんが『デジタル時代の文献目録』という面白い論文を送ってくれた。その論文で師さんが書いているのは、「文献目録は思想を表している」ということだ。論文の文献目録や辞典に採録されている項目リストのなかに、まさに思想が現れてくる。たとえば百科事典というのも、まさに一つの思想の表明だ。 そうした文脈のなかに置いたときに、「文字の表」とは、いったいどういうものなのか。それをもう一度確認しておきたい。議論のボトムラインだけ先に言ってしまうと、一つの文字の表があれば、当然そこには一つの考え方があるし、別の表があればそこには別の考え方がある。いま僕が言っている「文字の表」とは、たとえば常用漢字表とかJIS0213とか、角川の『新字源』の見出し字のリストなども含めたものだ。坂倉さん、『新字源』と『大字源』の思想はどう違うのか。

■坂倉 『新字源』は、日本語における漢字をよく理解するためには、古典漢籍における漢字の意味や用例をよく把握する必要がある、というスタンスで作られている。つまり漢籍の用例、漢籍に出てくる熟語をベースに作られた漢和辞典だ。『大字源』はそれに加え、紙幅の関係ですべてが載せられるわけではないが、例えば平安時代の日記文学や、多くの日本語の古辞書に現れてくる当時の熟語や語彙までをとりこんで拡大して作られた。その結果として『大字源』は熟語見出しの数そのものがかなり多いが、思想という意味であれば、そこが大きなポイントだ。

■高田 当用漢字表と常用漢字表では、たしかに思想が違う。当用漢字表はこの範囲でやりますという制限のための表だ。日本語を書くときに、漢字で使うのはここまでですよという、「制限としての思想」が現れているといえる。だが昭和56年に常用漢字表ができたときは、「この範囲のなかで頑張りましょう」という一応の目安、努力目標になった。ここには明確に思想の転換がある。最近の「新常用漢字表」は、そういう意味での思想の転換はあまり感じられない。

■山本 それは文字の表がprescriptive(規範的)か、descriptive(記述的)であるかという問題だ。当用漢字表は規範的なものとしてあった。現在の常用漢字表は、そこからは大きく変わってきたが、まだ規範を示す表として機能しているように見える。

■高田 規範性はある。しかし、規範意識は変わってきていると思う。

■山本 規範的であらねばならないということが、たとえばJISの例示字形の変更の際に激しく議論されたような問題に影響を及ぼしてきたのではないか。

■高田 フォント作成の現場には、ひとえに迷惑をかけていると思う。

■山本 これは専門外の私の個人的な印象に過ぎないが、これからの文字の表は、より記述的に、つまり、あるべき文字の規範を示すというよりは、むしろ現実に使われている文字を記述していく、という方向に変化していくのが良いと考えるが、専門家の方はどのように考えられるか。言い変えれば、どこかの委員会が「こうあるべきだ」と考えた文字を示すのではなく、時代とともに変化している文字の姿を記述していくという方向に切り替えたほうが良いのではないか。

■高田 だんだんとその方向になってきているのではないか。

■小林 改定常用漢字表は、規範性よりも記述性を重視する方向になっている、と。だが、文字の表は内閣告示訓令になった途端、策定した人たちの意図とは無関係に、ある種の規範性をもってしまう。

■高田 たしかに規範性があるので、それに対してこんどは過度な反応が出てきてしまう。たとえば、その文字の表に示された漢字の字形をどうするか、といった細部にまで規範意識が及ぶことになる。 当用漢字表・常用漢字表は本来そこまでは意図していないのに、そういう使われ方をしてしまった。その産物が住基統一文字だ。当用漢字表や常用漢字表のもつ規範性に対して過度に反応して運用してしまった部分が、住基統一文字の歪みとしてある。

■坂倉 辞書を作るうえでも、規範性と記述性がポイントになる。「字」というものは相対的に扱われるべきだが、ある文字を「見出し字」や「親字」として選定して決める段階では、どこかに規範を求めなければいけない。いま私たちが漢和辞典を作るうえで直面している問題で大きいのは、高田先生が仰ったとおり、あの漢字表に載っている字形はあくまで例示字形でしかない、ということだ。本来は抽象的であるはずの字体を、一つの字形で表現しているにすぎないのに、それを規範として扱ってしまい、見出し字に掲げることにどういう意味があるのか。このことについて、私たちも自覚的にならなくてはいけない。 文字コードの問題もこれと一緒だ。ある字形に対してコードを振るのか、それともある字種や字体に関してコードを振るのか。どのレイヤーで符号化するかといえば、漢和辞典の親字は「字形の集合」だが、いわゆるデザイン差のように、字体としてはほぼ同じだが、字形差がある字もある。それらに対してすべて同じコードを振ってはいけないのか。むしろその集合に対してコードを振るべきだ、という考え方もある。実際に漢和辞典を使う人たちが生活レベルで読むことを考えたとき、そのあたりでもう少しできることがあると思う。

■西田 あまりに素朴すぎる話だが、平凡社という会社の「平」の字はかたちが特殊だ 。ふつうの平ではなく、点の部分が八の字のように末広がりになっている。交換という観点からは、特殊な字形だと検索できなくなるので、本来は普通の「平」のほうがいい。表現として、ロゴみたいなものとして使うのであればよいが、「交換の文字」としての漢字と「表現の文字」としての漢字とは切り分けて考えなくてはならない。ところが両者の領域は曖昧で、どこで線を引くかがものすごく難しい。末広がりの「平」も、交換のためのものだと主張することもできる。そのあたりは僕らもまだよくわからないところがある。 名前に使われる漢字は、画数が大事であったり、弊社の名前のように「末広がり」などの意味をもってしまって、どうしても「表現」になってしまう。だが「表現」の部分と「交換」とはどこかで明確に区別しないとダメで、全部取り込んでしまうとグチャグチャになってしまう。

■坂倉 どの漢字、どの字形をチョイスするかというところで、すでに思想が表現されている。

■山本 文字の表は、当用漢字表のように手書きの表もあるが、多くの場合、なんらかの印刷書体をつかって印刷・配布される。手書きの場合には、手書きなりの、印刷物としては印刷物なりの、視覚的な表現物になる。そこでは、文字の形(手書きの場合は書法や筆法、印刷物の場合には、タイプフェイスデザイン)やその配列について、審美的な価値判断が伴う。漢字の表もまた審美的な対象になりうる、ということも忘れてはいけない。

■小林 「思想としての文字の表」という話題で想定していたのは、あくまでも字体集合のことだった。しかしいまの山本さんのお話を伺うと、字体は字形を通してしか、表現することも認識することもできないから、どういう書体や字形を使って文字の表を表現するかということ自体にもある種の主張が現れざるをえない、ということになる。

■田代 神崎さんがさきほど「楽」という文字を例にとり、普通の人がこの字を表現するために思い浮かべるのは何か、という話をなさった。いろんな異体字も含めたバラエティを含んだ全体という抽象的なものを、どの字で代表させるかという話だった。しかし「普通の人」といっても、中国人と日本人でも違えば、日本人のなかでも人によって違うかもしれない。それをどう決めるかはともかくとして、「代表的な文字だけが並んだ表」があると嬉しい。文字のバラエティは、別のかたちでそこにプラスしていけばいい。平凡社の「平」の場合も、代表的かつ抽象的な文字に対してコード化がなされていて、それに対する「末広がり」のようなバラエティは別のかたちで指していけばいい。いまのJISやIVSをそうした形に分離できると美しいので、そのための抽象化のやりかたが何かできてほしい。

 

語・文字・字体記述要素

■坂倉 高田先生のお話のなかで、漢字の語釈が表示されていた。先生の前で申し上げるのは口幅ったいが、辞書に現れる漢字と漢字の関係性は、ものすごく圧縮されているし、ある面を切り取ってしか表示できていないという問題がある。 一例を挙げると、ある見出し字の異体字が四つ書いてあったとして、実際にはそのなかに「異体字の異体字」が含まれている場合がある。しかし、辞書の中では見出し字の異体字として一律に扱われ、それらの異体字関係は、紙の辞書では詳細には表示できないことが多い。もちろん、実際の漢字を利用シーンを考えると、いまはコンピュータで扱うことがほとんどであり、難しい異体字はまず使われていないが。 辞書の見出し字はいわば漢字の「入り口」であり、見出し字をハブにして漢字の関係性を考えていく。そのとき、どこまで関係性を表記できるか、という難しい問題がある。現実的には、紙幅の都合で裏の文脈までは書き込めていないことが多い。 これは「通用字」などの互換可能な漢字に関しても言えることだ。ある漢籍のなかで、ある人が、ある文脈で、ある文字を用いているとき、その用い方は人によって違う。辞書には「これとこれは同義語」と端的に書いてしまっているが、どこからどこまでのニュアンスをもって「同義語」というのかまでは書き込めない。 以前、角川文化振興財団で「漢字データベース・シンポジウム」を開いたときも、神崎さんに、URI(Uniform Resource Identifier)を使った漢字表現についてプレゼンテーションしていただいた。KADOKAWAには『新字源』という漢字辞典があるが、将来的には、そのときの神崎さんのプレゼンからフィードバックをして盛り込みたい要素がある。 具体的には、検索方法における「見出し字のレイヤー」と「検索という行為」の間に中間レイヤーを設け、「部首」など「字体記述要素」にそれぞれ固有のIDをふって管理したい。不慣れな人にとって、「部首」という概念は扱いが難しい。それを誰でも扱えるようにするには、どうしたらいいのか。「くさかんむり」や「さんずい」といった部首も、字体を記述するための漢字の構成要素、つまり「字体記述要素」の一種だが、それぞれに固有のIDを振って管理することを検討している。だが、それらの関係性は圧縮されていたり、ある面だけが切り取られて表示されている。そうした関係性を、ひらたく取り扱うにはどうしたらいいか、という問題に腐心している。この問題はコンピュータの上で漢字を扱う以上、どんどん大きくなっていく。今後も情報交換や勉強をさせていただきたい。

■西田 高田先生から、漢字は、形と音と義でアイデンティファイするという話題が出た。しかし、ここまでの議論は文字の形の話ばかりで、音と義については、あまり触れられなかった。音、義、これら二つを漢字のアイデンティファイに、どう活かしていくのかを知りたいと思った。 弊社(平凡社)では白川静という漢字の碩学の字典を出している。白川静先生は今年で没後十年だが、『漢字の体系』という本を、いままさに編集しているところだ。この『漢字の体系』はどういう本かというと、漢字には共通の部品があり、そこには「意味のネットワーク」があるということを示すものだ。これまでにも『字通』『字統』『字訓』という字典を作ってきたが、これらはすべて『漢字の体系』の準備のために作られたものといっても過言ではなく、白川静先生の仕事は『漢字の体系』の刊行をもって全貌が見えるようになる。 20世紀の終わりに甲骨文字や金文文字が見つかり、通時的に漢字の歴史を辿れるようになった。その研究成果をふまえ、すべての漢字を体系的に整理しようというのが白川静先生の最後の仕事だった。 ところが、漢字を作っている部品を一つ一つ見ていくと、いまコンピュータ上で表現されている字形のなかには、元の形からすでに変わってしまっているものがある。 たとえば「戻」という字は「戸」に「大」と書くが、甲骨文字からたどっていくと、「大」は「犬」でないと意味が通らない。『説文解字』では「戸を犬がくぐった形」と書いてあるが、白川説によれば、これは、お祓いや魔除けのために戸の下に犬を埋めたことが由来らしい。だから、「犬」ではなく、「大」としてしまうと、意味が変わる。「大」は人が手足を広げた形を示しているので、今の字形だと犬ではなく人を埋めたことになってしまう。字形は慎重に扱わないと、漢字の「意味のネットワーク」から外れ、意味が大きく変わってしまう。 字形の変化は、用例なども含めて、きちんと辿る必要がある。どこがどう変更されたかという記録は、おそらく漢和辞典に残っているのではないだろうか。 さきほど、神崎先生から漢字と漢字の関係性についてご説明いただいたが、漢和辞典の記述には、そういったことが書かれている。それをうまくタグ付けして、漢字をリンクしていくと、よりheuristic(発見的)な文字情報の基盤整備がきるのではないか。このことは、私たちがいま作っている『漢字の体系』を、どう構造化し、どう使っていただけるようにすれば便利になるのか、という問題とも関連している。たんに現在の字形だけをみていても、アイデンティファイが難しいものがある。文字の同定のヒントも、さっき言ったように、漢和辞典をはじめとする辞典に書いてあるように思う。それらをうまく構造化できないか。

■オブザーバー(守岡) 最近の漢字辞典のなかには、品詞の情報が入っているものが増えている。いま出ていた問題は、じつは「異体字関係」ではなく「形態素間の関係」といったほうが正確ではないか。それを文字で書いていること自体、そもそもレイヤーとして間違っている。

■高田 形・音・義のうちの音と義とは何かというと、これは文字ではなく、言葉そのもののことだ。守岡さんが形態素とおっしゃったが、これは単語つまり「語」そのものだ。行政文字の場合は出典が明らかで、どの辞書からもってきたかがわかっていたから、形だけで押して行った。でも私がふだん研究をする場合には、形だけではやらない。形には必ず用例が付いてくるので、そこでどういう言葉を表しているのかを見て、「ああ、これとこれは同じだな」とやる。 たとえば歌舞伎の外題に出てくる不思議な文字があるが、それと同じようなものがベトナム文字にもあったとしても、形が同じだから同じ文字だとは言えない。読みも違うし使い方も違うから、それは違うものだ、というふうに通常は判断していく。

■オブザーバー(守岡) 白川静先生が亡くなった後、中国で戦国時代の楚の国の竹簡が大量に出土して、中国古文字学では大ブームになっている。大量に論文がでて知見が大きく変わり、漢字の字源説など過去の歴史がガラッと変わる可能性がある。 残念ながらいまはまだ一般向けの本を出せる段階ではなく、研究ブームが続いているが、おそらく20年ぐらいしたら、まとまった本が書かれるだろう。白川静先生の仕事はとても大事だが、現時点の研究からみると改訂が必要な部分もある。『漢字の体系』が未刊の段階でこういうことをいうのもなんだが、白川先生の仕事も歴史のなかに位置づけなければいけない。それは過去のすべての辞書に対しての立場と同じだ。

■田代 論文まで含めたLOD(Linked Open Data)みたいなものを構築するのは、一つのあり方だと思う。それを神崎さんが挙げた例のようにURI化していき、皆に共有されるべきものについては、どこかにレジストリを作ることも必要だ。その一部は論文や市販の辞書にもどんどんリンクを貼っていく。市販の辞書へのリンクの場合は、辿っていくうちにどこかで課金ということもでてくるが、それも含めた相互リンクが可能なデータ体系ができるといい。

■オブザーバー(守岡) いまデジタル人文学の世界では、漢字などの画像のある部分だけを取り出して引用したり共有したりするためのプロトコル を作るという動きがあり、いろいろな取り組みがなされていると同時に、大きな課題になっている。

■小林 面白い論点が、複数出てきた。一つは、文字のデータベースが、それ自体として思想性を持ってしまう、ということ。そして、その思想性を語り始めると、文字の問題に留まらず、言葉そのものの問題に踏み込まざるを得ない、ということ。もう一つは、紙の辞字書が、クロノロジカルな流れをある時点で切り取ったデッドコピーであるのに対して、電子的なデータベースは内容を更改することが技術的に可能で、そのことを前提としたときに、新たな知見をどの時点でどのような形で反映するのがよいか。さらには、その記述の社会的な規範性をどのように考えればいいか、という問題。 これらは、今回のテーマである文字情報基盤データベースの将来ということからしても重要だが、より広い人文学そのものの問題でもありそうだ。

 

文字の表の文化・言語依存性

■小林 このあたりで田代さんにISO/IEC 10646(UCS)のAnnex A周辺についての問題意識を話してほしい。いまのUCSには9万字くらいのCJK統合漢字が符号化されており、非常に数が多いために、日本のコンテクストでは「同じ字体のデザイン差」と捉えているものが、香港や台湾からは、別の字体として独立した符号化をするものとしての提案が出てきたりする。そうなると「日本のコンテクストではこの符号位置は使わない」といった、用いる符号位置にある程度まで制限を加えた文字の表が、現実問題として必要になってくるのではないか。

■田代 ある目的意識のなかでは、これしか使う必要がないから使わないようにしよう、ということをAnnex AによってISOの規格の中に入れ込みたい。いま常用漢字のセットもそこに入れようと思っている。そうすれば、システムを作るときは、そこを参照すれば国際標準に準拠したものを簡単に開発できるようになる。XMLのような構造化言語やWordのdocxのような広く使われている文書フォーマットでも、文字セットの明示的な指定の必要性が高まっている。 神崎さんの話にあった「辞書によって関係づけられている関係性」は、「辞書の思想」といえる。我々が文字情報基盤データベースを作るときも、辞書をいろいろと読み取ってデータ化してその関係性を汲み取っていったが、まだ全体を網羅していない。辞書のなかでも複雑な書き方がされているし、いろんな辞書を集めて作ったので辞書ごとの思想は飛んでしまい、ひとまとまりのデータになってしまった。 辞書それぞれがもつ文字同士の関係性に関しての情報には、出版社の側がなんらかの権利を主張する可能性もある。だから最終的に「MJ縮退マップ」を出すとき、そのデータは活用したが、データそのものは出さないようにした。網羅性がなく、権利的にも明確ではないので公開はしていないが、辞書に含まれる関連字情報も、何らかの形でアクセスできることが望ましい。 紙に印刷するときの都合で情報が飛んでいても、どこかの倉庫には載せなかった分の情報が全部あるかもしれない。将来への希望としてそれらを全部データ化して、IPAに全部コピーするのではなくていいから、IPAからリンクを貼り、そこから先は課金することもありうるようなビジネスモデルができないか。

■山本 通常の文字コードでは、文字の出現頻度による重み付けなしに、あらゆる文字が固定したデータ長の符号として割り当てられることが多い。もちろん現実の符号化においては、符号化のアルゴリズムの違いや用途によって、そうならない場合もあるが、理念的には、一つの文字に一つのコードを割り当てる、という考え方に基づいている。 ところが、日本語だけで考えた場合、常用漢字を含むおよそ2,000〜3,000の文字の出現頻度が非常に高く、その範囲を超える文字の出現頻度は急激に減衰し、おそらく5,000字を超えるとほとんど無に等しい。しかし、そのようなほとんど現れない文字でも、万一出現したら困るから、フォントのなかには含めている。出現頻度とは無関係に均等のコストがかかっているとは考えられないだろうか。 もう一つ、辞書の話が出てきたときに形態素の話をされた。前後にどのような文字が来るかによって、その漢字の出現頻度も変わる。文法が変化すれば、それによっても文字の出現頻度は変わるかもしれない。 日本では、歴史的に仮名遣いが大きく変わった。いま現在も、言語のいくつかの側面は変化の途中にあるのかもしれない。漢字の使われ方も変化しているに違いない。とすると、一つの漢字がどう使われ、使われなくなっているのか、出現頻度、表記、意味がどのように変化しているのか、それを辞書は記述できるのか。たとえばOEDをみると、ある語が、最初どこで使われ、いつ使われなくなった、などのことがわかる。漢字辞典の場合、見出し字に対して異体字が列挙されている場合が多いが、「この異体字は、あるときまでは使われたが、あるときはもう使われなくなった」みたいなことまではわからない。そのあたりの情報の記述は今後の課題とはならないか。

■坂倉 私も今の山本さんの問題意識に近いことが課題だと思っていた。新しい発見があり、学説が書き換わっていき、新しい整理方法が考えられるかもしれない。さらに、未来的に日本人の利用シーンがどんどん変わっていき、文字に関するありとあらゆる情報は変化していくと思う。それをどうやって取り入れていくのか。 文字の関係性のタグ付けという意味では、大雑把にいえば、辞書ではいまのところ細かくラベリングする以外の方法はとりえていない。それを凡例で解説している。語釈として文章で書いている場合もあり、それらをベースにいろいろやっているが、課題ではある。


現実世界と文字情報

■小林 従来、民間の出版社と志の高い編者や研究者がスクラムを組んで作ってきた紙の辞書は、日本語を下支えするまさに言語資産としての役割を担ってきた。それはこれからどうなるのか。これはとても大きな問題で、今日もその話をしておきたい。 その前にさきほどのURL/URIの問題を片付けたい。IPAでは、文字情報基盤事業や語彙基盤事業の延長線上に、IMI(Infrastracture for MultilayerInteroperability) というプロジェクトを構想していると聞いている。

■田代 URL/URIでさされる安定した「言語資産」のようなものが必要だ。物事の定義や意味とか、物事と物事との関係といった基本情報が、誤解のない情報交換やオープンデータの活用のためにも不可欠で、そのための安定したレジストリとしてimi.go.jpというサイトの構築を進めている。

■小林 神崎さんの話に「字形をもたない字体の抽象的なURI」という言葉が出てきたが、それと山形さんがいまやっている、場所についてのプロジェクトは関連しないか。

■山形 今日の話は、いま私たちがやっている「キロク乃キオク」 という取り組みに近いと思った。これは古写真と現代の写真を重ね合わせてマッピングしていくという活動だが、その中では様々な年代とか時期がでてくる。はじめはたんに「カッコいいからやろう」ということで始まったプロジェクトだが、やっていくうちに「場所」とはたんなる具体的な場所のことではなく、すごく抽象的なものだとわかり、悩みがでてきた。たとえば富士見町という町にも、「富士見町」という名ではなかった時期がある。そこのあたりは点ではなく、もわっとしている。ウェブにもFQDN(Fully Qualified Domain Name)みたいな形があるが、文字も本当にもわっとしていて、DNS的な感じがする。

■小林 今回のラウンドテーブルの議論の軸の一つとして、「地に足がついたデータ」ということを考えた。僕も山形さんが言うように、URL/URIを付ける対象が何なのかというところがモヤモヤしている。地に足をつけないといけないが、どういうふうに地に足をつければいいのかわからない。

■神崎 URIといっても、一つの万能のURIがあるわけではない。ある時代のこの地点を表現しているURIにしたいこともあれば、通時的に抽象的な何かについての語を示すURIにしたいこともある。いろんなレイヤーが出てきてしまい、一つだけで全部言うのはなかなか難しい。文脈に応じてことなる表現や粒度で話をするが、実質的には同じようなものを指している。そういう話をするためのURIが一つほしい。 ナショナル・アーカイブを作るために何が必要か、というある会合で話をしたとき、「ゴジラ」の話になった。人が「ゴジラ」という言葉で何を指すのか。ゴジラという怪獣そのもののキャラクターを指すかもしれないし、映画の『ゴジラ』シリーズ全体を指すのかもしれないし、その日に見たばかりの映画『シン・ゴジラ』を指しているのかもしれない。あるいはそれらのDVDを指しているのかもしれない。でも誰かがブログに「ゴジラ」と書いたら、それが具体的に何を言うのであっても、どこかで広い意味でのゴジラに繋がる。 一つのURIでいうのは難しいので、『シン・ゴジラ』のURIがあったら、それは映画の『ゴジラ』シリーズ全体にも繋がり、もっと広い概念の「ゴジラ」みたいなものにも繋がっている、そういう繋がりを作ることでいろんなことが集約できるという話をした。

■小林 抽象と具象があったときに、ありとあらゆる具象にURIが付き、そうした複数の具象を繋ぐノードとして抽象概念がある、というイメージか。

■神崎 そうだ。一つの抽象概念ですべてできるとは限らなくて、いろいろ繋がっていくのもアリじゃないか。もう一つ、「意味」に対するURIというのもありうる。 WordNetにはsynset (類義関係のセット)という概念 があり、意味概念を一つのものとして、この意味を表す同義語にいろいろなマップが載る。一つのレキシカル・フォームはいろんなsynsetに属するので、この意味もある、あの意味もある、ということになる。印刷された辞書だと、意味のレイヤーと字形のレイヤーを同時に表現するのは難しいので、原理的にいまは字形に従って作ることになるが、ウェブ的には両方があってかまわない。「漢字の意味のsynset」みたいなものを考えていくのはありうるのではないか。

■坂倉 字形にIDを振るよりも、意味記述の規範化のほうが難しい気がする。

■神崎 一気にできるわけではない。WordNetも、どの単語とどの単語にどういうsynsetがあるかを研究してきた成果として出てきたものだ。いますぐにできるわけではないが、「この単語はこういうときにはこういう意味で、これと同じものであるはずだ」ということが辞書には書かれているならば、そういうものが蓄積できないか。そういう切り口ではいままで顕在化できていなかったとすれば、それをもう少し意図的にやると出せる可能性はあるかもしれない。簡単かどうかはわからないが。

■西田 百科事典を作るときに肝になるのは、項目をどう作るかという設計だ。大項目、中項目、小項目をどういう割合で作っていくか、それによってできる百科事典がまったく変わる。あとは、項目の「名前」をどう付けるかということも、非常に重要だ。たとえば、国宝についての項目を作ろうとするとき、正式名称を使うと、同じような名前のものが大量に並ぶため、読者が引けない不便な事典になってしまう。百科事典に項目として取り込むときは、正確な名前ではないが、読者が弁別のできるような一種の「ニックネーム」を工夫するしかない。すべて、読者に項目にアクセスしてもらうためだ。 読者に便利にアクセスしてもらうには何が必要かを考えて、構造的には気持ち悪くても、エイと決めてしまうというのが事典や辞書の編集の基本だ。

■坂倉 行政もそうかもしれないが、利用者が実際にどういうシーンで使うか、どう使いたいか、という切り口で我々も辞書を編集する。インデックス化するときもそうだが、それが肝であり難しいところでもある。利用者の利用の仕方や彼らが正しいと思っている考え方と、学問的・構造的なこととの間にはどうしてもギャップが出てくる。そういうものをどうしたらいいのか。

■オブザーバー(守岡) 人文情報学ではいま、文化資源のデータベース化が流行している。いろいろなものの根拠になっている本や文化財といったインスタンスにIDを付与して、デジタルデータとして公開する。最終的にそれに繋がっていれば、いつか誤りも直せるであろうという発想だ。どこかで記述され関係付けさえ書かれていれば、それらを研究した人の研究論文と繋げて、その前提や考証が追えるようにすれば、ある程度までのクラスタリングができる。ようするに、繋がってさえいれば、いつか辿りつける。そういう意味では、グラフの到達可能性のほうが重要かもしれない。

■小林 『大漢和辞典』を初めとして、日本で発行された代表的な大型漢字辞典が戸籍統一文字の大きな典拠となっている。そのこともあり、文字情報基盤事業の一環として、MJ文字図形名とそれらの辞典の検字番号との対応表を整備した。新しいところでは、新潮社の「日本語漢字辞典」についても作業を行った。この辞典は、戸籍統一文字が作られた以降に発行されたものだが、この辞典を典拠として戸籍統一文字への追加が行われた経緯がある。 しかし、現状では、この検字番号から、一々、紙の辞書を参照しなければならない。有料でも、実際のページにネットワーク上でジャンプできれば非常に利便性が高まる。その場合、コストの問題もあるので、必ずしもテキストデータベースしなくてもよい。一ページごとにURLが確定していて、ページイメージにジャンプできれば良い。

 

「誰のための」「誰による」「誰の」日本語言語資産か

■小林 最後に「誰のための」「誰による」「誰の」日本語言語資産か、という問題について考えたい。戸籍統一文字が典拠とした大型の漢和辞典で一番新しいものは『大漢語林』だが、出たのは平成4年で、もう十年以上前になる。『大字源』も十年以上は新しい改訂ができていない。『新字源』はできても、『大字源』はもう作ることができないかもしれない。 新潮社の『新日本語大辞典』も、発行当初はある程度評判にはなったが、改訂版が出たり電子版が出たりする可能性は、高くないのではないか。 IPAの文字情報基盤データベースも戸籍統一文字も、民間の出版物の蓄積のうえに文字の表を構築してきた。そして、それがある種の規範性をもっている。いまの行政は民間の出版社の多大な努力の上に成り立っている。にもかかわらず、ここからが皆さんに議論していただきたいことだが、これから新しい漢字辞典が民間から出てくる可能性は非常に低い。出版ビジネスとして、採算が成り立たなくなってきているからだ。今後、これまで民間の辞書が担ってきた、日本語を下支えする言語資産としての役割は、どのような主体がどのような形で担っていくことになるのだろう。

■坂倉 辞書というものはいくつかのパートで構成されているが、大きくわけて「検索」の部分と「本文」の部分がある。「構造」の部分と「内容記述」の部分といってもいい。構造の部分には、索引方法や見出し構造、さきほど話題に出た「空見出し」といわれるインデックスの方法、どういうパラメーターをもっているかを示す凡例などが含まれる。新しい『新字源』は、そうした構造をもったデータベースをもとに作っている。 いったんこうした構造、つまり容れ物さえ作ってしまえば、項目を増やすときのコストが低くなっていく。紙をベースにするより、データをベースにしておいたほうがコストが低いので、いま体力があるうちに、まずそのハコを作ってしまおうということだ。ビジネスとして採算性を上げる努力は、各社でもやられていることと思う。 例えばコスト的に下げにくい問題の一つが、どうやって「字」を増やしていくかという話だ。現状、『新字源』は各社の協力を得て『新字源』用のフォントセットを作っているが、専用フォントの制作にはそれなりのコストがかかる。 他にも、組版の問題がある。辞書の構造は、一つは索引と組版に現れてくる。『新字源』のデータベースは自動組版のシステムを使っているが、当然、維持のコストがかかる。今後に新しい漢和辞典ができるかどうかは、こういった維持コストを払い続けられるか、ということにかかってくる。我々としては、「誰それの説によって」という考え方しかできないが、いまは先生がたの研究分野も細分化していて、辞書編集者がいろんな先生の学説を勘案していかなければいけない時代が来ている。ただ当社も含めて出版社からは辞書を作る体力が減っていることは事実だろう。それをどう解決していくのかは難しい問題だ。

■西田 まったく同じような問題を弊社(平凡社)もかかえている。ただし、既存の事典を構造化するよりも、むしろ新しくスクラッチで作ってしまったほうがコストは安い、という感じはある。

■小林 今後、紙の新しい『大字源』や『大漢和事典』が出現することはたぶん期待できない。だが、現在『大字源』や『大漢和事典』からスタートして、これをベースに何らかのアノテーションを付加していくことはできるかもしれない。井上ひさしさんはたいへんな辞書フリークだったが、彼は自分の『広辞苑』の余白に自分の語釈や用例を書き込み、私家版の『広辞苑』を作っていた。かつて和本の時代には、注釈が入っている版本が古本屋で高く売れた。このように、注釈を社会的共有物として加えていくことで、言語資産としてのデータベースの持続性を担保することが可能になるのではないか。 もう一つは構造の話だ。中身はいろんな人がいろんな形で、オープンデータの思想でいろんな考え方、いろんな学説を書き込んでいける。だが、その構造を供するのは、もしかしたら行政がやらなくてはならないことかもしれない。いままでは民間の出版社に「おんぶにだっこ」でやってきたが、日本語を次の世代に繋げていくことに関して、行政側の人間はもっと自覚的でなければならないのではないか。 出版社の側はどうか。それでは嫌だ、「武士は食わねど高楊枝」でもいいから、辞書づくりに繋がる営為は民間の出版社が今後もやっていくべきだと思うか。

■坂倉 鍵になるのは辞書の公益性だろう。辞書はいろんな人の考えをインスタンスとして集めたものだとしても、そのために払うコストが公益性の一つの担保になってきた。であるがゆえに、これは私個人の考えとして、そうした手段をとってでも維持していったほうがいい、という考え方はありうる。

■小林 「誰のための」というところは、山形さんのような行政マンや森町の住民のためかもしれないし、何かを調べたい一般の人たちかもしれない。「誰による」は、これまで辞書の編集をやって来た人や、守岡さんのような学説をもっている研究者がコントリビューションするのかもしれない。辞書の中身をどうするか、そのコストを誰が担うか、という話はまた別にある。

■オブザーバー(田丸、マイクロソフト株式会社) ここで文字情報技術促進協議会の設立の意義にふれておきたい。文字は情報交換のための基本要素である。日本ではあまりにも多くの文字が使われておりITのさまざまなシステムコストを押し上げている。ITの世界で文字の問題をこれほど長く取り組んでいるのは、先進国では日本ぐらいだ。「誰が」「誰のために」ということを常に意識する必要がある。やたらと外字が多く、しかも使わない文字がほとんどなのは大きな問題であり、それらを整理統合、共通化し、より容易に情報交換できるようにすることで相互運用性を高めITコストを低減することが本協議会の設立のモチベーションだった。 「誰のために」を考えるとき、文字は情報交換のための手段なのか、アカデミズムや文化といった別の目的を意図したものなのか、その違いを認識した上で議論する必要がある。

 

さらなる議論に向けて

■小林 これまで辞書は、いわば日本語を下支えする言語資産の役割を担ってきた。それがあって日本語の輪郭がはっきりするような、そういう存在だった。日本語の言語資産を担ってきたのは漢和辞典だけでなく、国語辞典もそうだろう。百科事典がどうだったのかは、私にはまだよくわからないが。守岡さんのいうセマンティカルなアーカイブの可能性も、広がりとしてはあると思う。これについていま結論を出そうとは思わないが、こういう問題についてこれからも考えていきたい。 最後に、報告者も含めた六人の方にコメントをいただきたい。

■山形 今後の我々の活動、個人的も役所も含めての、ある一つのきっかけをもらった。戻ってからもう少し頭の中を整理したい。

■坂倉 新しい構造で、動的な問題など、いろんなことを取り込んでいかなければならない。辞書にそれをどう取り込んでいくかを考える上で、とてもいい刺激になった。

■西田 今日のお話は漢字についてだったが、構造化にともなう共通の問題点がいろいろとあることがよくわかり、皆が同じようなポイントで悩んでいるのだな、ということで勇気づけられた。議論していくなかで回答が見つかるかもしれない。

■山本 文字が読めるためには見えなければならない。見えるということは、感覚的であると同時に知覚的である。デザインや文字の書体、漢字の書法自体には何千年もの歴史がある。漢字の書道の歴史は、他の文字の体系にはないような芸術性や精神性の高いところに到達した。最終的には目で見て感じて、辞書をみるときも本のページを開くときでも、そういうところを忘れないようにしていけばいい。 文字情報基盤整備事業は政府のプロジェクトだから、役所の情報交換を効率的にしていけばいい。だが、辞書には公益性があるから政府に任せましょうというのではなく、新しい辞書の形や、いままで辞書が取り組まなかった情報を提供することで、いろんな辞書を出版社が作り出し、出版を活性化していく方向でやっていくのが望ましい。

■高田 埋もれてしまった話題の一つに出現頻度の話題があった。これこそビッグデータを投入するなどして、マイクロソフトさんなどで何かができるのではないか。 辞書を公的に作るかどうか、という議論は明治時代にもなされたことがあり、結局頓挫した。日本で国および中央集権の権威が、古代から何か著作を作ってきたかといえば、勅撰集と六国史以外は作ったことがない。そこが中国とは違うし、ヨーロッパとも違う。そういう背景をもってすると、政府が作ったほうがいいと言っても、おそらく無理だろう。 山本さんが、字形集合を考えるときの審美的要素について仰ったが、これも話題として埋もれてしまった。今日は久しぶりに漢字の話をしたが、最近はずっと変体仮名をやっていた。字体集合をめざしたが、本当にできたのかどうか、これから考えていかなくてはならない。UCS提案の文書に使う字形も、何回も作り直して、これがいい、という審美的なところにどうしても傾いてしまった。また何かの機会にお話できればと思う。

■神崎 「辞書はインフラである」というのは、まさにその通りだ。いろんなところからデータを出してもらって、どんどんオープンにして使えるようになって欲しい。 その一方で、それは無料でできる話ではない。辞書に限らず、あらゆるコンテンツについて、利用者がちゃんとお金が払えるのか、そのためのマイクロペイメントをどうするかという話がでてきている。利用者がどう応えるか、ハコモノをいっぱい作るおカネの一部を投入して、国家プロジェクトとして辞書を作るというのではなくて、国の補助で何かをするのもありうる。両方の方向から「基盤を支えるための基盤」をどうするか、という話が必要だ。

■山本 辞書を制作されている方に質問したい。英国のエンサイクロペディア・ブリタニカやOEDでも、ウェブ上での閲覧で年間契約でやっている。日本ではそのあたりのお考えはあるか。可能性はあるのか。日本の状況はどのようなものか。

■西田 小林さんの古巣である小学館が、「ジャパンナレッジ」という、いろんなリファレンスを集めた会員制サービスをやっている。最近はリファレンスだけではなく、東洋文庫なども入れている。

■小林 一般の人よりも、研究者や大学図書館という単位での利用が多いサービスか。

■西田 主に大学図書館と研究室だと思う。あるいは、文筆業の人。一般の人はウィキペディアで調べている。

■板倉 私が角川文化振興財団にいるのは、これまでKADOKAWAが作ってきたデータベースを公益利用するにはどうしたらいいのか、という活用も考えた結果だ。いろんなことをアカデミアなどに対して提供していけたらよいなと思う。

■小林 今回のラウンドテーブルのゴールは、何か聞き心地の良いこぎれいな結論を導くことではない。今回議論されたさまざまな問題点に目をつぶることなく、少しでも人びとの役に立てる、日本語の情報資産としての役割を幾分かでも担っていけるよう協力していただきたい。

(了)

上部へスクロール