しばらく間が空いてしまって。事務局長の田丸さんから、会長ブログを毎月更新するよう厳命を受け、やっかいなことに、副会長の村田真さんがその場にいたものだから。。。
言い訳じみたことになるが、ここのところ、大漢和辞典の関連字情報の整理に取り組んでいる。かなりやっかいな大仕事だ。とは言え、今やっておかなければ、という危機感というか使命感もある。
こんな気持ちになったのには、それなりの経緯がある。
ことは、ぼくがIPAに専門委員として係わっていたころに遡る。2010年、そのころIPAにいた田代秀一さんに慫慂されて、経済産業省から受託した文字情報基盤整備事業にかかわることになった。文字情報基盤事業の前身となる、汎用電子情報交換環境整備プログラムが、何だか腰砕けというか成果が店ざらしのようになっていて、やるせない思いもあったので、手伝うことにした。
この事業は、IPAの独自予算で継続され、2017年になって、ISO/IEC 10646第5版の発行で、整備してきた約6万字の国際整合性が取れたことで、一応の終結を見た。
この事業の二つの大きな成果物が、文字情報一覧表とMJ明朝体フォントであることは言を俟たないが、実は、この文字情報一覧表を開発する過程で、一覧表には明示的には含まれておらず、一般には公開もしていないいくつかの情報が開発された。当協議会は、これらの一般には公開していない情報も含めて信託譲渡を受けたわけだが、これらの情報の扱い方については、現時点では、協議会内で議論しているところ。
で、これらの一般には公開していない情報の中に、大漢和辞典のぼくたちが内々に関連字情報と呼んでいる一連の情報がある。要は、正字と俗字や古字の関係、譌字や籀文と呼ばれる、誤り字の情報など。
ところが、大漢和辞典は、その編纂作業が実質的には先の太平洋戦争以前に遡ることもあってか、これらの関連字情報の記述が、現代的な意味では正規化されていない。ある意味で、味のある表現ではあるのだけれど。
例えば、文字情報基盤事業で調査の対象とした大型漢字辞典の中でも、最も新しく編纂された新潮社の日本語漢字辞典では、
といった塩梅で、常用漢字体を見出し字として掲げ、旧字、正字などを整理して、親字の下にまとめて掲げている。
それに対して、大漢和辞典では、
とか、
とか、
とか、いわば、バラバラに記載されている。さらに、記載方法も多岐にわたっていて、「〜の俗字」という書き方だけではなく、「俗に〜に作る」とか、「〜に作り、通じて〜に作る」とか、まあ、百花繚乱といったところ。それぞれの記述方法の間に、どのような差があるのかは、調査の目処がたったら、ぜひとも、高田さんや笹原さんにうかがってみたいと思っている。
というわでけ、この大漢和辞典の関連字調査は、相当な大仕事(ほとんど全巻をなめるように調査しなければならない)なので、調査を受託した某社との打ち合わせの際、ぼくはついつい、「見出し字の下に記載してある情報だけでいいですよ」と口走ってしまったのだ。慚愧の極みなのだけれど、そのころのぼくは、まだ、大漢和辞典の実物を手元に持っていたわけではなく、必要に応じて、近場の図書館で調べてみる、という程度で、上に掲げたような大漢和辞典の実態について、よく理解してはいなかったのだ。
その後、一念発起して、全巻を(ネット上の古書店で)入手し、えいやで自炊してみて初めて「しまった」と思い知った次第。
「しまった」と思い知ってからも、作業の膨大さに尻込みして、調査を始めることはなかった。
時は移り、近ごろになって、協議会が文字情報基盤事業の成果物をIPAから信託譲渡され、文字一覧表が政府のベースレジストリに取り上げられ、府省庁などから縮退情報についての問い合わせなどが来るようになって、さすがに、このままではちょっとやばいなあ、と思い始めた次第。何しろ、各大型辞典の関連字情報は、これも、協議会として公開している、MJ文字からJISX0213への縮退マップ情報の、基礎資料として使われているのだから。
いずれにしても、近ごろのぼくは、Python上で、PIL(Python上の代表的なイメージ処理のライブラリー)やら、OpenCV(元々はインテルが開発したオープンソースのグラフィックライブラリー)やら、Tessoract(グーグルが開発しているオープンソースのOCRライブラリー)やらのお世話になりながら、自炊した大漢和辞典のイメージデータからの関連字情報の抽出に没頭していて、会長ブログの更新がおろそかになっていた次第。
田丸事務局長、ゴメンナサイ。