このページでは、新旧字体変換ツールにおける各文字の「正字」「新字体」の設定について公開する。このツールの作成経緯については「新旧字体変換ツールについて」を参照していただきたい。
このツールはデータベースの検索の都合上、字体を統一する必要に迫られて作成したものであり、その目的さえ達せられれば、どの字体を正字に(そして新字体に)選んでも構わないといえば構わない。従って、このツールにおける正字の選択が正しいと主張するものでは全くないし、漢字の字体の問題に深く踏み込むことは本意ではない。
ただ、正字とは何か、新字体とは何かという問題はこのツールを使用する際の注意点とも関わってくるので、個別の漢字の正字・新字体設定情報の前提としてひととおり説明しておく必要がある。
そこで、まずは漢字の字体について簡単に説明しておきたい。
漢字には、ひとつの字について異なる複数の「字体」が存在することが多い。例えば、「剣」という漢字には、「剣」のほかにも、「劍」「劔」「劎」「劒」など複数の字体が存在する。これらはすべて形は異なっているが同一の漢字である。これらは相互に「異体字」の関係にある。それらの異体字の中で、字源的に見て正しいと見なされる字体を「正字」と呼ぶ。また最も古くからの本来のものと考えられる字体を「本字」と呼ぶ。本字と正字は一致することが多いが、そうでない場合もある。一方、本来の字体から派生して生まれ一般に通用している字体を「俗字」と呼ぶ。俗字の中でも正字を省略して生まれたものを特に「略字」と呼ぶ。正字より複雑な俗字もあるから、俗字がすべて略字なわけではない。
また、日本では、第二次大戦後の国語改革の中で漢字の使用制限とともに簡略化が実施された。その結果、多くの漢字において従来の略字(あるいは新しく作られた略字)が国家公認の公式な字体となったので、これを「新字体」と呼び、それまでの正式な字体(≒正字)を「旧字体」と呼ぶことになった。これらの新字体は本来「当用漢字」(後には「常用漢字」)についてのみ定められたもので、それらから外れた漢字(表外字)はもともと「使用すべきでない漢字」と見なされたので当然新字体も定められなかった。しかしマスコミを中心に民間では表外字についても表内字と同様に略字を採用したり、新たに略字を作り出したりすることが行われ、これらは「拡張新字体」と呼ばれる。
以上のような経緯から、漢字の字体については非常に複雑な問題が伴い、字体の変換と言っても、そう簡単な話にはならない。一番面倒なのは、新字体の採用により、複数の漢字が一つの字になってしまった場合である。例えば、「餘(あまる)」という字は新字体では「余」になったが、この「余」という字はもともと「わたし(一人称代名詞)」を意味する字として存在していた字であるから、「余」という漢字は本来の「余」(これは正字)と「餘」の新字体の「余」(これは正字ではない)の2つの顔を持つことになった。このため、ツールで正字に変換する際、テキスト中に「余」が出てきた場合、「余」のままでいいのか「餘」に変換すべきなのかは、文脈を把握したうえで「わたし」の意味か「あまり」の意味かを判別しなければならず、それは簡易的なツールで実現できるような機能ではない。よって、このような場合には、変換後のテキストで該当部分を[余/餘]のように表示してユーザーに判断してもらう形を取ることにした。
また、基本的に、新字体に拡張新字体は含まないこととした。したがって新字体への変換機能により「毆」は「殴」に変換されるが、「鷗」はそのままで「鴎」(拡張新字体)には変換されない。言い換えれば常用漢字ではない略字は新字体に設定しないということである。
「大漢和辞典」で調べると異体字が山ほど掲載されている字もあるが、それらをすべてこの変換ツールの対象とするのは労力の点から現実的ではないので、割愛した異体字も多い。割愛するかどうかの判断は、一般の漢和辞典を参考にしつつ最終的には独断と偏見と勘によった。
以下、このツールで変換可能な個別の漢字について、変換される正字・新字体の情報を順次掲載していく。あらためて説明しておくと、このツールでは、以下のルールに基づいてテキスト内の漢字を変換する。
- 「正字に変換」機能により、「新字体」「それ以外の異体字」はすべて「正字」に変換される
- 「新字体に変換」機能により、新字体が存在する漢字では「正字」「それ以外の異体字」はすべて「新字体」に変換される
- 「新字体に変換」機能により、新字体が存在しない漢字では「それ以外の異体字」がすべて「正字」に変換される
このツールの大原則はテキスト内の全漢字を正字および新字体のみで表示することであり、よって新字体が存在しない 3. の場合は、「それ以外の異体字」をそのままにせず「正字」に変換するわけである。
現時点で1500余りの変換パターンを設定しており、とりあえず主要な文字についてはカバーできているのではないかと思う。今後もあらたに気付いたものがあれば随時追加していく予定である。
- 亞(正字)/亜(新字体)
- 惡(正字)/悪(新字体)
- 壓(正字)/圧(新字体)
- 圍(正字)/囲(新字体)
- 醫(正字)/医(新字体)/毉(それ以外の異体字)
- 爲(正字)/為(新字体)
- 壹(正字)/壱(新字体)
- 逸(正字)/逸(新字体)
- 飮(正字)/飲(新字体)
- 隱(正字)/隠(新字体)
つづく
コメント