新旧字体変換ツールについて

漢字

「新旧字体変換ツール」を作成して以下に公開している。

漢字の新旧字体を変換する

変換可能な字体は今後も随時追加していくことになると思うが、主要な文字・字体についてはおおむね変換可能になっている。

このツールを作成したきっかけは、汎兮堂の本サイトのほうで『聯珠詩格』をテキストデータ化して公開したことだった(現在は当サイト内に移転済み)。

『聯珠詩格』全作品テキストデータ

その際、「白文は正字で、書き下し文は新字体で表記する」というルールを決めたのだが、異体字の中のどの字体を正字と定め、どの字体を新字体と認めるのかについて、自分の中でも常に迷いがあり、その迷いを乗り越えて正字を決定しても、しばらく経つとその決定を忘れてしまうのだった。そうすると、同一の漢字について、ある詩の白文ではAという字体を用い、別の詩ではBという字体を用いるという事態が発生する。人間にはAとBは同じ漢字の異体字であることがわかる(もちろん知っていればだが)が、コンピュータには理解できない。文字コードが異なる以上は別のものであり、Aで検索すればAのみがヒットし、Bはヒットしない。これではデータベースとして真っ当に機能しない。

どの字体を正字とするかは人によって見解が異なることも多い。しかし、ここでの問題はそれ以前のものであって、ひとつのデータベース内でその見解が統一できていないことである。この問題を解決するために作成したのが、上記の「新旧字体変換ツール」である。自分(人間)の記憶・判断に頼るから揺らぎが生じるのであって、Webアプリ(というほどのものでもないが)に字体変換をさせれば揺らぎは生じない。具体的には、それぞれの漢字について、正字と新字体を一つずつ決定してアプリ内に設定しておき、「正字に変換」機能では、テキスト内の正字でない異体字をすべて正字に変換し、「新字体に変換」機能では、テキスト内に新字体でない異体字が存在する場合は新字体に変換して表示するわけである。このツールによる変換を経たものをテキストデータとして掲載すれば、データ全体で字体に関するルールは統一される。そして、検索の際も検索ワードをいったんこのツールで変換させてから検索にかければ、字体に関するルールが共有されるので、字体違いによる検索漏れも避けられることになる。

変換ツールがひととおり完成した後、「『聯珠詩格』全作品テキストデータ」のテキストをすべてこのツールによる変換にかけて、字体に関するルールを統一させた。これにより、この変換ツールを経た検索ワードを使用すれば、字体違いによる検索漏れを避けられることになった。

なお、それぞれの漢字についてどの字体を正字とするか、また略字体のうちどの範囲を新字体と認めるか、いずれも単純な問題ではない。その辺の事情も合わせ、このツールにおいて各文字のどの字体が正字・新字体に設定されているかについて以下のページに公開する。

「正字・新字体の設定について」

コメント

タイトルとURLをコピーしました