*Unicode文字検索の憂鬱 [#w3c0f405]
Unicodeは不断に登録漢字数を増やし、現在は六万字を超える漢字が定義されている。Simsun (Founder Exztended)によって、それらの漢字を使用することもできる。
Unicodeは不断に登録漢字数を増やし、現在は六万字を超える漢字が定義されている。Simsun (Founder Extended)によって、それらの漢字を使用することもできる。
しかし、ここで問題になるのは、それらの漢字を検索・入力するツールが無いことである。
Officeの「記号と特殊文字」の文字一覧からそれらの文字を探し出すのは、至難のワザである。
そんななか、先日、四庫全書・四部叢刊CD-ROMの開発元として知られる書同文社(http://www.unihan.com.cn/)から、多漢字入力に対応した手書き文字認識ツール、''Unihan Q Pen''が発表された。
製品版の販売に先立ち、筆者は書同文よりUnihan Q Penの試用版の提供を受けた。以下は、そのテストレポートである。
*動作環境・対応文字 [#d9b941ee]
Unihan Q Penは、マウスやタブレットなどで文字を描画する、手書き文字認識ソフトである。
各国語版のWindows2000/XPに対応しており、簡体字中国語のテキストサービスの一つとして動作する。
入力可能な漢字数は約32,000字である。これはCJK+規格、すなわち同社の四庫全書・四部叢刊CD-ROM版さらには中国基本古籍庫などで採用される、CJK統合漢字+Ext.A+外字 のプライベート規格の全ての文字に対応している、ということである。
従って、Unihan Q Penの性能をフルに発揮させるには、CJK+対応フォントである
''FZKai-Z03''あるいは''HT_CJK+''フォントを入手する必要がある。
''HT_CJK+''は書同文サイトで配布されているし(http://www.unihan.com.cn/cjk/CJK.zip)、
四庫全書・四部叢刊(試用版は本サイトからダウンロード可能)に含まれるものを使っても良い。
*試用感 [#gd108bc1]
Unihan Q Penは、前述のように中国語(中国)のテキストサービスの一つとして提供される。従って、日本語と中国語のIMEを切り替える感覚で、Alt+Shift、Ctrl+Shiftで簡単に呼び出すことができる。
実際、いくつかの文字をWord2003に入力して試してみた。まず、国字。
#ref(qpen1.gif,nolink)
峠・裃・辻などを問題なく認識した。次に、Ext.Aの漢字。
#ref(qpen2.gif,nolink)
これも問題ない。最後に、私用領域の文字。
#ref(qpen3.gif,nolink)
図では、FZKai-Z03によって表示しているが、筆者の環境では香港政庁外字が表示用フォントに
選択されてしまい、あとからフォントを手動で切り替える必要があった。
そのような外字が入っていなくても、IMEの言語が中国語(中国)に設定されており、Wordに
文字を入力した場合、デフォルトでSimSunが選択されてしまうから、いずれにせよ私用領域の
文字を使う場合は、あとからフォントを設定する必要が生ずる。もっとも、エディタなどで初め
からCJK+対応フォント表示に設定しておけば、全く問題なく使うことができよう。
とはいえ、これまで文字コード表から探し出すしかなかったExt.A領域に対応した文字入力ツールの登場を、多漢字ユーザーの一人として歓迎したい。日本国内での販売も検討しているとのことであり、一日も早い製品版の登場が望まれる。
また、今後、Ext.Bへの対応も、是非進めていただきたいものである。