研究関係/データ委託入力の実際 の変更点

Top / 研究関係 / データ委託入力の実際

*中国・台湾へのデータ委託入力の実際&br;実例に即して [#y6c5ee33]

#contents

RIGHT:千田 大介

**はじめに [#u2d4e2b3]

書籍の電子テキスト化は、人文学研究・教育の情報化をすすめる上で、最も基礎的な作業であると言える。語句の検索や文書の構造分析などは、いずれも電子テキストの存在を前提としていることは今更言うまでも無いことである。

しかし、電子テキストの構築は、時間と手間とが非常にかかる作業である。研究者が一々タイピングしたり、OCRソフトを用いてデータ入力したりしていては、研究の時間を食いつぶされてしまうのが落ちである。まして、電子テキストを分析・研究に用いるには、ある程度まとまった分量が必要となるのだから、文献の電子テキスト化は専門の業者に委託するのが現実的選択となる。

ここで問題になるのが、日本国内には中国古典文献の入力を委託するのに適当な業者が少ないことである。国内でのデータエントリー業務は、主婦のアルバイトなどによる手入力に頼っているところが多く、一部にはOCRソフトを活用している業者もあるが、いずれにせよJISx0208だけに対応したサービスであるため、中国古典文献の入力には適さない。コストも、一千字あたり五百円程度と、比較的高額である。

従って、中国古典文献を電子テキスト化する際には、中国・台湾の業者に委託するのが、入力可能文字種の面からも、人件費などコスト面からも、現実的な選択肢となる。

しかし、重要性とは裏腹に、委託業者に関する情報やノウハウの共有化は、意外と進んでいないように思われる。そこで、本発表では、発表者がこれまでに私費、および、科研費等の研究助成金を用いて中国・台湾でデータエントリーを委託した経験に基づき、その実際を紹介する。

**台湾でのテキスト入力 [#t8957682]

***業者選定の必要性 [#d30c7938]

中国の街を歩くと「打字」という看板をしばしば見かける。それは、パソコンによる文書作成代行業者であり、持ち込み原稿のタイピングばかりでなく、ポスター・パンフレット等の作成、テープ起こしなど、さまざまなサービスを提供している。多くは、個人経営の零細業者である。

しかし、それらの業者は古典文献テキスト入力の委託には適さない。大半が簡体字のみしか入力できず、しかも、品質管理がずさんであるため、誤字・脱字・脱行が多々発生する。以前、成化本説唱詞話『薛仁貴』の簡体字版を委託したところ、歩留まりは99.08%であった((拙稿「漢字文献データの構築と公開をめぐって 中国古典戯曲文献データを例に」(『漢字文献情報処理研究』創刊号、2000.10。http://www.jaet.gr.jp/jj/jj1.pdf)参照。))。およそ100字に1字の誤字があることになり、決して効率が高いとは言えない。テキスト入力においては、錯誤率一万分の一以下でようやく実用的なレベルと言えるのである。

このような精度を達成するには、しっかりとした品質管理システムとノウハウが必要であり、古典文献のデータエントリー委託においては、業者の選定が重要であることが理解されよう。

***台湾中研院方式 [#cbbcc03b]

台湾中央研究院漢籍電子文献は、衆知のように、中国古典文献テキストデータベースの草分けである。漢籍電子文献のテキストデータは、複数のパンチャーによる手打ち入力と、「比対」と呼ばれる入力された複数テキストデータの比較・校訂、研究者による校訂作業の三段階からなる((http://www.sinica.edu.tw/̃tdbproj/handy/thesis.html参照。))。つまり、入力段階でのミスを出来るだけ減らして、研究者の校訂に掛かる労力をできるだけ軽減することに注意が払われている。

このうち、手入力から「比対」までの段階を台湾中研院から受託しているのが、台北の衡華実業有限公司であり、同社では漢籍電子文献と同様のフォーマットでのデータエントリー業務を提供している。

2001年時点で、同社のシステムはMS DOS+倚天という1980年代のシステムがそのまま使われていた。このため、所謂中研院外字には対応するが、UnicodeやBig5の拡張規格であるBig5E、CNS11643などの文字コードには対応できない。データエントリーの価格は、1,000字あたり70台湾ドル(約250円)、「比対」を含めると、同じテキストを二度入力することになるので、価格は単純に倍になる。データの入力は比較的スピーディーで、80万字程度のテキストが一ヶ月弱で完成した。

***実例と問題点 [#fdf70f86]

例は『唐三蔵取経詩話』であるが、見やすさに配慮して、スペースを□に入れ替え、改行位置には矢印を挿入してある。

#ref(i1.jpg)
#ref(i1.png)

このように、原書のページを「̃pnn」で表示し、行ごとに改行が入る。字下げはスペースで調整される。四角で囲ったのは、中研院外字を使用した部分である。そのうち、現在のUnicodeの私用領域に相当する領域に割り当てられた文字は日本語Windows XPでも表示できるが、ハングルに化けているものもある。中研院外字がUnicode2.1以降でハングルに割り振られた領域にまで文字を割り当てていたため、Windows 2000以降で表示できなくなった部分である。もっとも、文字が入っていれば他の文字への一括置換ができるので、Big5のみを使用して入力委託するよりも効率はよい。

次は、Big5のみで入力委託した『學生字典』の例である。外字部分には「■」が埋め込まれる(●は底本のママである)。ハングルに化けている部分は、中研院外字が使われている。また、原文で割り注になっている箇所は、「★」「☆」ではさまれている。本来ならば、XMLなどによるマークアップで処理してほしい箇所であるが、システムの古さを考えると困難なのであろう。このため、こちらの細かなリクエストには対応しきれず、データのフォーマットはどうしても例に掲げたような中研院方式に限定されてしまう。

#ref(i2.jpg)
#ref(i2.png)

本文中の誤字も、比対を使用したとしても一万字に2~3字程度は発生するようであるが、それについては今後、校正作業をすすめる中で検証していきたい。

**書同文によるデータ入力 [#gc19023e]

***書同文と「数碼太師」 [#l0cfd87d]

北京書同文数字化技術開発有限公司は、『四庫全書』『四部叢刊』などの大規模叢書のデジタル化の技術面を支えた企業であり、また、Unicode 3.2規格書の漢字部分を起草したのも、同社である。書同文の沿革や概要は、『漢字文献情報処理研究』誌上で二号にわたって詳細に紹介しているので、興味をお持ちの方には、是非ご参照頂きたい((「中国における古典文献データベースの構築 書同文公司へのインタビューを通じて」(『漢字文献情報処理研究』第2号、2001.10)、「日本の学会との交流と協力の意義」(朱岩・朱江、拙訳、同第3号)。))。

書同文は、また、データエントリーの受託業務も行っている。同社の技術的特色は、OCRと校正システム、XMLエディタとが一体化した独自開発の「数碼太師」というソフトウエアにある。通常、OCRソフトによる認識では、似通った字形の文字の誤認識が多く、校正に非常に手間が掛かる。「数碼太師」では、「聚類対校」「列対列対校」などの補助校正ツールを開発することによって、この問題を解決した。

「聚類対校」では、ある一文字、例えば「構」に認識された箇所について文字の画像を一覧表示する。「搆」を誤認識している箇所があった場合、その箇所だけ画像が異なっているので、比較的容易に間違いを発見することができる。また、「列対列対校」は、原文画像と認識結果とを一行ごとに並べて表示することで、校正を効率化するシステムである。OCRで認識したテキストに対して、「聚類対校」「列対列対校」をそれぞれ一回ずつ行うことで、誤字率0.00601%という驚異的な入力効率を実現している。また、これらの校正ツールでは、文字画像の一致だけを注意すれば良いので、漢字への知識がさほど深くない高卒レベルの人材でも作業可能であるという。このため、書同文にデータエントリーを委託した場合のコストは、1,000字あたり20元(約300円)、XMLタグ付けは3元割り増しとなる。入力精度を考えれば、台湾への委託よりも割安であると言えよう。

また、書同文ではデータエントリーに際して、『四庫全書』『四部叢刊』のデジタル化にあたって作られた独自コード、CJK+が用いられる。CJK+はUnicode3.0を拡張したもので、UnicodeのCJK拡張漢字とExtension Aに外字約5,000字を積み足したもので、その合計三万数千字全てを「数碼太師」で読み取ることができる。また、OCRシステムゆえに、中国語以外の文字種、仮名文字やハングルの入力にも対応できる。データエントリーの委託方法については、同社の日本語ホームページに説明があるので、ご参照頂きたい(( http://www.unihan.com.cn/JP/JPindex.asp ))。

***版本の入力 [#h94f646e]

以下は、『大唐秦王詞話』の影印本を、Unicode Text形式で入力委託した結果である。

#ref(i3.jpg)
#ref(i3.png)

書同文への委託入力では、文字をデータに起こしてくれるが、しかし、翻刻しているわけではない。従って、異体字は全てそのまま表現される。上の例では、四角で囲った箇所、「𢗅」(忙)「𦋐」(罩)「𢡖」(惨)「𩓐」(脖)などは、全て底本どおりの異体字で表現されているし、「黒」「乗」などは日本の常用漢字体と同字形の俗字がそのまま入力されている。『四庫全書』などの書同文の製品では、強力な異体字同一視テーブルを装備することで異体字問題を解決しているが、このテーブルは外部には公開されていない。従って、書同文に版本の入力を委託した場合、完成したテキストデータの異体字を置き換える作業が必要となる。ただ、異体字の置換作業が完了したデータと、もとの原文字形尊重データとを比較することで、異体字の出現傾向を分析することができ、それが新たな発見につながる可能性もあるので、原文字形を尊重したデータも充分に有意義である。XML形式での入力画面デザインの再現を考慮したものであるが、こちらが詳細にリクエストすることで、XMLによる文書の構造化にも対応してくれる。

左は、漢和辞典『字源』をXML形式で入力した例である。

#ref(i4.jpg)
#ref(i4.png)

タグの名称は、書同文および日本側スタッフ間の協議を通じて短期間で作られたため、いささか洗練が不足している。それはともかく、こちらのリクエスト通りにマークアップできており、返り点も指定通りに空要素タグ<返点 type="レ"/>に置換されている。日本語の認識も、概ね問題ないようである。ただし、データ全体の校正が未了であるので、その精度については、今後、校正作業と同時に検証していきたい。

左は、段玉裁『詩経小学』版本を委託したXMLである。

#ref(i5.jpg)
#ref(i5.png)

先ほどの『大唐秦王詞話』の例と同様に、こちらも異体字を忠実に拾っており、「鉉」の欠画「」、「傍」の異体字「㫄」なども、そのまま認識されている。また、CJK+未収録文字は「?」に置き換えられている。

以上のようなマークアップを委託する際には、書同文側との綿密な打ち合わせが欠かせない。以下の例は、戦前北京で「戯迷」の名を馳せた辻聴花『中国劇』のHTMLであるが、HTMLで構造化する点を徹底しなかったため、1頁1ファイルのHTMLに加工されてしまった。

#ref(i6.jpg)
#ref(i6.png)

HTMLの加工にはFrontPageが用いられている。

***書同文委託のメリットとデメリット [#tefa22ae]

書同文への委託にはXMLなど多彩なフォーマットへの対応、利用可能文字数の多さ、コストなど、多くのメリットが認められる。日本や台湾が手入力に頼ったシステムを早期に構築したのに対して、情報化後発国の中国であるがゆえに、逆により効率的なシステムを構築しえたと言えよう。『四庫全書』デジタル化プロジェクトという国家事業が、このようなシステム開発の背後にあったことも見逃せない。

デメリットとしては、異体字置き換え作業の手間がかかることが挙げられる。また、近頃は日本からのデータエントリー委託が殺到しており、データの完成まで半年から一年もの期間を必要とする点にも注意が必要である。この点、書同文では数碼太師の販売も行っているので、是非、日本国内の企業にも導入してもらいたいところである。

以上のように、データエントリー業者としては、現時点では書同文がアドバンテージをもっている。ただし、発表者がこれまでに試した古典文献委託入力業者は、ここに紹介した二つに過ぎない。それぞれに技術的特長を持っているものの、完全に理想的なサービスではもちろんあり得ないし、より効率的なデータエントリーサービスを提供する業者が存在する可能性も棄てきれない。それゆえ、現時点でのわずかな経験に安住せずに、さまざまなデータエントリー方式・業者を試み、情報を交換していくことが望まれよう。本発表が、このような基本的情報の交換を活性化する呼び水となれば、幸いである。

>※平成14~平成16年度科学研究費補助金(基盤研究(C))研究成果報告書『次世代中国古典文献データベース構築の基礎的研究』(平成17年3月)、pp113~120