『都市芸研』第九輯/中国古典戯曲総合データベースの構築

Top / 『都市芸研』第九輯 / 中国古典戯曲総合データベースの構築

中国古典戯曲総合データベースの構築

千田 大介・二階堂 善弘・山下 一夫・師 茂樹

1.はじめに

1990年代以降、Windowsとインターネットの普及は、中国学の分野にもデジタル化の趨勢をもたらした。台湾中央研究院漢籍電子文献の二十五史全文検索のオンライン無償公開に始まり、書同文社が制作を担当した中国ミレニアムプロジェクトの『文淵閣四庫全書』全文検索版、同じく書同文社の『四部叢刊』、そして愛如生社の『中国基本古籍庫』等、多くの大規模全文データベースが構築され、もはやデジタル的手法無くして中国学研究が成り立たない状況にまで至っている。

こうした流れから我が国の中国学は大きく取り残されている。20世紀、日本中国学は世界最高水準を誇っていたが、その栄光をもたらしたのは煎じ詰めれば諸橋『大漢和辞典』そして逐字索引やカードという、アナログ時代の最先端テクノロジーであったと言えよう。日本の企業の多くが20世紀の成功体験から抜け出せず、グローバル化時代の新たな戦略を描けないままに総体として衰退に向かっているのと同様に、日本中国学も辞書・索引といった方法を完全に継承するでもなく、また新たなテクノロジーへの対応もままならず、国際的に埋没しつつあるのが現状ではなかろうか。

もっとも、日本中国学の過去の栄光は、中国本土の革命の熱狂がもたらした伝統的人文学の衰退に依るところも大きいのであり、中国経済が大きく発展した今にあって、中国学の中心が中国本土に在るのはむしろ当然でもある。そうした状況下にあって、日本中国学は独自のポジション・スタンスを確立する必要に迫られているとも言えよう。その一つは、本国の研究者にできない研究、たとえば外国人ならではの視座による研究や、政治環境などによって現地で成立し得ない研究であり、もう一つは、ややもすると粗放になりがちな中国人の研究を補完する、日本人ならではの緻密な研究であると考える。

こと中国学のデジタル化については、異体字をそのままデジタル化し、異体字テーブルの充実によって検索の不便を補うという、粗放的なデジタル化手法が、書同文社が『文淵閣四庫全書』全文検索版を制作する際に編み出され、現在の中国の人文学情報処理企業、中易社・創新力博社・愛如生社などはいずれも大なり小なり書同文社の血を受け継いでいるため、いずれも同様のシステムでデジタル化を行っている。

数億字規模の大規模データベースであれば、こうした方法を採るのは致し方ないところではあるが、しかし、それら粗放的なデータベースは本文の閲覧と字句検索程度の機能しか持たず、必ずしも学術研究のニーズに応えられないし、人が読むだけでは気づかない情報をさまざまな分析手法で析出するようなこともできない。そうした欠点を補う、分野ごとの研究ニーズにマッチした精緻な中小規模データベースやフリーデータに、人文学情報処理分野における日本中国学の活躍の余地が残されているのではなかろうか。

中国古典戯曲総合データベースは、かかる現状認識に基づいて構想された。詩・詞・曲・文が組み合わさった複雑な文体を持つ中国古典戯曲は、中国学全体の中でもデジタル化が比較的遅れている分野である一方、デジタル的手法による音韻や語彙の分析等を実現すれば、研究の新たな地平を拓くことも可能になると思われる。

本稿では、これまで科研費のプロジェクトとして構築を進めてきた中国古典戯曲総合データベースについて、その構想と構築の方法・進捗状況等について解説し、現時点までに実現された諸機能と今後の課題について明らかにしたい。

2.中国古典戯曲総合データベースの構想と収録データ

2-1.全体構想

中国古典戯曲総合データベースの構想については、以前の科研費の研究成果報告論文の中でも言及したが*1、その後の研究の進展によって当初の構想から変化した部分も大きいので、改めてまとめておく。

中国古典戯曲の研究は、従来からの美学的視点による作品論・作家論などの美文学的研究、韻文としての曲に着目した曲律研究、文化史や物語の形成・変遷に注目した研究、上演環境を重視する演劇学的研究など多岐に渡るが、いずれにせよ、戯曲作品のみを読解して完結するものでない。このため、戯曲研究に有用なデータベースを構築するには、ただ戯曲の全文検索ができればよいということにはならず、さまざまな周辺資料のデジタル化も進めなくてはならない。

かかる観点から、中国古典戯曲総合データベースは以下のようなジャンルやシステムを包含する計画である。

  • 戯曲本文
  • 曲律分析システム
  • 戯曲関連辞書
  • 白話語彙辞書
  • 曲譜
  • 韻書
  • 筆記資料

これらを有機的に関連づけ、多様な検索や分析に対応することで、学術的有用性を高めることを企図している。

図1 中国古典戯曲総合データベース構想図

2-2.収録データの選定と構築

プロジェクトの目標は、専門的かつ総合的なデータベースの構築にあるため、電子テキスト化する必要のある文献も多種多様かつ厖大である。しかしプロジェクトの予算・研究期間でできることは限られているため、学術上あるいは研究上の必要性やデータベースの機能開発などを考慮して、対象を絞り込む必要がある。

2-2-1.戯曲本文

以前の科研費研究、および研究代表者・分担者が過去に関わったプロジェクトを通じて、これまでに『元曲選』・『孤本元明雑劇』・『六十種曲』および『目連救母』・『白袍記』など明金陵富春堂本弋陽腔系伝奇十種などの戯曲全文データが蓄積されている。今回のプロジェクトではこれらに加えて、『元曲選外編』・『盛明雑劇』・『盛明雑劇続集』・『雑劇三集』等の雑劇選集を電子テキスト化した。

雑劇に関しては、これで元代から清代初頭にかけての主要な作品はほぼ網羅できた。南戯・伝奇は長編であり、かなりの予算が必要となるため、今回のプロジェクトでは大規模なデジタル化は見送った。

一方、今回のプロジェクトでは、既に入力されていながら整理が進んでいなかった弋陽腔系伝奇の翻刻・整理作業に着手した。弋陽腔は明代の戯曲声腔としてはより低俗なレイヤーに属するものであり、当時の通俗文化の階層性や地域性を考察する上で貴重な資料である。また弋陽腔系伝奇は明末の徽調さらには清代のいわゆる花部へと発展していったとされるなど、その文化史的価値も高い。しかし、『白袍記』が『宋元以来俗字譜』の典拠の一つとなっているように、版本には俗字や音通が多用されており、かつ弋陽腔の曲牌には崑曲のそれとは曲律の異なるものが見られることなどから、中国でも翻刻はあまり進んでいない。今回は、それらを版本から直接にデジタル化し、その結果に基づいて翻刻作業を進めるという方法を試みた。

これらのデータは、データベースに登録して検索・分析に供するのみならず、フリーテキストとしてダウンロードできるようにする。コンピュータによるテキスト分析方法は数多いが、それらは詳細な条件設定が必要となったり、莫大なマシンパワーを消費することがしばしばであり、サーバへの実装になじまない。このため、データベースが提供する検索・分析機能はある程度絞り込む一方、そうした研究ニーズにフリーテキストの提供によって応える必要があると考える。

2-2-2.戯曲関連工具書

今回のプロジェクトでは、各種辞書・工具書のデジタル化にも重点を置いた。多くの辞書は著作権保護期間内であるため、著作権法が改正されたとはいえ、デジタル化して検索・閲覧に供するのは法に抵触する。しかしながら、辞書の目次・索引などを電子テキスト化するだけであれば特に問題は無いとされる。

辞書の項目とページ番号のみのデジタル化は、利便性や学術的有用性の面で、当然のことながら全文デジタル化に遠く及ばない。しかし、複数辞書の横断検索が可能になるなど、資料調査の手間を相当軽減することができる。また、辞書で立項されている作品名・人名などのタームを整理して一意のIDを与えれば、タームのマークアップ・一括抽出の実現に途を拓くこともできよう。本プロジェクトでは、従来からデジタル化済みの『録鬼簿』・『曲海総目提要』等の古典目録に加えて、総合辞書の『中国戯曲曲芸詞典』・『中国曲学大辞典』、戯曲目録の『中国古典戯曲存目彙考』・『明清伝奇綜録』・『古本戯曲劇目提要』、さらに伝記資料・論著の『方志著録元明清曲家伝略』・『中国古代戯曲家評伝』などの目次あるいは索引を電子テキスト化し、また『明清戯曲家考略』一~四編の人名索引を作成・入力した。

2-2-3.白話辞書

白話語彙の辞書については、『戯曲詞語匯釈』・『元曲釈詞』などに加えて、近年、『宋金元明清曲辞通釈』・『近代漢語大詞典』などの大規模辞書が刊行されているが、それらに収録された語彙を横断検索するための総合索引が整備されていない。語彙のリストをデータベース化することで、そうした不便を解消するとともに、作成した語彙のリストは、将来的な元明清白話文の形態素解析や、語彙の年代・地域性によるテキスト分析などの実現に向けた、基礎的データとしても利用できよう。

語彙リストを入力した辞書は、『戯曲詞語匯釈』・『元曲釈詞』・『詩詞曲小説語辞大典』・『宋金元明清曲辞通釈』・『近代漢語大詞典』・『古典戯曲外来語考釈詞典』である。このほか、『詩詞曲語辞匯釈』については、既に著作権保護期間が満了しているので、全文を電子テキスト化した。

2-2-4.曲譜

古典戯曲は、長短句・定型の曲牌を一定のルールに従って排列する、いわゆる曲牌聯套体というスタイルを取る。そして、曲牌の句数・字数・韻律などのルールをまとめた曲譜が、明代以降、数多く刊行されている。本プロジェクトでは、弋陽腔系伝奇の翻刻、あるいは戯曲本文からの曲牌抽出・整理の便を考慮して、主要曲譜に収録される曲牌名とページ番号をデジタル化し整理を進めた。対象とした曲譜は、『太和正音譜』・『北詞広正譜』・『旧編南九宮譜』・『増訂南九宮曲譜』・『南詞新譜』・『九宮大成南北詞宮譜』・『南北詞簡譜』・『中国曲学大辞典』である。

2-2-5.韻書

韻律分析システムの開発に用いるため、既に入力済みであった『中原音韻』を整理するとともに、CJK統合漢字に対応した文字処理テーブルを作成し、技術的検討を進めた。

2-2-6.筆記資料

戯曲に関連する筆記資料としては、従来に引き続き、焦循『劇説』の校訂作業を進めた。その過程で作成された、書名・作品名・人名・戯曲用語などの注釈は、整理の上、データベースの項目に転用される。また、既に入力済みであった褚人穫『堅瓠集』の整理・整形を進めた。

2-3.データベースの機能

2-3-1.検索機能

データベースは、当然のことながら、収録されたレコードの検索機能を持つ。しかしながら、どの程度の検索機能を持たせるかについては一考の余地がある。

中国学のデータベースを眺め渡しても、検索機能は千差万別である。台湾中央研究院漢籍電子文献では、単純な語彙指定に加えて、ワイルドカード的な検索条件設定を提供している。一方、『四庫全書』・『四部叢刊』などの書同文系データベースでは、複数の検索語句が一定文字数の範囲内に出現するかを設定する“%nn”が提供されるだけ*2で、その代わりに異体字や同音字の一括検索機能が充実している。一方、パソコンの操作に習熟したユーザであれば、正規表現による検索・抽出が便利であろうし、検索結果の表示もKWICが便利であろう。

大多数のユーザが、スペース区切りで複数の検索語を入力する程度の使い方しかできない現状からすれば、大半のニーズには単純な字句検索だけでも応えられようが、将来的には、検索範囲の限定機能や正規表現検索・KWIC表示などへの対応が必要となろう。

2-3-2.曲律分析システム

プロジェクトでは、曲譜などのデータを元にした演繹的な韻律分析・曲牌同定手法、また各曲牌の曲辞の音韻情報から帰納的に曲律を導き出す手法などの確立を、長期的な目標としている。今回はその初期的段階として、委託入力した『中原音韻』に基づき、Unicodeに対応した音韻テーブルを開発し、曲辞の音韻情報を表示するシステムを開発した*3

なお、日本や欧米のテキスト分析ではしばしば形態素解析の手法が用いられるが、中国語に限って言えば、その実現にはさまざまな困難が存在する。形態素解析では、文の単語が分かち書きされていること、分かち書きされた単語の品詞がテーブルとの対照で自動的に確定できることが必要となる。しかし中国語は欧文と異なり、単語ごとに分かち書きされない上に、文言・白話を問わず、一つの語が複数の品詞を兼ねるのがごく一般的である。しかも韻文ともなれば、主述・動賓などの語順もしばしば倒置される。このため、中国語文で単語区切りや品詞情報のマークアップなどの作業を自動化することは、他の言語にもまして困難である。その難易度は文言文の方がより高いことは自明であるし、現状では白話語彙テーブルすらも整備されていない。文言と白話が混在する古典戯曲では、完全に人手によって品詞や文成文の情報をマークアップすることになろう。従って、現時点の技術水準で古典戯曲の形態素解析を実現するには、厖大なマンパワーとコストが必要になることは火を見るよりも明らかであり、現実的選択とはなり得ないと考える。こうした技術的認識に基づき、本プロジェクトでは形態素解析の実現を、目的から外している。

3.文献のデジタル化

3-1.文献の委託入力

プロジェクトではデジタル化した文献をデジタル化して検索・分析に供することを目的としている。このため、前提としてデータベースに収録される文献のデジタル化、すなわち電子テキスト化が必要となる。パートやアルバイト等による手入力、いわゆる打ち屋への委託が一般的な我が国の電子テキスト入力態勢では、日本語では使用されない漢字や異体字が頻出する中国古典文献に対応することが困難であり、必然的に中国語圏のテキスト入力サービスを利用することになる。

中国や台湾におけるテキスト入力委託については、研究代表者・千田がかねてより現地の複数の企業を訪問・調査して委託先を切り開くとともに、それぞれの技術的長所・短所を考察してきた*4が、改めてまとめておく。

中国古典の入力は、コストの面から中国本土の業者の競争力が強い。国内の大学・機関には漢籍目録や論文目録のデジタル化を台湾の企業に委託しているところも多いが、データの入力は結局のところ本土の業者の孫請けに出されているので、検索・分析システム等の購入が必要ないのであれば、直接本土の業者に委託するべきである。

現在、中国古典の大規模委託入力に対応している企業としては、書同文・中易・創新力博・愛如生などがある。前述のように、これらの企業はいずれも、書同文が『四庫全書』電子版の開発に際して開発した方法を、何らかの形で継承している。例えば、中易のテキスト部門のエンジニアは書同文出身であるし、創新力博の社長も元書同文社員である。愛如生は、当初、書同文の文献デジタル化システム「数碼太師」を購入して文献のデジタル化を進めたが、自社製の異体字テーブルが完全とは言い難く、それが同社の『中国基本古籍庫』のユーザビリティが落ちる一因ともなっている。このほか、当初の『中国基本古籍庫』のクオリティの低さなどを勘案し、同社の思想・システムには些か不安を感じられたため、委託先候補から除外した。

このため、テキスト入力委託先としては、書同文・中易・創新力博の三社が候補となる。いずれも入力コストはほぼ同等で、テキストの精度保証も価格に比例するため、大差ない。このため、技術的特長に基づいて業者を選定することになる。

入力方式XMLタグUnicodeシステム・特色
書同文OCR+校正支援システム対応システムCJK+(CJK Ext.A+外字)数碼太師
中易手入力+校正支援システム完全手入力Ext.BPDF化出力
創新力博OCR+校正支援システム対応システムExt.B青典
表1 中国のテキスト入力受託業者の技術比較

中易は文字の入力が手入力であるので、OCRでは読み取るのが難しい手鈔本の入力に向いている。また、原本の版式を再現したPDFを作成してくれるので、原本の画像と連携させる時に便利である。一方、XMLのマークアップに対応したシステムを持たず、エンジニアがDTDに基づき手入力するため、XMLタグの打ち間違えが多くなる。

創新力博のシステムは、同社社長の王小波氏が書同文のシステムを全てJAVAで書き直したものが基本となっており、両社のシステムはほぼ同等の機能を持つ。ただし、書同文は『四部叢刊』当時のシステムをアップデートしておらず、UnicodeのBMPにしか対応できない一方、創新力博はExt.Bまで対応している。創新力博社はウェブサーバ向けの文献閲覧・検索サービス用ソフト「青典」を開発しており、それを利用して文献データベースをオンライン公開することができる。

XMLのマークアップに関しては、書同文の質がもっとも高いが、これはシステムの優劣というよりも、担当者の細かさに由来する部分が大きい。

プロジェクトでは、戯曲の複雑な文体をXML文書としてデジタル化する。また、国際的な情報流通を考えれば、文字コードはUnicodeの最新規格に対応していることが望ましい。以上の理由から、委託業者には創新力博社を選定した。

3-2.XML文書の委託入力

XMLとは、Extensible Markup Languageの略である。ウェブページの記述言語として使われるHTML(Hyper Text Markup Language)が、あらかじめ定義されたタグのセットしか使えないのに対して、ユーザがタグセットを自由に定義することができる。そのタグの名称や論理構造の定義に用いられるのがDTD(Document Type Definition)である。XML文書をブラウザで表示する際には、XSLT(Extensible Stylesheet Language Transformations)によって、XML文書をHTMLに変換するように設定する。

XMLの詳細については専門書を参照して頂くとして、以下では文献の委託から完成したXML文書の表示までを、ごく大まかに解説しておく。

文献をXML文書として入力するよう委託する際には、まず委託する文献の論理構造を検討してタグの体系をDTDによって記述し、原本のどの書式にどのタグを適用するかを説明する必要がある。

中国古典戯曲の文体は、概ね図2のようなツリー構造を取る。この構造をDTDを使って定義する。例えば『元曲選』収録雑劇のDTDは以下のようになる。

図2 中国古典戯曲の論理構造

<!ELEMENT 雜劇 (雜劇題, 作者, 折*, 題目, 正名) >

<!ELEMENT 雜劇題(#PCDATA)>

<!ELEMENT 作者(#PCDATA)>

<!ELEMENT 折(折題, 白*, 曲*, 音釋) >

<!ELEMENT 折題(#PCDATA)>

<!ELEMENT 白(#PCDATA|科)*>

><!ELEMENT 科(#PCDATA)*>

<!ELEMENT 曲 (牌, 曲文) >

><!ELEMENT 牌(#PCDATA)>

><!ELEMENT 曲文(#PCDATA|科|夾白)* >

>><!ELEMENT 科(#PCDATA)*>

>><!ELEMENT 夾白(#PCDATA)*>

<!ELEMENT 音釋(音釋題, 音注*) >

<!ELEMENT 音釋題(#PCDATA)>

<!ELEMENT 音注(#PCDATA)>

<!ELEMENT 題目(#PCDATA)>

<!ELEMENT 正名(#PCDATA)>

XML文書はUTF-8・UTF-16などのUnicodeの符号化文字方式に対応し、タグに漢字をそのまま用いることができる。中国古典文献であるのだから、英語よりも漢字で直接記述した方が直感的で良かろう。完成したXML文書は、以下のようになる。

<?xml version="1.0" encoding="UTF-8"?>

<雜劇>

<雜劇題>薛仁貴榮歸故里雜劇</雜劇題>

<作者>張國賓 撰</作者>

<折>

<折題>楔子</折題>

<白><科>〔正末扮孛老同卜兒旦兒上〕</科><科>〔正末云〕</科>老漢是絳州龍門鎮大黃莊人氏。姓薛。人都叫我是薛大伯。嫡親的四口兒家屬。婆婆李氏。我有一個孩兒。是薛驢哥。學名喚做仁貴。媳婦兒柳氏。俺本是莊農人家。俺那孩兒薛驢哥。不肯做這莊農的生活。每日則是刺鎗弄棒。習什麼武藝。婆婆。孩兒往那裏去了也。…中略…<科>〔薛仁貴拜科云〕</科>則今日是個吉日良辰。辭<ct:EL><cf:小塚明朝 Pr6N>别了父親母親。恁孩兒便索長行也。<科>〔正末唱〕</科></白>

<曲>

><牌>【仙呂端正好】</牌>

><曲文>你如今離了村莊。別了鄉黨。拜辭了年老爹娘。<科>〔薛仁貴云〕</科><夾白>您孩兒此去。定要赤心報國。展土開疆。博個封侯拜將而回。父親放心者。</夾白><科>〔正末唱〕</科>你待要忘生捨死在這沙場上。則你那雄赳赳氣昂昂。身凜凜貌堂堂。知甚日得還鄉。哎。兒也休教您這兩口兒斜倚定門兒望。<科>〔同卜兒下〕</科></曲文>

</曲>

<白><科>〔旦兒云〕</科>大哥。妾身在家。情願替你侍養公婆。你放心的自去。妾身送你出這柴門外也。<科>〔薛仁貴云〕</科>大嫂。堂上無人。你自回去。侍奉公婆。不必送我。<科>〔拜<ct:EL><cf:小塚明朝 Pr6N>别科〕</科><科>〔薛仁貴詩云〕</科>我今日遠去投軍。惟願你孝順雙親。<科>〔先下〕</科><科>〔旦做悲科詩云〕</科>雖然是芳年連理。為功名只得離分。<科>〔下〕</科></白>

<音釋>

><音釋題>〔音釋〕</音釋題>

><音注><字>拈</字><音>奴兼切</音></音注>

><音注><字>赳</字><音>音九</音></音注>

</音釋>

</折>

…以下略…

このXML文書をダブルクリックしても、ブラウザで上記のタグ付きのテキストがそのまま表示されてしまう。一般のウェブページのように書式が整ったドキュメントとして表示させるためには、XML文書のそれぞれのタグを、いかなるHTMLタグに変換して表示するか、XSLTで定義する必要がある。

<?xml version="1.0" encoding="UTF-8"?>

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">

<xsl:template match="/">

<html>

><xsl:apply-templates select="雜劇"/>

</html>

</xsl:template>

<xsl:template match="雜劇">

<head>

><meta http-equiv="Content-Style-Type" content="text/css"/>

><link rel="stylesheet" type="text/css" href="yqx.css"/>

</head>

<body lang="zh">

><h1><xsl:value-of select="雜劇題"/></h1>

><p class="auther"><xsl:value-of select="作者"/></p>

><xsl:for-each select="折">

>><xsl:apply-templates select="."/>

></xsl:for-each>

</body>

</xsl:template>

<xsl:template match="折題">

<h2>

><xsl:value-of select="."/>

</h2>

</xsl:template>

<!-- 曲 -->

<xsl:template match="曲">

<p class="quwen">

><span class="pai">

>><xsl:value-of select="牌"/>

></span>

><xsl:for-each select="曲文">

>><xsl:apply-templates select="." />

></xsl:for-each>

</p>

</xsl:template>

<xsl:template match="曲文">

<xsl:apply-templates mode="曲文" />

</xsl:template>

<xsl:template mode="曲文" match="text()">

<xsl:value-of select="."/>

</xsl:template>

<xsl:template mode="曲文" match="科">

<span class="ke">

><xsl:value-of select="."/>

</span>

</xsl:template>

<xsl:template mode="曲文" match="夾白">

<span class="jiabai">

><xsl:value-of select="."/>

</span>

</xsl:template>

<!-- 白 -->

<xsl:template match="白">

<p class="bai">

><xsl:apply-templates mode="白" />

</p>

</xsl:template>

<xsl:template mode="白" match="text()">

<xsl:value-of select="."/>

</xsl:template>

<xsl:template mode="白" match="科">

<span class="ke">

><xsl:value-of select="."/>

</span>

</xsl:template>

<!-- 詩 -->

<xsl:template match="詩">

<xsl:for-each select="詩句">

><xsl:apply-templates select="." />

</xsl:for-each>

</xsl:template>

<xsl:template match="詩句">

<xsl:apply-templates mode="詩句" />

</xsl:template>

<xsl:template mode="詩句" match="text()">

<p class="shi">

><xsl:value-of select="."/>

</p>

</xsl:template>

<xsl:template mode="詩句" match="科">

<span class="ke">

><xsl:value-of select="."/>

</span>

</xsl:template>

</xsl:stylesheet>

また、XSLTによって変換したHTMLの書式を整えるためのCSS(Cascading Style Sheets)を用意する。CSSのファイル名はXSLTに記述しておく(p.32下線部)。

.quwen {font-size: large;font-family: "MingLiU", serif;margin-left: 60px;text-indent: -60px;line-height: 40px;}

.bai {font-size: medium;margin-left: 60px;line-height: 30px;}

.ke {font-size: small;color: #0000FF;}

.jiabai {font-size: small;color: #008080;}

.auther {font-size: small;text-align: right;}

h1{font-size: xx-large}

h2{font-size: x-large}

h3{font-size: large}

.pai {font-weight: bold;color: #000080;}

p {letter-spacing: 5px;}

.shi {font-size: large;font-family: "MingLiU", serif;margin-left: 120px;line-height: 20px;}

.shiti {font-size: large;font-family: "MingLiU", serif;margin-left: 90px;line-height: 20px;}

XML文書のヘッダにXSLTへのリンクを「<?xml-stylesheet type="text/xsl" href="yqx.xsl"?>」(下線部はXSLTのファイル名)のように埋め込むと、図3のように表示される。

図3 XSLTによるXML文書の表示

曲牌聯套体の戯曲である雑劇・伝奇の論理構造は基本的に同じであり、DTDやXSLTもほぼ同じものになる。

戯曲本文以外では、『録鬼簿』・『今楽考証』などの戯曲作品目録も、著者名や作品名を区別するため、論理構造をXMLでマークアップした。

一方、工具書の目次や索引の入力は、CSVやタブ区切りテキストで事足りる。また、筆記小説などの論理構造は、数ランクの見だし・段落・引用などであり、HTMLに用意される各タグで大抵表現できるので、必ずしもXMLを使う必要は無い。ただし、文献デジタル化業者は論理構造のマークアップという正しいHTMLの使い方を必ずしも理解しておらず、ややもすると文献の書式をdivタグやspanタグで再現するようなHTMLを作成してしまいがちであるため、やはり事前の綿密な打ち合わせが欠かせない。

プロジェクトでは、こうして作成したXML文書を更に加工した上でデータベースに登録し、検索・分析に供することになる。

なお、本プロジェクトで開発したタグセットを、TEI(Text Encoding Initiative)の策定する共通フォーマットと如何に整合させるかは、今後の課題である。

3-2-1.異体字の問題

前述のように、中国のテキスト入力業者はいずれも書同文の血を引いており、異体字は基本的に底本の表記通りにデジタル化される。漢字文献を読む場合、人は複数の異体字を同じ文字であると認識して読むことができるが、コンピュータでは異なる文字コードに定義された文字は全て別の文字として扱われてしまい、検索・加工などで不都合が生ずる。書同文などは異体字テーブルの充実によってこの問題を回避しているが、そのテーブルは非公開であるし、異体字テーブルを用いた分析・検索では、システムが複雑化して負荷が増大するので、電子テキストでは異体字ができるだけ一つの字形に寄せられていることが望ましい。

Unicodeに現在定義される7万字余りの漢字は、その大半が異体字である。そうした異体字の中で、どの字形の漢字を優先的に使うべきかの規範となるものに、松岡榮志氏を中心に策定されたBUCSがある*5。UnicodeのCJK統合漢字20,902字の範囲内であれば、BUCSの提供する字形表を元に変換テーブルを作成してフィルタリングし、代表字形に揃えることができる。しかし、Unicodeの拡張漢字A~C領域の異体字には対応していない。このほか、漢字データベースプロジェクト*6でもUCS漢字検索用のテーブルを提供するが、常用漢字体に寄せるものである。将来的にはいわゆる正字体に寄せるUnicode拡張漢字対応のテーブルを提供する予定であると聞いているが、今のところは提供されていない。このため、拡張漢字に関しては独自に変換テーブルを作成する必要がある。

ただしBUCSの代表字形は、いわゆる正字体に寄せられているため、繁体字中国語環境でのデータベース運用上、ふさわしくないと思われるものも見られる。例えば、代表字:淸 別字形:清、代表字:爲 別字形:為 などがそれで、繁体字中国語のドキュメントで一般に使われる字形、およびMS新注音等のIMEが優先変換する字形は「清」・「為」であるので、こちらに寄せた方が検索・加工の利便性が高い。こうした漢字については、適宜、代表字形を入れ替えた。また入力したテキストからExt.A・Ext.B・Ext.Cの文字を抽出して対応する代表字形を補完して異体字変換テーブルを作成し、perlスクリプトによる一括置換で異体字を統一した*7

UnicodeのExt.Cまで、約七万字のレパートリーを用いても、若干の未定義文字が見受けられた。ほとんど誤字に近い俗字や、簡体字の工具書の見出しに見られる繁体字の僻字を簡体字化した漢字、いわゆる拡張簡体字などである。それらについては、暫定的にIDSを埋め込んで対応した*8。将来的には、上地宏一氏が中心となって構築・運用するGlyphWiki*9などを利用して、Webでグリフを表示できるようにする必要があろう。

4.MediaWikiによるデータベース構築

4.1なぜMediaWikiか

中国古典戯曲総合データベースは、前述のようにさまざまなタイプのデータを包含した総合的データベースとして構想しており、検索による必要な情報の抽出のみならず、本文データの閲覧や分類による項目の検索など、さまざまな使い方を提供しなくてはならない。このため、洗練されたユーザインターフェイスが必要となる。

また、オンラインデータベースの構築にはSQLを使う必要があるが、そのフロントエンドを一々開発するのはかなりの手間である。このため、既存のフリーのシステムを選定し、カスタマイズして使用するのが現実的である。このほか、登録されるデータが繁体字中国語であり、またデータベースのユーザも日本国内よりもむしろ華語圏に多いと思われるので、ユーザインターフェイスが繁体字中国語に対応していることが望ましい。

こうした点を考慮し、中国古典戯曲総合データベースではデータベースシステムにMediaWikiを採用することを決めた。MediaWikiとは、要するにWikipediaで使われているシステムである。Wikiとは、ウェブサイト運用ツールの一種で、ウェブから誰もが自由にページを作成・書き換えできる、HTMLの知識が無くても簡単な書式設定ルールでウェブページを作成できる、などの特長がある。GPLライセンスにより、フリーで使うことができる。

図4 MediaWiki公式サイト

Wikiクローンと呼ばれるWikiソフトウエアは数多いが、その中からMediaWikiを選んだ理由は以下の通りである。

  • Wikipediaでの運用実績が物語る、大量アクセスにも耐えられる安定性。
  • データベースにMySQLもしくはPostgreSQLを使っており、テキストファイルベースのWikiクローンに比べて高速かつ堅牢である。また、テキストファイルベースのWikiに見られる、エンコード後のファイル名が長大化してエラーとなる問題が発生しない。
  • テンプレート機能・カテゴリ機能など、ページの作成や分類のための機能が充実している。
  • HTMLやXMLのタグが使用可能である。
  • 拡張機能が豊富であり、またカスタマイズも比較的容易である。
  • 高度なユーザ管理機能を持つ。
  • 多言語に対応し、繁体字中国語でも運用できる。

機能面以外でもう一つ大切なのが、ユーザインターフェイスである。いかに有用なデータベースであっても、検索ボックスがあるだけだったり、検索結果の表示もデータや画像が表で並ぶだけというのでは、発展性に欠けるし、ユーザビリティが高いとは言い難い。この点、MediaWikiのインターフェイスは、Wikipediaのそれと同様で、比較的洗練されたなじみ深いものである。登録データを検索することも、カテゴリをたどって閲覧することもできるし、画像や音声・動画にも対応するので、閲覧に供する戯曲や筆記の全文テキストや、主に検索で使われると思われる曲牌・作品名などの辞書的項目を兼ね備える本データベースにうってつけであると言える。また、フリーテキストの提供という面でも、MediaWikiではページのソース閲覧し、XML文書をコピーできるので、好適である。

そうしたMediaWikiの各種機能を駆使したデータベースの項目作成の実際について、次節以下で解説する。

4.2戯曲全文データの構築

戯曲・筆記小説などの大部のテキストを登録する際、作品全体や戯曲の折・齣などを1ページに登録することも可能である。しかし本データベースでは、全文検索の結果表示、および戯曲の曲牌を個別に抽出する際の便宜を考慮して、実際のページはより細分化して作成している。『元曲選』本『漢宮秋』を例に説明しよう。

前に解説したように、戯曲の論理構造は図2のようになる。曲牌抽出の便を考慮して、このうち「白」・「曲」等のレベルを、ページ作成の単位とした。各ページは、以下のように命名し作成する。

図2 中国古典戯曲の論理構造(再掲)

元曲選/漢宮秋/02第一折/01題

元曲選/漢宮秋/02第一折/02白

元曲選/漢宮秋/02第一折/03曲

元曲選/漢宮秋/02第一折/04曲

元曲選/漢宮秋/02第一折/05白

…以下略…

折・曲・白などの前に数字を入れるのは、重複ページ名が生まれるのを避けるとともに、ソートおよび全文検索結果の表示に便利だからである。各ページの内容は、対応する曲・白などの段落となる。「元曲選/漢宮秋/02第一折/03曲」であれば以下のようになる。

<牌>【仙呂點絳唇】</牌>

<曲文>車碾殘花。玉人月下。吹簫罷。未遇宮娃。是幾度添白髮。</曲文>

こうして作成したページは、各折のページにMediaWikiのページ組み込み機能を使って集成し表示する。「元曲選/漢宮秋/02第一折」は以下のようになる。

{{:元曲選/漢宮秋/02第一折/01題}}

{{:元曲選/漢宮秋/02第一折/02白}}

{{:元曲選/漢宮秋/02第一折/03曲}}

{{:元曲選/漢宮秋/02第一折/04曲}}

{{:元曲選/漢宮秋/02第一折/05白}}

…以下略…

これで「元曲選/漢宮秋/02第一折」のページに題・白・曲などが読み込まれ、図5のように表示される。

図5 ページ組み込み機能による雑劇の表示(開発中のため、一部にエラーがある)

元曲選』のみならず、他の戯曲作品についても、基本的に同様の方法で全文データを登録することになる。

なお、各ページはもとのXMLファイルを整理・加工した上で切り出し、botを使ってMediaWikiに自動登録する。また、XMLタグをHTMLタグに変換して出力するために、XSLT相当の働きをする拡張機能を開発・実装して、表示書式を整えている。

4-3.カテゴリ機能の応用

本データベースでは、個々の戯曲作品からの特定の曲牌の抽出を、MediaWikiのカテゴリ機能の応用によって実現する。

MedliaWikiに登録されたページは、そのままではどこからもリンクされず、検索しないと発見できない孤立ページになってしまう。それを補う機能の一つが、分類情報を各ページに記述する、カテゴリ機能である。

あるページをカテゴライズするには、そのページにカテゴリ情報を記述しさえすればよい。例えば、「漢宮秋」のページの末尾に以下の記述を追加する。

Category:馬致遠

Category:元曲選

Category:元雜劇

Category:唐代故事

これで「漢宮秋」ページは、作者:「馬致遠」、収録:「元曲選」、種別:「元雜劇」、物語内容:「唐代故事」の4カテゴリに分類され、図6のようにカテゴリへのリンクが表示される。このように1つのページを複数のカテゴリに同時に分類することができるのも、MediaWikiの特長である。

図6 カテゴリの設定

戯曲本文では、最小単位である「曲」レベルのページにカテゴリ名を記述する。前の「元曲選/漢宮秋/02第一折/03曲」であれば以下のようになる。

Category:北仙呂點絳唇

ただし、このままでは各「折」ページに組み込んだ際にカテゴリへのリンクが表示されてしまう。この問題を回避するため、カテゴリ情報をnoincludeタグで囲う。

<noinclude>Category:北仙呂點絳唇</noinclude>

これで、「元曲選/漢宮秋/02第一折/03曲」のページが当該曲牌に分類される。

埋め込まれたカテゴリのリンクをクリックすると、当該カテゴリのページが無い場合、新規カテゴリページ作成画面が開き、下に同カテゴリに分類されたページの一覧が表示される。カテゴリ「北仙呂點絳唇」のページを、更に「北仙呂」にカテゴライズし、以下「北仙呂」ページを「北曲」に、「北曲」を「曲牌」にそれぞれカテゴライズしてやれば、図7のようなツリー構造のカテゴリ体系とメニューができあがる。

図7 曲牌のカテゴリ体系

このようにMediaWikiでは、本来はフラットな各登録ページを、カテゴリ情報を与えることで容易にツリー状に分類することができる。なお、実際には各カテゴリのページも予め作成してbotで登録することになる。

この機能を利用して、逆に、さまざまな戯曲から同一の曲牌を抽出したページも容易に作成できる。『元曲選』の音注、『孤本元明雑劇』に見える脈望館抄校本の「穿貫」も、カテゴリ機能を利用して抽出することができる。

4-4.工具書項目・語彙データの構築

前述のように今回のプロジェクトでは、工具書の目次・目録のデジタル化を通じて固有名詞や語彙・タームを整理するとともに、工具書検索の利便性を高めることに一つの重点を置いた。そうして作成されたデータは、1件・1ページとしてMediaWikiに登録する。

このとき、各固有名詞の同定作業を行い、一意の名称を与える必要がある。例えば「湯顕祖」であれば、「湯若士」・「若士」・「湯義仍」・「義仍」・「湯海若」・「海若」・「繭翁」などさまざまな呼称があるが、それを「湯顕祖」という見出しのもとに集約させる必要がある。戯曲の簡名と正名、曲牌の異称などについても同様である。基本的には、各ジャンルごとに、さまざまな工具書に基づく語句リストを整理して、一意の代表名称を与えていくことになる。

整理の結果を踏まえて、一意の名称ごとにページを作成し、異称からは代表名称のページへのリダイレクトを設定する。

また、MediaWiki上でページの名称がバッティングする場合には、ページ名称を「項目名(分類)」として重複を避けるとともに、「曖昧さ回避のためのページ」を作成することになる。本データベースでは、データ整理の便を考え、ページ名称に予め括弧付きのジャンル情報を付加した。それぞれ、戯曲のタイトルであれば「白袍記(南戲傳奇)」、人名の場合は「李玉(曲家)」・「曹操(人名)」・「崔鶯鶯(劇中人物)」、曲牌は「瑣窗寒(南曲南呂過曲)」、白話語彙は「尀耐(白話語詞)」のように命名する。その上で、各ジャンルの括弧無しの名称を総合し、括弧無し名称からのジャンプを設定するか、あるいは「曖昧さ回避のためのページ」を作成する。

以下、ジャンルごとにデータ構築の実際や問題点などを概説する。

4-4-1.戯曲目録

戯曲作品の目録については、『中国古典戯曲存目彙考』・『中国曲学大辞典』・『明清伝奇綜録』・『古本戯曲劇目提要』の項目データを対照して一意の名称を定めた。

戯曲の題名には、略称である「簡名」と省略しないフルタイトル「全名」とがあるが、いずれを採るかは工具書によってまちまちである。本データベースでは原則として簡名に統一し、ページ名称後のジャンル名は、「雑劇」あるいは「南戯伝奇」とした。但し、例えば同タイトルの伝奇が複数存在する『三元記』で通称の『商輅三元記』・『馮京三元記』を採用したように、便宜上、通称や全名を採用したものもある。いずれにせよ、全名・簡名からのリダイレクトや、重複タイトルの曖昧さ回避のためのページを設定するので、実用上問題はなかろう。

「南戯」・「伝奇」ではなく「南戯伝奇」としたのは、戯曲研究用語としての「伝奇」という語の定義が、今ひとつ曖昧であることによる。伝奇とは、明代以降に流行した南曲系の長編戯曲のことを言うが、宋元や明初の戯文・南戯との境目が明瞭とは言い難い。例えば明初以前に南戯(戯文)が存在したことが分かっており、現在伝わっているのが明代後期以降の改編本である場合、それを南戯・伝奇のいずれに分類するかは工具書によってまちまちである。ややもすると文人的なハイカルチャーに属する作品=「伝奇」という、主観的価値認定によって「南戯」・「伝奇」が使い分けられている嫌いもある。このため、本データベースでは両者を区別せずに、「南戯伝奇」の用語を用いる。各工具書の分類情報を表示するので、実用上、問題はなかろう。

各項目(ページ)は、以下の要素から構成される。

  • 曲種・作者・異称(全名)
  • 提要
  • 工具書ページ番号
  • 古典戯曲目録リンク
  • 本文テキストリンク
  • 版本(古籍・排印本)情報
  • カテゴリページリンク

著者名からは、人名のページにリンクする。また、提要には、本プロジェクトの一環として作成している『劇説』校注本の注釈を流用する。

作業上、各目録の間で作品の同定がまちまちであったり、作者名が食い違ったりする例が問題となった。また、清代後期の作品の、伝奇・雑劇の認定が『明清伝奇綜録』・『古本戯曲劇目提要』で食い違う例も多い。複数の説がある場合は、上記工具書のうち最新の説に従って代表を決定し、他の説は、各工具書の収録ページ番号の前後に記載するようにした。

各古典戯曲目録については、戯曲本文などと同じように、できるだけ細分化して登録することになる。『録鬼簿』であれば、作家ごとに分割し、作家名と個々の作品名をカテゴリに設定し、作者名や作品名のページから、カテゴリページへのリンクを掲載する。『曲海総目提要』であれば、1作品1ページとなる。他の目録についても、同様の方法で登録する。

図8 戯曲タイトルの表示

4-4-2.人名

戯曲家の人名については、『方志著録元明清曲家伝略』・『中国古代戯曲家評伝』・『明清戯曲家考略』などの工具書・論著の他、『中国曲学大辞典』・『中国古典戯曲存目彙考』・『明清伝奇綜録』の関連ページを元に整理した。

戯曲の登場人物や戯曲家の周辺人物などの名称は、ひとまず『劇説』の注釈に立てたものを登録した。今後、『曲海総目提要』などの戯曲目録や戯曲本文の整理を進め充実させていく予定であるが、架空人名の登録については、戯曲本文の校訂や読解の作業の一環として進める必要があるので、一定の時間を必要としよう。

4-4-3.曲牌

曲牌については、前述のように、『太和正音譜』から『中国曲学大辞典』に至る曲譜や工具書の目録を総合して整理する。現時点で全文をデジタル化した曲譜は無いため、各南北曲の各曲牌ごとにページを作成し、曲譜・工具書の掲載ページ番号を羅列することになる。また、宮調や引子・過曲・集曲・尾などの種別ごとにカテゴリを設定する。

曲牌には、他の宮調から流用されるものがあるが、それらはページ・カテゴリページをリンクさせることによって対応する。

4-4-4.白話語彙

白話語彙の工具書目録のデジタル化で最大のネックになるのが簡体字である。中国本土で近年、陸続と刊行されている白話語彙の辞書・工具書は、その大多数が簡体字であるが、本データベースは繁体字で作成するので、繁体字への変換が必要となるからである。繁体字への変換は、前述のテーブルのほか、繁体字の辞書との表記の対照などを通じて、複数の対応する繁体字を持つ簡体字の変換をチェックする。

白話語彙は、1語につき1ページを作成し、各工具書の収録ページ番号・原書表記通りの項目名・同義語へのリンクおよび全文入力した『詩詞曲語辞匯釈』へのリンク等を掲載する。

『近代漢語大詞典』のように、ピンイン順で排列され、複数の読音のある語彙を区別して立てている辞書もあるが、多くの部首や画数排列の辞書ではそうした語彙を分けておらず、またMediaWikiに登録する場合も漢字の単語をページ名称にすることになるので、本データベースは漢字表記ベースで作成し、各辞書のページ番号表示の前にピンイン情報を付すことにした。

整理の過程で、多くの辞書から収録語彙の重複が見つかった。例えば『近代漢語大詞典』では、「憔憔𢠳𢠳」が「jiāo jiāo biē biē」(p.914)と「qiáo qiáo biè biè」(p.1515)の2項目立っているが、用例・語釈とも同じである。また「窥觇」などのように、同じ発音・同じ語釈で重複している(p.1079・p.1080)例もある。こうした場合は、出現箇所のページ番号をいずれも登録した。

4-4-5.『劇説』と筆記小説

プロジェクトの一環として、清の焦循の戯曲関連筆記『劇説』の校注と邦訳の作成を進めたが、その成果である『劇説』本文の校訂版と邦訳についても、完成分は本データベースに登録する。MediaWikiは複数言語で運用することができるので、中国語原文と日本語訳とを切り替え表示できるように設定する。

『劇説』や『堅瓠集』は、1記事1ページとして作成し、ページの組み込み機能を使って巻ごとにまとめる。また、本文中の人名・戯曲タイトル等から各項目ページへのリンクを掲載する。

5.おわりに

以上のように中国古典戯曲総合データベースでは、戯曲の本文・関連資料の閲覧と、関連情報の検索をMediaWikiの諸機能を応用することで有機的に結びつけており、中国古典戯曲に関連する資料調査の効率を格段に向上させることができよう。また、これまでは手作業に頼らざるを得なかった、曲牌や音注・穿貫などの抽出が簡単かつ網羅的にできるようになるので、戯曲の研究・分析にも有用であろう。

従来、目録や索引などは紙媒体での出版が一般的だった。紙媒体は学界に於いて、学術業績として伝統的な意味を持つものの、ユーザビリティはオンラインデータベースに遠く及ばない。また、データベースには完成が無く、永遠にデータを更新・追加し続けることができる。学術上の利便性を優先するならば、同種の資料はオンラインデータベース化されてしかるべきであり、本データベースはそのモデルケースともなろう。

図9 中国古典戯曲総合データベースメインページ

また本データベースではMediaWikiをカスタマイズして利用しているが、現在、中国本土ではインターネット規制の影響で、個人がWebサーバを公開することが禁止されているため、人文学研究のニーズに応じた実験的なウェブサーバを構築・公開することも困難な状況にある。つまり本データベースのような、インターネットを活用した人文学情報処理的研究の展開は、中国本土では困難であると言え、日本中国学ならではの独自の価値を発揮し得よう。

なお、Wikiは本来、ユーザが自由に記事を作成・編集できることを特長としているが、本データベースでは構築途中であること、またWikiでは心ないユーザによるいわゆる「荒らし」行為への対応は良識あるユーザのコミュニティに頼るしかないが、本データベースのような小規模な学術データベースでは対応に限界があることなどから、ページの作成・編集権限を登録ユーザに限定している。データベースがある程度完成した時点で、研究者を対象としてユーザアカウントの発行を受け付ける予定である。

5-1.今後の課題

これまでの研究を通じて、一般公開できるまでにデータベースの構築が進んだとはいえ、今後の課題も多い。

まず、データベースに収録されるデータ量を拡大しなくてはならない。これまでは雑劇を中心に入力してきたが、南戯・散曲なども対象としなくてはならない。曲譜や戯曲論著・筆記小説などの周辺資料のデジタル化も必要となろう。

工具書の項目については、今回は語彙リストの無い辞書、例えば『近代漢語詞典』(知識出版社版・団結出版社版とも)・『戯曲辞典』などを入力していない。今後、手入力の委託といった方法によって、補完していく必要がある。

システム面では、本格的な曲律分析の実現に向けて、さまざまな機能を開発する必要がある。例えば、韻律の表示システムについて、色分け表示が良いのか、それともルビを表示させるか、曲辞を音韻情報に置き換えたページを自動生成すべきか、検討を重ねる必要がある。また、『中原音韻』のみならず『洪武正韻』・『音韻輯要』・『韻学驪珠』・『中洲全韻』などの音韻体系に基づくテーブルを開発し、複数韻書を切り替えた音韻情報の表示や比較ができるシステムも必要となろう。

検索機能の面では、カテゴリを指定した正規表現全文検索機能、正規表現による検索条件指定や検索結果のKWIC表示などにも対応したい。

こうした点については、データベースの正式公開後、広く意見を聴取して改善を進めるとともに、また新たなプロジェクトとして取り組んでいきたい。

*本稿は日本学術振興会科学研究費補助金「中国古典戯曲総合データベースの発展的研究(平成20~22年度、基盤研究(C)、課題番号:17520237、研究代表者:千田大介)による成果の一部である。


*1 千田大介「中国古典戯曲総合データベースの構想と展望」(『中国古典戯曲総合データベースの基礎的研究』研究成果報告書(平成17~19年度、科学研究費補助金基盤研究(C)、課題番号:17520237、研究代表者:千田大介)、平成20年)。
*2 この検索機能は、マニュアル等には記載されていない。国内では、漢字文献情報処理研究会2002年春季公開講座「漢字文献データベースの最前線」(2002年3月31日(日)、慶應義塾大学三田キャンパス東館6F G-SEC Lab)にて、書同文社(当時)の朱岩氏により披露された。
*3 音韻テーブルの開発については、研究分担者:山下が別稿にて論ずる予定である。また音韻情報表示同システムについては、研究分担者:師が「中国古典戯曲研究のための音韻表示システムについて」(漢字文献情報処理研究会第13回大会、2010年12月18日、慶應義塾大学日吉キャンパス来往舎中会議室)にて詳細を報告した。
*4 「中国の人文情報処理企業の最新動向」(『漢字文献情報処理研究』第6号、2005 再収録:科研費報告書『中国古典戯曲総合データベースの基礎的研究』、2008)、「台湾・中国へのデータ委託入力の実際―実例に即して」(科研費報告書『次世代中国古典文献データベース構築の基礎的研究』、2005)、「中国における古典文献データベースの構築 書同文公司へのインタビューを通じて」(『漢字文献情報処理研究』第2号、2001)。
*5 http://www.itscj.ipsj.or.jp/ipsj-ts/02-05/ips_bsec/bsec.htm
*6 http://kanji-database.sourceforge.net/
*7 ただし、一対多関係の異体字(例えば「弁」と「辨」・「瓣」・「辯」など)が存在するため、最終的に人の手によるチェックが必要となる。
*8 たとえば、「情」であれば「⿰⺖青」のように漢字構造を記述する方式。CHISE プロジェクトの関連ドキュメント(http://www.kanji.zinbun.kyoto-u.ac.jp/projects/chise/)参照。
*9 http://glyphwiki.org/