『都市芸研』第十三輯/中国古典戯曲総合データベース

Top / 『都市芸研』第十三輯 / 中国古典戯曲総合データベース

中国古典戯曲総合データベース構築の現状と課題

千田 大介

はじめに

中国古典戯曲総合データベース(http://ccddb.econ.hc.keio.ac.jp/wiki/。以下、戯曲DB)のプロジェクトは2005年に始まる。古典戯曲・関連資料の全文データベースと古白話語彙・戯曲関連用語のリストと解説といった百科事典項目的要素、曲律分析システムなどを一体化した、専門研究に特化した総合データベースの構築を目的としている。これまでにいくつかの研究助成を受け*1、初歩的な技術上の検討やデータのフォーマットの策定から出発し、サーバとデータベースシステムの設置、文献データの蓄積と、徐々に構築を進めてきたが、ようやくある程度の規模と内容を備えるに至った。

本稿は、戯曲DBのコンセプトやMediaWikiを使ったデータベース構築の実際などについて、中間的に取りまとめたものである。以前にも同様の報告を執筆したことがあるが*2、その後の中国学情報化をとりまく環境の変化や、データベースの拡充に伴って浮上した新たな課題などを踏まえ、改めて学術データベースとしての戦略、構築の現状・成果・課題・展望などについて述べておきたい。

戯曲DBの戦略

なぜ古典戯曲か

上述のように、戯曲DBは中国古典戯曲に特化した専門研究データベースであるが、この古典戯曲研究というジャンルは、中国文学研究において決してメジャーとは言いがたい。中国文学において、近世(元明清)通俗文学の研究者そのものがさほど多くない上に、その大多数は小説の研究者であるからだ。

戯曲DBトップページ

このようないささかマイナーなジャンルを採りあげ、しかも日本発の研究DBを構築するのは、当然のことながら筆者が専門とする研究分野であることが第一の理由ではあるが、それとともに、中国学情報化の状況を踏まえ、日本の中国学研究者としていかなる貢献を果たしうるかを考察した結果でもある。

周知のように、中国では2000年以来、『四庫全書』・『四部叢刊』・『中国基本古籍庫』などなど、数億・数十億字もの文献収録量を誇る大規模文献データベースが相次いで開発されている。その結果、儒教関連書籍や歴史書、詩文集などについては、その大半が全文検索可能になっている*3

その一方で、白話小説・戯曲などの通俗文学については、文献データベースの構築は必ずしも進展していない。例えば大規模文献データベースの多くが白話小説を収録対象としていないし、収録していても代表的テキストを1つだけ選定しているケースが多い。通俗作品は版本間の字句の異同が経書・史書などに比べて大きいことを考えると、かかるデータベース作成方法では、専門研究のニーズに完全にこたえることは難しいだろう。

戯曲についても状況は似ており、収録するデータベースは『中国基本古籍庫』など少数に留まる。その上、歌劇形式である中国古典戯曲は、曲(歌詞)・白(セリフ)・詩・詞など、さまざまな要素を複合した複雑なスタイルを持ち、韻文である曲・詩・詞などが元の姿を留めやすく、かつ押韻などに地域性や時代性が反映されるのに対して、白は舞台上のアドリブなどの影響を受けて容易に変化する。このため、専門研究のニーズを満たすためには、それらの要素を区別して扱えなくてはならない。また、古典戯曲は白話小説と異なり、そもそもネット上に流通するフリーテキストそのものが少なく、研究者が手元のPCでテキスト分析することも難しい。

中国において、こうした戯曲研究のニーズにこたえるデータベースを開発するのは困難であると、筆者は推測している。中国の大規模文献データベースの開発元は、愛如生社・創新力博社など数社あるが、いずれも書同文社が中国のミレニアム国家プロジェクトであった『文淵閣四庫全書』全文検索版の開発を通じて開発した方式、すなわちOCRを用いて、底本の異体字を置き換えることなく全てそのまま電子テキスト化し、異体字テーブルによる一括検索機能と組み合わせて運用する方式を採用している。それは数億字規模の大規模な文献デジタル化には向いているものの、戯曲のように構成要素を一々確認してマークアップするなどの専門的知識を要する精緻な作業は不得手である。

また中国では経済発展の経緯から、個人へのパソコンの普及が進んだのが1990年代末以降のWindows時代であり、CUI時代のコマンドを使ったGrep・Perlなどによるテキスト処理の経験がないためか、それらを使った大規模テキスト処理手法が知られていないようである。また、中国の大学教育は教養教育が軽視され即戦力育成の専門教育に偏重しているとされ、情報処理の専門家が人文系の学識を身につけるのは日本以上に困難であると思われる。中国国産エディタに正規表現による検索機能を搭載しているものがほとんど見られないなど、情報処理プロパーのテキスト処理に対する認識も十分であるとは言いがたい。このため、中国では所謂人文情報学研究者がごく少数に留まっているし、古典戯曲研究を専門とする人文情報学研究者の噂もいっこうに聞こえてこない。

以上のように、人文学の専門研究ニーズに特化したデータベース開発を発想できる人材が人文学・情報学の双方で乏しい上に、中国ではインターネットサーバの設置にも厳しい規制がかけられているなど、研究者主導による開発環境も十分ではない。企業による各種文献データベースの開発においても、規模の追求が優先され、研究に役立つ各種検索・分析機能の開発が二の次になっている嫌いがある。

こうした状況ゆえに古典戯曲というジャンルは、中国古典文献デジタル化において、一種の“ニッチ市場”となっている。その市場をターゲットとすることにより、大規模古典文献データベースが林立する中で、日本発の中国古典研究データベースとして一定の存在感を示すことができよう。

手間暇かけたデータベース

文献データベースの良し悪しを測る尺度は、収録する文献の量、底本やデータの品質、閲覧・検索・分析システムの利便性など、幾つか考えられる。

中国の大規模古典文献データベースは、上述のように、圧倒的な収録文献量を誇る一方、底本をそのままデジタル化するため、特に版本・抄本を底本とする場合、異体字がそのまま残ってしまい、閲覧やテキストデータの再利用にいささか難がある。

日本の学術データベースは、科研費などの研究助成を受けて研究期間の1セクション、あるいは研究者個人が構築するケースが大半であり、戯曲DBもその例に漏れない。かかる資金・人材の規模では、収録文献の量において優れたデータベースを目指すのは現実的ではない。また、システム開発も個人レベルで行うには自ずと限界がある。ともなれば、必然的にデータの質によって存在感を示すしかなかろう。ジャンルを限定し小規模ながらも研究上のニーズを満たすべく、手間暇掛けて精緻にデータベースを作ることで、中国の大規模データベースの対極としての価値が発揮されると考える。

MediaWikiの採用

MediaWikiとは、Wikipedia用に開発されたWikiクローンの一種である。多種多様なWikiクローンの中にあって、MediaWikiはMySQLをベースとし、厖大なアクセスにも耐えうる堅牢性と高速な動作を特色としている。

MediaWikiはWikipediaのような百科事典ニーズを想定して作られているが、Wikisource*4などのテキストアーカイブサイトでも採用されているように、文献データベースの運用に用いることもできる。前述のように、戯曲DBは文献データベースと百科事典的な事項データベースとを有機的に組み合わせるものであるから、百科事典・文献データベースのどちらでも運用実績のあるMediaWikiはシステムとして好適であると言えよう。

また、MediaWikiのインターフェイスは多くのユーザーがWikipediaを通じて慣れ親しんでいる。オンラインデータベースにおいて使いやすさを決定づけるのは、コンテンツやスキーマ以前にインターフェイスであると言えるが、MediaWikiであれば、多くのユーザーがチュートリアルなしに使いこなすことができると思われ、専用のインターフェイス・システムを1から組み上げるよりも、効率的に使いやすいデータベースを構築できよう。

ところで、日本国内でも科研費などのプロジェクトや機関における情報公開への取り組みを通じて、多くのデータベースや資料がオンラインで公開されており、中国学に関連するものも少なくない。しかし、画像形式による公開が多いためGoogleでは見つけづらいし、また機関リポジトリなどもGoogle検索にヒットしない設計になっていることが多く、せっかくの資料の存在が知られにくいために余り活用されず、評価も得られないケースが多いことが指摘されている*5

この点、戯曲DBは完全にオープンなフルテキストデータベースであり、現にGoogleでの古典戯曲関連用語やフレーズの検索で上位に表示されるページも多いので、今後、データの充実に従って、中国古典戯曲研究の定番データベースとして広く使われるようになることが期待できる。

データの拡充と整形

データ構築の方法

戯曲DBでは、文献の電子テキスト化を中国の企業に委託している。日本国内の文献入力は、パート・アルバイトによる手打ち入力が中心であり、中国古典文献への対応に限界がある上に、XML形式への対応が難しいからである。

委託先は、書同文・中易中標などいくつかの企業を試した結果として、最新のUnicode規格への対応が比較的速く、かつXML形式の入力への対応が良好な創新力博社に委託した。委託にあたっては、底本とともに入力文献のXMLタグを定義したDTDを作成・提供している。

漢字処理の問題

XMLデータが完成した後、まず異体字の置換や外字の処理を行う。中国の大規模古典文献データベースの大半は、前述のように異体字をそのままデジタル化し、異体字テーブルによる一括検索機能でその欠を補う、『文淵閣四庫全書』全文検索版で確立された方法を用いてデジタル化している。この方式は、数億字規模の大規模データベースをスピーディーに構築できるメリットがある一方で、字句検索以上の複雑な検索機能を実装し難く、またコピーしたテキストデータの二次利用に不便であるなど問題も多い。

また、大規模古典文献データベースでは、専用の外字フォントを添付しているものが多いが、外字はデータベースあるいはその利用環境がインストールされたシステムでしか表示できないため、汎用性に欠ける。一方、中国のオンラインテキストアーカイブでは「左口右馬」のような記述を注記しているものが多いが、統一的な処理はなされていない。

このため戯曲DBでは、異体字の置換テーブルを作成し、それによる一括置換で異体字を代表字形に統一している。このとき、代表字形は繁体字IMEの利用を考慮して、原則として台湾Big5コード系の字形に揃えている。

○為×爲
○青×靑
○啟×啓
○眾×衆
◯說×説

台湾では一部の漢字について略字体の使用が許容されているが、それらは繁体字に揃えている。

○纔×才
○臺×台

ただしこの2字は「才能」・「天台」などの意味・文脈では「才」・「台」を使うことになるので、一対一対応での置換はできない。同様に文脈によって使われ方が異なる異体字は幾つかある。例えば「尸」は一般に「屍」の異体字であるが、「三尸神」の場合、「三屍神」とは書かない。俗字「𠂝」は「重」の略字であるが音通で「衆」などの異体字としても使われる。また、「仝」は「同」の異体字であるが、固有名詞に使われている場合には統一することはできない。そうした文字については、一括置換で複数候補を併記しておき、後で再度確認して確定する必要がある。

委託入力の結果、読めなかった文字については、底本を確認しつつ埋めていく。大半は印刷のかすれなどが原因だが、Unicodeの最新規格に登録されていない文字についてはIDSを用いて漢字構造を記述しておく。これによって、外字を統一的に記述するとともに、将来Unicodeに収録された後の置換に備える。また、Web外字などにも対応する計画である。

漢字の処理が完了したら、XMLのタグが適性であるかをチェックし、必要に応じてタグを追加・削除する。その後でデータベースに登録するためにファイルを分割し、ナビゲータ・カテゴリなどを付加する(詳細については後述)。戯曲DBへのデータ登録は、Perlスクリプトを用いて一括で行う。

電子化文献リスト

戯曲DBではこれまでの科研費研究を通じて、多くの戯曲関連文献を電子テキスト化してきた。また、中国都市芸能研究会プロジェクトを通じて入力された、伝統劇関連の電子テキストをも集約して、データベースに収録する予定である。現時点での電子化済み文献は以下の通りである。

  • 雑劇
    • 戯曲集
      • 元曲選元曲選外編・孤本元明雑劇・盛明雑劇・盛明雑劇二集・雑劇三集・吟風閣雑劇
    • 作品
      • 金翠寒衣記・群仙慶寿蟠桃会・群仙慶賞蟠桃会・恵禅師三度小桃紅・伍子胥鞭伏柳盜跖・黒旋風双献功・黒旋風仗義疎財・司馬相如題橋記・紫陽仙三度常椿寿・十美人慶賞牡丹園・翠紅郷児女両団円・清河県継母大賢・善知識苦海回頭・西廂記・第六才子書西廂記・張天師明断辰鉤月引・飛虎峪存孝打虎・福禄寿仙官慶会・孟浩然踏雪尋梅・李亜仙花酒曲江池・灌将軍使酒罵座記・趙貞姫身後団円夢・瑤池会八仙慶寿
  • 南戯伝奇
    • 戯曲集
      • 六十種曲・墨憨斎定本伝奇・李玉戯曲集・蔣士銓戯曲集
    • 作品
      • 燕子箋・塩梅記・驚鴻記・金印記・金丸記・金鎖記・高文挙珍珠記・断髪記・長生殿・党人碑・桃花扇・未央天・連環記・双忠記・琥珀匙・翡翠園・酔郷記・酔菩提・偷甲記
    • 富春堂本伝奇
      • 王商忠節癸霊廟玉玦記・王昭君出塞和戎記・何文秀玉釵記・岳飛破虜東窓記・観世音修行香山記・還帯記・韓湘子九度文公昇仙記・韓信千金記・韓朋十義記・玉環記・虎符記・周羽教子尋親記・徐孝克孝義祝髮記・商輅三元記・菅鮑分金記・蘇英皇后鸚鵡記・張巡許遠双忠記・南調西廂記・破窰記・目連救母勧善戯文・李十郎紫簫記・劉漢卿白蛇記・劉玄徳三顧草廬記・劉智遠白兎記・姜詩躍鯉記・灌園記・范雎綈袍記・薛仁貴跨海征東白袍記・薛平遼金貂記
  • 散曲集・散齣集
    • 太平楽府・陽春白雪・群音類選・風月錦嚢・綴白裘
  • 戯曲論著・資料
    • 中国古典戯曲論著集成・伝奇彙考・曲海総目提要・中国古典戯曲序跋彙編・清代燕都梨園史料・顧曲塵談・宋元戯曲考・唐宋大曲考・戯曲考源・古劇脚色考・優語録・録曲余談・中国劇・五十年来北平戯劇史料・都門紀略中之戯曲史料・道咸以来梨園繋年小録・晩清文学叢鈔小説戯曲研究巻
  • 伝記資料・筆記
    • 列朝詩集小伝・静志居詩話・堅瓠集
  • 曲韻書
    • 中原音韻・音韻輯要・韻学驪珠
  • 白話辞書
    • 全文入力
      • 詩詞曲語辞匯釈
    • 語彙一覧入力
      • 戯曲詞語匯釈・近代漢語詞典(団結出版社)・近代漢語詞典(知識出版社)・近代漢語大詞典・元曲釈詞・元曲熟語詞典・元語言詞典・古典戯曲外来語考釈詞典・詩詞曲小説語辞大典・宋金元明清曲辞通釈・宋元語言詞典・宋語言詞典・中国古典小説用語辞典・唐五代語言詞典・白話小説語言詞典
  • 戯曲工具書(項目一覧のみ入力)
    • 曲譜
      • 新定九宮大成南北詞宮譜・南北詞簡譜
    • 戯曲目録
      • 中国古典戯曲存目彙考・明清伝奇綜録・古本戯曲劇目提要
    • 古典戯曲
      • 元曲大辞典・中国戯曲曲芸詞典・中国曲学大辞典・中国古代戯劇詞典・方志著録元明清曲家伝略・明清戯曲家考略・中国古代戯曲家評伝
    • 伝統劇
      • 中国戯曲志・中国劇目辞典・崑曲大辞典・京劇劇目詞典・京劇知識詞典・川劇劇目辞典・中国豫劇大辞典・中国梆子戯劇目大辞典・粤劇大辞典

以上のように、元代から明代初期にかけての北雑劇、約300種については、ほぼ電子化を完了している。南戯伝奇については、排印本が刊行されている作品を中心に既に150種以上を入力しており、主要な作品は概ね網羅している。

底本には排印本があるものは排印本を選んだが、注釈や校勘記、新たな序跋などは著作権に配慮して公開しない。入力が完了した文献は、整理が完了したものから順次公開している。ただし、富春堂本の南戯伝奇は俗字が多用された通俗的な版本を底本とするため、今後翻刻の作業が必要となり公開には一定の時間を要するだろう。版本に基づいて入力した『群音類選』なども同様である。なお、工具書の目録の整理と公開については、後で詳述する。

MediaWikiによる全文データベースの構築

ページ組み込み機能の応用

MediaWikiは多彩な機能を備えており、更にテンプレートなどの形でさまざまな拡張機能が提供されている。それらのうち、戯曲DBの戯曲・周辺資料全文データの構築で多用しているのは、ページの組み込み機能とカテゴリ(分類)機能である。

MediaWikiで全文データベースを構築する際には、本文のどの程度の長さを1ページに盛り込むかが問題となる。中国語版Wikisource*6では大半の文献が巻単位でページ作成されているが、これは閲覧しやすい一方、字句を検索した際に、1ページあたりのヒット数が増大したり、あるいはヒット箇所が見つけにくかったりという短所もある。総じて全文データベースでは、1データあたりの文字数が少ない方が効率的に用例を検索できるが、文献を閲覧する場合はある程度の長さがなければ読みにくい。

戯曲DBでは、MediaWikiのページ組み込み機能を応用することで、この問題を解決ないし緩和している。中国古典戯曲は曲・白(セリフ)・科/介(ト書き)・詩といった韻文・散文が複合的に組み合わさって、一つの折/齣(幕に相当)が構成される。戯曲DBでは、このうち題・曲・白・詩といった戯曲文体の構成要素を単位としてページを作成している。そして、閲覧用のページは、折/齣ごとに、構成要素を組み込んで表示させる。

『馬陵道』雑劇第三折

例えば、『元曲選』本『馬陵道』雑劇第三折は前図のように表示されるが、ページソースは以下のようになる。

{{:元曲選/馬陵道/05第三折/01題}}
{{:元曲選/馬陵道/05第三折/02白}}
{{:元曲選/馬陵道/05第三折/03詩}}
{{:元曲選/馬陵道/05第三折/04白}}
{{:元曲選/馬陵道/05第三折/05詩}}
{{:元曲選/馬陵道/05第三折/06白}}
{{:元曲選/馬陵道/05第三折/07曲}}
……

こうして、「元曲選/馬陵道/05第三折/01題」以下、題・白・詩・曲などの構成要素のページを、順次組み込んでいる。

ページを検索する際には、組み込んだページではなく、元の曲・白・詩などのページにヒットする。この場合、前後の文を確認したり折・齣や作品単位で閲覧したりする際に不便が生ずる。そこで分割作成した各ページには、前後の要素、および上位の要素へのナビゲータを埋め込んでいる。ナビゲータの作成には、MediaWikiのheader2プラグインを使用している。

ナビゲータは折・齣レベル、及び雑劇タイトルのレベルにも埋め込んでいるので、それぞれレベルで遷移して閲覧することもできる。

戯曲DBでは、上述の方法によって、さまざまな種類の文献を登録している。例えば、『堅瓠集』などの筆記や『静志居詩話』・『列朝詩集伝』などの伝記資料については、項目ごとにページを作成し、ナビゲータを付している。ただし、巻単位の閲覧用ページは作成していない。戯曲論著についても、同様に処理している。

以上の方法は、検索と閲覧、両方のニーズを満足させることができる反面、巻などのまとまった単位でページを作成するのと比べて、作成するページ数が増え、ナビゲータも設置しなくてはならないため、文献データの整形・登録の手間が遥かに増える。しかし、手間暇掛けた専門データベースという戯曲DBのコンセプトに照らして、たとえ工程が増えるとしても、検索・閲覧に適したページ作成方法を採用するべきであると考える。

カテゴリとページ組み込み機能による曲牌の抽出

かかる文献データ登録方法のメリットとして、最小構成単位となっているページを、全文閲覧用ページのみならず、他の分類ページや解説ページなどにも読み込める、つまり、1つのページを異なった分類・分野のページに組み込んで使い回せる点が挙げられる。

例えば、歌曲形式を採る中国古典戯曲では、曲律研究が一つの重要なジャンルになっているが、そこでは複数の戯曲から同一の曲牌―戯曲で歌われる定型楽曲―を抽出して比較対照する作業が欠かせない。戯曲DBの戯曲本文データは1曲牌1ページになっているが、それぞれの曲牌ページには曲牌名の分類を、例えばCategory:北仙呂宮/混江龍のように埋め込んである。これによって、曲牌名の分類ページから当該曲牌のページにジャンプできるようになる。

曲牌の分類ページ

ところで、曲牌には複数の異称を持つものがあるし、戯曲テキスト中に掲げられる曲牌名が誤っていることもある。例えば、大石調【催花楽】は【雷鼓体】・【擂鼓体】・【擂鼓棒】とも呼ばれるし、南呂宮【草池春】は【闘蝦蟆】・【絮蝦蟆】・【蝦蟆序】ともいう。また『元刊雑劇三十種』本には、套曲の最後の一曲が実際には【煞尾】・【黃鍾尾】などであるにも関わらず【尾】としか書かれていない、といった例が散見される。このため曲牌のカテゴライズや抽出を実現するにあたり、まず曲牌名称の整理作業が必要となる。

戯曲DBでは、北曲・雑劇のデータ構築を優先して進めているため、まず北曲曲牌について整理を完了させた。曲牌の異称や通用については曲譜によって見解が相違するものも存在するが、基本的に北曲曲律研究のスタンダートである鄭騫『北曲新譜』*7に依拠しつつ、『太和正音譜』・『北詞広正譜』・『九宮大成南北詞宮譜』などを参照して各曲牌を同定し、異称の変換テーブルを作成した。

戯曲DBトップページで「北曲曲牌」をクリックし更に宮調名を選ぶと曲牌一覧が表示される。そこで曲牌名をクリックすると、各曲牌の分類ページが開き、簡単な補足情報と各種曲譜における掲載ページ一覧、および当該曲牌出現ページへのリンク一覧が表示される。この出現ページへのリンクは、各曲牌のページに埋め込まれた分類情報に従って自動生成されている。

それとともに、同一曲牌を組み込んで一覧表示するページも作成・公開している。北曲の曲牌は、散曲と雑劇とでいささか使われ方が異なり、また雑劇が盛んであった元代・明代初期の作品と、南戯が隆盛した明代中期以降の作品とでは、曲律の厳密性など大きく様相が異なるとされる。このため、曲牌一覧ページは、元明雑劇・元明散曲・明清雑劇などに分けて作成することとし、現在はデータがある程度蓄積されている元明雑劇について、『元曲選』・『元曲選外編』の曲牌を組み込んで生成している。

曲牌抽出ページ

同一曲牌を抽出し比較対照する作業は、曲律研究のみならず、戯曲の表現研究や翻刻などでも欠かせないが、従来は曲譜を参照するか、カードを作成するしかなかった。そうした手間がかからなくなり、かつ網羅的な情報が得られるので、戯曲DBを通じて曲牌抽出ページを提供することは、戯曲研究の効率を大いに高めるものと考える。

今後、2015年度前半には『孤本元明雑劇』・『太平楽府』を公開し、それと合わせて元明雑劇・散曲の北曲曲牌抽出ページを拡充する予定である。南曲に関しては、現在、曲譜目次の電子テキスト化と曲牌名の整理を進めており、作業の完了を待って、北曲と同様の曲牌解説ページ・曲牌抽出ページなどを提供する計画である。

このほか筆記や伝記資料・戯曲論著・目録などについても、細分化されたページに人名・作品名などのカテゴリ情報を付加する、あるいは人名や戯曲作品の解説ページにそれらを組み込んだりリンクを掲載したりすることで、百科事典項目的コンテンツと文献の全文テキストとを有機的に関連づけ、研究の効率を高めるとともに新たな知見をもたらしうるデータベースとすることが可能となろう。これは今後、各種固有名詞の異称変換テーブルの充実をはかりつつ、対応を進めていく予定である。

韻文要素のマークアップ

戯曲DBの戯曲全文データの特色として、韻文要素のマークアップを挙げることができる。

北雑劇・南戯伝奇などの古典戯曲テキストでは、南戯伝奇の齣末の所謂「落詩」が曲辞と同じ大字で表現されるものの、劇中で登場人物が朗誦する詩や対句・詞・小曲などは、セリフと同じ小字で表現されるのが通例である。その一方で、京劇などの伝統劇の台本では一般に詩・対句が改行・インデントでセリフと区別される。戯曲DBでは伝統劇台本と同様に、詩・対句をマークアップし、科白と区別する方針である。

このようにした理由の1つは、韻文と散文とを区別することにある。曲辞の韻律には、作品が成立した時代や地域が反映されると思われるが、それは詩や対句についても当てはまるのであり、韻文要素を容易に抽出できるようにしておくことが望ましいと判断されるからである。

また、『孤本元明雑劇』収録の脈望館本雑劇のように長大なセリフのある作品の場合、詩・対句などを区別することによって、1ページの文字数が厖大になるのを防ぎ、検索の効率を高めることができるという現実的な理由もある。

ただし、そうした韻文要素は往々にして底本でセリフと区別されていないため、委託入力時にマークアップすることができない。このため、5字句・7字句などの連続する箇所、ト書きの「詩云」、セリフの「正是」などを検索し、手作業でマープアップしていくことになる。

百科事典的項目の整理と作成

さきほど、曲牌のカテゴライズにおいて、曲牌の整理・同定作業が必要になると書いたが、これは曲牌のみならず、戯曲の題名・人名・戯曲用語・白話語彙など、さまざまな百科事典項目的な要素についても当てはまる。それらは、関連論著や工具書の項目一覧を電子テキスト化した上で1つにまとめて比較対照し、項目の統合と異名・異称の確定作業を行っている。これは戯曲DBの構築において、全文データの整形・登録以上に手間のかかる作業となっている。

本章では、戯曲DBに収録した、あるいは収録予定であるそれら要素の構築と整理状況、問題点などについてまとめておく。

人名の整理

戯曲DBでは戯曲関係人名について、1人1ページを作成する。収録する人名については、工具書の目次・索引を電子テキスト化したものとともに、一部書籍については作業を通じて人名索引を作成し、それらをまとめて重複・異名を整理した。

人物ごとのページには、現在は暫定的に工具書などの掲載ページ一覧だけを掲載している。それでも、以下の多くの工具書・書籍の総合索引として利用できるので、戯曲関連人物の調査効率を高めることと思われる。

『太和正音譜』・『中国古典戯曲存目彙考』・『中国曲学大辞典』・『中国古代戯曲家評伝』・『明清伝奇綜録』・『方志著録元明清曲家伝略』・『明清戯曲家考略(一~四編)』・『中国戯曲曲芸詞典』・『中国戯曲志』全巻・『京劇知識詞典』・『中国豫劇大辞典』・『中国崑劇大辞典』

現代の伝統劇の工具書や『中国戯曲志』などについても収録対象としているため、元明清代のみならず近現代の戯曲家・俳優などについても検索が可能であり、登録済み人名の総数は1万を超えている。

今後、伝記資料や戯曲論著に見える人名、戯曲の登場人物名などを補足するとともに、人名ページに戯曲論著の関連記事を組み込むなどして、データの充実を図る予定である。

また戯曲DBでは、本誌に連載中の『劇説』校注の書名作品名注・戯曲用語注などを、百科事典的コンテンツの解説文として転用する計画であり、人名ページについても人名注を略伝として使用することになる。ただ人名注は往々にして『劇説』本文に出現する字号などの別称に即して書かれているため、書き換える必要がある。

人物ページ(関漢卿)

現状では、人名の分類が未完成である。これは、戯曲家・批評家・俳優・劇中人物といった区分、および活躍した年代などを組み合わせて作成する方針である。

戯曲作品名

中国の古典戯曲作品のページは、現在鋭意制作中である。これも人名と同様に、『劇説』の作品名注の解説と、各種工具書の掲載箇所一覧、および著作権保護期間が満了した目録などからの組み込みなどによってページを構成する予定である。

戯曲の作品名についても、異称の問題が避けられない。雑劇の場合、正名・簡名の二種類があり、またテキストによって名称が異なる場合もある。南戯伝奇の場合も状況は似ている。このため、やはり戯曲タイトルの整理・同定作業が必須となる。

戯曲の題名については、『中国古典戯曲存目彙考』・『明清伝奇総録』・『古本戯曲劇目提要』・『中国曲学大辞典』といった工具書の項目一覧を電子テキスト化し、比較対照することで同定作業を進めている。名称が重複するものは、タイトルの後に(著者名)を付して区別し、曖昧さ回避ページを作成する。

作業を通じて、工具書の重複登録といった誤りが幾つか見つかったほか、各工具書間の項目の立て方の相違をいかに処理するかが問題となった。

例えば『中国曲学大辞典』では、南戯『秦太師東窓事犯』と明代伝奇『東窓記』を項目に立て、『東窓記』には青霞仙客の別称『陰抉記』と、金陵富春堂本の『岳飛破虜東窓記』の2つの子項目が含まれる。一方、『秦太師東窓事犯』の解説では、同南戯を改編したのが金陵富春堂本『岳飛破虜東窓記』であるとしている。

このように『中国曲学大辞典』では、『永楽大典』・『南詞序録』などに南戯として著録されているものをいずれも南戯として立項する一方で、それらを継承したとされる明代伝奇についても別項目を立てている。しかし上の例のように、南戯に立てられている作品であっても、現存のテキストとして明代の版本が挙げられていることが少なくない。

これらを一々分けて収録するのは、かえって使い勝手を悪くする危険性があるので、戯曲DBでは『秦太師東窓事犯』(『岳飛破虜東窓記』を含む)と『陰抉記』の2項目を立てる『中国古典戯曲存目彙考』に従うのが妥当であると判断した。このように、ケースバイケースの判断が必要となる。

また『明清伝奇綜録』では清末民初の短編戯曲を南戯伝奇として扱うが、『古本戯曲劇目提要』は雑劇に分類する。明代に南北合套が出現し、南北曲の単折雑劇が作られるようになって以降、雑劇・伝奇という分類には短編・長編という程度の差異しかなくなっているが、しかし短編・長編の境目が何折・齣であるのかを定義することはできまい。これらについては、伝奇とも雑劇とも明示せず、戯曲タイトルをページ名として項目を作成し、工具書におけるそれら目録の収録ページを、どの項目に分類されているかという情報を付記して掲載することになろう。

戯曲タイトルも曲牌と同様、北雑劇優先で整理を進めているが、南曲伝奇についても作業は半ばを越えているので、さほど遠くない時期に公開できるものと思われる。

折子戯の扱いと物語分類

少々面倒なのが、散齣の題名および伝統劇の演目の取り扱いである。

散齣とは、雑劇・伝奇の折・齣を取り出したもので、もとの雑劇・伝奇とは異なる折題・齣題を付けられて流通しているケースが多い。このため、戯曲DBでは今後散齣のタイトルでの検索にも対応する必要があろう。

これについては、散齣のタイトルでページを作成してそれらを含む雑劇・伝奇のタイトルに分類するとともに、雑劇・伝奇のページにも散齣へのリンクを掲載するのが妥当であろう。今後、『群音類選』・『風月錦嚢』・『綴白裘』などを戯曲DBに登録する段階で、対応を進めたい。

伝統劇の演目では、本戯(通し狂言)としての名称と折子戯(見取り)の名称の関係が雑劇・伝奇以上に曖昧で、必ずしもツリー構造を描けないため、よりフレキシブルな対応が必要となる*8。これも、本戯・折子戯のページにカテゴリと相互参照を振って対応することになろう。

古典戯曲・伝統劇のタイトルは、作者による分類と作者ページからのリンクで検索するのが一般的であると思われるが、無名氏の作も多いため、劇種・時代ごとの分類ページを作成する必要もあろう。また戯曲・通俗文学研究では、ある物語が時代によっていかに変遷したのかを追う必要が生ずるため、三国もの・水滸もののように物語、あるいはその物語を扱った小説に基づく分類、更に登場人物による分類などもあった方が便利であろう。

戯曲タイトルに物語による分類を設定するのは、ある程度内容に踏み込む必要があるためかなりの手間を要するが、『劇説』で作品名注を付したものから、順次対応していく予定である。

古白話語彙の整理

戯曲DBでは、宋元明清の話し言葉、所謂古白話語彙についても収録する方針である。現在、著作権保護期間が満了している『詩詞曲語辞匯釈』については全文の、その他は語彙と掲載ページのリストの委託入力を完成しており、一部を公開するとともに、それらの整理・統合作業を進めている。

古白話についても、1語彙につき1ページを作成し、『詩詞曲語辞匯釈』の全文データを組み込むとともに各種工具書の掲載ページリストを掲載する方針である。情報化が進む前の1980年代までは、我が国でもしばしば工具書の総合索引が作られていたが、それと同様の機能を提供することになるので、戯曲のみならず小説などの近世通俗文芸の研究を効率化できるものと考える。

もっとも、中国ではCNKI工具書*9で既に7,000種を越える工具書の一括検索機能が提供されており、単に工具書の総合索引としてだけであれば、そちらの方が使い勝手が良かろう。しかしそれでも、古白話語彙を整理しリストを作成することには、一定の意味があると考える。

情報処理手法によるテキスト分析においては、形態素解析や文体分析のために語彙リストが必要となる。しかし、現代中国語はいざ知らず、現在のところ古白話の語彙リストはどこからも提供されていない。もしも古白話の網羅的な語彙リストを作成し、語彙の出現年代や地域性などの情報を付加したならば、語彙分析からテキストの成り立ちや性質に迫ることも可能になると思われ、中国近世文芸研究の情報化を進める上で画期的な意義を持つことだろう。

語彙の整理にあたっては、やはり複数の工具書に掲げられる語彙の統合という作業が必要となるが、ここで問題となるのが、主に中国で刊行されているそれら工具書の大多数が簡体字で作成されている点である。周知のように、「發」・「髮」の簡体字が「发」になるように、簡体字には本来区別されるべき複数の繁体字を1文字にまとめているものが多く見られ、古典文献の記述に用いるにはいささか難がある。

このため、各種工具書の収録語彙を繁体字に変換して統合していくことになる。しかしこの一対多関係ゆえに、繁体字への変換ではどの文字に変換すべきか、判断に迷うこともしばしばである。こと戯曲・小説などの通俗作品では、原本がそもそも異体字や通仮字で記述されており、繁体字同定の参考にならないことも多い。現在、複数の簡体字・繁体字変換プログラムで変換した結果を対照して、異なる繁体字に変換されるものを重点的にチェックするなどして作業の効率化を図るとともに、『漢語大詞典』の見出し語を参照するなどして同定作業を進めている。

それとともに問題になるのが、所謂拡張簡体字である。拡張簡体字とは、ある文字を構成する繁体字パーツに、対応する簡体字がある場合、そのパーツを簡体字に書き換えなくてはならないという中国における文字政策の制約によって生み出された、簡体字のことをいう。古白話の作品には通俗的なテキストが多く、俗字や異体字が頻出するため、工具書にはそうした文字が拡張簡体字として収録されることになる。

文字コード収録の典拠となるのは第一に原典資料であるため、もとの繁体字はUnicodeに収録されるが、工具書の刊行時に生み出された拡張簡体字は、UnicodeのExt.B~Ext.E領域にある程度登録されているものの、まだまだ未登録の文字が多い。入力を委託した場合、それらのUnicode未収録文字は認識不能文字として扱われる。

右図は拡張簡体字の例である。このうち「𪨧」の繁体字は「崙」になり、「崑崙」を簡体字で「昆仑」と表記するように、本来は「仑」として良いはずであるが、「侖」との混同を嫌ったのか、わざわざ「𪨧」を用いている。なお「𪨧」はUnicodeのExt.Bに収録されており、なぜ認識不能文字になったのか腑に落ちない。

ともあれ古白話語彙の整理においては、それら拡張簡体字を元の工具書で確認して埋め込む、あるいはIDSで記述するするとともに、対応する繁体字を入力する作業が必要となる。

古白話語彙の整理は一定の目途はついているものの、古典戯曲全文データや作品名の処理を優先させるため、公開には今しばらく時間がかかる見込みである。

おわりに

戯曲DBの短期計画

以上に紹介してきたように、戯曲DBは戯曲本文や関連資料の全文データについてはある程度形になってきたものの、用語・語彙に関しては、整理・統合作業、および分類の作成など、構築の途上にある。

現在、戯曲の全文データ公開を優先的に進めており、2015年度上半期には、『孤本元明雑劇』・『太平楽府』・『六十種曲』およびいくつかの南戯伝奇・『中国古典戯曲序跋彙編』などを公開できる見込みである。また百科事典的項目についても、南曲の曲牌、および戯曲作品名の整理を重点的に進める予定で、2015年度末頃の公開を目指している。

今後の課題

最後に、今後の課題についていささか書いておきたい。

現在直面している課題としては、ルビの処理問題がある。戯曲論著のうち、曲律について言及する『絃索辨訛』・『度曲須知』などは、曲辞の左右にルビとして韻律情報を付している。現在のブラウザのルビ機能では、文字の上にしかルビを付すことができないので、これを表現することができない。左右ルビについては、HTML5で標準化されるというが、ブラウザへの実装には今しばらく時間がかかるだろう*10。その間、将来のルビ機能拡充に備えていかにデータの整合性を取りつつ、既存ブラウザでも閲覧できるように処理するか、今後、検討を進めなくてならない。

また、システムの改修も必要である。特に曲辞の韻律表示システムについては、複数の音韻テーブル切り替え表示の対応に向けた研究を進めており、その実現に向けて開発を急ぎたい。

なによりも、これまでの戯曲DBのプロジェクトを通じてデジタル化したのは、厖大な戯曲作品・関連文献のほんの一部にすぎない。今後とも、データの拡充とシステムの改善を続けて、より良い学術データベースを目指す所存である。

※本稿は、日本学術振興会科学研究費「中国古典戯曲総合データベースの応用的研究」(平成二十三~二十六年度、基盤研究(B)、課題番号:23320077、研究代表者:千田大介)による成果の一部である。


*1 「中国古典戯曲総合データベースの基礎的研究」(基盤研究(C)、課題番号:17520237、平成17~19年度、研究代表者:千田大介)、「中国古典戯曲総合データベースの発展的研究」(基盤研究(C)、課題番号:17520237、平成20~22年度、研究代表者:千田大介)、「中国古典戯曲総合データベースの応用的研究」(基盤研究(B)、課題番号:17520237、平成23~26年度、研究代表者:千田大介)。
*2 千田大介・二階堂善弘・山下一夫・師茂樹「中国古典戯曲総合データベースの構築」(『中国古典戯曲総合データベースの発展的研究』研究成果報告書、平成23年)。
*3 千田大介「学術情報収集のスキルとインフラ整備」(『漢字文献情報処理研究』第15号、2014年、好文出版)参照。
*4 http://wikisource.org/
*5 師茂樹「学術データベースの構築と公開」(『漢字文献情報処理研究』第15号、2014年、好文出版)参照。
*6 http://zh.wikisource.org/wiki/
*7 芸文印書館、1973年。
*8 同種の問題については、千田大介「京劇上演データベース構築のパースペクティブ」(『近代北方中国の芸能に関する総合的研究~京劇と皮影戯をめぐって』平成14-16年度 科学研究費基盤研究(B) (課題番号14310204、研究代表者:慶應義塾大学総合政策学部教授 氷上正) 成果報告論文集、平成17年3月)で論じたことがあるが、上演の計量的把握を目指したRDBである同データベースと戯曲DBとでは、設計思想はいささか異なったものになる。
*9 http://gongjushu.cnki.net/refbook/default.aspx
*10 川幡太一「HTML のルビ標準化の現状と課題」(『漢字文献情報処理研究』第15号、2014、好文出版)参照。