« 喀什笊作り横町旧事 | Main | 第13回中央アジア古文書研究セミナー »

にわか辞書作りの弁2009

--------------------------------------------

以下のエッセイも、2009年に執筆した、こちらはボツ原稿である。当時は『現代ウイグル語小辞典』が出版間際で、その状況下で「何か書け」と言われ「即座に書けるネタ」がこれしかなかった。あれから5年以上経過し、相変わらず私はウイグル語を教え、また辞書作りも細々と続ける羽目になっている。

あれから技術的にもレキシック・プロがSILのなかでも最前線を退き代わりのアプリが登場し、またウイグル語辞書も新しいものが出ている。とりわけ新疆での電子辞典の発達普及は恐ろしいものがある。おまけに文中で生まれたばかりの「愛しいわが子」であった長男もいまや7歳で、『妖怪ウォッチ』に夢中なクソガキに成り果てている(いや、愛しいわが子であることには変わりがないが…)。

そういう状況ではあるけれども、やはり辞書は地味で根気の要る作業の積み重ねで作られるものだし、そういう「汗」を反映させた、完成度の高い「編者畢生の辞書」のようなものはまだ出ていない。また今後も出るかどうかは分からない。してみれば、5年ぐらいたったからと言って、この内容が陳腐化したかどうかなんて分からないのではないかと言う気になった次第である。このエッセイは今に続く、過去の時点での私の辞書とのうんざりするような付き合いの記録としてお読みいただければ幸いである。

-----------------------------------------------



恥ずかしながら、最近、辞書を作っている。


「恥ずかしながら」というのは、自分のやっていることは確かに「辞書作り」ではあるけれども、世間一般の「辞書作り」に対するイメージよりはおおいに安直で能天気な代物だからである。私は辞書を作っている。それは疑いない。しかし、そう自分の仕事を紹介することであらぬ誤解を受けてしまうのは分不相応でいかにも格好悪いし恥ずかしい。

そもそも私の辞書作りは最初からベースとなる「底本」が複数あって、それらを言ってみれば自分勝手にまとめあげただけなのである。私がやったことは冒頭に載せるそのことばの概要(文法スケッチ)を書き、手前勝手な視点からエントリーする語を選び、個別の記載事項をチェックして必要に応じて追加と削除、内容の修正、加筆をおこない、辞書後半に機械的に日本語を見出しとするリバース・インデックスをつけたにすぎない。辞書の「要」とも言うべき用例は掲載できなかったし、組版も出来合いの辞書作成ソフトの出力機能に頼りっぱなし、という代物なのである。

確かに私は「辞書を作っている」。しかし、私のこの「辞書作り」はいまの段階ではとうてい「辞書編纂」などではなく、実際「辞書作り」と称するのも恥ずかしい。あえて言うなら「にわか辞書作り」とでも呼ぶべきものである。

*********************

申し遅れたけれども、いま私が「にわかに作って」いる辞書は、題して『現代ウイグル語小辞典』と言う。見出し語一万七千語弱に日本語の語釈と熟語、同義語、類義語、一部の語源、そして日本語見出しのインデックスを付した簡易辞書である。くどいけれども用例は収録していない。

「現代ウイグル語(以下ウイグル語と略記)」ということばは世間にあまりなじみがないかもしれない。ことばの系統としてはトルコ語の親戚にあたり、ウズベキスタンの国語であるウズベク語とは兄弟のようによく似たこのことばは、中国の西端に位置する新疆ウイグル自治区をはじめとして、隣接する中央アジア諸国などで話されている。その文字は変則的なアラビア文字を使用する。今日の話者人口は推定で一千万人はいると考えられ、星の数ほどもある世界のことばの中では比較的大きなことばに分類されるだろう。あるいは本誌の読者のなかには、近年の中国からの独立運動に関する報道や、NHKの人気番組『シルクロード』を通じて彼らをご存知の方もいるかもしれない。

*******************

そもそもこの私がなぜ「にわか」ではあっても辞書作りなんぞに手を染めることになってしまったのか。言っておくが私はことばの専門家ではない。新疆史を専攻する、どちらかと言えば出来の悪い歴史研究者であり、「手段」としてウイグル語文献を読んだり、その場の必要に応じてウイグル語を話したり書いたりすることはあっても、このことば自体を「目的」として取り組むつもりはもともとなかった。だいいち現代ウイグル語のレヴェルもそれほど高くない。新疆に二年暮らし、そこで自分なりにウイグル語を磨いたものの、日本人で私よりもこのことばの読み書き、会話に優れた人は少なくないだろう。

しかし縁あって大学で三年ほどウイグル語を教える機会があり、そこでウイグル語を学ぶための教材や、辞書のない不便におおいに煩わされることとなり、それが結局は「にわか辞書作り」へと私を向かわせることとなった。

日本語でウイグル語が学べる独習書は信頼できるものとしては竹内和夫の『ウイグル語四週間』(大学書林、一九九二年)のみだし、辞書も一九八二年にウルムチで出版された『維漢詞典』(現代ウイグル語―中国語辞典)を底本にした小松格『ウィグル語辞典』(泰流社、一九九三年)、飯沼英三『ウイグル語辞典』(穂高書店、一九九二年)が出ているけれども、どちらも絶版になって久しく、しかも授業を進めるうえでは使い勝手もそれほどよい代物ではなかった。お手製の粗末な教材と、絶版となった数百ページの対日辞書を毎年コピーしては学生に配り授業をするのはなかなか面倒なことであり、私はコピー機、裁断機そして製本機と格闘しながら、もし機会あらば、ぜひとも自分なりにウイグル語を学ぶための教材や、ウイグル語と付き合っていくための一定のボリュームの辞書を手がけてみたいと過分な志(妄想)を抱くに至ったのである。

この「志」は、三年にわたったウイグル語の授業が終了してからも、私の意識の中ではずっと蓄えられていた。しかし、具体的にどのようなかたちでそれに着手するか、という青写真のようなものは全然なかった。それがにわかに現実味を帯びてきたのはアジア・アフリカ言語文化研究所の「言語研修」でふたたびウイグル語を教える機会に恵まれたことによる。

アジア・アフリカ言語文化研究所(略称AA研)は東京外国語大学の付置研究所で、その「言語研修」は一九六七年いらいほぼ毎年実施されてきた、同研究所の基幹事業とも言うべきプログラムである。国内ではなかなか学びにくいことばを取り上げ、最大五週間、百五十時間にわたり研修を行う、ある先生の言葉を借りるならば「ブートキャンプ」さながらの、学ぶ側からすればまことに贅沢な機会と言えるだろう。教える側にしてみれば、この研修プログラムはプログラム独自の教材を作成し、それを実際の研修で用いる中でその教材の完成度を高めることが期待されており、一方的な「サービス」に終わっていないところが最大の特徴である。

それにしても盛夏の五週間を、土日の休みがあるとはいえ、ひたすらただひとつのことば(しかも、他ではなかなか学びにくい珍しいことば)の世界に浸るなんて体験は願ってもそうそう得られるものではない。このご時世にあって、この言語研修は存在そのものが奇跡にさえ思える。私がウイグル語言語研修の話をいただいた際に一も二もなく即座に承諾したのは、こうした伝統的、いや伝説的とも言うべき事業に一度は参与してみたいという長年のあこがれもさることながら、研修の教材作成の一環として、生臭い言い方で言うならばその予算を活用して、他でもないウイグル語辞書の雛形を作成することができるのではないかと考えたからであった。

さて、私の辞書作りに関して、まずもって大変幸いしたのは、記述言語学者である妻が専門家としてレキシコグラフィーの知識と経験を有していたということであった。言語研修の話が持ち上がったころ、妻はベンデ語と言うタンザニアのことばの語彙集(ベンデ語、日本語、英語、スワヒリ語の四言語対照語彙集)を出版した直後であり、タイミングとしては申し分なかった。妻からそのほやほやの辞書作りの段取りとノウハウにつき逐一レクチャーを受け、さらに妻が語彙集の作成に用いた辞書作成ソフトウェアの使い方を学ぶに及んで、戦略的にどのようなステップを踏めば、期日までに辞書とはいえぬまでも辞書の雛形のような語彙集を作成することができるか、という見通しが立てられたのであった。

さらにウイグル語はアラビア文字を使うことばだが、ほかのアラビア文字使用言語よりコンピュータ上での処理が格段容易な特性を有していることも大いに幸いした。アラビア語はじめペルシャ語、ウルドゥー語などの一般的なアラビア文字使用言語は長母音しか表記せず、短母音は読み手の側が適切に補って読むこととなっている。したがってアラビア文字から単純に機械的に長短の母音つきのラテン文字に置換することはまず不可能である。しかしウイグル語はアラビア文字使用言語としてはきわめて変則的なことに、母音が長母音、短母音を問わずすべて表記される。これはとりもなおさず、ラテン文字とアラビア文字の間の相互置換が可能であることを意味し、実際、あるウイグル人プログラマが開発したテキスト・エディタにはアラビア文字からラテン文字(これは一般にウイグルコンピュータ文字と呼ばれる)に一括変換させる機能がついているほどなのである。

この特性のおかげでウイグル語のデータソースはラテン文字による一元的な管理が可能なのである。ウイグル語アラビア文字のこうした変則性は二〇世紀初頭のソ連において、ゆくゆくは表音文字(ラテン文字やキリル文字)への転換を目指して暫定的に開発されたものではないか(そしてその暫定的であったはずの文字がどういうわけか中国領で今日まで用いられている!)と考えられるのだけれども、その変則性がはからずもこんなところで幸いしているということになるだろうか。

ここで「辞書作成ソフトウェア」なるものについてひとこと紹介しておく必要があるだろう。今回私が用いたソフトは合衆国のキリスト教系言語学団体「夏季言語学会Summer Institute of Linguistics (SIL)」がフリーで公開しているレキシック・プロ(Lexique Pro)なるソフトウェアである。このソフトウェアは基本的にユニコード(UTF-8)のテキストベースでデータを作成し、プログラムでそれをコンパイルして電子辞書に仕立て上げるというもので、UTF-8がカヴァーする文字を用いることばであればほぼ例外なく手軽に辞書を作成することができる。もちろん文字の並び順も自在にこちらで設定することができるし、その気になれば複数のことばによる対照辞書だって作成することができる。

テキストベースでタグによって情報項目を識別し辞書を生成する、というのがこのソフトウェアの最大の特徴である。コンピュータを用いて辞書作りを企てる人は、データベースソフトにとびつきがちだけれども、お気の毒ながらこれはまずうまくいかない。何なれば、―これは私淑するある先生の受け売りだけれどもーデータベースは表計算的発想、つまりX軸とY軸(タテとヨコ)の一対一の対応でもってデータを束ねていく。しかし普通の辞書の書式というものはは往々にしてそういう発想からは逸脱する振る舞いをするからである。単語の語義はひとつではなく、複数の語義を帯びている場合がほとんどである。また同音異義語の扱いをどうするかと言う問題もある。それ以外にも参照項目や同義語が複数にわたる場合はどうするのかとなると、一対一の発想ー表計算的なプログラムではどうにもうまく処理できないと言うわけだ。多少なりともデータベースや表計算を扱ったある人にはこの点はご理解いただけると思うのだが、どうだろうか。

いっぽうレキシック・プロでは、各見出し項目はそれを示すタグで区切られ、見出しタグと次の見出しタグで区切られたフィールドがすなわちひとつの単語のフィールドと言うことになる。見出しタグのすぐ後には見出し語が入力され、同様に発音記号、品詞、日本語語釈、日本語ふりがな、参照項目、同義語、借用語などが、それぞれのタグに情報を後置する形をとる。項目に対し情報が複数ある場合はスペース+セミコロン+スペースで区切ることになっている。また複数の語釈や同音異義語の取り扱いについてもそれぞれ特別なタグを付すことができ、それらをプログラムが適切に認識し、処理できるようになっているのである。

そしてさらに素晴らしいのは、このソフトが最初から紙媒体の辞書への出力とインターネットで公開する電子辞書出力を想定しており、何の苦もなく美麗な辞書の版下(リッチテキスト形式)とウェブ公開に対応したファイルを作ることができると言う点である。昨今の風潮はコンピュータを利用した辞書といえばすぐに電子辞書に発想が傾きがちで、言語研究者も電子辞書の構築や紙媒体の辞書のデジタル化には熱心でも、新たな紙媒体の辞書づくりには一般に関心が高くないように見受けられる。けれども、辞書を実際に使う側から見れば、私自身は辞書は紙のほうが使いやすいと確信している。電子書籍が紙の書籍に比べそれほど社会に受け入れられているわけではないのと同様に、需要の面からも、また機能面からも紙媒体の辞書はまだまだ電子辞書に一日の長があるように思われるのである。そういう意味においてレキシック・プロのこうした配慮はことばとの付き合いかたに対する開発者の見識の高さが窺われ、賞賛の念を禁じえない。

ともあれ、ことばは違うとはいえ辞書学の知見をもつ身内の存在、文字処理環境の担保、辞書の作成そして出版を支援するソフトウェアの存在といった心強さは、私に「にわか」ではあっても辞書作りをするうえで確かな見通しを与えるものだったのである。

*****************

現代ウイグル語研修を担当することが決まり、教材のひとつという枠組みで語彙集の製作に着手したのは、研修本番まで八ヶ月を残した二〇〇七年の正月のことだった。

その最初のステップは見出し語のリスト化である。これについては底本のひとつである一九九二年に合衆国で出版されたヘンリー・G・シュワルツ編になる『ウイグル語―英語辞典』を利用した。高名なモンゴル学者であるシュワルツのその辞書もやはり前出の『維漢詞典』を忠実になぞり、かつ独自の増補を施した重厚な辞書である。この辞書は見出し語をはじめ記事がすべてラテン文字で示されているため、スキャンすればOCRによってたやすくその内容をコンピュータに取り込むことができる。比較的高額な辞書の背を落とすのは心が痛んだが、蛮勇をふるい背を落とし高速ドキュメント・スキャナにかけ、かくてその日のうちにシュワルツの辞書の内容はすべて私のコンピュータの中に収まった。

その次の作業は、既刊の対日辞書のデータをその作成済みの見出し語に対応するフィールドに入力していくことであった。こればかりは機械任せでは行えないので、言語研修の教材作成予算を活用し、アルバイトの方々に骨を折ってもらうことになる。辞書によってウイグル語の字母表記が異なっているので、私のほうでまずそれを対日辞書の字母にあわせ変換し、かつ対日辞書の並び順に見出し語データを並べ替える処理をまず施した。字母ごとに仕事を引き受けたアルバイトの作業者は、対日辞書の該当する単語の必要とされるデータ(語釈とそのふりがな)を黙々と指定書式に従って入力していった。

つづく作業は入力済みのデータを吟味し、クリティカルにそのデータの検討、増補、修正、場合によっては削除をおこない、かつ辞書作成ソフトウェアの書式にしたがって適切なタグを項目別に適切に配置していくと言う作業であった。この作業は人任せにするわけにはいかず、部分的に書式の整形を妻に手伝ってもらったほかは、すべて私が一人で行った。いちばん時間と手間がかかった作業であり、まさにこの辞書雛形作成の核とも言うべきタスクであった。

テキスト・エディタにむかって数十万行からなるデータの検討・編集を行うのは気が遠くなるような作業である。辞書作成専用に「ウイグル」と名づけたノートパソコンは常に私の手元にあり、ちょっとした空き時間、移動時間、昼と言わず夜と言わず、テキスト・エディタに書き込まれた辞書データの検討と編集は続けられた。たまたまそれは妻の出産の時期に重なっており、検診に訪れた病院の食堂や待合室、はては分娩の際に提供されたベッドの傍らや出産後の病室でもその作業は続けられた。そういうわけで、この作業にまつわる苦労は、私の中では長男の産声の記憶とセットになっている。

言語研修が始まり、前述のとおり「ブートキャンプ」さながらの修羅場が始まっても、私の辞書のほうの作業は終わらなかった。目を回す私の様子を見かねた妻は乳飲み子を連れて会津の山奥の両親の家に引っ込み、私は昼は授業、夜はその準備と辞書の作業に専念し、研修期間中に愛しいわが子の顔を見ることができたのは二度ばかり週末に会津を訪ねたときだけであった。

東京―会津往復の電車の中ではひたすらパソコンにむかっていつもの作業を続けていたのであったが。夜、ひとりで電車にのって東京に帰る途上、どこあたりでのことだったろう、外では大きな花火が上がっていて、遠くからは盆踊りの囃子が聞こえてきた。そうした景色を横目に、私は「なんて夏だろう」と一人愚痴ながらパソコンをたたいていたのであった。

その後、データの編集は何とかめでたくも終了し、研修期間内に受講生たちにはどうにか簡易製本による見本版を配ることができた。しかしそれは日本語見出し索引の「ら」行がまるまる欠けているなどとんでもない間違いがあり、編者としてはひたすら恥ずかしい限りであった。それからまたいくらか修正を施し、百部限定でめでたく出版されたのが『現代ウイグル語語彙集(附日本語ー現代ウイグル語索引)』(五三三頁、AA研、二〇〇七年八月)である。

本書を差し上げた方々からはそれなりのお褒めのことばをいただき、中には本格的に辞書代わりに利用して(もともと接着剤による軟弱な綴じ方であったため)ついに本をばらばらにしてしまったという若い方もいた。しかし難を言えば本書はウイグル語がどういうことばであるかと言う説明の記述もなく、また用例は皆無で熟語の記載さえなく、細かな記載事項にいたっては誤りが多数見られる不完全この上ない代物であった。

******************

さて、いまの私の「にわか辞書づくり」はその不完全極まりない旧版『語彙集』をあらためてAA研の『アジア・アフリカ基礎語彙集』シリーズの五十三番目の一書として、増補改訂して発行部数を大いに増し加えて出版しようと言う取り組みである。旧版では『語彙集』としていたタイトルも、この増補改訂版では『小辞典』と改めることとした。文法スケッチなどを掲載し一定の体裁を整え、誤りを可能な限り正し、かなりの数の熟語を新たに盛り込むことによって本書の実用性が飛躍的に向上しているように私には思われたからである。

こうした本書の質的な向上は、とりもなおさず言語研修の受講生やそれ以外の方々から寄せられた詳細かつ膨大な修正意見、そして発行元であるAA研が手配した査読者の方々の高度に専門的なご助言の数々に負うところが大変に大きい。私は何度も言うとおり「にわか辞書作り」に過ぎないけれども、本書が「にわか辞書」と呼ぶには出来すぎな、ちゃんとした質を有している部分があったとしたら、それはそうした方々のおかげに他ならない。私はただそういう方々に尻をたたかれながら手を動かしただけなのである。


*****************

以上、私の「にわか辞書作り」は、苦労はなかったとは言わないけれども、「筆舌に尽くしがたい」難事ではなかったと言っていい。辞書編纂にまつわる、涙なくしては語れない英雄語りもない。

オーソドックスなイメージとしては、「辞書を作る」とは「辞書編纂事業」を意味するだろう。膨大な文献から書き抜いた言語情報をまず言語資料体(コーパス)として集積し、そのなかから辞書の見出し項目となる単語を吟味し選び出す。その過程で、たとえば一定期間における新聞での単語の出現頻度などが問題になることもあるだろう。見出しの採否もそれだけで大仕事だ。つぎに、個別項目につきその内容、すなわち発音、語釈、類義語、同義語、語源、そして熟語用例などをじっくり考察研究する。とりわけ用例は編纂者のセンスが問われる、辞書の要とも言うべきものだという。さらには印刷・出版の過程でもさらに複雑な工程が待っている。

辞書編纂とは、かように多くの手間を必要とする掛け値なしの大事業にほかならない。これまで多くの先達が個性的な辞書を世に送り出してきたけれども、その多くはこの大事業のなかで筆舌に尽くしがたいご苦労をされたのである。たいへんよくあると思われるのは、辞書編纂者が自分の畢生の仕事の成果を見ずに死んでしまうことで、そういう人の名前は辞書の責任表示の欄に「囲み」(=物故者を示す)で表示されることになる。死なないまでも、失明したり、親兄弟、妻子にとんでもない迷惑をかけたり、つくづく辞書編纂と言う仕事は、それをつくるひとを幸福にしない営為なのではないかとさえ思われる。

****************

私のこの「にわか辞書作り」は、ここまで縷々書いてきたように、既存の辞書の焼き直しのようなやくざな仕事だし独創性もない。妥協に継ぐ妥協の産物で私に出来るのは弁解以外の何ものでもない。はずかしいことこの上ない。しかし、それにしてもだ、もう作業もおおむね終わり、ほどなく辞書が印刷所から出てこようと言うのに、この仕事が終わった気がしないのはどう言う訳だろう。もうあんな地味な苦労はたくさんだし、他にも仕事としてやりたい研究や書きたいものが私には山ほどある。それなのに、この文は用例としてよさそうだとか、この語の同義語と類義語の区分をもう少し厳格に検討しないと、というような思いつきが依然として頻繁に私の意識をよぎる。そして単語の出現頻度や、適切な項目抽出のためのコーパスづくりのことが意識から去らない。それはあろうことか、厄介ごとというよりは、いつしか心地よい思考の営みになっている。

「にわか辞書作り」の仕事は終わったようでいて、実は死ぬまで続く大仕事のほんの始まりに過ぎないのではないか。そんな妙な不安を抱えながら、私はいま最初の『辞書』を手にする日を迎えようとしている。

[2009年9月 脱稿]

|

« 喀什笊作り横町旧事 | Main | 第13回中央アジア古文書研究セミナー »

Comments

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



TrackBack

TrackBack URL for this entry:
http://app.cocolog-nifty.com/t/trackback/7099/61278298

Listed below are links to weblogs that reference にわか辞書作りの弁2009:

« 喀什笊作り横町旧事 | Main | 第13回中央アジア古文書研究セミナー »