« 東巌夫『騎馬民族がもたらした日本のことば』 | Main | 松長昭『在日タタール人:歴史に翻弄されたイスラーム教徒たち』 »

電脳支援による、辞書編纂への妄想

筆者がたまたま勤務している大学の言語学の時間に、どのような方法で新しい外国語-日本語辞典を作るかという質問をしたところ、一人として作品から語彙をひろうという発言がなかったのには全く驚いてしまった。すべての学生が「既存の辞書を集めて」と発言したのである。日本の外国語-日本語辞典でもっとも進んでいる英和辞典が、もし今後大きく進歩をとげるとしたら、日本で読まれる英文を集めて、そこからひろった語彙で英和ができるときであるに違いない。いずれ、その時が来るのは間違いない。
(千野栄一『外国語上達法』岩波新書、139-140頁)

昨日、まったくの偶然で、AA研のIRCが主催する電子辞書に関する小規模のワークショップを拝聴する機会を得ました。AA研がこれまで構築してきた電子辞書(今回のお話は主にインドの言語)構築のノウハウ、苦労話、そして電子辞書のありかたに関するお話はどれも興味深く、電子辞書の構築は既にある程度まで完成の域に達しつつあるのだな、ということが見て取れ心強さを感じた次第です。

私はたまたま自分の『現代ウイグル語小辞典』の出版の件で印刷屋さんと表紙の色の確認をするため昨日はAA研に行っていたのでしたが、そこでそういう会合に出られるとは存外の幸運でした。ウイグル語辞書もAA研の電子辞書構築の影響のもと(結局出版にあたりプログラムは全く違うものを使いましたが)組み上げられたものですし、実際そこで紹介されたAAA+という辞書ベースのIMEにも私の現代ウイグル語辞書は入っています。ですから(いつのまにやら)私も無関係ではなかったのですね。

いまや持ち合わせの辞書データを電子辞書にしたり、紙媒体の辞書を電子辞書化するのはきわめて簡単になったと言ってよろしいかと思います。苦労がないとは言いませんが、少なくとも命を擦り減らすほどの苦労はもはや無くなったといってよろしいでしょう。ことこの種の仕事に関しては、必要なのはほぼ「意志」「欲求」と少々のお金のみであって、あとは(少なくとも)AA研にご相談いただければ(あるいは私に聞いて下さってもいいですけれども)、そう時間をおかずにお望みの電子辞書(あるいは電子辞書のアウトプットの一つの形としての、美麗な紙媒体の辞書)は作り上げられると思います。

個人的な関心としては、次の段階として、いよいよ「本格的な辞書編纂」をコンピュータがどう支援してくれるかということですね。冒頭に掲げた故千野栄一さんのお言葉にあるように「作品から語彙をひろう」かたちでの、根っこからのオリジナルの辞書編纂こそ本来の辞書編纂の姿であり、真に機能的な辞書はそういう形で組み上げられていかなければならないと思います。来月出版される(お待たせしました!)『現代ウイグル語小辞典』は多少独自性を打ち出してはいますが、所詮は底本となった辞書の焼き直しにすぎません。できることならば、ゆくゆくは私もそういう「ほんまもん」の辞書編纂を手掛けてみたい。それを支援するツールというものがもう少し開発されてくれないかなあ、と思うのです。

****

辞書編纂もこれで楽勝!LexiconMakerPro Ver.1 リリース!

このほど、合衆国ソラリス社(オレンジ・コンピュータ100%出資の子会社)は辞書編纂を支援する画期的な統合プログラムLexiconMakerをリリースした。当プログラムは「人にやさしいコンピュータ」をモットーとするソラリス社が「だれでも手軽に、コンピュータや辞書学の知識がそれほどなくともX語ーX語辞書を編纂できる」ことをめざし開発し、このほど満を持して発売されたものである。

当プログラムは「設定モード」「編纂モード」「出版モード」の3つのモードからなり、ユーザーが辞書編纂から出版(この場合出版とは紙媒体の出版のみならず、電子辞書としての公開やあらかじめ用意された複数の形式での出力系すべてを指す)に至るまでの一連のタスクをすべて一元化して処理することを可能にしている。

以下は東京稲城在住のSさんがチャガタイ語辞書を編纂・出版した事例を紹介しよう。

まずSさんがこのソフトで最初に取り組むのは「編纂モード」の「コーパス構築」機能を使い、手持ちのチャガタイ語文献のデータをソフトのコーパスに読み込ませる作業である。LexiconMakerProはTWAIN対応でしかもOCR機能も充実しているので、Sさんはドキュメント・スキャナを使って手持ちのチャガタイ語文献の刊本をすべて読みこませた。また同様に既刊のチャガタイ語やウズベク語、ウイグル語の辞書もことごとく同様にこのコーパスに取り込むこととした。

次の段階はいよいよ編纂作業である。「編纂モード」では、上記のようにコーパス情報を取り込むと直ちにそれらの情報の解析結果が表示される。具体的にはスペースで区切られた「単語」がすべて1データとして認識され、重複分は統合され、その重複数と、ランクがはじき出される。解析後の一覧画面にはコーパス内のすべての「単語」がずらりと並び、重複上位1500語は赤で示されている。まず適当にeklebutという、比較的ランクの下位にある語を選択し、作業画面を呼び出してみる。

作業画面の上部、コーパスデータ表示領域では単語elkebutがコーパス・データ6万のうち重複12回でランクは59975とかなり下位であることが示され、各データの典拠を示す欄にはうちひとつは『五体清文鑑』での記事であること、ほかは新疆で発見された文書の校訂本や文学作品の刊本に出現する語彙であることが示されている。さらにそれぞれのコーパス・データはその単語の出現した箇所の前後10語の文字列を検討材料あるいは用例のソースとして示すことになっている。ユーザーはそのコーパス・データ表示画面をみながら画面下の作業領域に適切なデータを手作業で入力するのである。Sさんはここでは『五体清文鑑』の記事に依拠することにきめ、見出し語はコーパス通りのアラビア文字つづりを採用し、転写もelkebutとし、この言葉は形容詞ならびに名詞の「紫の、紫」であると判断されたのでそれぞれ語釈1と語釈2に品詞と語釈を入力、そしてそれぞれ適切な用例をこれまたコーパス画面に示されたものからから引くこととした。

「編纂モード」の作業が一通り終われば、いよいよ「出版モード」。出力作業だ。LexiconMakerProはあらかじめ用意された辞書テンプレートがあって、必要項目を選べばすぐに美しい辞書としてこれを出版できる。またエントリー・データや表示データ項目、デザインのカスタマイズも自在。Sさんはエントリーする単語を1万語に絞り、頻出語1500語についてはアステリスクを明示するよう設定した。かくしてLexiconMakerProを用いたSさんの『チャガタイ語常用語辞典』はめでたく完成したのである。

********

以上が本日の妄想です。
あくまで妄想なのでディティルにおかしな箇所が散見されますがご容赦ください!そもそも、スペースで区切っただけでは接辞とかがついたままではないですか。OCRだってアラビア文字は(あるにしても)まだまだですよね。まさか本当にこんなプログラムがあるなんて勘違いなさった方がいらしたらごめんなさい。

しかし、こういうプログラムの実現はそうそう難しいものではないと思います。知る範囲では個別のタスクはそれなりにこなせるものが開発されていますから、あとはそれを束ねて組もうとする「意志」の問題なのではないかと私には思われるのです。
誰か作ってくれませんか。

|

« 東巌夫『騎馬民族がもたらした日本のことば』 | Main | 松長昭『在日タタール人:歴史に翻弄されたイスラーム教徒たち』 »

Comments

補足として
http://www30.atwiki.jp/corpus-ling/pages/18.html
一応日本語では上記のサイトに挙げられているツール類が大変魅力的です。
とくにKH-Coderはドンピシャリ。これをもう少し汎用性を持たせるようにカスタマイズできないものでしょうかね~。

Posted by: sugawara | 2009.03.06 03:12 AM

さらに補足。
http://www.antlab.sci.waseda.ac.jp/antconc_index.html
http://en.wikipedia.org/wiki/AntConc
AntConcはUTF-8対応ということなので、これはウイグル語にも使えそうですね。AA研のサワダ氏(ちなみに氏はコーパス言語学のGCOE大型プロジェクトのメンバーでもあらせられます)にご教授いただきました。感謝申し上げます。

ただやはりこれをうまく使いこなすには、やはりリソースとなるテキストがうまく形態素で切り分けられている必要がありますな。それについては、
http://www.sil.org/computing/shoebox/
http://fieldling.jp/whiteboard/index.php?Shoebox
SILのshoeboxがよろしいようで。

ふむふむ。ということはUTF-8のテキストを集積し、SILのShoeboxで形態素切りを何とかこなしてコーパスの形を整え、ついでAntConcで解析を行って辞書編纂作業の一助にする、という流れが考えられそうですね。

以上、覚えまでに。

Posted by: sugawara | 2009.03.09 10:08 PM

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



TrackBack


Listed below are links to weblogs that reference 電脳支援による、辞書編纂への妄想:

« 東巌夫『騎馬民族がもたらした日本のことば』 | Main | 松長昭『在日タタール人:歴史に翻弄されたイスラーム教徒たち』 »