月刊「eとらんす」連動
創ろう! マイ・データベース |
最近では、電子化されたコーパス(大規模な言語資料)が言語学や辞書編纂でさかんに使われていますが、これは翻訳にも大変役に立ちます。幸いにもインターネットが普及し、個人でもブロードバンド常時接続が可能になり、大容量のハードディスクを搭載したパソコンが安価で手に入る現在、WEBサイトのテキスト・アーカイブなどをダウンロードして私家版コーパスを作成することは、翻訳者にとって当然のことになりつつあります。 このようにして構築したコーパスの利用法のひとつは、コンコーダンサで検索を行い語法や共起関係を調べることです。英文を書く場合、文法や機能語に関する語法などの疑問点は市販の辞書を丹念に調べれば解決することが多いのですが、専門語などはあまり詳しく解説されていません。そこでコーパスを利用し、実際に使われた文章の中から用法やコロケーションを探り出せばネイティブと同等の自然な英文を書くことも可能になります。さらに、翻訳作業の結果得られた対訳コーパスはテキスト・エディタでGREP検索したり、翻訳ソフトの対訳データベースにインポートしたりして活用できます。 それでは、便利なソフトウエアを使った私家版コーパスの作り方を説明してみましょう。 ★これは、月刊「eとらんす」10月号(2002年9月3日発売)の記事に、詳しい手順を説明したページを追加したものです。 |
|||||||||||||||||||||||||
INDEX
追加ページ
|
|||||||||||||||||||||||||
(1)私家版コーパスの作り方 言語学で用いられるコーパスは、世界初の電子コーパスで100万語収録のBrown Corpusをはじめとして、3億数千万の語数を有するThe Bank of Englishなど数多くあります。ただ、研究発表をするわけではないので、翻訳者が使うコーパスには偏りがあっても構いません。自分専用の文例集と考えれば良いのです。 @コーパス用のWEBサイトスキャナとOCRを使って印刷物を電子化するのは最後の手段として、電子化されたテキスト・データをWEBサイトからダウンロードする方が現実的です。
●The White House AダウンローダーおよびHTMLタグ削除ツール WEB上のテキスト・データをひとつずつ手作業で保存していくのは面倒です。接続状態が悪い時にはダウンロードの途中で止まってしまうこともあります。そこで、ダウンロード・ツールを使うことにします。フリーソフトの「Iria」(作者:Wolfy)を使えばファイル名を指定するだけで高速にダウンロードできますし、中断された場合でも、レジューム機能により再度ダウンロードを継続できます。
WEBサイトにあるファイルはプレイン・テキストではなく、HTMLファイルになっていることが多々あります。そのまま使用することもできますが、タグが邪魔な場合はタグ削除ツールを使ってプレイン・テキストにします。ただ、その場合でもHTMLファイルは保存しておいたほうがいいでしょう。後で原文のレイアウトを見たくなることがあるからです。
(2)コーパス活用法 溜め込んだコーパスをどのように使ったら良いでしょうか。基本的にはコーパスを検索してその結果を分析することになりますが、翻訳者には、言語学で行われているような複雑な統計学的手法などは必要ないでしょう。 @コンコーダンサの紹介と使い方 フリーソフトのKWIC Concordance for Windows(作者:塚本 聡氏)は操作が簡単な割に高機能です。試しにワードリストを出力して見ましょう。
シェアウエアのTEXTANA(作者:赤瀬川史朗氏)は本格的なコンコーダンサで、KWIC表示、頻度集計、コロケーション統計など多機能です。簡単に使いこなすわけにはいきませんが、詳細な解説書が付属していますので、じっくり取り組んで見てください。
A対訳データベースとgrep検索 最近では翻訳ソフトを使用する翻訳者も多くなりました。特に対訳データベース機能つきの翻訳ソフトの人気が高まっています。翻訳ソフトを「対訳コーパス作成ツール」と捉えると利用価値が数倍に高まります。
対応がずれている場合は[Enter]キー、[BS]キーあるいは「片側改行挿入」機能を使って修正します。完成したら「ファイル」メニューから「テキスト出力」を実行し、用途:対訳ファイル(.out)で保存します。これはそのままソース・ファイルになり、PC-Transerの対訳データベースにインポートすることができます。また、この対訳ファイルはテキスト・ファイルなので、テキスト・エディタで開いて検索することが可能です。
このようなテキスト形式の対訳コーパスは、WZエディタのグローバル検索(あるいは秀丸エディタのgrep検索など)を使って活用しましょう。複数の対訳ファイルを一つのフォルダにまとめて、検索ファイルをそのフォルダ内の全てのファイルに設定すれば簡易データベースのできあがりです。
さて、電子化されたテキストを蓄積し、上手に検索して翻訳実務に役立てる方法を見て参りましたが、是非自分自身のコーパスを構築して見てください。
|
|||||||||||||||||||||||||
本文執筆およびWEBページ制作:小室 誠一 |
オンライン講座 | | | 掲示板 | | | 研究レポート・試用レポート | | | リンク集 | | | メール | |
Copyright © 1999-2004 Babel KK All Rights Reserved. |