機械翻訳の統合処理
講義メモ

講師:成田一教授



機械翻訳とは何か

コンピュータに辞書と文法をのせたものによって翻訳を行う。
与えられた入力文の構造を解析し訳文を生成する。
語句の意味的情報、構造的情報を辞書にのせて参照する。
人間の持っている言語知識をルール化し、システムとして動くようにしている。
文化的な情報、常識的な側面は考慮できない、あくまでも言語レベルでの処理によって翻訳する→人間の翻訳との違い。

機械翻訳の処理能力

言語対を考える必要がある。
英語と日本語は極めて違いが大きく、高品質な翻訳は難しい(翻訳率は85%程度)。
90年前後から継続して辞書や文法を整備しているメーカーのソフトの場合、中堅の大学生のレベルを超えている。
英語と欧州言語や韓国語と日本語は極めて近く、翻訳率は95%プラス・マイナス数%と高品質な翻訳ができる(プロの翻訳者に負けないレベル)。
処理速度は、1秒間に3行から5行程度、1ページ10秒前後で翻訳する。

<具体例>

原文:

When U.S. President Bill Clinton visited China last summer, China and the United States agreed to mutually dismantle strategic nuclear missiles targeted against each other.

翻訳ソフトの訳:

「米国ビル・クリントン大統領が去年の夏に中国を訪問したとき、中国と合衆国は、互いに互いに対して対象とされる戦略の核ミサイルを解体することに同意しました」

「ビル・クリントン合衆国大統領が去年の夏に中国を訪問したとき、中国と合衆国は相互にお互いに対して向けられた戦略上重要な核弾頭ミサイルを取り除くことに同意した」

「ビル・クリントン米大統領がこの夏中国を訪問したとき、中国とアメリカ合衆国は相互にお互いに対して目標とされる核戦略ミサイルを取り除くことに同意した」

「米国大統領ビル・クリントンがこの前の夏中国を訪問したとき、中国、及び、米国は、相互に対してターゲットにされた戦略的核弾頭ミサイルを相互に解体することに同意した」

「米大統領ビルクリントンが最近の夏中国を訪れる時、中国と米国は、相互に互いに対して目標にされた戦略の核ミサイルを解体することを賛成しました」

「ビル・クリントン米国大統領がこの前の夏中国を訪問した時、中国およびアメリカは対立して目標とされた戦略の核ミサイルを相互に分解することに合意しました」

英欧の例

英語(原文)

I am very busy, but want to chat with you.

This information, however, often must be translated to natural language in which the user is fluent.

英仏訳

Je suis très occupé, mais veux causer avec vous.

Cette information, cependent, souvent doit être traduite à un langage naturel dans lequel l'utilisateur est  à l'aise.

英独訳

Ich bin sehr besetzt, aber möchte mit lhnen plaudern.

Diese informationen jedoch müssen zu einer natürlichen Sprache häutig
übersetzt werden, in der Benutzer fließend ist.

編集
90年前後までは翻訳しやすくするために前編集や制限言語が必要だといわれたが、言語処理能力が上がってくれば不要になる

次のような装飾的な言い回しは編集しなければならない。

「間違いという訳ではない」→「間違いではない」

ホームページや製品説明などのパブリックな文章はリライターの手を経ており意味のない装飾的な表現はしないようになってきているので機械翻訳でも失敗はない、特許文などの特殊な文書以外は前編集をする必要はない。

ただし、機械翻訳された文章を見直す「後編集」は欠かせない作業である。
英語と欧州語、日本語と韓国語は場合によっては不要(完成度が高いため)。

克服すべき問題点

英語と日本語などの言語差の大きい場合問題になるのは、多義性である。多義性には語レベル、構造レベル(修飾関係)がある。

I saw a girl [with a telescope].

「望遠鏡で見た」
「望遠鏡を持った」

この場合、確率的には50%。

近くにあるものを修飾する確率は65%→近接原則。

100%正しい修飾関係を決定できる場合 ―

例文: 「きれいな瞳の女性」

「瞳の女性」では意味ない
「きれいな瞳」しか修飾関係が考えれらない。

本来は多義性の決定には文脈情報などが必要だが、ある程度はなくても正しい結果を得ることができる。
文脈処理機構をつくるのは極めて困難。知識処理システムを機械翻訳に取り入れることは20年30年後も考え難い。

分野によっては特異な修飾関係を持つものがある。
化学論文では不定詞表現は80%以上の確率で結果の表現となる。

Water crystallizes to form snow.

結晶化の結果雪が形成される

英欧、日韓の場合は曖昧なままで翻訳が成立する。曖昧な部分は読み手が判断する。

I saw a girl [with a telescope].

英仏訳
J'ai vu une fille [avec un télescope].


英日翻訳と日英翻訳の違い

英日翻訳の方が10%前後翻訳率が高くなる。

理由:
英語は構造維持的言語、日本語は非構造維持的言語。

英語は文を構成する主要成分を代名詞として出来るだけ残すが、日本語は残さないことが多い(ゼロ代名詞)。
日英翻訳の場合、日本文で欠けている情報を復元する必要がある。

言語処理により復元作業をせずに対応できるものもある。

「[最初に議論すべき]問題」

a problem to [discuss first]
the problem [which should be discussed first]
the problem [that you should argue in the first place]

日本語的な文の処理

二重主語構文

像は鼻が長い

The nose of an elephant is long.
An elephant's trunk is long.
As for the elephant, a nose is long.



確かに機械翻訳では、知識処理や文脈処理などで問題があることは否定しないが、近い言語間の場合には完璧なレベルに達している。
本来、意訳しなければならない場合でも直訳しかできないところに機械翻訳の能力的な限界があるが、原文に忠実な機械翻訳の訳は、むしろ読み手に解釈の自由度を提供してくれる。


Copyright(c)2002 Babel Corporation   All Rights Reserved