機械翻訳と翻訳の未来を考える

「翻訳通信」100号記念号の節目に

山田優

機械翻訳と翻訳の未来を考える

　　「翻訳通信」100号という節目だからこそ、本稿では翻訳とその未来をテクノロジーの観点から論じてみたいと思う。今や、文章を書くのにパソコンやワープロを使うのは、当たり前になっている。日本語入力ソフト、辞書ツール、インターネットは翻訳にも欠かせないツールである。一昔前は、 Jamming、DDwin、PDIC等の辞書ツールを駆使して、市販の辞書や自分で作った用語集の検索を行っていたものだ。しかし最近では、単語だけでなく文章全体を蓄積したコーパスを使って、コンコーダンス検索をするためにKWIC FinderやParaConc等を使う翻訳者も多いだろう。またローカリゼーションや産業翻訳に携わる者であれば、翻訳メモリも手放せないツールになっていると思う。

　最近では、機械翻訳が（再び）注目を集めている。実務の一部では、機械翻訳に下訳をさせて、修正を行うワークフローが確立している。無論、「翻訳通信」の読者のほとんどは「一流の翻訳」を志す方々であろうから、機械翻訳なんぞお話にならない、と思う人も多いだろう。確かに、機械翻訳の訳出レベルが、依然として「使えない」のは否定できない。ただ、各国語の現状を見渡してみると、機械翻訳を取り巻く状況は、我々が想像する以上に変化してきているのが分かる。

　ということで、本紙面では、翻訳支援ツールとしての機械翻訳の現状を概観する。筆者は現在、大学院で翻訳ツールの研究を行っているという事情から、自分の興味に引きつけて論じるため、扱う資料は学術論文が中心になる。また、読者の関心であろう英語と日本語の機械翻訳の精度についても、現在検証中であるために、ここでは限定的にしか記載しないことをお断りしておく。先行研究として、他言語間での機械翻訳事情を理解するのに少しでもお役に立てば幸いである。

機械翻訳の系譜

　機械翻訳には、大きく分けて2種類が存在する。構文解析や文型パターンを基底とするルールベース型機械翻訳(RBMT)と、コーパスデータから類似箇所を学習して適用させるデータ主導型機械翻訳(Data-Driven MT)だ。

　ルールベース型は、1950年代に米国ジョージタウン大学とIBMによる共同開発で始まった。ロシア語から英語への翻訳という軍事色の強いものであった。250単語と6つの構文規則を記憶した程度のシステムであったが、コンピューターに対するナイーブで楽観的な期待とともに、世界中に広がった（宮平ほか, 2000）。しかし、その研究成果を悲観視するALPACレポートが1966年に発表されると、その後は、政府投資も削減され開発速度は衰えっていった。

　復興の兆しが見られた1970年代には、欧州でSYSTRANシステムが商用化に成功する。詳細な構文解析能力を搭載し、辞書機能も充実させたルールベース型の機械翻訳がやっと本格化したのだ。

　1980年代になると、京都大学の長尾教授らが提唱した用例ベース方式の機械翻訳が出現する。それまでのルールベース型に対して、こちらはコーパスデータから類似する部分を学習し、そのアルゴリズムを適用するデータ主導型の機械翻訳であった。1984年には富士通がATLAS Iを発売するなど国内でも商用化が開始した。しかし、まだ高額であり一般に普及するまでには至らなかった。それに、コストパフォーマンスの点からも、この当時の機械翻訳の精度は満足できるものではなく、機械翻訳は「使えない」という雰囲気が強まったのもこの頃かもしれない。

　1990年に入ると、インターネットが普及したことでそれまでの悲観的な状況とは別に、機械翻訳の一般需要が急速に高まった。手頃な価格で購入できる機械翻訳ソフトが出回り始め、再び、機械翻訳ブームが訪れた。それでも、内部構造的には80年代から開発されていたものと大差はなかったので、訳出精度が大きく向上したわけではなかった。

　2000年代になると、この状況に変化が現れる。そもそも後発のデータ主導型機械翻訳は、ルールベース型と比べてもアルゴリズムの構築が容易であるという利点と、コーパスさえあればそれなりの精度が出るというメリットがあった。しかし、逆に言えば、コーパスが無ければ役に立たないということであり、また大量のコーパスを構築する手間がネックとなっていた。しかし、インターネットの普及でコーパス集取が容易になると、データ主導型機械翻訳の精度が向上し始めたのだ。また、開発者の直感に基づいてヒューリスティックに行わなわれていた構文パターンの計算も、コーパス量が増えたことにより、確立・統計的に算出することが可能になった。ここに、それまでの発想とは異色を放つ、いわゆる統計的機械翻訳(SMT)が台頭してきたのである。

　統計的機械翻訳は、人間が翻訳したコーパスに基づいているため、訳出が自然になるという利点がある。統計的機械翻訳を採用するGoogle翻訳が 2006年の機械翻訳コンペティションで優勝をするなど（NIST, 2006）、今まさに注目されるシステムなのだ。ルールベース型の訳出精度が頭打ちになっていた最中、コーパスと統計という武器を手に入れた統計的機械翻訳は、品質向上の打開策として期待されている。

　現状の統計的機械翻訳は、単語やフレーズ単位での計算や階層的フレーズを用いた物など様々な種類がある。最近では、用例ベース機械翻訳に近い近似パターンマッチングアルゴリズムを採用したり、従来のルールベース型を併用したハイブリッド型が思案されるなど、さらなる発展を遂げている。コーパスから近似パターンをKWICで見つけ出すという処理は、翻訳メモリやコーパスを使った人間の翻訳者の行為に非常に近い。また、膨大なデータベースから検索を行うのは、ウェブの情報検索（エンジン）にも似ている。これら近年のインターネット関連の一連のテクノロジーが機械翻訳に融合されてきているのは興味深い。そしてなにより、翻訳コーパスが機械翻訳の性能の向上に貢献しうるという可能性は、翻訳者と機械翻訳が全く別の次元の出来事ではないことをも示唆している。原文と訳文のコーパスは、翻訳現場では、翻訳管理システム(TMS)や翻訳メモリ・サーバー(TMサーバー)等で共有されている事が多く、蓄積されたデータは、「資産」として翻訳会社や翻訳者が管理運営する。このデータが、統計翻訳にとっても重要な資料になりうるというわけだ。TAUS(注1)等の団体は、翻訳メモリをウェブ上で公開しており、今後の機械翻訳との融合には注視していきたい。

前編集(pre-edit)と後編集(post-edit)

　では、機械翻訳が実際の翻訳実践で、どのように使われているのかを概観する。繰り返しになるが、機械翻訳の精度が上がってきたとはいえ、現状では、そのままで使えるレベルではない。実務翻訳で使う為には、人間の翻訳者（もしくは後編集者(post-editor)等）が関与をして、翻訳精度を向上させる必要がある。概して、この方法には2つある。

　ひとつは、前編集(pre-edit)である。機械翻訳に読み込ませる前の原文を修正しておく手法だ。原文の構文構造を簡略化したり、特殊な言い回しや単語を排除したりすることで、機械でも理解しやすい文章にあらかじめ修正しておく。原文が単純な文構造になっていれば、機械翻訳の精度が上がるのというのは、想像にたやすいだろう。

　具体的には、前編集に制限言語(controlled language)を用いることがある。制限言語とは、機械製造工場などで、従業員同士が作業指示書等を間違いなく理解するために用いられる標準化された言語である。英語であれば、Simplified Technical Englishとして知られているものなので、ご存じの方も多いだろう。航空機メーカー等の製造会社が独自の制限言語を持っている場合もある。最近では、英語から多言語に翻訳するソフトウェアのローカリゼーションにおいて、制限言語を使用する動きもある。

　前編集に対するもうひとつの手法は、後編集(post-edit)だ。説明するまでもなく、機械翻訳の訳出結果を後から人の手によって修正することである。厳密には、後編集にも数種類がある。原文の意味が分かればよい程度に目標言語に仕上げるためだけの簡易的な後編集 Rapid post-editingや、出版や実務のレベルまでに品質を上げるFull post-editingがある(Allen, 2003)。

　さて、ここで、よくある質問は、実際問題として、機械翻訳を使って後編集をするよりも、はじめから翻訳者が翻訳した方が早いのではないか、という懸念だ。機械翻訳の精度が悪ければ、そういうことになるだろう。後述するが、分野と言語の組合せによっては、後編集をした方が、効率や品質が上がることが実証されている。また、先の前編集と組み合わせて後編集を行えば、それに必要な労力も低減すると予想される。

　そもそも人間の翻訳者であっても、幾度の修正や推敲を重ねて、訳文を練り上げていくのだから、機械が一発で翻訳をできないのは当然の話だ。それでも、納期やコストを重視する実践現場では、機械翻訳を活用できないかという期待がある。せめて、機械翻訳を下訳として利用したい。そのためには、機械翻訳の品質がどのレベルに達している必要があるのか。筆者が関心のある機械翻訳の「使えるレベル」とは、こういうことだ。ということで、以下では、前編集と後編集とに関連した機械翻訳の翻訳研究の文献をいくつかレビューしていくことにしよう。

Krings (2001)『Reparing Texts』

　Krings (2001)は、機械翻訳の後編集プロセスを検証した近年では最も意欲的な研究である。Think Aloud Protocolを用いて、翻訳者の後編集プロセスと機械翻訳を使わない翻訳プロセスとの比較検証を行った。使用した機械翻訳はルールベース型 (SystranおよびMetal)で、言語の組合せは英語から仏語であった。

　相対的な作業効率(時間)では、普通の翻訳よりも機械翻訳＋後編集の方が20%程度上昇した。興味深いのは、機械翻訳そのままのテキストと後編集後の完成したテキストとの類似度(similarity level)を比較すると、4割弱程であったという報告である。つまりテキストの6割近くが、後編集において変更されたことになる。この実験が行われた 10年前の機械翻訳の精度は現在よりも低かったと予想できるので、この修正量は妥当かもしれない。それだとしても、翻訳に要した時間が2割減少したのは、むしろ驚くべき結果であろう。

O’Brien (2006a)『Controlled Language and Post-Editing』

　O'Brien(2006a)は、前編集に制限言語(CL)を使用することによって、その後に生成される機械翻訳の結果の後編集で、どの程度の効率化が図れるかを調べた。機械翻訳にかける前に、原文に含まれる文法的曖昧性などを取り除いておけば、機械翻訳の訳出精度が上がり、結果として後編集に要する労力が低減し効率アップにつながると、予想するのは簡単だ。

　O'Brienは、この仮説を、時間的(temporal)、技術的(technical)、認知的(cognitive)側面から検証した。IBMの Websphere(ルールベース型)を使用して、制限言語で書き直した原文（前編集有り）と書き直さない原文（前編集無し）とを機械翻訳にかけ、それぞれの後編集の作業効率を調査した。時間的な処理速度(総ワード数÷所要時間)の比較では、予想通り、前編集した機械翻訳結果を後編集したほうが速かった。ただ、分節(segment)を個別に見た場合、前編集をした方が全ての分節で速かったかと言えば、そうでない箇所も観察された。O’Brienはこの理由を次のように説明する。後編集を行う場合は、単語の位置などを変えるだけで良いことがある。この操作を行うために「カット&ペースト」機能を使えば効率が上がるが、翻訳者（後編集者）の多くは、新たにキーボードから文字入力をしていた。入力作業は、認知的に負荷がからないからなのかもしれないが、このような冗長な技術的作業は、時間的な効率性からは無駄である。全ての分節で時間が短縮できなかった理由を、このような技術的操作が関与していたとした。しかし、原文に対応する訳語をキーボード入力するというプロセスは、ひょっとすると翻訳という基本行為となんらかの関係があるのかもしれないと、筆者は考えている。

　さて、最後に、認知的な負荷の問題であるが、通常、翻訳者が問題に直面すると、入力の手を止めて考えたり、調べ物をしたりと、訳出作業が一時中断する。つまり、一時中断(ポーズ)の割合が多ければその分だけ、翻訳者が難問に直面する割合が高くなり、認知的負荷も高くなると言われている(注2)。 O'Brienは両方の後編集のケースについて、ポーズの割合を調査したが、違いは全く見られなかった。実験参加者の実験後のコメントの中に、「後編集は、普通に翻訳をするより疲れる」という感想が散見された。Kringsの調査でも指摘されていたことだが、後編集は、原文と訳文を行き来する回数が増えるために、直線的な作業になりづらいらしい。つまり、機械翻訳の下訳の精度が上がったとしても、「後編集」という作業の性質上、原文と訳文と照らし合わせるための認知負荷は、さほど変わらないのかもしれない。

　いずれにしても、目に見える結果として、前編集と後編集を組み合わせれば、時間的な作業効率が向上することは、この実験で実証されたといえる。

O’Brien (2006b)『Eye-tracking and translation memory matches』

　機械翻訳＋後編集の作業が、実際に翻訳者の認知負荷をどのくらい低減しているかは、時間の計測や技術的なポーズの割合だけからでは不十分であることが分かった。そこで、O'Brien(2006b)では、人間の瞳孔の動きと開き具合を測定できるアイトラッキング装置を用いて、後編集作業の認知負荷を測定した。実験は、もともと翻訳メモリにおけるファジーマッチ(Fuzzy Match)のマッチ率と瞳孔の開き具合との相関を調査する目的で行われたのだが、メモリ内に機械翻訳の訳文も混ぜて行っていたのが、この研究のユニークな点であった。

　結果は、大方の予想通り、翻訳メモリの70%～100%マッチ前後までは、マッチ率に従って瞳孔拡張は減少し続けた。またノーマッチ(No Match)で瞳孔拡張は最大になった。つまり、ゼロからの翻訳（ノーマッチ状態）では翻訳者の認知負荷が最も大きくなり、近似箇所を修正するだけの作業（ファジーマッチ状態）では、認知負荷も小さくなることが証明された。

　この結果は想定内なのだが、特筆すべきは、機械翻訳の後編集の作業における認知負荷が、予想以上に低かったという結果である。機械翻訳の修正作業（後編集）では、瞳孔拡張は、85～90％ファジーマッチとほぼ同等だったのだ。翻訳メモリを使ったことのある方なら想像できるだろうが、85%マッチの場合は、大抵、1つか2つの単語を入替える程度の修正作業でしかない。非常に単純な作業なので、認知的負荷が低いのは頷ける。驚きは、これが機械翻訳の後編集でも同じだということだ。高い訳出精度を、機械翻訳が達成しているということである。この実験で使用された言語ペアは、英語→仏語／独語であった。英語→ 日本語ならば、まだこのレベルにはならないだろう。

Guerberof(2009)『Productivity and quality in the post-editing of outputs from translation memories and machine translation』

　上記の結果を受けてGuerberof(2009)は、統計的機械翻訳(SMT)を使った英語→西語での、後編集の作業時間と品質に関する追試を行っている。彼女の実験も、翻訳メモリのファジーマッチとSMTの訳文をメモリ内に混在させて比較検証を行った。結果は、機械翻訳を修正する場合の方が、翻訳メモリのファジーマッチを修正するよりも、時間と品質ともに優位であった。

　この理由として、翻訳メモリの修正の場合は、（人間の）翻訳者の訳文が近似文（下訳）として表示されるため、文章がこなれていて自然であるために、差分箇所を見つけ出すのに時間が掛かってしまうというものであった。また品質（この場合は、誤訳や訳漏れがないという基準を用いた）についても、翻訳メモリの文章がこなれているために、訳抜けがあったとしても、見逃してしまうことがあると指摘された。これに対して機械翻訳の訳文は、ぎこちない直訳が多いので、原文と訳文の一対一対応が比較的容易になり、品質的にも有利になるというものであった。

　機械翻訳＋後編集と、ゼロからの翻訳（ノーマッチ）との品質の比較では、僅かながらゼロからの翻訳が優勢であったものの、所要時間とのバランスを考慮した総合的評価では、機械翻訳＋後編集に軍配が上がる。つまり、英語→西語での翻訳は（分野が制限されるという条件はつくものの）もはやゼロから翻訳するよりも、そして翻訳メモリを使うよりも、機械翻訳＋後編集が一番良いということが言えるのだ。

　実は、Guerberofの研究の動機は、翻訳者へのワード単価をいくらに設定すべきか悩んでいたことに端を発する。というのも、すでに彼女が働く翻訳会社では機械翻訳を導入しており、この実験のように後編集の作業だけを翻訳者に発注していたからだ。もしも、このGuerberof研究結果と O'Brien(2006b)の結果が採用されることになれば、機械翻訳＋後編集の作業は、翻訳メモリ90%マッチと同じ単価、すなわち、通常のノーマッチの4分の1程の値段になってしまう。実際の効率はここまで向上はしていないので、この数字が額面通り使われることはないとしても、翻訳業界の横行する単価の値崩れは、この方面からも押し寄せていることを、改めて実感させられた研究結果である。

Bowker & Ehgoetz (2007)『Exploring user acceptance of machine translation output: A recipient evaluation』

　翻訳の品質の評価は難しい問題だ。品質の定義の仕方しだいでは、作業効率も変わってくるからだ。Bowker & Ehgoetz(2007)の研究では、この品質をユニークかつ現実的に扱い、機械翻訳の検証を行った。

　翻訳の品質は、Skopos（翻訳の目的）によっても左右されると考えられるが(Vermeer, 1989/2000等参照)、Chesterman & Wagner (2002:80)は、翻訳を「サービス（業）」と捉え、その品質を測るには顧客の満足度を調べるのも一つの方法になりうる、と提案している。これは、受容者評価(recipient evaluation)と言われ(Trujillo, 1999)、Bowker & Ehgoetzは、実務で重きの置かれる3要素＝CQD（コスト、品質、納期）と関連づけて翻訳の品質を評価した。

　大学の事務関連業務で発生する文書の翻訳を検証対象とした。大学や企業のように予算と時間の限られた状況では、翻訳の需要があっても、その全てを外注できない。そこで安価でスピーディーな機械翻訳＋後編集を利用できないか、調査するのがこの研究の目的であった。

　同じ原文に対して3種類の訳出物を用意し、翻訳のユーザーとなる大学教授に対してアンケートを実施した。3種類の翻訳とは、(1)翻訳者がゼロから翻訳したもの、(2)機械翻訳＋後編集したもの、(3)機械翻訳のみを行ったもの、である。品質の順位は、当然、(1)>(2)>(3)の順になる。しかし、これにコストと納期の条件を加える。(1)が一番高価で納期も長い。これに対して(2)は、(1)の5～10分の1程度。（3）は更に少なく 100分の1程に設定した。数字の割合は実務の予想工数に基づいている。この条件において、ユーザーはどれを選択するのかが焦点だ。

　結果は、(1)を選んだのが全体の32.3%、(2)が67.7%、(3)を選んだ人は誰もいなかった。つまり、使用目的が限定された翻訳であれば、7 割弱の人は機械翻訳＋後編集の品質レベルで満足できるという。逆に、機械翻訳そのままでは、いくら安価かつ短納期であっても、実用レベルに達しないということである。また、(1)を選んだ3割の人は、人間の翻訳者による翻訳を必要としていたわけだが、この中には文学部や外国部学部など言語に関わる学部の教授らが多く含まれていたこともあり、言葉・言語に対する意識の違いが結果に反映されていたと、Bowkerらは分析する。

　この調査で実施された後編集はRapid post-editingなので、通常のFull post-editingよりも品質は落ちていたにもかかわらず、条件次第では実用化レベルになるというのは、非常に興味深い結果である。

Garcia (2010)『Is machine translation ready yet?』
　
　これまでの実証研究は、英語とヨーロッパ言語の組合せであったが、Garcia(2010)は英語→中国語での検証を行った。時間と品質について、機械翻訳+後編集とゼロからの翻訳とを比較した。品質基準にはNAATIの試験基準を使用した。

　結果は、機械翻訳＋後編集もゼロからの翻訳も、どちらも時間、品質ともにほとんど変わりがなかった。これはまだアジア言語での機械翻訳の精度が、ヨーロッパ言語との組合せよりは、劣っているということを暗示しているのかもしれないが、仮にそうだとしても、機械翻訳を使うことが決してマイナスに働くことのないレベルまでは近づいているとも解釈することができる。

　この研究の特徴は、実験にGoogle翻訳者ツールキットという環境を使った点にあった。Garciaが指摘するように、翻訳支援ツールの歴史は翻訳メモリの単体使用から機械翻訳との融合というように変容してきた。Googleが用意する翻訳者ツールキットでは、機械翻訳に主眼をおき、翻訳メモリは副次的にしか機能しない。また、このようなツールを使うことが、翻訳者の翻訳への考え方にも影響を与えている。

　実験参加者に対して行った調査では、「Google翻訳者ツールキットを使った翻訳のほうが、使わないよりも翻訳しやすい」という意見が、実験後には増えていた。興味深いのは、そういった意見と実際のデータとが相関しており、ツールを好むと述べた翻訳者の訳出物の品質は、ツールを使わなかった時の品質よりも優れていた点である。それでも、中には「ツールを使わないほうが良い」と回答した翻訳者もいるのだが、この場合は、その翻訳者の翻訳品質は、ツールを使うと悪くなっていた。

　テクノロジーに対する向き不向きはあるにせよ、全体としては、機械翻訳の活用を前向きに受け入れる翻訳者の数が上回っており、機械翻訳に敵対心を抱いていないというのは、翻訳の未来を考えるうえで何かヒントを与えてくれそうな結果だと思う。

　以上、まばらではあるが、機械翻訳＋後（前）編集に関する文献を見てきた。機械翻訳に消極的な印象しか持っていなかった読者にとっては、すこし過激だったかもしれない。しかし機械翻訳が、実用化の域に達してきているということが、多少はご理解いただけただろう。日本語での調査結果については、またどこか別の機会で執筆できればと思う。このような現実を踏まえ、翻訳者として何をすべきなのか、その未来を改めて考えてみるのも良いだろう。

【注】

(注1) https://www.tausdata.org/
(注2)関連研究多数。Immonen(2006)等を参照のこと。

【参考文献】
Allen, J. (2003). Post-editing, in H.Somers (Ed.) Computers and translation: A Translator’s guide. Amsterdam/Philadelphia, John Benjamins, 297-317.

Bowker, L, and Ehgoetz, M. (2007). Exploring user acceptance of machine translation output: A recipient evaluation. In D. Kenny and K. Ryou (Eds.) Across Bound- aries: International Perspectives on Translation. Newcastle-upon-Tyne: Cambridge Scholars Publishing. 209–224.

Chesterman, A. and E. Wagner. (2002). Can Theory Help Translators? A Dialogue Between the Ivory Tower and the Wordface. Manchester: St. Jerome Publishing.

Garcia, I. (2010). Is machine translation ready yet? Target, 22(1). 7-21.

Guerberof, A. (2009.) Productivity and quality in the post-editing of outputs from translation memories and machine translation. Localisation Focus, 7(1). 11–21.

Immonen, S. (2006). Translation as a writing process: Pauses in translation versus monolingual text production. Target, 18(2), 313-335.

Krings, H. (2001). Repairing texts: Empirical investigations of machine translation post-editing processes. G. S. Koby, ed. Ohio, Kent State University Press.

NIST. (2006). "NIST 2006 Machine translation evaluation results" (2006年11月1日). 2010年8月19日 http://www.itl.nist.gov/iad/mig//tests/mt/2006/doc/
mt06eval_official_results.html より情報取得.

O’Brien, S. (2006a). Controlled language and post-editing. MultiLingual, October/November 17-19. (https://216.18.156.115/multiligual/downloads/ screenSupp83.pdf)

O’Brien, S. (2006b). Eye-tracking and translation memory matches. Perspectives: Studies in translatology, 14 (3). 185-205.

Trujillo, A. (1999) Translation Engines: Techniques for Machine Translation, London: Springer.

Vermeer, H. J. (1989/2000). Skopos and commission in translational action. In L. Venuti (Ed.), Translation studies reader (pp. 227-38). London: Routledge.

宮平知博・田添英一・武田浩一・渡辺日出雄・神山淑朗 (2000)・『インターネット機械翻訳の世界』早稲田教育叢書.