エイエイレトリック

なぐりがき

機械翻訳が発展した時代で人間側ができる工夫方法あれこれ

機械翻訳で翻訳できないこととそれに対する(人間側の)解決策について書きます。

工夫方法とタイトルに書いていますが、半分感想文です。

If they give you ruled paper, write the other way.

JUAN RAMÓN JIMÉNEZ

Fahrenheit 451 by Ray Bradbury.

先日、英語ブログの翻訳を前後編に分けて公開しました。*1

最初に元ブログを流し読みしたときに、これは日本語であまり明文化されていない情報だなと思って翻訳しようと決意しました。結果、多くの人に読んでいただけたようで、とても嬉しいです。

さて、今まで英語論文のまとめという形で翻訳 (どちらかといえば要約) はしてきたものの、ブログのような比較的カジュアルな文章を全文訳すというのはほぼはじめてだったので、今までとは違う場所で時間がかかったりしました。 流し読みする分には問題ないのですが、精訳 (意訳?) するとなると、意外と悩むということに気づきました。 英語の原文と意味に齟齬がないように気をつけながら、流暢な日本語に直すのが大変と感じました。

とはいえ、近年の機械翻訳の技術発展は目覚ましいため、翻訳ツールが我々を支えてくれます。 特に、最近話題の Deepl はすごく便利で、詰まったときはすぐ参考にしました。専門用語を含め、単語の選択もかなり正確だったと思います。

逆に、今回の翻訳のあいだかなり多用したため、欠点もみえてきました。

ひとつは、翻訳結果の省略です。他の人のコメントでちらほら見かけたのですが、なくても問題ない従属節 (特にthough や even if 以降) のフレーズが特に欠落しやすい印象をうけました。

f:id:sh111h:20200706090054p:plain
「and maybe don’t use PyTorch for production code.」が省略されている

この例に関しては踏み込んではいけない領域に踏み込んでしまったかと思って戦慄を覚えています。 Pytorchじゃなくても省略されるか調べてはいけません。

もうひとつはイディオム (慣用句) です。人間としては違和感を感じる部分の訳はだいたいイディオムでした。

具体例をいくつか示します。 "which parts have and have not stood the test of time~" に対して、 「どの部分が時間のテストに耐えているか」 という翻訳結果が出力されました。 「時間のテスト」に違和感があります。

"stand the test of time" について辞書で調べると、時の試練に耐える長く使用される といった意味があり、「時代遅れなのか」と意訳したほうが、しっくりきます。

ほかにも、"not long for this world"「この世界に長くない」 という違和感のある訳になってしまっていましたが、寿命が長くないという意味があるため「 (フレームワークが) 長く使えない」と意訳できます。

もちろん自分の知らないイディオム・表現を正しく翻訳できていた例もあります。

例えば "pain in the neck" は「頸部の痛み」ではなく 「面倒 」"truth be told" は「真実を言えば」と訳さずに「正直に言うと」 と訳していました。

最後に、これは人間でも難しいのですが、uberのアレとか、最近話題のやつみたいな、内輪ネタ・言外の要素を含む アレ の翻訳 (というか補完) はさすがにDeeplでもできません。

"This was what got Uber in so much trouble." から、なんとなくネガティブな想像はできますが、流石に詳細の補完はできないというわけです。

人間でも難しいですし、なにより文化が違うと日本語への翻訳は容易ではないと思われます。 ドメイン知識も必要という点でも、現在進行形の課題といえます。

人間側の工夫

  ここまで、機械翻訳では対応できない例をあげましたが、実際にどう工夫すべきか、個人的な意見を以降に述べます。

今回なによりGoogle-fu (ググるスキル) を高めることが重要だと感じました。 翻訳でいえば、機械翻訳の変な翻訳結果に対して、「ここはイディオムでは?」「もっといい翻訳があるのでは?」と察知して、単語やその関連したフレーズで検索する能力が必要だと思います。

辞書

ググる前に辞書 (サイト) で調べるのも大事だと思います。これは、なるべく正確な情報を先にみたり、検索結果から探す手間を省くという意味で個人的に心がけています。 以下に参考にしている辞書サイトを紹介します。

  • alc の 英辞郎 on the WEB
    • 検索ワードが含まれる単語・フレーズをすべて表示するため、他の辞書サイトと比較して、イディオムの検索に向いている
    • 今回一番活用しました

f:id:sh111h:20200707090626p:plain
「under the hood」の検索結果

  • weblio
    • 例文検索や共起表現検索機能が強い
    • 例文検索は、複数の翻訳文をみて違うニュアンスに書き換えるときに便利
    • 共起表現はどちらかといえばライティングの時に便利で、前置詞 (for, at, in) の選択に迷ったときに使います
      • プラス Grammary で確認すると良い感じにおさまる
    • 一応イディオム辞書もあります https://ejje.weblio.jp/cat/dictionary/eidhg

 

ググる

辞書サイトを活用した上で、最後はググります。

Google検索は曖昧検索ができるので、正しい表現に変換した辞書ページを表示してくれます。

専門用語の場合、wikipedia が検索上位に出てくることが多いかもしれません。このとき、wikipedia (英語) から日本語に切り替えることで日本語訳を確認するというちょっと面倒な使い方ができます。

専門用語の調べ方については、Examine the meaning of unknown terms - Speaker Deck も参考にしてください。

wikipediaは日本語版ページ = 英語版ページの和訳では ない ので、英語版の情報がかなり多いことがあります。 例えば英語版のfacebookページはサービスと企業でベージが分かれており、企業のほうのページにはmottoまで書かれています (https://en.wikipedia.org/wiki/Facebook,_Inc.#History)。 なので、ググると英語ページがヒットします。

また、wikipediaは百科事典ですが、アレゴリー など比喩表現っぽいフレーズも記事として存在しています。 To hell in a handbasket のページには "to hell in a handbasket" 以外のレパートリーが列挙されているので handbasket ではなく、 bucket でググってもヒットしました。

英語圏でよく使われるフレーズであれば、翻訳会社・翻訳家の解説記事、英会話教室のブログなどのページでだいたい意味がみつかります。 今回いちばん「へえ〜」と思ったのは、 high-level は 高いレベルの他に「大まかな」という使い方もある (http://tsubolog.c-brains.jp/14/11/27-100000.php) という知識でした。

uber's trouble のような言外の要素系も、ブログなどでイジっているのであれば、情報としてネット上にある程度存在しています。 今回、その検索した結果のリンクを訳注として追加しています。

イディオムを楽しむ

うんうん悩みながら翻訳して、大変ではあったものの、自分の知らない表現を知ることができたのがよかったです。

流し読みしているときには、よくわからない比喩表現とかイディオムなんかはスルーして読み進めてしまいますが、翻訳するときには、立ち止まる必要があります。

英語圏には英語圏ならではのイディオムがあり、翻訳することで、日本語との対応とセットで理解を深めることができます。

house of cards はトランプカードの家のように不安定という意味ですが、これは日本語のことわざでいう 「砂上の楼閣 (ろうかく)」 に対応しています。 「楼閣」とはカタカナ語でいう「タワー」ですね。 英語だと建物が不安定なのに、日本語だと地盤が不安定なのが面白いなあと思います。

ちなみに、最初に引用した

If they give you ruled paper, write the other way.

ですが、 日本語訳には以下のように注釈がついています。

もし連中が罫紙 (ルールド・ペーパー*) をよこしたら、 逆向きに書きなさい

−−− ファン・ラモン・ヒメネス

*ルールド・ペーパーはふつうの罫紙のことだが、“規則 (ルール) つきの紙” とも訳せる。その場合、この文は「もし連中がルールを押し付けてきたら、反逆しなさい」の意味になる

レイ・ブラッドベリ, 華氏451度. 伊藤 典夫 (訳). 早川書房.

華氏451度〔新訳版〕

華氏451度〔新訳版〕

二つの意味を持っているということですね。 文章の最初にそれっぽい引用をするのが夢だったので引用してみました。

ちなみに「華氏451度」は作品中のセリフにいろんな文芸作品の引用がでてくるので、解説ページならぬ出典ページがついています。

出典がなくてもわかるような知識を持っていると、違う読み方ができるのかなあと思いますが、聖書とかシェイクスピアを誦じれる気は今のところしません。