グローバル引きこもりブログ

「Common Lispと関数型プログラミングの基礎」というプログラミングの本を書いてます。他に「引きこもりが教える! 自由に生きるための英語学習法」という英語学習の本も書いています。メール acc4297gあっとgmail.com

機械翻訳は人間を超えるか?

先日翻訳した大統領選挙の再集計の記事をGoogle翻訳にかけてみた。参考のため、以下に原文、Google翻訳の結果、僕が英語から日本語にほとんど一対一に直訳したもの、僕が翻訳したもの、を示す。

Jill Stein's election recount ends as Wisconsin finds 131 more Trump votes | US news | The Guardian

The recount effort by Green party presidential candidate Jill Stein came to an end on Monday, after weeks of legal wrangling yielded only one electoral review in Wisconsin that ended up favoring Donald Trump.

グリーンパーティーの大統領候補ジル・スタイン(Jill Stein)は、数週間にわたる法的争いの結果、ウィスコンシン州ではドナルド・トランプを支持した選挙評決が1件しかなかったことを受けて、

月曜日、緑の党の大統領候補であるジル・スタインの再集計の努力は数週間に及ぶウィスコンシン州での一つだけのトランプの有利な結果に終わった選挙の見直しを産出した法廷闘争の後で終わった。

緑の党の大統領候補だったジル・スタインの再集計を求める運動は月曜日に終わった。数週間に及ぶ法廷闘争の結果、スタインの運動はウィスコンシン州での再集計を実現しただけで、しかも再集計の結果はトランプに有利なものだった。

Earlier in the day, a federal judge in Pennsylvania rejected Stein’s request for a recount and an examination of that state’s voting machines for evidence of hacking in the 8 November election.

その日の早い段階で、ペンシルバニア州の連邦裁判官は、11月8日の選挙でハッキングの証拠について、スタインの再審請求とその州の投票機の調査を拒否した。

その日の早く、ペンシルバニア州の連邦判事はスタインの再集計とハッキングの証拠のための州の投票機の検査の要求を拒絶した。

その日の午前、ペンシルバニア州の判事はスタインの再集計と、不正投票がなかったことを確認するために投票機の検査を求めるという要求を却下した。

Meanwhile, Wisconsin election officials said on Monday that they had completed their 10-day recount after finding that Trump’s margin of victory over Democrat Hillary Clinton had increased by 131 votes, bringing Trump’s total lead to 22,748.

一方、ウィスコンシン州の選挙当局者は、ヒラリークリントン民主党議員に対するトランプの勝利は131議席増加し、トランプの総得点は22,748となった。

一方、ウィスコンシン州の選挙当局者は月曜日、彼らはトランプの総得票数を22,748票とすることになるトランプの民主党ヒラリー・クリントンに対する勝利の差が131票増加したことを発見した後で彼らの10日の再集計を終了した、と語った。

一方、ウィスコンシン州の選挙当局者は月曜日、10日に及ぶ再集計の結果、トランプの得票は前回の結果と比べ131票増加し、クリントン候補の得票よりも22,748票多かった事が分かったと発表した。

Stein, who finished fourth, challenged the results in those two states as well as Michigan, where the state’s top court on Friday denied Stein’s last-ditch appeal to keep a recount going. All of those traditionally Democratic strongholds supported Trump over Clinton.

Steinは4月に終了した2つの州とミシガン州で結果を争った。州の最高裁判所はSteinの最後の控訴を否定し、再任を続けることを拒否した。伝統的に民主的な拠点はすべてクリントンに対するトランプを支持した。

4位に終わったスタインはこれらの2つの州と、金曜日に州の最高裁判所がスタインの再集計を続けるための必死の控訴を却下したミシガンで選挙結果に挑戦した。これらのすべての伝統的に民主党の地盤はクリントンに対してトランプを支持した。

大統領選では4位に終わったスタインは、これらの2つの州のほかにミシガン州でも再集計を求めていたが、州の最高裁判所は金曜日、スタインの再集計を求める控訴を却下した。今回の選挙で、これまで民主党支持だったこれらの3州はすべてトランプを支持していた。

Even if all three recounts had taken place, it was considered highly unlikely that they would flip the overall result from Trump to Democratic challenger Hillary Clinton.

3回の再結論がすべて行われたとしても、トランプからの全体的な結果を民主党の挑戦者のヒラリー・クリントンに返すことはほとんど考えられなかった。

もしすべての3つの再集計が行われたとしても、これらが最終的な結論をトランプから民主党の挑戦者ヒラリークリントンに覆すことは非常にあり得ないと考えられた。

もしこれらの3州すべてで再集計が行われたとしても、大統領選の結果が変わる可能性は極めて低いと考えられていた。

US presidential elections are determined not by the overall national popular vote but by the electoral college, which awards votes based on the outcome in each state. Clinton won the popular vote by more than 2.6m ballots nationwide, according to the latest count.

米国の大統領選挙は全国大衆投票ではなく、各州の結果に基づいて賞を授ける選挙大学によって決定される。最近の計数によると、クリントン大統領は全国で2.6メートル以上の投票で人気投票を獲得した。

米国の大統領選挙は最終的な全国的な総投票数で決まるのではなく、各州の選挙の結果に基づく票を授ける選挙人により決まる。最新の集計によると、クリントンは全国的に総投票数を260万票多く得た。

米国の大統領選挙は全国における総得票数ではなく、各州で選挙人をどれほど獲得したかで決まる。総得票数において、クリントンの総得票数はトランプよりも260万票多かった。

機械翻訳の可能性

以前、もう少し簡単な英語を訳させた時はこれよりもずっとよい結果だったのだが、翻訳プログラムから見た場合、新聞の記事はまだまだ難しいようだ。

globalizer-ja.hatenablog.com

しかし今の段階ではまったく話にならなくても、これからどうなるかは分からない。

 

これまで僕は機械翻訳に対して懐疑的だった。ある程度外国語をやっている人間は大体懐疑的だと思う。外国語を読むときは頭の中で直訳を作っているのではなくて外国語をそのままで理解しているから、意味を理解しないプログラムが翻訳なんか出来るのか?という先入見があるのだ。

英語を日本語に翻訳をするというのは難しい。上の例を見てわかるように、日本語と英語ではぜんぜん違う言葉なので、直訳したのではなんとなく何をいっているのかは分かっても正確な意味が伝わらない。なので、英語から日本語に翻訳をする場合は同じ内容を表す日本語を作文する必要がある。

そのためには1つの文を2つにわけて翻訳するなど、構文もぜんぜん変えないといけないし、文章を整理するために読者には分かりきった部分を省略したり、逆に英米の読者には常識でも日本人には知られていない部分を加えたりしないといけない。

そうして出来た訳文というのは少し原文とはずれるけれども、直訳よりも意味が正確に伝わるのである。だから日本人が日常的に読んでいる翻訳は原文をそのまま変換したものではない。翻訳というのは、原文を変換しているというよりは原文が指し示す意味を変換しているのである。

そういうわけで、僕はこれまで機械翻訳には懐疑的だった。プログラムは意味を理解しないのに、意味を日本語に変換する翻訳なんて出来るのか?と思ったのである。

 

しかし最近は、機械翻訳をするのに意味を理解する事は本当に必要だろうか?と考えが変わり始めている。僕は今回の記事のために始めて直訳を文字にしてみた。というか、世の中には翻訳はあっても純粋な直訳はないので、直訳を読む事自体始めてなのだが、自分が機械の気持ちになって直訳をしてみると言語というものに対する印象が変わってきた。

直訳を作るのには意味を理解している必要はない。必要なのは構文を正しく認識することである。何がどこを修飾しているのかとかそういう事である。これはプログラムに学習させることができると思う。

もし英文の構文を正しく認識する事ができれば直訳は作れるはずである。それで実際に自分で直訳をしてみて思ったのだが、機械的な直訳でも正しい直訳ならば大変な意義があるという当たり前の事実を再確認した。

言葉というのは結局は有限の組み合わせである。有限なものは必ず解析できるはずである。なにかを翻訳するときに翻訳の仕方はいろいろあるが、意味を変換しているといっても翻訳のされ方というのは大体決まっているわけで(組み合わせというかパターンが有限)、大体決まっているものはプログラムによって変換できると思う。

もし、プログラムがすべての可能な英文のパターンをデータベースとして持つようになるとすると、条件によっては翻訳の精度が人間を超えてしまうかもしれない。結局はやってみなければ分からない話だと思うし、研究段階の機械翻訳がどれくらいのレベルまで到達しているか僕は知らないが、機械翻訳はかなりのところまでいきそうな気がする。結局は十分な学習データ(巨大な集合になるはずである)が現実的に用意できるか、というカネの問題になるのではないか。今の時点でウェブサービスになっている翻訳プログラムは、たぶん真面目にやっていないのだ。

楽観的すぎるだろうか?

電子出版した本

Common Lispと関数型プログラミングの基礎

Common Lispと関数型プログラミングの基礎

 

多分、世界で一番簡単なプログラミングの入門書です。プログラミングの入門書というのは文法が分かるだけで、プログラムをするというのはどういう事なのかさっぱりわからないものがほとんどですが、この本はHTMLファイルの生成、3Dアニメーション、楕円軌道の計算、 LISPコンパイラ(というよりLISPプログラムをPostScriptに変換するトランスレーター)、LZハフマン圧縮までやります。これを読めばゼロから初めて、実際に意味のあるプログラムをどうやって作っていけばいいかまで分かると思います。外部ライブラリーは使っていません。

世間は英語英語と煽りまくりですけれども、じゃあ具体的に英語をどうするのか?というと情報がぜんぜんないんですよね。なんだかやたら非効率だったり、全然意味のない精神論が多いです。この本には僕が英語を勉強した時の方法が全部書いてあります。この本の情報だけで、読む・書く・聞く・話すは一通り出来るようになると思います。