なぜ機械翻訳は長いテキストで失敗するのか(そしてその解決策)

ChatGPTは4000文字で途切れてしまいます。Google翻訳は数段落で文脈を失います。なぜこのようなことが起こるのか、長文翻訳には何が有効なのかを解説します。

誰も語らない制限

2万語のドキュメントをChatGPTに貼り付けて、全文翻訳するように指示してみてください。結果は、「途中で途切れる不完全な翻訳」「エラーメッセージ」「曖昧な拒否」のいずれかになるはずです。

Google翻訳でも同様です。1万文字を貼り付けると、より微妙な問題に気づくでしょう。冒頭はうまく翻訳されますが、3〜4セクション目には用語が変わり、トーンに一貫性がなくなり、AIが文書の冒頭を「忘れて」しまったかのような挙動を示します。

これはバグではありません。これらのツールが設計された仕組みによる根本的な制限です。その理由を理解することで、長文作業に適したアプローチを選択できるようになります。

理由1:コンテキストウィンドウには厳格な制限がある

すべてのAI言語モデルは、コンテキストウィンドウ(一度に「認識」できるテキストの最大量)内でテキストを処理します。多くのモデルでは、これが4,000〜8,000トークン(英語で約3,000〜6,000語)です。新しいモデルではこれを10万トークン以上に拡張していますが、上限に近づくにつれて実用的な翻訳品質が低下することがよくあります。

3万語のドキュメントをChatGPTに貼り付けると、ChatGPTはそれを完全に拒否するか、あるいは何も言わずにその入力を切り捨てます。注意深く確認しない限り、どの部分がスキップされたのかさえ分からない可能性があります。

Google翻訳の文字数制限は、インターフェースによって異なります。ウェブ版では1回の貼り付けにつき約5,000文字まで受け付けます。APIではより長い入力も受け付けますが、同じモデルが適用されるだけで、長いテキスト全体にわたる一貫性を保つための特別な処理は行われません。

理由2:チャンク間でのメモリ保持がない

文字数制限を回避するために手動でドキュメントをチャンク(塊)に分割し、それぞれを個別に翻訳すると、2番目の問題に直面します。つまり、各チャンクが孤立した状態で翻訳されてしまうのです。

AIは、チャンク4がチャンク3の続きであることを認識できません。2ページ目に登場したキャラクターが10ページ目で代名詞で言及される場合、それらのチャンクを個別に翻訳すると、代名詞の訳が異なったり、AIが名前を引き継がずに勝手に別の名前を捏造したりすることがあります。

技術文書の場合はさらに深刻です。例えば、序文で定義された「主要耐力要素(primary load-bearing element)」という用語が、後で略語になることがあります。後続のセクションをステートレスに翻訳すると、その略語の完全な意味が認識されず、訳語に一貫性がなくなったり、誤訳が生じたりする可能性があります。

理由3:トーンの乖離

内容が技術的に正確であっても、長い文書をチャンクごとに翻訳すると、全体としてちぐはぐな印象になりがちです。最初のセクションはフォーマルな文体でも、プロンプトの言い回しがわずかに異なる3番目のセクションではカジュアルな表現になることがあります。8番目になる頃には、元の文体とは別物になってしまいます。

これは、マーケティングコンテンツや書籍、その他一貫した語り口が求められるあらゆるものにおいて特に重要です。読者は、なぜそう感じるのかを特定できなくても、文体が予期せず変化すると違和感を覚えるものです。

適切なアーキテクチャ:コンテキストを引き継ぐセグメント化翻訳

解決策は、単一の巨大な翻訳リクエストを強制することではありません。インテリジェントに分割し、コンテキストを次に引き継ぐことです。

実際の仕組みは以下の通りです:

  1. 自然な境界で分割する。 段落の区切りや文末で文書を分割し、1,500〜2,000文字程度の塊をターゲットにします。文の途中で決して切らないでください。
  2. 前のセグメントをコンテキストとして渡す。 セグメントNを翻訳する際、AIの背景コンテキストとしてセグメントN-1の原文を含めます。これにより継続性が保たれ、直前の内容が把握できるため、代名詞の参照、トーン、用語の一貫性が維持されます。
  3. 並行して翻訳する。 独立したセグメントは並列処理が可能なため、大きなドキュメントの処理速度が大幅に向上します。文脈依存のセグメントは、先行するセグメントの処理完了を待ってから開始されます。
  4. 順序通りに再構成します。 翻訳されたすべてのセグメントを収集し、元の順序で結合します。その結果、翻訳された断片の集まりではなく、単一の連続したドキュメントとして読み取ることができます。

これは、AI Transがすべての翻訳タスクで使用しているアーキテクチャです。最大1,000,000文字のテキストを貼り付けるだけで、システムが自動的に分割、文脈の引き継ぎ、並列処理、再構成を行います。単一のクリーンな出力が得られます。

これが実務において意味すること

ドキュメント全体の翻訳にChatGPTを使用しないでください。

入力が長い場合、警告なしに切り捨てられます。手動で確認しない限り、どの部分が欠落したのかを知ることはできません。

手動で分割して、各チャンクを個別に翻訳しないでください。

文脈の断絶、用語の揺れ、セクション間でのトーンの不一致が発生します。

長文翻訳用に設計されたツールを使用してください。

コンテキストを引き継ぐ自動セグメンテーションにより、最初から最後まで一貫性のあるまとまった出力を得ることができます。

非常に専門的なコンテンツに関する注意点

AI翻訳は完璧ではありません。希少な法域、ニッチな技術基準、専門的な医学文献など、高度に専門的なコンテンツでは用語の誤りが生じる可能性があります。これは高価なものを含む、あらゆるAI翻訳システムに共通する点です。

法的書類、患者向け医療コンテンツ、規制当局への提出書類など、誤りが重大なリスクを伴う文書については、AI翻訳を高品質な初稿として扱い、必ず専門家によるレビューを受けてください。これは、どのAI翻訳ツールを使用する場合でも同様です。

それ以外の研究、ビジネス、出版、学習、コンテンツのローカライズなどについては、ほとんどの用途でそのまま使用できる十分な品質を備えています。

実際の文書でその違いをご確認ください

任意の長さのドキュメントを貼り付けて、コンテキストを考慮したセグメント翻訳が、これまでお使いのツールとどのように違うかをお試しください。最初の100,000文字は無料です。