为什么机器翻译在处理长文本时会失败(以及如何解决)
ChatGPT 在 4000 个字符处会截断。Google 翻译在几段之后就会丢失上下文。这就是原因所在,以及对于长篇翻译真正有效的方法。
无人提及的限制
尝试将一份 20,000 字的文档粘贴到 ChatGPT 中,并要求它翻译全文。你将得到三种结果之一:翻译到一半中断、出现错误提示,或者含糊地拒绝继续。
尝试对 Google 翻译进行同样的操作。粘贴 10,000 个字符,你会注意到一些更微妙的情况:开头翻译得很好,但到了第三或第四部分,术语开始发生变化,语气变得不一致,AI 似乎“忘记”了文档开头的内容。
这不是错误。这是这些工具设计方式的根本局限。了解原因有助于你为长篇工作选择正确的方法。
原因 1:上下文窗口有硬性限制
每个 AI 语言模型都在上下文窗口内处理文本,即它一次可以“看到”的最大文本量。对于许多模型,这个范围在 4,000 到 8,000 个 token 之间(大约相当于 3,000 到 6,000 个英文单词)。较新的模型将其扩展到 100,000 个以上的 token,但随着接近上限,实际的翻译质量往往会下降。
当你将一份 30,000 字的文档粘贴到 ChatGPT 中时,它要么直接拒绝,要么静默截断输入。除非你仔细核对,否则你甚至可能不知道哪些部分被跳过了。
谷歌翻译的字符限制因界面而异。网页版每次粘贴接受约 5,000 个字符。API 接受更长的输入,但使用的是相同的模型,且没有针对长文本连贯性的特殊处理。
原因 2:分块之间没有记忆
如果你通过手动将文档拆分为多个块并分别翻译来绕过字符限制,你就会遇到第二个问题:每个块都是孤立翻译的。
人工智能无法感知第4片段是第3片段的延续。第2页引入的角色在第10页会被代词指代,但如果这些片段是分开翻译的,代词可能会被翻译得不一致,或者人工智能可能会编造一个名字,而不是沿用之前的称呼。
技术文档的情况更糟。引言中定义的术语(例如“主要承重元件”)在后文中可能会被缩写。如果对后续章节进行无状态翻译,系统将无法理解该缩写的完整含义,从而导致翻译不一致或错误。
原因 3:语调漂移
即使内容在技术上是正确的,按片段翻译的长文档往往会显得支离破碎。第一部分可能采用正式语体。第三部分如果提示词中的措辞稍有不同,翻译出来的风格就会变得更随意。到了第八部分,文风可能已经面目全非。
这对营销内容、书籍以及任何依赖于连贯叙事风格的作品尤为重要。读者能够察觉到写作风格的突变,即使他们无法准确说出原因。
正确的架构:带上下文传递的片段化翻译
解决方案不是强行发送一个庞大的翻译请求,而是进行智能拆分并传递上下文。
以下是其实际操作方式:
- 按自然边界进行拆分。 在段落断点和句末处对文档进行拆分,目标是每个片段约 1,500 到 2,000 个字符。切勿在句中截断。
- 将前一个片段作为上下文传递。 在翻译第 N 个片段时,将第 N-1 个片段的原文作为背景上下文提供给 AI。这能确保连贯性——它知道之前的内容,因此代词指代、语气和术语都能保持一致。
- 并发翻译。 独立片段可以并行处理,从而显著加快大型文档的处理速度。上下文相关的片段在开始前会等待其前序片段完成。
- 按顺序重新组装。 收集所有翻译后的片段并按原始顺序将它们连接起来。结果将呈现为一个单一的连续文档,而不是翻译片段的集合。
这就是 AI Trans 处理每项翻译任务所采用的架构。您只需粘贴文本(最多 1,000,000 个字符),系统就会自动处理拆分、上下文传递、并行处理和重新组装。您最终将获得一份完整、整洁的输出。
这对您在实践中意味着什么
请勿使用 ChatGPT 进行完整文档翻译。
它会静默截断过长的输入内容。除非手动检查,否则您无法得知哪些部分被丢弃了。
请勿手动拆分并孤立地翻译各个块。
这会导致上下文断裂、术语漂移以及各章节间语气不一致。
请使用专为长文本翻译设计的工具。
自动分段与上下文传递功能可确保从第一段到最后一段的输出保持一致且连贯。
关于高度专业化内容的说明
AI 翻译并非完美。对于高度专业化的内容(如罕见的法律管辖区、小众技术标准、晦涩的医学文献),可能会出现术语错误。任何 AI 翻译系统(包括昂贵的系统)都是如此。
对于错误可能带来实际风险的文档(如法律文件、面向患者的医疗内容、监管备案),请将 AI 翻译视为高质量的初稿,并由领域专家对输出结果进行审核。无论您使用哪种 AI 翻译工具,这一点都适用。
对于其他所有内容(如研究、商业、出版、学习、内容本地化),其质量足以直接用于大多数用途。