Waarom machinevertaling faalt bij lange teksten (en hoe u dit kunt oplossen)

ChatGPT stopt na 4000 tekens. Google Translate verliest de context na een paar alinea's. Dit is waarom dit gebeurt en wat er echt werkt voor het vertalen van lange teksten.

De beperking waar niemand over praat

Probeer een document van 20.000 woorden in ChatGPT te plakken en vraag om het geheel te vertalen. Je krijgt een van de drie resultaten: een gedeeltelijke vertaling die halverwege een zin stopt, een foutmelding of een vage weigering om door te gaan.

Probeer hetzelfde met Google Translate. Plak 10.000 tekens en je zult iets subtielers merken: het begin wordt goed vertaald, maar tegen de derde of vierde sectie beginnen termen te verschuiven, wordt de toon inconsistent en lijkt de AI te zijn "vergeten" hoe het document begon.

Dit is geen bug. Het is een fundamentele beperking van hoe deze tools zijn ontworpen. Begrijpen waarom dit gebeurt, helpt je bij het kiezen van de juiste aanpak voor langere teksten.

Reden 1: Contextvensters hebben harde limieten

Elk AI-taalmodel verwerkt tekst binnen een contextvenster — de maximale hoeveelheid tekst die het in één keer kan "zien". Voor veel modellen ligt dit tussen de 4.000 en 8.000 tokens (ongeveer 3.000 tot 6.000 Engelse woorden). Nieuwere modellen breiden dit uit naar 100.000+ tokens, maar de praktische vertaalkwaliteit neemt vaak af naarmate je het maximum nadert.

Wanneer je een document van 30.000 woorden in ChatGPT plakt, weigert het dit of kapt het de invoer stilletjes af. Je weet misschien niet eens welke delen zijn overgeslagen, tenzij je ze zorgvuldig telt.

De tekenlimiet van Google Translate varieert per interface. De webversie accepteert ongeveer 5.000 tekens per keer. De API accepteert langere invoer, maar past hetzelfde model toe zonder speciale afhandeling voor coherentie over lange teksten heen.

Reden 2: Geen geheugen tussen fragmenten

Als je de tekenlimiet omzeilt door je document handmatig in fragmenten te splitsen en elk deel afzonderlijk te vertalen, loop je tegen het tweede probleem aan: elk fragment wordt in isolatie vertaald.

De AI heeft geen idee dat chunk 4 een vervolg is op chunk 3. Een personage dat op pagina 2 wordt geïntroduceerd, wordt op pagina 10 met een voornaamwoord aangeduid — maar als die chunks afzonderlijk worden vertaald, kan het voornaamwoord anders worden vertaald, of kan de AI een naam verzinnen in plaats van deze correct over te nemen.

Bij technische documenten is het nog erger. Een term die in de inleiding is gedefinieerd — bijvoorbeeld "primair dragend element" — kan later worden afgekort. Een stateless vertaling van de latere secties kent de volledige betekenis van de afkorting niet en kan deze inconsistent of onjuist vertalen.

Reden 3: Verschuiving in toon

Zelfs als de inhoud technisch correct is, voelen lange documenten die chunk voor chunk worden vertaald vaak onsamenhangend aan. De eerste sectie kan een formeel register hebben. De derde, vertaald met een iets andere formulering in de prompt, komt informeler over. Tegen de achtste sectie is de stem onherkenbaar geworden.

Dit is vooral belangrijk voor marketingcontent, boeken en alles wat afhankelijk is van een consistente narratieve stem. Lezers merken het wanneer de schrijfstijl onverwacht verandert, zelfs als ze niet precies kunnen aanwijzen waarom.

De juiste architectuur: gesegmenteerde vertaling met contextoverdracht

De oplossing is niet om één gigantisch vertaalverzoek af te dwingen. Het is om intelligent te splitsen en context door te geven.

Dit is hoe het in de praktijk werkt:

  1. Splits op natuurlijke grenzen. Verdeel het document bij alinea-einden en zinsafsluitingen, waarbij je mikt op blokken van ongeveer 1.500 tot 2.000 tekens. Knip nooit midden in een zin.
  2. Geef het vorige segment door als context. Wanneer je segment N vertaalt, voeg dan de oorspronkelijke tekst van segment N-1 toe als achtergrondcontext voor de AI. Dit zorgt voor continuïteit; de AI weet wat eraan voorafging, waardoor voornaamwoordverwijzingen, toon en terminologie consistent blijven.
  3. Vertaal gelijktijdig. Onafhankelijke segmenten kunnen parallel worden verwerkt, wat grote documenten aanzienlijk versnelt. Contextafhankelijke segmenten wachten op hun voorganger voordat ze beginnen.
  4. Op volgorde opnieuw samenstellen. Verzamel alle vertaalde segmenten en voeg ze weer samen in hun oorspronkelijke volgorde. Het resultaat leest als één doorlopend document, niet als een verzameling vertaalde fragmenten.

Dit is de architectuur die AI Trans gebruikt voor elke vertaaltaak. U plakt uw tekst — tot 1.000.000 tekens — en het systeem regelt automatisch het splitsen, het doorgeven van de context, de parallelle verwerking en de hermontage. U krijgt één schone output terug.

Wat dit in de praktijk voor u betekent

Gebruik ChatGPT niet voor het vertalen van volledige documenten.

Het zal lange invoer stilletjes afkappen. U zult niet weten welke delen zijn weggevallen tenzij u dit handmatig controleert.

Splits en vertaal brokken niet handmatig in isolatie.

U krijgt onderbrekingen in de context, terminologische verschuivingen en een inconsistente toon tussen secties.

Gebruik een tool die is ontworpen voor vertalingen van lange teksten.

Automatische segmentatie met contextoverdracht zorgt voor consistente en coherente output van de eerste tot de laatste alinea.

Een opmerking over zeer gespecialiseerde inhoud

AI-vertaling is niet perfect. Bij zeer gespecialiseerde inhoud — zeldzame rechtsgebieden, niche technische standaarden, obscure medische literatuur — zijn terminologiefouten mogelijk. Dit geldt voor elk AI-vertaalsysteem, ook de dure varianten.

Behandel AI-vertaling bij documenten waar een fout reële risico's met zich meebrengt — juridische dossiers, medische inhoud voor patiënten, indieningen bij toezichthouders — als een hoogwaardig eerste concept en laat de output controleren door een domeinexpert. Dit geldt ongeacht welke AI-vertaaltool u gebruikt.

Voor al het overige — onderzoek, zakelijke doeleinden, publicaties, educatie, contentlokalisatie — is de kwaliteit hoog genoeg om voor de meeste doeleinden direct te gebruiken.

Zie het verschil in een echt document

Plak een document van elke lengte en ontdek hoe contextbewuste segmentvertaling zich verhoudt tot wat u tot nu toe heeft gebruikt. De eerste 100.000 tekens zijn gratis.