Coraz więcej firm korzysta z tłumaczeń automatycznych, a potem „dla bezpieczeństwa” planuje tylko wyrywkową kontrolę ludzką, by zaoszczędzić i przyspieszyć proces przygotowania tekstów w różnych językach. Nowoczesne modele automatycznej, bezreferencyjnej oceny jakości tłumaczeń, takie jak COMETKiwi, miały być odpowiednim środkiem do celu: „niech AI powie, które zdania są dobre, a które wymagają poprawek”. Firmy zaczęły wdrażać systemy, które akceptują lub odrzucają zdania na podstawie tych ocen. Brzmi ekonomicznie. Ale czy naprawdę można polegać na AI, by wskazała, które zdania są poprawne?
Nie można. Przynajmniej na razie. I zaraz pokażemy, dlaczego — przystępnie i na konkretnych przykładach z życia wziętych.
W tym artykule pojawiają się pojęcia, które mogą być niezrozumiałe dla osób niezajmujących się oceną jakości tłumaczeń AI. Dlatego prezentujemy szybkie wyjaśnienia:
| Skrót / pojęcie | Co to oznacza |
|---|---|
| MT (Machine Translation) | Tłumaczenie maszynowe — czyli tłumaczenie wykonane automatycznie przez system AI, np. DeepL, Google Translate, ChatGPT iitp. |
| PE (postedycja) | Proces indywidualnego poprawiania tłumaczenia automatycznego przez tłumacza-specjalistę. Może być pełna lub tylko wyrywkowa. |
| AQE (Automated Quality Estimation) | Szacowanie jakości tłumaczenia przez inne AI — bez porównywania z tłumaczeniem referencyjnym (ludzkim). Ma pomóc w ocenie, które zdania „są dobre”, a które wymagają poprawy. |
| COMETKiwi | Popularny system oceny jakości tłumaczenia (TQE), oparty na uczeniu maszynowym. Daje zdaniom ocenę, np. 0,84 — im wyższa, tym lepsze tłumaczenie (przynajmniej w założeniu). |
| MQM (Multidimensional Quality Metrics) | Profesjonalny system oceny jakości tłumaczenia przez ludzi — bazuje na typach błędów: krytyczne, poważne, drobne, itd. i kategoriach (język, terminologia, błędne tłumaczenie itd.) |
Obietnice kontra rzeczywistość
W teorii: „Skoro AI (COMETKiwi) mówi, że dane zdanie ma ocenę 0,9, to jest poprawne — nie trzeba go sprawdzać!”. W praktyce:
Nawet zdania, których tłumaczenie uzyskało wysoką automatyczną oceną jakości, mogą zawierać krytyczne błędy, które nigdy nie powinny trafić do klienta.
Przykład z życia — 20 000 segmentów przetłumaczonych i ocenionych
Entuzjazm wobec bezreferencyjnej oceny jakości tłumaczeń AI nie ma na razie poparcia w wiarygodnych badaniach empirycznych. Obszerne, istotne statystycznie testy w tym temacie wykonał m.in. zespół Freda Bane’a (dyrektor data science w firmie TransPerfect). Badania wykonano na podstawie tłumaczeń dla jednego z największych globalnych klientów (tłumaczenia techniczne, miliardy słów rocznie), co zapewniło wysoką reprezentatywność uzyskanych wyników. W testach w parze językowej, która uchodzi za jedną z najłatwiejszych dla tłumaczeń automatycznych (z angielskiego na hiszpański), porównano:
- oceny COMETKiwi (automatyczne)
- z realną jakością zdań ocenioną przez doświadczonych lingwistów (system MQM).
Efekt? Z pozoru wyniki są logiczne: średnie oceny rosną wraz z jakością. Ale kiedy spojrzymy bliżej, na poziomie segmentów (zwykle są to zdania), różnice się zacierają. Segmenty z błędami krytycznymi mają tak samo wysokie oceny jak segmenty poprawne. Linki do oryginalnej prezentacji i wtórnej, szczegółowej analizy wyników wspomnianych badań można znaleźć w źródłach podanych na dole artykułu.
Analizy w wielu innych parach językowych (np. z polskiego na angielski, z angielskiego na polski czy z angielskiego na niemiecki), które prowadzimy okresowo w zespole inżynierów lokalizacji i specjalistów AI w Studiu Gambit, również potwierdzają te obserwacje. Do tej pory nie stwierdziliśmy żadnej znaczącej korelacji pomiędzy ocenami AQE i ocenami uzyskiwanymi przez estymatory uwzględniające tłumaczenia referencyjne.
Nasuwa się zatem wniosek:
Obecne narzędzia do automatycznej oceny jakości nie gwarantują skutecznego wskazania tekstu wolnego od jakichkolwiek błędów – także tych krytycznych.
Co to oznacza dla Twojej firmy?
Jeśli opierasz się na automatycznych ocenach (AQE), musisz zaakceptować ryzyko, że co najmniej 5% błędów krytycznych trafi z pewnością do klienta. Dla firm tłumaczących treści medyczne, prawnicze, finansowe lub techniczne — to ryzyko nieakceptowalne. Dlatego profesjonalne tłumaczenia AI wymagają podejścia hybrydowego, łączącego nowoczesne rozwiązania AI z umiejętnościami profesjonalnych tłumaczy-specjalistów, którzy przeprowadzają pełną postedycję.
Typowe problemy z automatyczną kontrolą jakości (AQE)
| Problem | Dlaczego tak się dzieje |
|---|---|
| Błędnie przypisane wysokie oceny | Błędnie przetłumaczone zdania uzyskują dobre oceny, bo AI działa na zasadzie „wzorców”, a nie zrozumienia sensu. |
| Brak tłumaczenia | AI „nie zauważa”, że segment nie został przetłumaczony — bo wygląda identycznie jak oryginał. |
| Błędny język | Segment jest w złym języku (np. francuski w dokumencie po niemiecku), ale AI tego nie wykrywa. |
Wyrywkowa postedycja? NIE, jeśli zależy Ci na jakości
Wyrywkowa kontrola tłumaczeń przez człowieka sprawdzi się tylko wtedy, gdy możesz zaakceptować ryzyko poważnych błędów. Jeśli Twoje treści muszą być poprawne zawsze, jedynym bezpiecznym rozwiązaniem jest obecnie postedycja 100% treści przez profesjonalnych tłumaczy.
Nasze rekomendacje
Na tym etapie COMETKiwi i podobne narzędzia nie są wystarczająco dokładne na poziomie oceny jakości zdań. Nie istnieje bezpieczny próg jakości, który pozwala na ich „automatyczne zatwierdzanie”, dlatego wyrywkowa postedycja to ryzyko, a nie oszczędność.
Oto nasze rekomendacje dotyczące zarządzania jakością tłumaczeń automatycznych:
- Zrezygnuj z automatycznej oceny jakości na poziomie zdania — nie obniży ryzyka błędów.
- Planuj kontrolę jakości na poziomie dokumentu, nie segmentu.
- Zainwestuj w ludzi, nie tylko w algorytmy.
- Jeśli nie akceptujesz ryzyka poważnych błędów, zlecaj pełną postedycję (full post-editing) zgodnie z normą ISO 18587.
Nie wiesz, jak ocenić jakość tłumaczeń automatycznych? Nie chcesz zagłębiać się w problematykę profesjonalnych analiz jakości tłumaczeń automatycznych? Chętnie pomożemy Ci dokonać wyboru i zaimplementować rozwiązanie z uwzględnieniem bezpieczeństwa danych, jakości i efektywności kosztowej — odpowiednio do interesujących Cię języków, tematyki i branży.
👉 Napisz do nas lub skontaktuj się z ekspertami Studio Gambit.
Źródła:


