Dzielimy się wiedzą i doświadczeniem

Tłumaczenia AI

Wyrywkowa kontrola tłumaczeń maszynowych? Uwaga na złudne poczucie bezpieczeństwa

Coraz więcej firm korzysta z tłumaczeń automatycznych, a potem „dla bezpieczeństwa” planuje tylko wyrywkową kontrolę ludzką, by zaoszczędzić i przyspieszyć proces przygotowania tekstów w różnych językach. Nowoczesne modele automatycznej, bezreferencyjnej oceny jakości tłumaczeń, takie jak COMETKiwi, miały być odpowiednim środkiem do celu: „niech AI powie, które zdania są dobre, a które wymagają poprawek”. Firmy zaczęły wdrażać systemy, które akceptują lub odrzucają zdania na podstawie tych ocen. Brzmi ekonomicznie. Ale czy naprawdę można polegać na AI, by wskazała, które zdania są poprawne?

Nie można. Przynajmniej na razie. I zaraz pokażemy, dlaczego — przystępnie i na konkretnych przykładach z życia wziętych.


W tym artykule pojawiają się pojęcia, które mogą być niezrozumiałe dla osób niezajmujących się oceną jakości tłumaczeń AI. Dlatego prezentujemy szybkie wyjaśnienia:

Skrót / pojęcieCo to oznacza
MT (Machine Translation)Tłumaczenie maszynowe — czyli tłumaczenie wykonane automatycznie przez system AI, np. DeepL, Google Translate, ChatGPT iitp.
PE (postedycja)Proces indywidualnego poprawiania tłumaczenia automatycznego przez tłumacza-specjalistę. Może być pełna lub tylko wyrywkowa.
AQE (Automated Quality Estimation)Szacowanie jakości tłumaczenia przez inne AI — bez porównywania z tłumaczeniem referencyjnym (ludzkim). Ma pomóc w ocenie, które zdania „są dobre”, a które wymagają poprawy.
COMETKiwiPopularny system oceny jakości tłumaczenia (TQE), oparty na uczeniu maszynowym. Daje zdaniom ocenę, np. 0,84 — im wyższa, tym lepsze tłumaczenie (przynajmniej w założeniu).
MQM (Multidimensional Quality Metrics)Profesjonalny system oceny jakości tłumaczenia przez ludzi — bazuje na typach błędów: krytyczne, poważne, drobne, itd. i kategoriach (język, terminologia, błędne tłumaczenie itd.)

Obietnice kontra rzeczywistość

W teorii: „Skoro AI (COMETKiwi) mówi, że dane zdanie ma ocenę 0,9, to jest poprawne — nie trzeba go sprawdzać!”. W praktyce:

Przykład z życia — 20 000 segmentów przetłumaczonych i ocenionych

Entuzjazm wobec bezreferencyjnej oceny jakości tłumaczeń AI nie ma na razie poparcia w wiarygodnych badaniach empirycznych. Obszerne, istotne statystycznie testy w tym temacie wykonał m.in. zespół Freda Bane’a (dyrektor data science w firmie TransPerfect). Badania wykonano na podstawie tłumaczeń dla jednego z największych globalnych klientów (tłumaczenia techniczne, miliardy słów rocznie), co zapewniło wysoką reprezentatywność uzyskanych wyników. W testach w parze językowej, która uchodzi za jedną z najłatwiejszych dla tłumaczeń automatycznych (z angielskiego na hiszpański), porównano:

  • oceny COMETKiwi (automatyczne)
  • z realną jakością zdań ocenioną przez doświadczonych lingwistów (system MQM).

Efekt? Z pozoru wyniki są logiczne: średnie oceny rosną wraz z jakością. Ale kiedy spojrzymy bliżej, na poziomie segmentów (zwykle są to zdania), różnice się zacierają. Segmenty z błędami krytycznymi mają tak samo wysokie oceny jak segmenty poprawne. Linki do oryginalnej prezentacji i wtórnej, szczegółowej analizy wyników wspomnianych badań można znaleźć w źródłach podanych na dole artykułu.

Analizy w wielu innych parach językowych (np. z polskiego na angielski, z angielskiego na polski czy z angielskiego na niemiecki), które prowadzimy okresowo w zespole inżynierów lokalizacji i specjalistów AI w Studiu Gambit, również potwierdzają te obserwacje. Do tej pory nie stwierdziliśmy żadnej znaczącej korelacji pomiędzy ocenami AQE i ocenami uzyskiwanymi przez estymatory uwzględniające tłumaczenia referencyjne.

Nasuwa się zatem wniosek:

Co to oznacza dla Twojej firmy?

Jeśli opierasz się na automatycznych ocenach (AQE), musisz zaakceptować ryzyko, że co najmniej 5% błędów krytycznych trafi z pewnością do klienta. Dla firm tłumaczących treści medyczne, prawnicze, finansowe lub techniczne — to ryzyko nieakceptowalne. Dlatego profesjonalne tłumaczenia AI wymagają podejścia hybrydowego, łączącego nowoczesne rozwiązania AI z umiejętnościami profesjonalnych tłumaczy-specjalistów, którzy przeprowadzają pełną postedycję.

Typowe problemy z automatyczną kontrolą jakości (AQE)

ProblemDlaczego tak się dzieje
Błędnie przypisane wysokie ocenyBłędnie przetłumaczone zdania uzyskują dobre oceny, bo AI działa na zasadzie „wzorców”, a nie zrozumienia sensu.
Brak tłumaczeniaAI „nie zauważa”, że segment nie został przetłumaczony — bo wygląda identycznie jak oryginał.
Błędny językSegment jest w złym języku (np. francuski w dokumencie po niemiecku), ale AI tego nie wykrywa.

Wyrywkowa postedycja? NIE, jeśli zależy Ci na jakości

Wyrywkowa kontrola tłumaczeń przez człowieka sprawdzi się tylko wtedy, gdy możesz zaakceptować ryzyko poważnych błędów. Jeśli Twoje treści muszą być poprawne zawsze, jedynym bezpiecznym rozwiązaniem jest obecnie postedycja 100% treści przez profesjonalnych tłumaczy.

Nasze rekomendacje

Na tym etapie COMETKiwi i podobne narzędzia nie są wystarczająco dokładne na poziomie oceny jakości zdań. Nie istnieje bezpieczny próg jakości, który pozwala na ich „automatyczne zatwierdzanie”, dlatego wyrywkowa postedycja to ryzyko, a nie oszczędność.

Oto nasze rekomendacje dotyczące zarządzania jakością tłumaczeń automatycznych:

  • Zrezygnuj z automatycznej oceny jakości na poziomie zdania — nie obniży ryzyka błędów.
  • Planuj kontrolę jakości na poziomie dokumentu, nie segmentu.
  • Zainwestuj w ludzi, nie tylko w algorytmy.
  • Jeśli nie akceptujesz ryzyka poważnych błędów, zlecaj pełną postedycję (full post-editing) zgodnie z normą ISO 18587.

Nie wiesz, jak ocenić jakość tłumaczeń automatycznych? Nie chcesz zagłębiać się w problematykę profesjonalnych analiz jakości tłumaczeń automatycznych? Chętnie pomożemy Ci dokonać wyboru i zaimplementować rozwiązanie z uwzględnieniem bezpieczeństwa danych, jakości i efektywności kosztowej — odpowiednio do interesujących Cię języków, tematyki i branży.

👉 Napisz do nas lub skontaktuj się z ekspertami Studio Gambit.


Źródła:

Zespół Studia Gambit

Jesteśmy tłumaczami, redaktorami, kierownikami projektów, specjalistami ds. przydziału zasobów, informatykami, ekspertami ds. AI, inżynierami lokalizacji i operatorami DTP.

Nasze media społecznościowe

Kategorie

Nie wysyłamy spamu, tylko informujemy o nowych produktach i usługach.

Ten serwis wykorzystuje pliki cookies

Strona wykorzystuje pliki cookie  w celu poprawienia jej dostępności. Zbieramy informacje dotyczące ruchu na stronie oraz adresy email z formularzy w celu komunikacji. Możesz decydować o tym, czy dopuszczasz pliki cookie, ustawiając odpowiednio przeglądarkę. Więcej informacji znajdziesz w naszej polityce prywatności.

Twoja prywatność jest dla nas ważna

Właściciel strony gromadzi i przetwarza dane o użytkownikach w celu realizacji usług za pośrednictwem Studio Gambit Sp. z o.o. Dane są przetwarzane zgodnie z prawem i z zachowaniem zasad bezpieczeństwa. Przetwarzane dane nie są przekazywane innym podmiotom.