Zagrożenie jest realne — i tanie
Sklonowanie głosu wymaga dziś mniej niż 30 sekund nagrania i subskrypcji API za ok. 80 zł miesięcznie. Atakujący wykorzystują tę technologię w trzech scenariuszach: fraud CEO (podszywanie się pod kadrę kierowniczą w celu autoryzacji przelewów), spoofing helpdesk (podszywanie się pod dział wsparcia w celu wyłudzenia danych) oraz inżynieria społeczna skierowana do pracowników.
AI Act UE Art. 6 klasyfikuje systemy manipulacji biometrycznej w czasie rzeczywistym jako systemy wysokiego ryzyka, ale egzekwowanie przepisów nie zapobiegnie atakom — zrobi to tylko umiejętność ich wykrywania.
Sygnał 1: Nienaturalne pauzy
Ludzka mowa ma mikrowariacje w długości pauz. Głosy syntetyczne mają albo zbyt równomierne pauzy, albo gwałtowne cięcia między słowami. Jeśli rozmówca zatrzymuje się w tym samym miejscu za każdym razem, gdy „myśli” — to sygnał ostrzegawczy.
Co robić: Zadaj nieoczekiwane, niezwiązane pytanie. Człowiek naturalnie zatrzyma się w połowie myśli. Sklonowany głos czytający ze skryptu zrobi to nienaturalnie.
Sygnał 2: Brak odgłosów oddechu
Większość modeli klonowania głosu usuwa dźwięki oddechu, aby zredukować szum treningowy. Prawdziwe głosy — szczególnie podczas emocjonalnych lub pilnych rozmów — zawierają słyszalne wdechy.
Co robić: Nasłuchuj całkowitego braku odgłosów oddechu przez ponad 60 sekund rozmowy. Prawdziwi ludzie oddychają.
Sygnał 3: Płaski zakres emocjonalny
Sklonowane głosy słabo imitują emocje spoza danych treningowych. Gniew, pilność i humor wypadają płasko — prozodia jest obecna, ale timing jest lekko zaburzony.
Co robić: Wstaw krótki żart lub wyraź łagodne zaskoczenie. Obserwuj, czy reakcja emocjonalna wydaje się zaplanowana lub podręcznikowa.
Sygnał 4: Brak reakcji na otoczenie dźwiękowe
Prawdziwi rozmówcy reagują na dźwięki tła — syreny, przerwy, echo. Sklonowane głosy nie mogą w czasie rzeczywistym dostosować się do sygnałów dźwiękowych, które generujesz po swojej stronie.
Co robić: Wygeneruj krótki, ostry dźwięk (stuknij w biurko blisko telefonu). Żywy człowiek zareaguje — zatrzyma się, zapyta, czy słyszałeś coś dziwnego. Syntetyczny głos będzie kontynuował bez przerwy.
Sygnał 5: Nacisk na pominięcie weryfikacji
Każdy rozmówca — autentyczny lub nie — który oponuje przeciw standardowej weryfikacji („śpieszę się, po prostu mi zaufaj”), jest sygnałem alarmowym niezależnie od autentyczności głosu. Ataki inżynierii społecznej prawie zawsze obejmują presję pilności.
Co robić: Egzekwuj protokół oddzwonienia za każdym razem, bez wyjątków. Dzwoń pod numer, który sam wyszukujesz — nigdy pod numer podany przez rozmówcę.
Twój plan działania
- Przeszkol pracowników w zakresie tych pięciu sygnałów (wystarczy 15-minutowa sesja).
- Ustal zasadę weryfikacji dwukanałowej: każde żądanie finansowe lub dotyczące danych uwierzytelniających przez telefon wymaga potwierdzenia e-mailem lub bezpośredniego oddzwonienia.
- Rejestruj anomalie w rozmowach — nawet jeśli nie doszło do ataku, wzorce mają znaczenie.
- Sprawdź ustawienia kodeka audio Twojego systemu telefonicznego. Wysoka kompresja niszczy subtelne artefakty, które pomagają ludziom wykryć syntetyczne głosy.
Ataki z klonowaniem głosu odnoszą sukces, bo wykorzystują zaufanie, pilność i ludzkie uprzedzenie wobec znajomych głosów. Obrona jest proceduralna, nie techniczna.