Studenci Politechniki Krakowskiej – Dmytro Burkovskyi, Oleksii Izvarin i Illia Kostruba – stworzyli aplikację AI do tłumaczenia języka migowego. Aplikacja „Rozumiemy się bez słów” wykorzystuje algorytmy widzenia komputerowego i modele uczenia maszynowego do analiz gestów dłoni i zamienia je na tekst. To prototyp, który może stać się podstawą uniwersalnego systemu tłumaczenia języka migowego działającego na zwykłym smartfonie – bez specjalistycznych rękawic, czujników czy dodatkowego sprzętu.
Projekt studentów II roku informatyki w inżynierii komputerowej PK odpowiada na realny problem społeczny. Według danych WHO ponad 430 mln osób na świecie wymaga rehabilitacji z powodu istotnego ubytku słuchu, a Światowa Federacja Głuchych szacuje, że ponad 70 mln osób należy do społeczności posługujących się językami migowymi. W Polsce – jak wynika z danych GUS na koniec 2024 roku – 270,5 tys. osób miało orzeczenie o niepełnosprawności z powodu problemów z głosem, mową i słuchem.
– To nie oznacza oczywiście, że wszystkie te osoby posługują się językiem migowym, ale pokazuje wielkość potrzeb osób, których dotyczą bariery komunikacyjne. Tymczasem znajomość języka migowego w społeczeństwie jest ograniczona, a dostęp do tłumacza nie zawsze jest natychmiastowy – mówi dr inż. Karol Suchenia z Katedry Automatyki i Informatyki na Wydziale Inżynierii Elektrycznej i Komputerowej, opiekun projektu oraz Koła Naukowego Mikrokontroler, w ramach którego powstała studencka aplikacja.
To nie tylko AI
Rozwiązanie działa w czasie rzeczywistym. Kamera rejestruje obraz dłoni, po czym system wyznacza 21 punktów charakterystycznych, analizuje ich układ i ruch w czasie, a następnie klasyfikuje wykonany gest jako konkretny znak, czyli literę alfabetu migowego. – System nie analizuje wyłącznie pojedynczego zdjęcia, ale również zmiany położenia dłoni w czasie, co jest kluczowe przy gestach dynamicznych – tłumaczy Oleksii Izvarin, jeden z autorów oprogramowania, student Wydziału Inżynierii Elektrycznej i Komputerowej PK.
Działanie aplikacji opiera się na dwustopniowym modelu sztucznej inteligencji. Pierwszy etap to algorytm LSTM Binary Gate, który ocenia, czy aktualny ruch rzeczywiście jest gestem, czy tylko przypadkowym ułożeniem dłoni lub ruchem przejściowym. – Dzięki temu ograniczana jest liczba fałszywych rozpoznań. Jeśli gest zostanie wykryty, sekwencja trafia do modelu klasyfikacyjnego opartego na Transformer Encoderze, który rozpoznaje jedną z liter alfabetu albo spację. Wynik przechodzi przez etap wygładzania prawdopodobieństwa, co stabilizuje odpowiedź i zapobiega przypadkowym zmianom rozpoznawanej klasy. Rozpoznany znak jest dodawany do tekstu wyjściowego w aplikacji mobilnej – mówi drugi z autorów dzieła, Oleksii Izvarin.
Studenci podkreślają, że ich projekt to nie tylko algorytm AI, ale kompletne rozwiązanie – od analizy obrazu z kamery, przez ekstrakcję punktów dłoni, przygotowanie danych treningowych, trenowanie modeli, aż po warstwę aplikacji mobilnej. Ważnym elementem jest autorski toolset, który wspiera przygotowanie danych, wizualizację punktów dłoni, augmentację danych oraz analizę wyników trenowania.
Są inne, ale ten jest prosty w obsłudze
Na świecie istnieją już podobne rozwiązania, ale młodzi innowatorzy Politechniki Krakowskiej podkreślają, że ich projekt wyróżnia prostota w obsłudze. – System został zaprojektowany jako rozwiązanie możliwe do uruchamiania z użyciem zwykłej kamery, bez konieczności stosowania specjalnych rękawic, czujników czy kosztownego stanowiska pomiarowego – tłumaczy Illia Kostruba z zespołu projektowego. – Innowacyjność projektu rozumiemy przede wszystkim jako praktyczne połączenie widzenia komputerowego, uczenia sekwencyjnego, aplikacji mobilnej i autorskiego zaplecza narzędziowego, z myślą o dalszym rozwoju w stronę rozwiązania użytkowego – dodaje.
I co dalej?
Najbliższe kroki to zwiększenie i zróżnicowanie bazy danych treningowych, poprawa stabilności rozpoznawania oraz ograniczenie błędów wynikających z ruchów przejściowych. Docelowo system ma zostać rozszerzony z pojedynczych liter na słowa, proste frazy i zdania. – Jeżeli mówimy o wersji MVP, czyli aplikacji nadającej się do szerszych testów z użytkownikami, realny horyzont to około 9-12 miesięcy dalszych prac – szacują studenci. – Jeżeli natomiast celem miałby być pełniejszy system rozpoznawania słów, zdań i naturalnej komunikacji migowej w zmiennych warunkach, to jest to projekt co najmniej kilkunasto- lub kilkudziesięciomiesięczny – zaznaczają.
W planach jest również rozwój asystenta 3D, który mógłby wspierać komunikację w drugim kierunku, czyli prezentować komunikaty tekstowe w formie migowej. Autorzy zapowiadają także integrację z komunikatorami, wideokonferencjami lub systemami obsługi klienta. – Największym wyzwaniem nie jest samo napisanie aplikacji, ale przygotowanie odpowiednio dużej, jakościowej i zróżnicowanej bazy danych oraz walidacja rozwiązania z udziałem osób posługujących się językiem migowym – podkreślają twórcy aplikacji.
Potencjał wdrożeniowy
Projekt „Rozumiemy się bez słów” został nagrodzony podczas tegorocznej Uczelnianej Sesji Kół Naukowych Politechniki Krakowskiej. – Projekt zrobił na mnie duże wrażenie, ponieważ łączy kilka ważnych obszarów: uczenie maszynowe, widzenie komputerowe, aplikacje mobilne oraz realny problem społeczny – komentuje dr inż. Karol Suchenia. – Z punktu widzenia dydaktycznego jest to przykład projektu, w którym studenci nie ograniczają się do samego modelu AI, tylko próbują zbudować cały system – od danych, przez algorytmikę, aż po interfejs użytkownika. To pokazuje dojrzałe podejście inżynierskie – dodaje. Dr Suchenia zwraca uwagę, że projekt ma potencjał zarówno naukowy, jak i wdrożeniowy. – Zwłaszcza jeśli kolejne etapy będą prowadzone we współpracy z osobami głuchymi, słabosłyszącymi oraz specjalistami od języka migowego – podkreśla.
Twórcy projektu zdają sobie sprawę, że przed nimi jeszcze długa droga. – Na tym etapie nie twierdzimy jeszcze, że aplikacja jest gotowym, komercyjnym tłumaczem języka migowego. Jest to prototyp, który pokazuje wykonalność rozwiązania i stanowi podstawę do dalszych prac – zastrzegają. Jednocześnie podkreślają, że ich celem jest stworzenie narzędzia, które realnie wspomoże komunikację między osobami słyszącymi a niesłyszącymi.



