Polskie rozwiązania 25-lecia. Część 1

Na liście produktów, które miały w ciągu tego ćwierćwiecza i nadal mają największe znaczenie dla rozwoju tyfloinformatyki i wdrożenia nowoczesnej rehabilitacji inwalidów wzroku, która do nauki orientacji przestrzennej i wykonywania podstawowych czynności życia codziennego dodaje umiejętność pozyskiwania informacji, należą rozwiązania mówiące, brajlowskie i powiększające obraz, a one wszystkie ułatwiają dostęp do informacji, bez którego w społeczeństwach informacyjnych nie da się osiągnąć w zasadzie nic. Decyduje o wykształceniu i znalezieniu pracy. Minęły czasy, kiedy wydawało się, iż da się niewidomych wtłoczyć w system pracy fizycznej, skomasowanej w specjalnych zakładach, gdzie brak wzroku miały zrekompensować rozwiązania ułatwiające wykonywanie czynności ręcznych bez pomocy wzroku. Gdy rozwój techniczny stał się tak ważny jak teraz, pracują za ludzi urządzenia oraz zautomatyzowane taśmy produkcyjne. Czy w takich warunkach bezwzrokowe prace ręczne miały szansę przetrwania? Nie! Wraz z przemianami politycznymi i gospodarczymi przyszedł do Polski kapitał, który spowodował zwiększenie efektywności pracy. Ludzie przegrywają z automatami, gdy chodzi o wytwarzanie dóbr. Niewidomi musieli więc stracić swoje spółdzielnie, a przecież pracowały ich tam tysiące. Przyszedł czas na inny model sprawnego człowieka. Już nie spryt w kombinowaniu, radzenie sobie w specyficznych dla socjalizmu kastach, lecz wykształcenie i autentyczna przedsiębiorczość decydują o pozycji człowieka.

Teraz dobrze przygotowany do życia niewidomy musi samodzielnie poruszać się po tzw. mieście, radzić sobie w domu i w pracy oraz umieć wykorzystywać technologię informatyczną (IT), a więc komputery, urządzenia peryferyjne, Internet i media społecznościowe otwarte dla wszystkich.

IT wystartowała w naszym kraju mniej więcej 25 lat temu i jak widać zbiega się z momentem polskiej transformacji, w wyniku której zmienił się ustrój polityczny i gospodarczy, a co za tym idzie zbiór intratnych zawodów, dziedziny, w których można lepiej lub gorzej zarobić, ścieżki postępowania we wszelkich sprawach. Do zmian z początku okresu transformacji doszły regulacje związane ze wstąpieniem Polski do Unii Europejskiej. W wyniku tych przemian żyjemy w zupełnie innym kraju niż kiedyś. Na Zachodzie IT ruszyła wcześniej. W latach 80. słyszeliśmy o niebywałych wynalazkach, na które z niecierpliwością czekaliśmy. Najpierw dotarły do nas stamtąd małe i dziwaczne komputery służące przede wszystkim do gier. W tym samym czasie tam powstawały urządzenia, które udostępniały niewidomym komputery, a więc syntezatory mowy i brajlowskie monitory. Były tak drogie, że praktycznie nie mogły być u nas dostępne. Nie były też spolszczone, czyli nie mówiły w naszym języku oraz nie pokazywały polskiego tekstu brajlowskiego. Tam produkowano już poważniejsze komputery personalne (PC), tzw. pecety i rozpoczęła się komputeryzacja biur, szkół, uczelni itd. Tym bardziej specjalistyczne rozwiązania dla inwalidów wzroku były niezbędne. U nas urządzeń przeznaczonych dla niewidomych brakowało nawet wtedy, gdy PC już tutaj dotarły. Nie można było wykorzystać w praktyce rozwiązań zachodnich, gdy nie komunikowały się z użytkownikami w naszym języku oraz były tak drogie. Wtedy 100 dolarów stanowiło 5 moich pensji, a Tyle kosztował najprostszy syntezator mowy. Brajlowskie urządzenia kosztowały tysiące dolarów, czyli równowartość kilkuset pensji. Niewidomi nie mogli więc uczestniczyć w unowocześnianiu kraju. Traciliśmy stopniowo miejsca pracy w zawodach fizycznych, a zawody intelektualne były niedostępne. To właśnie stało się decydującym bodźcem do poszukiwań naszych własnych rozwiązań i osób, które mogłyby je stworzyć.

1. Działalność komórki niewidomych programistów w instytucie IPI PAN

Komórka ta powstała jeszcze w latach 70. Jej pracownikami byli niewidomi i niedowidzący informatycy, pośród których bodaj najważniejszą rolę odegrał dr Stanisław Jakubowski – jakiś czas później otrzymał od środowiska nieoficjalny tytuł ojca polskiej tyfloinformatyki. Kierownikiem grupy był dr Wojciech Zawistowski. Najbardziej znanym rozwiązaniem stworzonym przez nich, była prosta brajlowska drukarka komputerowa. Działalność zespołu była oceniana bardzo pozytywnie przede wszystkim dlatego, że była pierwszą próbą poszukiwania możliwości zaangażowania niewidomych w zawodach technologicznych w komputeryzującym się świecie. W latach 70. nie było jeszcze rozwiązań personalnych, a nieliczne komputery były ogromnymi maszynami, do których dostęp mieli nieliczni. Tym bardziej prace tej grupy należy uznać za istotne. Nie zmienia to faktu, iż ich rozwiązania nie przydały się w praktyce. Na tamtym etapie musiano poprzestać na stworzeniu modelu pokazowego, za czym nie poszło wdrożenie do produkcji.

Jeszcze studiowałem, gdy działała ta komórka. Miałem do niej blisko, gdyż mój wydział Matematyki, Informatyki i Mechaniki mieścił się wtedy na kilku piętrach Pałacu Kultury i Nauki, tak samo jak IPI PAN.

2. Prace instytutu IBIB PAN

Już w latach 80. zainicjowano tam prace nad stworzeniem polskiego syntezatora mowy. Kiedy przystąpiono do wdrażania komputeryzacji brajlowskiej drukarni Polskiego Związku Niewidomych, pojawiła się ogromna presja, by prace te zostały doprowadzone do sukcesu jak najszybciej. Ja rozpocząłem pracę na stanowisku informatyka w Instytucie Meteorologii i Gospodarki Wodnej w roku 1986 i czekałem na ten syntezator jak na zbawienie. Spotykałem się z informatykami w PZN by dowiedzieć się, czy mamy już polski syntezator mowy. Niestety, w latach 80. nie doczekaliśmy się tego. Jednak prace postępowały. Prototyp syntezatora był prezentowany w szkole dla niewidomych w Laskach. Pod wpływem nauczycieli i uczniów wykonywano kolejne ulepszenia. Syntezator ten powstał, ale to już inna historia. Opisuję ją w jednym z następnych punktów.

3. Pracownia informatyczna pracująca nad komputeryzacją drukarni brajlowskiej PZN

Działała w drugiej połowie lat 80. Kierownikiem tego wdrożenia został wspomniany już dr Stanisław Jakubowski, a głównym informatykiem, wykonawcą oprogramowania był Igor Busłowicz. Wcześniej drukarnia pracowała na maszynach konwencjonalnych. Dzisiaj określiłoby się je analogowymi. Drukarze wpisywali tekst na specjalnych maszynach, które z grubsza można porównać do zwykłych brajlowskich maszyn do pisania. Maszyny te były wyposażone w specjalne głowice, które dziurkowały blachy brajlowskimi punktami. Były one zapisane przepisywanym tekstem, tzn. jego brajlowską wersją. Następnie blachy były kopiowane przez prasy na papier. Komputeryzacja polegała na uruchomieniu komputerowego procesu druku, który polega na wpisaniu tekstu do cyfrowej pamięci. Pisze się na zwykłej komputerowej klawiaturze. Mogą to robić zarówno widzący, jak niewidomi drukarze. Tekst jest wpisywany w zwykłym edytorze tekstu, np. Wordzie. Musi być przeformatowany na system brajlowski, choćby z tego powodu, że linijka w czarnym druku może liczyć np. 80 znaków, a w brajlu np. 29. Tak krótkie linijki wymuszają stworzenie solidnego formatera, który potrafi dzielić słowa na sylaby. Musi generować automatycznie spisy treści, bibliografie, dawać sobie radę z tabelkami, tekstem obcojęzycznym lub informatycznym itd. Prawidłowo sformatowany tekst jest przenoszony na stanowisko drukujące. Są dwa warianty: można wydrukować tekst na blachach, ale na komputerowych prasach, a nie konwencjonalnych, albo od razu na papierze. Oprogramowanie autorskie stworzyli: dr Jakubowski jako projektant, a mgr Busłowicz jako programista.

4. Pierwszy obecny na rynku syntezator polskiej mowy Readboard – późniejszy Speak

Jestem jego autorem, wobec czego w jakichś elementach mogę nie być obiektywny. Postaram się jednak złożyć stosowną relację. Już wspomniałem, że szukaliśmy rozwiązań udostępniający niewidomym komputery. W moim instytucie nie było na to szans i musiałem radzić sobie sam. Korzystałem wtedy z genialnego urządzenia Optacon, który zamieniał graficzny oraz na obraz wibrujący i wypukły. Nie pokazywał liter w systemie Braille’a, lecz uwypuklał to, co widziała jego kamera. W ten sposób można było czytać to, co było napisane na papierze albo wyświetlone na ekranie monitora. Jednak w praktyce nie był dobrym narzędziem. Zostawmy jego minusy na inną opowieść. W ten sposób zmuszony byłem chodzić do biura PZN, do komórki niewidomych informatyków komputeryzujących drukarnię i pytać, czy obiecywany przez IBIB PAN syntezator już jest. Nie było. Zrozumiałem, że jedyną metodą na podtrzymanie pracy jest znalezienie przeze mnie specjalisty, który zdoła opracować syntezę mowy. I tak zrobiłem.

Spotkałem Jana Grębeckiego, który był serwisantem elektronicznych instrumentów muzycznych. Reperował je dla najwybitniejszych polskich twórców. Gdy zaczął bawić się komputerami, wpadł na pomysł nagrywania dźwięku na cyfrowe nośniki. Gdy zapytałem, czy nie mógłby nagrać dla mnie fonemów polskiej mowy, zgodził się i niedługo potem mi je przekazał. Najpierw udźwiękowił klawiaturę komputera. Wciskaliśmy klawisze, a komputer mówił ich nazwę. Nie dołączaliśmy żadnych głośników, bo Jan jako pierwszy wykorzystał wewnętrzny głośnik do celu odtwarzania dźwięku. Była to bardzo prosta i prymitywna metoda, ale mogliśmy zrozumieć słowa. Potem Jan skonstruował specjalną wtyczkę, którą podłączało się do portu drukarkowego w komputerze. Wysyłał na ten port rozmaite bajty, wtyczka zamieniała je na sygnały analogowe i mogliśmy słuchać nagrania w głośniku podłączonym do tej wtyczki. Udźwiękowiona klawiatura ucieszyła nasze gronko, wobec czego Jan nagrał zaproponowane przeze mnie dźwięki fonemów. Podyktowałem słowa, które ma nagrać oraz ich części, które ma z nich wykroić. Stworzyłem tzw. algorytm mowy i intonacji – i już mieliśmy syntezator mowy. Wszystkie słowa były nagrane jednakowo, wobec czego wycięte dźwięki były wypowiedziane tym samym tonem krtaniowym. Algorytm intonacji regulował, na jakiej wysokości mają być wypowiedziane poszczególne sylaby.

Mieliśmy syntezator, czyli narzędzie, które mogło mówić to, co sobie zażyczyliśmy. To jednak nie wystarczy niewidomym. Chodziło o to, by można było wiedzieć co jest napisane na ekranie, potrzebny jest zatem program screen access, inaczej screen reader, czyli czytnik ekranu. O ile syntezator był prezentowany już w roku 1988, program taki napisałem w roku 1989. Był prosty i nazywał się Reader. Już dzięki temu systemowi mogłem korzystać z komputera. Udostępniłem go moim przyjaciołom, którzy odwzajemnili się pomocą w odnajdywaniu błędów i proponowaniu jak najlepszych procedur, które rozwijały mój program.

Potem powstał już profesjonalny program screen reader Readboard, który w opinii wielu użytkowników był najlepszy z dostępnych na rynku. Oczywiście miał też przeciwników. Jakie wady miał mój system? Otóż, jak już wspomniałem, syntetyczny głos był słyszany w głośniku podłączonym do wyjścia drukarkowego komputera. Nasza synteza mowy od samego początku była programistyczna. Dzisiaj wszystkie syntezatory są tego rodzaju. Wtedy było to tak samo genialne, jak i krytykowane. Zawsze programy angażują układy elektroniczne. Programy to zbiory rozkazów, które muszą czymś zawiadywać, by mogły coś realnie zrobić. Mogą uruchamiać urządzenia mechaniczne albo układy elektroniczne. Nasz system angażował głównie procesor, który w tym czasie przerywał wykonywanie innych operacji, np. czuwanie nad czasem. Generowanie dźwięku hamowało pracę komputera i zamiast godziny 21.15 mieliśmy 20.57. Podobno złościło to niektórych ludzi, chociaż inni nawet tego nie zauważali. Kolejną wadą naszej syntezy mowy było to, że była rzeczywiście prosta, wręcz prymitywna i brzmiała sztucznie. Fakt, nigdy nie uważaliśmy inaczej. Stworzyliśmy najprostszy syntezator na globie, ale nigdy nie mieliśmy innych ambicji. Chodziło nam o udźwiękowienie komputera, by niewidomi mogli się uczyć i pracować intelektualnie. Ten cel osiągnęliśmy.

Po latach nasz program syntezy mowy został przepisany na system Windows i zmienił nazwę na Speak. Jest on sprzedawany do dzisiaj, co potwierdza, że miał niebywałą moc. Produkt kupowany na rynku przez 25 lat – to dopiero sukces! Wielu niewidomych lubi jego prostotę, tempo działania, wyrazistość, która wiąże się z sztucznością, ale jak widać wielu ludzi tak woli. Stworzyłem dodatkowe narzędzia, jak zegar, datownik, terminarz, notatnik, bazę danych, udźwiękowiłem gry edukacyjne np. szachy i brydż. Wzbogaciłem system o algorytm odczytywania liczb, w tym rzymskich, poprawne czytanie wyjątków i skrótów, bazę słów umykających regułom, czyli słów wyjątkowych, algorytm intonacji, który wie, że „fizyka” nie ma akcentu na przedostatnią sylabę itd.

Cdn.

Komentarze

komentarze