sobota, 25 marca 2017

Ostatnio stworzyłem nową bazę wymowy angielskich słówek i w dzisiejszym poście przedstawię, jak tego dokonałem.

Jak już wspomniałem w poprzednim poście, jako podstawę wykorzystałem open-source'owy słownik wymowy CMUdict (można go pobrać stąd [1]). Zaimportowałem go do arkusza kalkulacyjnego, gdzie pierwszą kolumnę reprezentują angielskie słowa, a drugą kolumnę - wymowę w zapisie ARPAbet. Przyszykowałem sobie stosowną tablicę wymowy odpowiednich fraz z ARPAbet w języku polskim (na podstawie [1], [2] i [3]), przy pomocy której później konwertowałem za pomocą funkcji "Zamień" frazy ARPAbet w arkuszu.


Fonem Przykładowy wyraz wymowa ARPAbet wymowa polska
AA odd AA D o
AE at AE T a
AH hut HH AH T a
AO ought AO T o
AW cow K AW au
AY hide HH AY D aj
be B IY b
CH cheese CH IY Z cz
dee D IY d
DH thee DH IY d
EH Ed EH D e
ER hurt HH ER T er
EY ate EY T ej
fee F IY f
green G R IY N g
HH he HH IY h
IH it IH T i
IY eat IY T ii
JH gee JH IY
key K IY k
lee L IY l
me M IY m
knee N IY n
NG ping P IH NG n
OW oat OW T ou
OY toy T OY oi
pee P IY p
read R IY D r
sea S IY s
SH she SH IY sz
tea T IY t
TH theta TH EY T AH f
UH hood HH UH D u
UW two T UW u
vee V IY w
we W IY ł
yield Y IY L D j
zee Z IY z
ZH seizure S IY ZH ER ż

Nie było to jakieś czasochłonne, ale należało uważać, żeby np. wymowa V nie brzmiała jak wymowa W - najpierw zamieniłem np. W na ł, a V na w.

Przykładowo, podam kilka wyrazów z utworzonego słownika:
Coffee - Kofii
English - Inglisz
Mouse - Maus
Project - Prodżekt

Słownik zapisałem do pliku tekstowego, dodałem nagłówek od autorów i wrzuciłem na GitHuba.

W najbliższym czasie prawdopodobnie zajmę się oskryptowaniem powyższego słownika, żeby odczytywał odpowiednie wyrazy.

Źródła:
[1] - http://www.speech.cs.cmu.edu/cgi-bin/cmudict
[2] - https://en.wikipedia.org/wiki/Arpabet
[3] - https://www.slownictwo.pl/?f=transkrypcja-fonetyczna

środa, 15 marca 2017

Inglisz - założenia

Dzisiaj przedstawię założenia odnośnie projektu aplikacji Inglisz.

Sama aplikacja internetowa Inglisz jest dostępna od jakiegoś czasu pod adresem http://maciejkawa.lubin.pl/inglisz/, jednakże jest to starsza wersja, która zawiera w bazie ok. 21000 słówek angielskich.

Projekt Inglisz składa się głównie z interfejsu użytkownika dostępnego na stronie internetowej oraz bazy polskiej wymowy angielskich słów. 

W skład interfejsu zawierają się dwa obszary tekstowe: jeden służy do wprowadzania tekstu wejściowego w języku angielsku, w drugim natomiast będzie pokazywany przetworzony rezultat - wymowa podanego tekstu w zapisie polskim (przykład: English language - Inglisz lengłidż). Po wprowadzeniu tekstu i naciśnięciu przycisku, aplikacja przeanalizuje podany tekst i wyda rezultat. Całość jest responsywna (dostępna w wersji desktop i mobilnej).

Baza słówek zawiera angielskie wyrazy i ich rezultat - wymowę za pomocą zapisu w języku polskim. Do skonstruowania bazy wykorzystam open-source'owy słownik wymowy CMUdict bazujący na zapisie ARPAbet (wymowa zapisana w ASCII, słownik dostępny jest tutaj) i zawierający ponad 133 000 słówek. Oznacza to, że skrypt pracuje trochę jak tradycyjny translator, bowiem słowa angielskie nie są przetwarzane na bieżąco, tylko odczytane z bazy, która zostanie wcześniej przygotowana. Jednakże język angielski zawiera też kilka wyjątków w wymowie, które wymagają napisania odpowiednich warunków w kodzie :-)

W najbliższych dniach skupię się na utworzeniu bazy wymowy angielskich słówek.
Do usłyszenia :-)
Maciek

niedziela, 12 marca 2017

Maciej Kawa - Witajcie na moim nowym blogu

Chciałbym się w tym miejscu podzielić moimi przemyśleniami dotyczącymi zaprojektowania aplikacji internetowej "Inglisz", którą zgłosiłem na konkurs internetowy "Daj się poznać 2017". Aplikacja ma w swoim, głównym założeniu przekształcać tekst napisany w języku angielskim do formy wymawianej z użyciem języka polskiego (zamiast używanego w słownikach Międzynarodowego Alfabetu Fonetycznego IPA). Pozostałe założenia odnośnie projektu przedstawię już wkrótce.

Ponadto chciałbym również poruszyć kilka tematów związanych z językami programowania, które są wykorzystywane przy tworzeniu stron i aplikacji internetowych, zagadnienia związane IT itp.

Pozdrawiam i do usłyszenia,
Maciek :-)