SKENE

Fakty dotyczące zrozumiałości mowy

Autor: Eddy Bøgh Brixen | Redakcja: SKENE

Słowa mówione i śpiewane powinny być zrozumiałe. Niestety, zachowanie zrozumiałości może być technicznie trudne podczas nagrywania lub wzmacniania głosu. W tym artykule przedstawiamy kilka faktów dotyczących zrozumiałości mowy oraz – co najważniejsze – sposobu jej zachowania.

Podsumowanie

Język wywodzi się z mowy. Dlatego podczas nagrywania głosu zawsze należy brać pod uwagę jego zrozumiałość.

Powietrze przepływa przez struny głosowe i wytwarza dźwięk. Kontrolując struny głosowe, można zmieniać poziom i wysokość głosu. Wpływając na jamy powyżej strun głosowych (gardłową, ustną, nosową), dodaje się filtrację do widma dźwięku.

Zmiana wysiłku głosowego wpływa zarówno na poziom, jak i widmo częstotliwości dźwięku. Nawet wysokość głosu zmienia się wraz z wysiłkiem głosowym. Krzyk brzmi inaczej niż mówienie spokojnym, naturalnym głosem.

Podczas nagrywania zauważysz, że szczyty sygnału akustycznego są znacznie wyższe niż poziom RMS (średni). Upewnij się, że wszystkie szczyty są zachowane w całym torze nagraniowym.

W językach nietonalnych spółgłoski mają kluczowe znaczenie. Spółgłoski (k, p, s, t itd.) występują głównie w zakresie częstotliwości powyżej 500 Hz, a dokładniej w przedziale 2 kHz–4 kHz.

Postrzegamy głos jako naturalny i najbardziej zrozumiały, gdy znajdujemy się około 1 metra przed osobą mówiącą. Stanie z boku lub za tą osobą zmniejsza naturalność i zrozumiałość.

W rzeczywistości widmo głosu zmienia się w niemal każdej innej pozycji niż wtedy, gdy zbliżamy ucho – lub mikrofon – do mówiącej osoby.

Każde miejsce na głowie lub klatce piersiowej ma własną barwę dźwięku (timbre). Na przykład widmo mowy rejestrowanej na klatce piersiowej zazwyczaj nie zawiera częstotliwości z ważnego zakresu 2–4 kHz. Skutkuje to obniżoną zrozumiałością mowy. Jeśli mikrofon tego nie kompensuje, należy wprowadzić korekcję za pomocą equalizera.

Dlatego przy ustawianiu mikrofonu trzeba być świadomym tych kwestii. Warto dobrać odpowiedni mikrofon przeznaczony do pracy w danym miejscu. W przeciwnym razie należy przygotować się na kompensację (korekcję) w celu uzyskania właściwego brzmienia.

Możesz szybko zdobyć podstawy, oglądając serię krótkich filmów, które wprowadzają i wyjaśniają najważniejsze czynniki wpływające na zrozumiałość głosu. Gdy będziesz gotowy na głębsze poznanie teorii, zapoznaj się z pełnym artykułem poniżej playlisty.

Głos jako źródło dźwięku akustycznego

Głos jako źródło dźwięku jest ważny do zrozumienia. Choć język może być wspólny dla grup ludzi, brzmienie i charakter głosu są indywidualne dla każdej osoby. Jednocześnie mowa, traktowana jako sygnał akustyczny, jest dźwiękiem, z którym jesteśmy najbardziej zaznajomieni.

Poziom dźwięku Wysiłek głosowy jest zróżnicowany – od cichego szeptu po głośny krzyk. Trudno przypisać stałą wartość poziomu mowy, ponieważ jest ona indywidualna dla każdej osoby. Wartości w poniższej tabeli przedstawiają średni poziom mowy ważony charakterystyką A dla dorosłego człowieka.

Warto zauważyć, że zdolność rozumienia mowy jest optymalna, gdy jej poziom odpowiada poziomowi normalnej rozmowy w odległości 1 metra. Innymi słowy, jest to poziom ciśnienia akustycznego około 55–65 dB re 20 μPa (w tym przypadku „re” oznacza „w odniesieniu do”; punktem odniesienia jest najniższy słyszalny poziom ciśnienia akustycznego).

Poziom mowy Poziom mowy [dB re 20 µPa]

Listening distance[m]

Normal

Raised

Loud

Shout

0.25

70

76

82

88

0.5

65

71

77

83

1.0

58

64

70

76

1.5

55

61

67

73

2.0

52

58

64

70

3.0

50

56

62

68

5.0

45

51

57

63

Średni poziom mowy w funkcji odległości odsłuchu/nagrania Między normalną mową a krzykiem występuje różnica prawie 20 dB.

Współczynnik szczytu (crest factor) Należy zauważyć, że każdy poziom przedstawiony w tabeli jest uśrednionym poziomem RMS, a nie poziomem szczytowym. Zazwyczaj wartości szczytowe są o 20–23 dB wyższe od poziomu RMS. Stosunek poziomu szczytowego do poziomu RMS nazywa się współczynnikiem szczytu (crest factor). Jest to istotny parametr przy nagrywaniu lub odtwarzaniu głosu w systemach elektroakustycznych.

Warto również zauważyć: głośny śpiew, mierzony przy ustach, może osiągać poziomy 130 dB re 20 μPa (RMS) oraz poziomy szczytowe powyżej 150 dB re 20 μPa.

Męski głos, normalna mowa (czas trwania 18 sekund): średni RMS: -21,5 dBFS, szczyt: -0,5 dBFS. Współczynnik szczytu: 11 (21 dB). Przerywana czerwona linia wskazuje poziom RMS.

Widmo mowy

Widmo mowy obejmuje dość szeroki zakres całego słyszalnego pasma częstotliwości. W językach nietonalnych można powiedzieć, że mowa składa się z samogłosek i spółgłosek. Samogłoski są generowane przez struny głosowe i filtrowane przez jamy głosowe. Szept nie zawiera dźwięków dźwięcznych.

Jednak jamy, które uczestniczą w tworzeniu różnych samogłosek, nadal wpływają na przepływ powietrza. Dlatego cechy charakterystyczne samogłosek występują również w szeptach. Ogólnie rzecz biorąc, częstotliwość podstawowa złożonego tonu mowy – zwana także wysokością dźwięku lub f0 – wynosi około 100–120 Hz dla mężczyzn, choć możliwe są odchylenia. U kobiet f0 jest zwykle o około jedną oktawę wyższa. U dzieci wynosi około 300 Hz.

Spółgłoski powstają wskutek blokad przepływu powietrza oraz szumów generowanych przy jego przechodzeniu przez gardło i jamę ustną, szczególnie przy udziale języka i warg. Pod względem częstotliwości spółgłoski występują powyżej 500 Hz.

Przy normalnej intensywności głosu energia samogłosek zazwyczaj szybko maleje powyżej około 1 kHz. Należy jednak zauważyć, że wraz ze wzrostem natężenia głosu akcent widma mowy przesuwa się o jedną do dwóch oktaw w kierunku wyższych częstotliwości. Warto również pamiętać, że nie jest możliwe zwiększenie poziomu dźwięku spółgłosek w takim samym stopniu jak samogłosek. W praktyce oznacza to, że zrozumiałość mowy nie wzrasta poprzez krzyk w porównaniu z normalnym wysiłkiem głosowym w sytuacjach, gdy poziom hałasu tła nie jest znaczący.

Widma głosu (1/3 oktawy) w zależności od wysiłku głosowego

Formanty

Jeśli słuchasz dwóch osób, które wypowiadają lub śpiewają tę samą samogłoskę na tej samej wysokości (f0), prawdopodobnie rozpoznasz ją jako identyczną w obu przypadkach. Jednak dwa różne głosy nie muszą generować dokładnie takiego samego widma. To właśnie formanty odpowiadają za postrzeganie samogłosek. Dostarczają one również informacji różnicujących mówców.

Formanty wynikają z akustycznego filtrowania widma generowanego przez struny głosowe. Samogłoski powstają poprzez „strojenie” rezonansów jam w przewodzie głosowym.

Co wpływa na zrozumiałość?

W językach tonalnych, takich jak chiński czy tajski, znaczenie przekazywane jest za pomocą tonu leksykalnego, czyli częstotliwości podstawowej.

W językach nietonalnych, takich jak angielski, hiszpański czy japoński, słowa rozróżnia się poprzez zmianę samogłoski, spółgłoski lub obu tych elementów. Jednak z tych dwóch to właśnie spółgłoski są najważniejsze.

Istotne częstotliwości

Najważniejsze częstotliwości w językach nietonalnych (zachodnich) przedstawia poniższy diagram. Zakres częstotliwości około 2 kHz jest kluczowy dla postrzeganej zrozumiałości mowy. Większość spółgłosek występuje właśnie w tym paśmie.

(Źródło: N.R. French & J.C. Steinberg: Factors governing the intelligibility of speech sounds, JASA, tom 19, nr 1, 1947).

Widmo mowy może być filtrowane górnoprzepustowo (HP) lub dolnoprzepustowo (LP). Zastosowanie filtru HP przy 20 Hz (górny lewy wykres) pozostawia mowę w 100% zrozumiałą (ponieważ całe widmo mowy jest zachowane). Filtr HP odcinający wszystko poniżej 500 Hz nadal pozwala na zrozumienie mowy – mimo że większość energii sygnału zostaje usunięta, zrozumiałość spada jedynie o około 5%. Jednak przy wyższej częstotliwości odcięcia zrozumiałość zaczyna gwałtownie maleć.

Z kolei zastosowanie filtru LP powoduje szybki spadek zrozumiałości. Przy odcięciu na poziomie 1 kHz zrozumiałość spada już poniżej 40%. Wynika z tego, że zakres częstotliwości od 1 kHz do 4 kHz ma kluczowe znaczenie dla zrozumiałości mowy.

Hałas tła

Hałas tła wpływa na postrzeganą zrozumiałość sygnału mowy. W tym kontekście za hałas można uznać wszystkie sygnały inne niż sama mowa. Na przykład w audytorium lub klasie klimatyzacja i inne urządzenia mogą pogarszać zrozumiałość. Również obecność innych ludzi generuje dodatkowy hałas.

W dźwięku telewizyjnym i filmowym często kluczowa jest relacja między poziomem dialogu a poziomem muzyki lub dźwięków tła.

Na wykresie zależność zrozumiałości mowy przedstawiona jest w funkcji stosunku sygnału do szumu (S/N). Dolna krzywa pokazuje, że mowa może być częściowo zrozumiała nawet przy ujemnym S/N (czyli gdy hałas jest o 10 dB głośniejszy niż mowa). Niemniej optymalny poziom to około 60 dB re 20 μPa.

Przeprowadzono wiele badań w tym zakresie. Ogólnie wyniki wskazują, że:

  1. Optymalny poziom mowy pozostaje stały, gdy poziom hałasu tła jest niższy niż 40 dB(A).

  2. Optymalny poziom mowy odpowiada utrzymaniu stosunku S/N na poziomie około 15 dB(A), gdy hałas tła przekracza 40 dB(A).

  3. Trudność słuchania wzrasta wraz ze wzrostem poziomu mowy, jeśli stosunek S/N jest wystarczająco dobry, by zapewnić niemal pełną zrozumiałość.

Ponadto zakres częstotliwości 1–4 kHz powinien być „czysty”. Na przykład przy dodawaniu muzyki jako tła dla narracji zastosowanie korektora parametrycznego i obniżenie poziomu muzyki o 5–10 dB w tym paśmie poprawia zrozumiałość.

Pogłos (reverberacja)

W kontekście zrozumiałości mowy pogłos traktowany jest jako rodzaj szumu. Niewielka ilość pogłosu może wspierać odbiór mowy, jednak gdy spółgłoski zaczynają się rozmywać, zrozumiałość spada.

Pole dźwiękowe

Pole dźwiękowe wokół mówiącej osoby zależy nie tylko od fizyki przewodu głosowego, ale także od kształtu głowy i ciała.

Kierunkowość

Poniżej przedstawiono charakterystyki kierunkowe (wykresy biegunowe) mowy człowieka w płaszczyźnie pionowej i poziomej

Polar patterns human talker. (źródło: Chu, W.T.; Warnock, A.A.C.: Detailed Directivity of Sound Fields Around Human Talkers).

Przedstawione poziomy są ważone charakterystyką A; uwzględniono zarówno mężczyzn, jak i kobiety. Wszyscy mówcy byli w pozycji siedzącej, a pomiary wykonano w odległości 1 metra. Widać, że różnica między przodem a tyłem wynosi około 7 dB. Nie uwzględnia to jednak zależności od częstotliwości: wysokie częstotliwości są bardziej tłumione z tyłu niż niskie.

Warto również zauważyć, że w płaszczyźnie pionowej poziom jest wyższy w kierunku 330° niż w innych kierunkach. Wynika to głównie z odbicia dźwięku od klatki piersiowej.

Ten wykres przedstawia charakterystyki kierunkowe zależne od częstotliwości w zakresie od 160 Hz do 8 kHz. Widać, że kierunkowość wzrasta od około 1 kHz wzwyż. Łącząc ten fakt ze znaczeniem częstotliwości powyżej 1 kHz, oczywiste jest, że większą zrozumiałość uzyskuje się przy nagrywaniu z przodu, a nie zza osoby mówiącej. Mówca – charakterystyki biegunowe w pasmach 1/3 oktawy. Podziałka: 5 dB (źródło: Chu, W.T.; Warnock, A.A.C.: Detailed Directivity of Sound Fields Around Human Talkers).

Odległość i kierunek

Ponieważ mikrofony nie zawsze są ustawione w odległości 1 metra od mówcy, warto wiedzieć, co się dzieje, gdy zbliżamy się do źródła dźwięku.

Poniższe wykresy pokazują odchylenia od widma mowy zarejestrowanego w odległości 1 metra dla danego kierunku. Kąty (+45°, 0° i -45°) odnoszą się do płaszczyzny pionowej. Wyniki te są średnią z pomiarów dla 10 mówców.

Linie na każdym z trzech wykresów pokazują odchylenia dla odległości odpowiednio 80 cm, 40 cm, 20 cm i 10 cm.

Gdyby zmiana kierunku i odległości nie wpływała na widmo, wszystkie krzywe byłyby liniami prostymi. Jednak odchylenia rosną wraz ze zbliżaniem się do mówcy.

Górny wykres przedstawia pomiary wykonane pod kątem +45° powyżej osi. Odchylenia są tu niewielkie. Dlatego ustawienie mikrofonu nad głową (boom) zapewnia stabilne widmo mowy, mniej zależne od odległości.

Dolny wykres pokazuje sytuację, gdy głos jest rejestrowany poniżej osi. Wpływ dźwięku odbitego od ciała jest tu znaczący.

Odchylenia na osi (0°) znajdują się pomiędzy tymi dwoma przypadkami, co oznacza, że widmo mowy zmienia się wraz z odległością od mikrofonu.

(Źródło: Brixen, Eddy B.: Near field registration of the human voice: Spectral changes due to positions, AES Convention 104, Amsterdam, Holandia. Preprint 4728)

Głowa i klatka piersiowa

W zastosowaniach broadcastowych i nagłośnieniowych często używa się mikrofonów lavalier (przypinanych do klatki piersiowej) lub headsetów (nagłownych), które dają użytkownikowi większą swobodę ruchu. Należy jednak pamiętać, że umieszczenie mikrofonu w tak małej odległości powoduje rejestrację widma różniącego się od naturalnego, neutralnego brzmienia odbieranego z typowej odległości odsłuchowej. Różnica ta jest znacząca.

Poniżej opisano pięć krzywych pokazujących, co dzieje się z widmem mowy przy umieszczeniu mikrofonu na ciele lub głowie. Wszystkie krzywe są oparte na pomiarach i stanowią średnią dla 10 osób.

  • Klatka piersiowa – znaczne osłabienie częstotliwości w kluczowym zakresie 2–4 kHz.

  • Szyja (pod brodą) – jeszcze większe odchylenia; pozycja często stosowana w broadcastingu (np. przy koszulkach czy płaszczach). W każdej sytuacji: silna utrata częstotliwości spółgłoskowych.

  • Czoło – najmniej ingeruje w widmo; bardzo dobra pozycja dla filmu i sceny, rzadziej dla newsów.

  • Ucho – stopniowy spadek wysokich częstotliwości; wymaga korekcji.

  • Policzek (headset) – lepsze zachowanie pasma 2–4 kHz niż w innych pozycjach, ale nadal konieczne jest podbicie najwyższych częstotliwości (często wbudowane w mikrofony DPA).

Warto dodać, że poziom mowy przy „kąciku ust” (policzek) jest o około 10 dB wyższy niż przy mikrofonie na klatce piersiowej.

Z krzywych wynika ogólna tendencja podbicia w okolicach 800 Hz (często kompensowana), jednak najważniejszym problemem jest tłumienie powodujące spadek zrozumiałości mowy – i to zawsze musi być skorygowane.

(Źródło: Brixen, Eddy B.: Spectral degradation of speech captured by miniature microphones mounted on Persons’ heads and chests, AES Convention 100, Kopenhaga, Dania. Preprint 4284)

Mikrofony ręczne wokalne

  • Mikrofon powinien znajdować się przed ustami w zakresie ±30°

  • Mikrofony kierunkowe (kardioidalne, shotgun) powinny być używane na osi (nie „jak lód w rożku”)

  • Zbyt gęste osłony przeciwwiatrowe mogą tłumić wysokie częstotliwości – należy to kompensować

Mikrofon lavalier (na klatce piersiowej)

Widmo mowy w tej pozycji ma niedobór częstotliwości w zakresie 3–4 kHz. Mikrofon o płaskiej charakterystyce wymaga podbicia tego pasma o około 5–10 dB.

  • Dwa rozwiązania: mikrofon z fabryczną korekcją lub ręczna korekcja w postprodukcji

  • Sprzęt ENG (miksery/kamery) zwykle tego nie kompensuje → często skutkuje niską zrozumiałością

Mikrofon nagłowny (headset)

  • Poziom sygnału przy policzku jest o około 10 dB wyższy niż na klatce piersiowej

  • Widmo mniej zniekształcone, ale nadal wymaga kompensacji wysokich częstotliwości

  • Pozycja na czole (przy linii włosów) jest stosunkowo neutralna

Mikrofony na mównicy

  • Używane z różnych odległości → powinny być kierunkowe (szczególnie powyżej 1 kHz)

  • Muszą być skierowane na usta mówcy

  • Powinny być odporne na drgania i hałas mechaniczny

Mikrofony panelowe (wielu mówców)

  • Każdy mikrofon jak najbliżej swojego mówcy

  • Stosować mikrofony kierunkowe

  • Każdy mikrofon powinien tłumić innych mówców o co najmniej 10 dB

Boom (mikrofon na tyczce)

  • Najbardziej neutralne widmo uzyskuje się z przodu i nad głową

  • Jeśli warunki pozwalają, można używać innych mikrofonów niż shotgun

Hałaśliwe / pogłosowe środowisko

  • Mikrofon jak najbliżej ust

  • Mikrofon o dobrej izolacji od hałasu (kardioidalny / superkardioidalny)

Artykuł źródłowy: Facts about speech intelligibility