🔒 Przetwarzanie dźwięku

Dźwięk jest formą energii, która przemieszcza się w powietrzu poprzez wibracje cząstek powietrza. Dźwięki otaczają nas dosłownie wszędzie.

Ze słuchu, czyli tak naprawdę z interpretacji czasowych zmian ciśnienia akustycznego, korzystamy dużo częściej, niż Wam się wydaje. Do uwzględniania kontekstu wypowiedzi, do oceny bezpieczeństwa sytuacji, w której się znajdujemy, do wykrywania anomalii dźwiękowych (np. podczas jazdy samochodem) czy też zwyczajnie do szeroko rozumianej… rozrywki. Każdy z nas wyposażony jest w szereg zmysłów, za pomocą których doświadczamy otaczającego nas świata: wzrok, węch, smak, dotyk i słuch. Budowa ucha jest fascynująca i umożliwia rejestrowanie niewielkich zmian ciśnienia powietrza. Dźwięk w postaci fali akustycznej pobudza błonę bębenkową, której zadaniem jest przekazanie drgań powietrza na układ najmniejszych kosteczek w naszym ciele (młoteczek, kowadełko, strzemiączko). Kosteczki te wzmacniają drgania i przekazują je do płynu wewnątrz ślimaka, gdzie zamieniane są na impulsy nerwowe. Impulsy te z kolei są przekazywane przez nerw słuchowy do mózgu, gdzie zachodzi proces przetwarzania sygnałów akustycznych (dźwięku). Warto wspomnieć, że poza słyszeniem człowiek jest w stanie również generować sygnały akustyczne. Narząd mowy uznawany jest za najbardziej wyrafinowany i skomplikowany instrument stworzony przez naturę. W dalszej części skupimy się na sygnale akustycznym i tym, co algorytmy sztucznej inteligencji są w stanie z nim zrobić.

Zacznijmy od koncepcji kształtu fali (ang. waveform). Wyobraźmy sobie punkt w przestrzeni, którego zachowanie będziemy obserwować zarówno w czasie, jak i w amplitudzie (głośności). Takie dwuwymiarowe podejście umożliwia podstawową analizę, jednak naprawdę ciekawie robi się, gdy dodamy trzeci wymiar, a mianowicie zawartość częstotliwościową dźwięku (analizę widmową). Tutaj pojawia się Transformata Fouriera, która jest metodą rozbijania czegoś (np. sygnału dźwiękowego) na kilka sinusoid. I tak oto powstaje spektrogram (ang. spectrogram), który de facto jest wizualizacją sygnału dźwiękowego. Na osi pionowej widzimy częstotliwości (od niskich na dole do wysokich na górze), od lewej do prawej, podobnie jak dla kształtu fali mamy czas, natomiast kolory pokazują, ile energii znajduje się w danym paśmie częstotliwości.

Ten artykuł jest częścią drukowanej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Wykup dostęp

Jakub Tkaczuk

Lider zespołu Audio Intelligence w Samsung R&D Institute Poland

Podziel się

Może Cię zainteresować