Ahhoz, hogy a szintetizátorok működését megértsük, szükségünk lesz bizonyos előtanulmányokra magukról a hangokról, illetve a hangok fizikájáról. Mielőtt bárki is megijedne a fizika szó hallatán, jelezzük, hogy e fejezet sem tartalmaz bonyolult elméleti fejtegetéseket, rettenetes matematikai képleteket: megértéséhez csak józan észre és egy kis figyelemre lesz szükség.
Maga a hang nem más, mint a levegő nyomásának ingadozása, kicsit pontatlanabbul fogalmazva, a levegő részecskéinek rezgése. Ami ilyen rezgést létrehozni képes, az hangkeltő eszköz (szintetizátorok esetében ezt a szerepet a hangszóró játssza).
E rezgésnek van néhány tulajdonsága, amelyek alapvetően meghatározzák, hogy milyen az a hang, amit hallunk.
1. Minél nagyobb mértékben ingadozik a levegő nyomása, annál hangosabb a hang. Ezt saját szemünkkel is ellenőrizhetjük a hangszórók membránján: amikor feltekerjük a hangerőt, a membrán szinte kiszakad a helyéről. (Ha rákötjük a 200 wattos erősítőnket a Sokol rádió kis hangszórójára, akkor ez meg is történik.)
2. Minél gyorsabban ingadozik a levegő nyomása, annál magasabb a hang.
A hangokat a fülünkkel fogjuk fel, hogy pontosan hogyan, arról érdemesebb egy anatómiai könyvet elolvasni; itt csak annyit jegyzünk meg, hogy a rezgő levegő a dobhártyát rezegteti, ez pedig továbbadja a rezgést a fülben lévő hallócsontocskákon keresztül (üllő, kalapács, kengyel) a belső fülben található csigának, ami aztán különféle trükkökkel alakítja át a rezgést agyi hullámokká.
A dolgok ott kezdenek bonyolódni, amikor feltesszük a kérdést, hogy mitől is különbözik a trombita hangja a zongoráétól vagy a klarinéttől, hiszen mindhárom hangszer hangját csak a levegő rezgései alkotják. (Itt szúrjuk közbe, hogy nemcsak a levegő rezeghet ám: rezgésátvivő közeg lehet például a víz is. Ha ilyen közeg nincs, akkor hang sincs - a világűrben például kiáltozhatnánk, ahogy a torkunkon kifér, mégis süket csend lenne körülöttünk, leszámítva persze azt az igazán nem mellékes körülményt, hogy levegő híján elég gyorsan megfulladunk.)
Eláruljuk, a fő kérdés az, hogy hogyan rezegteti meg a levegőt a hang forrása. Egy klarinét esetében például körülbelül négyszög alakúak a rezgés hullámai, egy trombita esetében pedig a fűrészfoghoz hasonlítanak, hangvillánk hangja leginkább szinuszhullámmal rokonítható. De ez még mindig nem minden, mert például a pozan hangja is fűrészfogrezgésnek fogható fel, meg a vadászkürté is, mégis mindenki meg tudja különböztetni őket egymástól.
Nyilvánvaló tehát, hogy a zenei hangoknak vannak egyéb jellemzői is, egyelőre viszont maradjunk még a hullámformáknál. Ezelőtt párszáz évvel egy Fourier nevű úr (ő a matematika nem kis hír művelője volt) arra jött rá, hogy minden rezgés összerakható különböző nagyságú (amplitúdójú) és magasságú (frekvenciájú) szinuszhullámok összegeként. E felfedezés alapján tehát minden hanghoz hozzárendelhetünk egy úgynevezett Fourier-sort, vagyis egy matematikai képletet, amely azt tartalmazza, hogy az adott hang milyen frekvenciájú és milyen amplitúdójú szinuszhullámokra bontható fel. Egy hangvilla hangja például, amely ugye közelítőleg éppen szinuszhullám, csak saját magára bontható fel, ezért tűnik olyan tisztának, de jellegtelennek. A hangok jellegét ugyanis pontosan azok a magasabb szinuszhangok adják meg, amelyek az alaphanggal együtt szólalnak meg. Ezeket a magasabb frekvenciájú szinuszhullámokat nevezzük felharmonikusoknak.
Egy élesebb hang több felharmonikust tartalmaz, egy tompább hang pedig kevesebbet, a hangszínre tehát alapvetően jellemző annak felharmonikustartalma. Ezeket ábrázolva kapjuk meg a hang úgynevezett spektrumát. A spektrum egy olyan ábra vagy inkább grafikon, amelyen vízszintesen a felharmonikusok frekvenciáját ábrázoljuk, függőlegesen pedig az adott felharmonikus hangerejét.
Az olyan felharmonikusokat, amelyek egy hang alapvető hangszínét meghatározzák, formánsoknak nevezzük. Ennek látszólag semmi értelme, ugyanis minden hangszínnek megvan a maga igen nagy (végtelen számú) felharmonikusa - azonban, ha egy jellegzetes hangzásból elhagyunk egy-két magasabb felharmonikust, attól az a hangszín még szinte alig változik (ha a magashangszín-szabályozót letekerjük a rádiónkon, attól még a trombita trombita marad). Azok a felharmonikusok tehát a formánsok, amelyek a trombitát trombitává, a zongorát pedig zongorává teszik.
A zenei hang egy másik fontos jellemzője a megszólalása, illetve lecsengése, elhallgatása. A zongora például élesen szólal meg, és ha a pedált nyomva tartjuk, akkor egész hosszú idő telik el addig, amíg elhallgat. A trombita ezzel szemben szintén gyorsan szólal meg, de gyorsan el is hallgat, hacsak nem egy visszhangos teremben fújjuk meg. A hangerő, a hangszín és a hangmagasság is változik tehát egy zenei hang megszólalása során, és ezek a változások is alapvetően hozzájárulnak ahhoz, hogy egy hangszer hangját felismerhessük. E változásokat egyszerű kis grafikonokkal adhatjuk meg, melyeket burkológörbéknek nevezünk. A burkológörbe vízszintes tengelyén az idő múlását ábrázoljuk, a függőleges tengelyen pedig a változás mértékét. Az itt látható képen például a hangerő változásának burkológörbéjét ábrázoltuk, ennek állítgatására a szintetizátorok mindig tartalmaznak eszközöket.
Amikor elektronikus módszerekkel generálunk hangot, alapvetően két módszert követhetünk: az első esetben különböző rezgéskeltők (oszcillátorok), valamint azok hangját befolyásolni képes elektronikus áramkörök felhasználásával szintetizáljuk a hangokat, a másik megoldás szerint pedig már létező hangzásokat rögzítünk (például akár klasszikus hangszereket), és a szintetizátor ezeket szólaltatja meg. A két módszernek külön-külön megvannak a maga előnyei, így manapság mindkettőt használjuk, sőt, rengeteg eszköz van a piacon, amelyek egyesítik a két eljárást, és mindig azt vehetjük elő, amelyik a céljainkat leginkább szolgálja.
Az első módszer a klasszikus értelemben vett hangszintézis, itt a megfelelő oszcillátorokat (hangonként egyet vagy többet) és a többi egységet úgy vezéreljük, hogy azok a kívánt hangot adják. Ehhez csak annyit kell tennünk, hogy a hangzás valamennyi paraméterét be kell állítanunk a megfelelő értékre, és már készen is van egy hangprogram. Egyszerű, nem? Szerencsére a hangszergyártók azért gondoltak a halandó emberekre is, akiknek nincs se idejük, se türelmük pár száz paraméter beállítására, mielőtt játszani kezdenének egy szintin, ezért a hangszerekbe gyárilag is beírnak bizonyos mennyiségű hangprogramot; ha valakinek valamelyik hang nem tetszik, esetleg új ötlete van, csak akkor kell nekikezdenie a fentiekben vázolt fáradságos munkának.
E módszer nagy előnye a fentiek alapján abban van, hogy egy hangon nagyon sok mindent meg tudunk változtatni, bele tudunk nyúlni, sőt új hangokat is létre tudunk hozni, hátránya viszont az, hogy még az említett pár száz paraméter is kevés ahhoz, hogy igazi klasszikus hangszerek hangját hűen utánozzuk - a szintézisnek ez a formája ezért nagyon alkalmas eszköz elektronikus zenei irányzatokat művelők számára, de nem fogja elnyerni azok tetszését, akik hagyományosabb, akuszikus jellegű hangszereléseket alkotnak.
Az utóbbi igényt elégíti ki viszont a másik módszer, azaz a digitalizált hangok használata. Manapság már óriási hangmintakönyvtárakból választhatjuk ki a nekünk leginkább tetsző, legélethűbbnek tűnő hangszerhangokat, ha pedig nem találjuk meg készen azt, amit keresünk, mi magunk is rögzíthetünk hangot egy mikrofon segítségével. A kész hangmintát ezután csak be kell dobnunk a mintalejátszó rendszerbe, és ott aztán további feldolgozásnak vethetjük alá (szűrők, effektek stb.)
De mi is ez az egész? Hogyan lehet hangszerek hangját konzerválni, és zenei játékra alkalmassá tenni?
A hangdigitalizálás folyamata tulajdonképpen nem más, mint egy komplett hangzás digitális információkká, azaz egy jó nagy adag számmá történő átalakítása, és a számhalmaz tárolása. Ez gyakorlatilag úgy zajlik, hogy odaállunk például egy szaxofon elé egy mikrofonnal, és a mikrofon által produkált elektronikus jelet felvesszük egy külön e célra szolgáló eszközzel vagy számítógépes programmal, a digitalizálóval. Ez a gép felvétel közben látszólag pontosan úgy dolgozik, mint egy közönséges magnó - bár nincsenek forgó tárcsái -, belülről nézve azonban teljesen mást csinál: miután a mikrofon a levegő rezgéseit elektromos feszültségjel változásaivá alakította, ezután bizonyos, jól meghatározott időközönként mintát vesz az elektromos rezgés folyamatából, azaz rögzíti annak pillanatnyi értékét. Minden egyes ilyen mintavett hangszelet egy feszültségértékkel, azaz egy számmal írható le; ezeket a számokat kell rögzítenünk, és már elő is állt a digitalizált hang.
Nem mindegy persze, hogy milyen pontos felvételt készítünk a hangzásról - minél pontosabb a felvétel, annál élethűbb a hang. Tekintsük például a CD-ket: mint az közismert, ezek szintén digitálisan tárolják a hangokat. Egy fontos jellemző, hogy milyen gyakran nézünk rá a feszültségértékre, azaz, hogy mekkora a két mintavétel között eltelt idő (ami itt az ábrán a vízszintes tengelyen két vonal távolsága). A CD-nél ez az érték 22.6757 mikroszekundum, de nem ezt szokták reklámozni, hanem azt, hogy milyen gyakorisággal, azaz milyen frekvenciával történik a mintavétel - ez a szám a CD-nél 44100 Hz, ami azt jelenti, hogy egy hangból másodpercenként 44100 hangmintát tárolunk el.
Ennek a misztikusnak tűnő számértéknek megvan a maga oka (több is, de most a legfontosabbat vesszük): a tudatosan érzékelhető hangok a 20 és 20000 Hz közötti frekvenciatartományba esnek (1 Hz, azaz hertz annak a hullámnak a frekvenciája, amelyik másodpercenként egyet rezeg). A kisebb frekvenciájú hangok az alacsonyabb hangok, a nagyobb frekvenciájúak pedig a magasabbak. Miért kell egy 20000 hertzes hangot (ami már sok ember számára alig, vagy nem is hallható, mert olyan magas hang) 44100 hertzes frekvenciával mintavételezni? Egy Shannon nevű úr adta meg erre a magyarázatot, igaz, hogy ehhez kemény matematikát kellett használnia - nekünk elég annyit megjegyezni, hogy egy hangból egy teljes rezgése alatt legalább két mintát kell vennünk ahhoz, hogy később vissza tudjuk játszani.
Mit jelent ez a gyakorlatban? Hát azt, hogy ha az ember halláshatárának felső végén lévő 20000 Hz-es hangot is szeretnénk visszaadni, akkor ahhoz legalább 40000 Hz-es mintavételi frekvenciát kell használnunk. A CD-k esetében a 44100 Hz pedig valamivel több, mint a minimálisan előírt 40000 Hz, de hogy éppen ennyi lett a szabványos érték, annak történeti okai vannak - az első digitális hangrögzítő berendezések ugyanis stúdióban használatos, U-matic szabványú szalagos videómagnók voltak, ezek képrögzítési képességeit pedig erre a frekvenciára volt a legegyszerűbb alkalmazni.
Ma már sok olcsóbb hangkártyánál és stúdióeszköznél találkozhatunk 96 vagy 192 kHz-es mintavételezési frekvenciával. Látszólág értelmetlennek tűnhet ilyen nagy mintavételezési frekvencia, azonban a hangérzékelés pszichológiája megadja erre is a választ: a tudatos hangérzékelés nem minden, az ember, az érzékelés alanya, bár nem fogja feltenni a kezét, ha egy 20000 Hz-nél nagyobb frekvenciájú hangot hall, egy komplex hangzásban mégis különbséget tud tenni, élethűbbnek érzi a hangzást, ha a 20000 Hz fölötti felharmonikusok is megmaradnak.
A mintavételi gyakorisággal tehát megvolnánk, de hogyan ábrázoljuk az egyes mintavett jelek nagyságát, hogyan alakítsuk át őket számokká? Egy nagyon egyszerű módszer az, hogy az adott elektromos jelnagysághoz tartozó feszültséget adjuk meg, mondjuk millivoltban. Valami ilyesmit tesznek a mintavevők is, de hogy pontosan mit, abba ezen a szinten nem érdemes mélyebben belemenni. Elégedjünk meg azzal, hogy a különböző jelszintekhez különböző számokat rendel hozzá a mintavevő berendezés, és ezt a folyamatot kvantálásnak nevezzük (ami egyébként gyakorlatilag megegyezik a hétköznapi gyakorlatban kerekítésnek nevezett eljárással). A mintavételezés másik fontos paramétere, hogy a kerekítés mekkora pontossággal történik: minél sűrűbb a négyzetháló a függőleges tengelyen, annál közelebb kerülünk az eredeti feszültségértékhez, és annál élethűbb lesz a felvételünk. A függőleges tengely felbontását bitekben adják meg, és minél nagyobb ez a bitszám, elméletben (és a legtöbbször gyakorlatban is) annál jobb a hangminőség. A CD-k még 16 bites felbontást alkalmaznak, de ma már szinte minden stúdióeszköz 24 biten is képes dolgozni, és egyes eszközökben nem ritka a még nagyobb felbontás.
A nagyobb mintavételezési bitszám azt jelenti, hogy többféle feszültségértéket tudunk majd megkülönböztetni visszajátszáskor: 8 bit esetén (régebben ilyen eszközök is voltak) a négyzetrács függőleges beosztása mindössze 256 vízszintes vonalat fog tartalmazni, 16 bitnél ez megugrik 65 536 vonalra, 24 bittel pedig irgalmatlanul sok, több mint 16 millió vonalat tartalmaz a beosztásunk.
Már csak egyetlen kérdés van hátra, nevezetesen az, hogy lejátszáskor mi történjen két, egymást követő mintavett jel lejátszása. Erre több ötlet is született, a legéletképesebbek ezek közül a következők:
1. Tartsuk a jelet az előző szinten mindaddig. amíg meg nem jön a következő mintavétel eredménye. (Ilyen áramköröket régebben már a szintetizátortechnika is használt, hivatalosan "sample and hold", azaz mintavevő és tartó áramköröknek hívjuk őket.) Ettől a jel egy kissé lépcsőssé válik, de ez még mindig jobb, mintha nem csináltunk volna semmit, és egy sündisznószerű, tüskés jelet kapnánk. Ez a lépcsős jel azért sokkal jobban hasonlít az eredetihez, ráadásul okos szűréssel le lehet kerekíteni a lépcsők éleit.
Sokakat azonban ez sem elégít ki, ők azt mondják:
2. Találjunk ki valamit, ami "megsaccolja", hogy nagyjából mekkora lesz a következő jelnagyság, és csináljunk úgy, mintha tényleg az lenne, azaz a két egymást követő mintavétel között tegyünk úgy, mintha már előre tudnánk a következő jelnagyságot, kanyarítsuk a jelet a várható irányba. Ez akkor jó, ha az esetek többségében bejön, egyébként valamivel rosszabb eredményt érünk el, mint az előbb.
A hangot tehát szépen ledigitalizáltuk, és a megfelelő számsorozatot eltároltuk valahol a mintavevő vagy a számítógép memóriájában. Ahhoz, hogy ebből a számsorozatból ismét hallható hang legyen (most már annak a hangszernek a fizikai jelenléte nélkül, amelyikről a hangot leloptuk), egyszerűen az előző műveleteket kell visszafelé megcsinálnunk. A digitális technikából adódóan itt a felvétel sajátosságaiból következő minőségromláson kívül további minőségvesztés már sohasem lesz tapasztalható, akárhányszor játsszuk le a hangot.
Utolsó kommentek