Про трёхмерный звук

Преды­ду­щий пост собрал боль­шое коли­че­ство ком­мен­та­ри­ев. И тема дей­стви­тель­но инте­рес­ная. Как чело­век, имея толь­ко два уха, рас­по­ло­жен­ных на гори­зон­таль­ной оси, в прин­ци­пе может отли­чить, лета­ет ли муха у пола или у потол­ка. И нахо­дит­ся ли она сза­ди нас или спе­ре­ди нас. Ведь может? Ну, не с такой точ­но­стью, с какой мы можем опре­де­лить угол направ­ле­ния на источ­ник зву­ка, нахо­дя­щий­ся спе­ре­ди нас (в иде­аль­ных усло­ви­ях чело­век спо­со­бен на точ­ность опре­де­ле­ния это­го угла с погреш­но­стью в два гра­ду­са!!!), но может. Да, пло­хо­ва­то, но спо­со­бен. Если муха будет тупо летать по окруж­но­сти, вокруг нашей голо­вы, ника­ких про­блем с опо­зна­ва­ни­ем того, сза­ди муха или спе­ре­ди, у нас не воз­ник­нет.

Я нико­им обра­зом не явля­юсь спе­ци­а­ли­стом в дан­ной обла­сти. Но из того, что я наскрёб в интер­не­тах, это свя­за­но с аку­сти­че­ски­ми осо­бен­но­стя­ми нашей с вами голо­вы. Наши уши явля­ют­ся слег­ка направ­лен­ны­ми из-за их фор­мы. Это не мик­ро­фо­ны с кру­го­вой направ­лен­но­стью. Мы вос­при­ни­ма­ем звук по-раз­но­му в зави­си­мо­сти от угла; звук, иду­щий сза­ди, частич­но отра­жа­ет­ся от зад­ней части ушей, из-за чего меня­ет­ся ампли­туд­но-частот­ная харак­те­ри­сти­ка вос­при­ни­ма­е­мо­го зву­ка. Наш мозг вполне спо­со­бен на обра­бот­ку дан­ной инфор­ма­ции и рас­чё­ту пози­ции его источ­ни­ка. Без­услов­но, это слож­нее для како­го-то оди­ноч­но­го сиг­на­ла, и про­ще для сиг­на­ла про­дол­жи­тель­но­го, так как у нас есть, с чем срав­нить.

Я даже пола­гаю, что для неко­то­рых зву­ков угол наш мозг будет вычис­лить не в состо­я­нии. Напри­мер, звук сину­са часто­той 1KHz менять­ся будет очень сла­бень­ко. Ну да, он будет по-раз­но­му зату­хать, но вряд­ли это даст моз­гу доста­точ­но инфор­ма­ции. А вот место­по­ло­же­ние шума, где частот­ная поло­са очень широ­кая (есть, чему изби­ра­тель­но зату­хать!), будет опре­де­лять­ся лег­че.

Есть вполне стро­гие мате­ма­ти­че­ские фор­му­лы, по кото­рым мож­но рас­счи­тать, как дол­жен менять­ся звук при смене его рас­по­ло­же­ния. К сожа­ле­нию, я не нашёл ника­кой инфор­ма­ции на рус­ском язы­ке, но на англий­ском это назы­ва­ет­ся Head-related transfer function (HRTF). Это уже за гра­нью мое­го пони­ма­ния, я даль­ше мата­на и ста­ти­сти­ки с тео­рве­ром ниче­го не изу­чал. Вот тут я нашёл аж целый неболь­шой ввод­ный учеб­ни­чек по дан­но­му вопро­су, за автор­ством двух про­фес­со­ров Мичи­ган­ско­го уни­вер­си­те­та: https://isr.umd.edu/Labs/ISL/BAIL/hrtf_review.pdf. Ну, если кто-нибудь решит все­рьёз зако­пать­ся.

Ком­пью­тер­ные чипы ком­па­нии Aureal, кото­рым я пел дифи­рам­бы, зани­ма­ют­ся имен­но этим — обсчё­том того, как дол­жен менять­ся звук, в зави­си­мо­сти от его пози­ции. Не надо верить мне на сло­во. Вот доб­рый чело­век выло­жил эти дем­ки на ютуб. Погля­ди­те сами.

Теперь по пово­ду музы­ки в этом фор­ма­те. Уже све­дён­ное сте­рео, без­услов­но, невоз­мож­но нор­маль­но пере­де­лать на этот фор­мат. Это надо сво­дить зано­во. Я думаю, что берёт­ся изна­чаль­ная мно­го­ка­наль­ная запись, к отдель­ным тре­кам при­ме­ня­ет­ся этот самый HRTF, и впе­рёд — созда­ёт­ся этот самый эффект при­сут­ствия. В Эппл музы­ке дале­ко не все запи­си явля­ют­ся таки­ми, и там спе­ци­аль­но выво­дит­ся инди­ка­ция того, что ты слу­ша­ешь Dolby Atmos, а не обыч­ное сте­рео.