Чем больше ML, тем толще данные

Про­бую сде­лать кру­той, как обрыв, про­ект с машин­ным обу­че­ни­ем.

Картинка с Вики
Вот вы как дума­е­те, что тут самое слож­ное? Само машин­ное обу­че­ние? А вот нифи­га. Это как раз самое про­стое — это мень­ше сот­ни стро­чек Пито­нов­ско­го кода, бла­го TensorFlow со всем его API уже дав­но при­ду­ман до нас намно­го более умны­ми людь­ми. А самое слож­ное — это под­го­тов­ка дан­ных, кото­рые надо скарм­ли­вать алго­рит­мам машин­но­го обу­че­ния. Пото­му что оно, блин, доволь­но тре­бо­ва­тель­ное. Ска­жем, для регрес­сив­но­го ана­ли­за очень хоро­шо, если дан­ные име­ют нор­маль­ное рас­пре­де­ле­ние. Ина­че могут воз­ник­нуть раз­ные, не все­гда хоро­шие, эффек­ты. Дан­ные, взя­тые из реаль­но­го мира часто нор­маль­но­го рас­пре­де­ле­ния не име­ют. И при­хо­дит­ся сидеть и шама­нить, пока не наша­ма­нишь чего-то более удоб­но­ва­ри­мо­го.

Это было серьёз­ным откры­ти­ем лич­но для меня — насколь­ко важ­но иметь нача­ла обра­зо­ва­ния имен­но в нау­ке о дан­ных (data science), что­бы постро­ить нор­маль­ную систе­му ML. Хотя каза­лось бы, всё упи­ра­ет­ся в про­грам­ми­ро­ва­ние. А вот хрен! И, блин, имен­но в этой обла­сти у меня есть доволь­но боль­шие про­бе­лы — мак­си­мум из при­ме­ни­мо­го был началь­ный курс ста­ти­сти­ки, кото­рый я брал в 2011 году.

Кро­ме того, есть дан­ные, у кото­рых в прин­ци­пе не быва­ет ника­ко­го рас­пре­де­ле­ния — ска­жем, спи­сок исполь­зу­е­мых про­грам­мой функ­ций. О каком рас­пре­де­ле­нии тут может идти речь? Либо эти функ­ции есть, либо их нет. Как с этим рабо­тать? Чешу репу…

И на закус­ку Офис 2016 на Макин­то­ше — это кастрат. Ска­жем, мне нуж­на иерар­хи­че­ская визу­а­ли­за­ция дан­ных. В вин­до­вой вер­сии эксе­ля есть заме­ча­тель­ная диа­грам­ма «сол­неч­ный луч» — она похо­жа на кру­го­вую, но она мно­го­уров­не­вая, и поз­во­ля­ет, таким обра­зом, так­же визу­а­ли­зи­ро­вать иерар­хию. В эксе­ле для Мака — шЫш с мас­лом, а не сол­неч­ный луч. Там вооб­ще ника­ких иер­хар­хи­че­ских диа­грамм нет.

Ну что за под­ход такой?