математика - Lab Journal 6

А они… чижика съели

Раз уж зашла речь про алгоритм шифрования RSA. Его секретность зиждется, повторюсь, на том, что число, полученное перемножением достаточно длинных простых чисел, умучаешься раскладывать на множители. Неверящие могут попробовать разложить в уме (да можно даже с обычным калькулятором) число 7081. Если не знать, что это 73×97, то придётся перебирать простые числа до полного посинения.

Ну, не совсем прямо «до полного посинения», конечно — нет смысла перебирать множители >√(7081)≈84. Но всё равно — простых чисел меньше 83 (а 83 — наибольшее простое число, меньшее 84) довольно много.

Ну, а реальная криптография, конечно, работает не на четырёхзначных числах, а на числах с сотнями знаков — что позволяет нам безопасно передавать номер кредитки при покупках наклеечек с котиками в ентом вашем Ёнтернете.

Несколько лет назад всех вдруг накрыла квантовая паника. Мол, да вот придут квантовые компьютеры, да на них работает алгоритм Шора, и все эти ваши RSA, DH, ECDH, ECDSA, и прочие умные слова — полетят на свалку истории. Ну да, ну да, полетят, как же. Вот только шнурки погладят — и сразу полетят.

Мир криптографии в лице NIST (и при активной поддержке Микрософта, надо отдать им должное) в шухерном режиме стандартизировал квантово-устойчивые алгоритмы криптографии, и сейчас у нас есть то, что не ломается даже на ентих ваших кубитах со всей их квантовой запутанностью и прочей непонятной простым смертным теорией.

А на деле мы имеем что? А на деле в 2001 году, с огромной помпой, квантовый компьютер сумел-таки наконец разложить на множители… число 15. Ага, пятнадцать. 3×5.

С тех пор были и другие демонстрации — 21, 35, ещё несколько аккуратно подобранных чисел. Иногда с классической «помощью», иногда с заранее известной структурой. Это важные научные шаги — никто не спорит. Но это не «взлом традиционной криптографии к соответствующей матери». Это подтверждение теории в лабораторных условиях.

Дело в том, что алгоритм Шора для взлома RSA-2048 требует порядка нескольких тысяч логических кубитов, а каждый логический кубит — это тысячи физических кубитов, потому что квантовая теория — это вам не транзистор, это крайне обидчивая киса, и нормально работает она только при температуре, близкой к абсолютному нулю. Современные квантовые компьютеры — это несколько сотен физических кубитов без полновесной коррекции ошибок. А логических, устойчивых к шуму, — в практическом смысле пока нет.

Квантовая угроза реальна. Но она инженерная, а не магическая.
Между красивой теоремой Шора и машиной, способной ломать банковскую криптографию, лежат десятилетия прорывов в физике и инженерии. Так что отставить панику! До квантового апокалипсиса ещё очень далеко. Можете пока спокойно продолжать покупать свои наклеечки. С котиками.

PS: Для тех, кто хочет копнуть глубже в современные оценки и архитектурные ограничения квантовых устройств, см. работу 2025 года на arXiv: https://arxiv.org/pdf/2410.14397v1

Не простые, а первосортные

В математике существуют т.н. простые числа — числа, которые ни на что, кроме себя (ну и единицы, разумеется) не делятся. Например, 17, 23, 73 (моё любимое число).

По их названию — «простые» — можно подумать, что они какие-то… простенькие, несложные, незатейливые, невзрачные. В общем, не самые лучшие, есть числа и покруче. А вот в английском языке они не “simple numbers” как можно было бы подумать, а “prime numbers” — что имеет решительно другое значение. Не «простые», а «отборные», «наилучшие», «первоклассные». Вот как есть отборная говядина, которую в обычном простеньком магазине не укупишь, потому что она почти полным составом уходит напрямую в рестораны; она так и называется — prime beef.

И мне, надо сказать, такое значение нравится значительно больше, потому что числа эти действительно исключительные! Именно на них построен, например, алгоритм шифрования RSA. Его сила заключается в том, что если взять два достаточно длинных простых числа и их перемножить, то полученное число будет иметь ровно два нетривиальных простых делителя (ну плюс себя само и единицу, разумеется) — а искать эти делители при их, повторюсь, достаточной длине (в RSA-4096 каждый из множителей имеет более шестисот десятичных цифр, а сам модуль превышает тысячу двести цифр) — требует астрономических вычислительных мощностей. На классических компьютерах эта задача в обозримое время не решается. А вы говорите, мол, числа «простые». Э, нет, не простые, а как раз самые что ни на есть отборные!!

А почему такая разница в философии? Потому что в русском математическом «простые» — от смысла «не составные», а в английском «prime» — от латинского primus, «первый». То есть, «изначальные», «первичные» — потому что любое составное число можно разложить на простые, «первичные» множители 🙂

Интуиция подводит

Вот если видеоролик длится 30 минут, и скорость воспроизведения увеличить на 20%, каково будет время воспроизведения ролика?

Интуитивно хочется сказать, что 24 минуты, потому что 20% это ¹⁄₅, одна пятая от 30 минут это 6 минут, и 30 — 6 = 24? Да? Авотхрен.

Увеличивается скорость воспроизведения, а длина зависит от неё обратно пропорционально. Время = длина ролика / скорость. Скорость у нас на 20% больше, значит вместо 1.0 теперь скорость 1.2. ³⁰⁄₁.2 = 25 минут.

Аккуратнее, блин, надо.

Моти-мотическое

Оказывается, кроме привычных признаков делимости на 2, 3, 5, и 9, существует и признак делимости на 7!

Возьмём, например, число 203. Последняя цифра — 3. Умножаем её на 2 и вычитаем из оставшихся цифр, то есть из 20:

20 − 6 = 14.
14 делится на 7, значит и 203 делится на 7: ²⁰³⁄₇ = 29.

Работает даже с более крупными числами!

Ещё пример: 973. Берём последнюю цифру (3), удваиваем и вычитаем из оставшейся части числа:

97 − 6 = 91.
Делится ли 91 на 7? Хм, не сразу понятно. Повторим правило ещё раз:

9 − (1×2) = 7 — делится!
Значит, и 973 делится на 7: ⁹⁷³⁄₇ = 139.

Можно применять этот метод даже к пятизначным и далее числам — рекурсивно!

Возьмём 13762.

Последняя цифра — 2, удваиваем и вычитаем:
1376 − 4 = 1372.

Неясно? Повторяем:
137 − (2×2) = 133.

Всё ещё не очевидно? Ещё раз:
13 − (3×2) = 7 — делится!

Значит, и 13762 разделится на 7: ¹³⁷⁶²⁄₇ = 1966.

Офигеть, нас этому не помню, чтобы учили (у меня, правда, была языковая школа, не обычная или физико-математическая, может быть, это не секрет вовсе). Это моё старшее чадо попало в школьную математическую команду и теперь ездит на соревнования! Недавно удалось увидеть этот приём у него в тетради — понравилось жутко, захотелось поделиться 🙂

Как они повидлу в карамельки засовывают

В детстве у меня был проигрыватель для виниловых пластинок с изменяемой скоростью проигрывания. Обычный диск на 33 оборота можно было запустить на 45 — уже получалось смешно. А можно было зафигачить аж на 78 оборотов — тогда пластинка проигрывалась очень быстро, и всё звучало по-мультяшному. По башке, конечно, надо было мне дать, чтобы пластинки не портил, но что было, то прошло. У меня сейчас тоже проигрыватель пластинок есть, но такой дурью я больше не маюсь. Просто играю пластинки и всё.

Так вот, всегда мучал вопрос — как это ютупчик и прочие сервисы видео- и аудиоконтента, типа подкастов, могут убыстрять (или замедлять) проигрывание звука без изменения его высоты?

Оказалось, что делают так:

1. Разбивают цифровой звук на маленькие блоки в 512‑2048 байт. На частоте дискретизации в 44.1 килогерца эти блоки имеют длину всего несколько миллисекунд.
2. На каждом блоке запускают преобразование Фурье. Для тех, кто вдруг не знает — это математический способ разбить звук на индивидуальные составляющие частоты.
3. Воссоздают те же частоты, но просто укорачивают или увеличивают им длину проигрывания в нужное количество раз по желанию пользователя. Склеивают звук назад.

PROFIT!

Ну, немного посложнее, конечно (обычно там не тупо дискретные блоки по 512 байт, а т.н. «скользящее окно» (sliding window) размером в 512 байт, например, но основа алгоритма Phase Vocoder («фазовый вокодер», что ли?) именно такая.

Прикольно. Неужели всё это делается прямо в браузере, джаваскриптом? Обалдеть. Наврядли на сервере хранятся сто разных версий одного и того же видеофайла.

XKCD

Нравятся мне комиксы xkcd, рисуют их наши люди.

Кстати, действительно работает. Один узел = π/e миль в час, с довольно высокой точностью.

Via https://xkcd.com/3023/

Забавно, кстати, смотреть на то, что некоторые комиксы уже устарели. Это комикс примерно года эдак 2013–2014, когда нейросети были ещё слабо известны. Я, впрочем, с ними уже был знаком, и использовал в 2012 году для дипломного проекта нейросеть Caffe института Беркли, которую сам с нуля натренировал. Но для начала 2000х проблема была ещё нерешаема.

Квантовое

Однако, ровно месяц назад Национальный Институт Стандартов и Технологий США (NIST) наконец-то решил, какими именно алгоритмами шифрования мы будем пользоваться для защиты информации в пост-квантовую эпоху.

Скажем, обычный RSA для таких целей уже не подходит, так как вся сила RSA в том, что разложение 4096-битного числа на два простых множителя — это экстремально ресурсоёмкая задача, на которую даже на современных суперкомпьютерах понадобится срок, сравнимый с возрастом наблюдаемой Вселенной.

Но для квантовых компьютеров существует алгоритм Шора, позволяющий провести разложение на множители за существенно меньший (логаритмический) срок.

А теперь Микрософт объявил, что первый из алгоритмов, ML-KEM (чорт, мне нравится это название, КЕМ!) уже встроены в стандартную библиотеку шифрования их ОС. ML-KEM — алгоритмом Шора уже не ломается.

Приятно удивлён такой прозорливостью и оперативностью — за месяц нарисовать и оттестировать такую ответственную вещь, как алгоритм шифрования — это похвально. Но, конечно, наверняка им из НИСТа кто-нибудь свистнул заранее.

Математическое и компьютерное

Вот некоторые думают, что если вычисления перенести на ГПУ вместо ЦПУ, то:

1. Всё сразу заработает в сто раз быстрее.
2. Будет сразу работать лучше.

АвотшЫш. Не всегда, и не везде.

Вот сделал я нейросеть, модель одинаковая, довольно несложная, пятислойная, сто нейронов в каждом слое, итого 50 тысяч параметров — по нынешним меркам вообще три копейки.

Запускаю на ЦПУ — сеть тренируется за три минуты, и выдаёт довольно нормальный результат, с точностью в пределах 0.7%

Запускаю на ГПУ — сеть тренируется уже за пять минут, а не за три, а результат у ней — заметно хреновей, с погрешностью уже 1.23%

Я полагаю, что последнее это потому, что TensorFlow, будучи запущенным на ГПУ, по умолчанию до сих пор использует 16 бит для представления чисел с плавающей запятой, вместо 32 бит или даже 64. Надо будет поглядеть, можно ли его заставить использовать больше бит. Хотя, конечно, математика на компьютерах — она дело такое, что вообще-то никто гарантии, что результат вычислений будет одинаковым, если программа запускается на процессорах разной архитектуры, никогда не давал. Особенно, если числа такие, что представить их точно в формате IEEE-754 невозможно (например, десятичная дробь 0.2).

А вот почему оно ничуть не быстрее работает на ГПУ, чем на ЦПУ — для меня уже загадка. RTX3080 вроде как пошЫрше должен быть во флопсах, чем i9-11900k @ 3.5GHz. Может быть, такая маленькая модель его просто нагрузить толком не в состоянии.

И да, «чтобы два раза не вставать».

Как наиболее правильно считать и представлять среднюю ошибку в вычислениях?

Вот, например, если в одном предсказании из двух программа ошиблась на +100%, а во втором — на ‑100%, врядли заявление о том, что средняя ошибка составляет 0% (100−100)÷2, будет представляться нам истинным.
Но с другой стороны, если тупо считать ошибки по модулю, а программа при этом стабильно ошибается то на +1%, то на ‑1%, статистически-то ведь она, можно сказать, что не ошибается вовсе.
Как обычно действуют, вдруг кто знает?

Pi Day

Т.к. дату в формате ММДДГГГГ обычно пишут только в США, специальный день календаря 3.14 получается сугубо американским.

Ну, тогда вот вам шутку на математическом английском.

Объясняю, если кто недопонял:

Квадратный корень из минус единицы — это комплексное число, которое записывают буквой i.
Двойка в третьей степени — это восемь (eight), произносится точно так же как слово ate.
Сигма — это сумма (sum), произносится как слово some.
Ну и само число Пи, которое в английском Pi, и произносится не как Pee, а как слово Pie (пирог).

Так что получаем фразу, которая звучит как i ate some pie (я съел кусок пирога). Математический кавай.

Математическая шутка

Обожаю такие шутки.

Математик заходит в забегаловку, берёт столик на двоих. К нему подходит неопрятная официантка.

–Что будете заказывать?
–Я закажу бифштекс, но я также хочу разыграть своего коллегу, который тут будет с минуты на минуту. Вот сто долларов; когда он придёт, я задам вам вопрос, а вы ответите «икс в кубе поделить на три», хорошо?
–Конечно.

Официантка берёт деньги и уходит.

За столик присаживается коллега математика.

–Привет!
–Привет! Слушай, тут такое классное место, и даже обслуживающий персонал умный. Вот смотри!

Математик останавливает проходяющую мимо официантку.

–Скажите мне, каков будет неопределённый интеграл функции икс в квадрате?
–Икс в кубе поделить на три плюс константа.

PS: шутка прекрасно переводится на все языки, матан — язык универсальный.