Про ентот ваш ИИ

Ув. giovanni1313 написал статью на (лично мне) наболевшую тему. Как использование ИИ превратило поиск кандидатов на рабочие места в тупорылый балаган.

https://giovanni1313.livejournal.com/137894.html

Скажу, как человек, который занимается прямо сейчас отсевом кандидатов на должность старшего сисадмина.

Резюме, написанные при помощи ИИ, видно не то, что за километр, а за три морские мили. И общего у них даже не одинаково гладкие методы построения фраз и тому подобное. Общее у них в том, что:

1. Все ключевые слова, например, Active Directory, DNS, DHCP и т.д. в этих резюме присутствуют.
2. Понять, какие конкретно у человека были рабочие достижения и чем он конкретно занимался, по этому резюме решительно невозможно. Всё ограничивается общими фразами.

При этом очевидно, что ИИ не может начать галлюцинировать какие-то достижения за человека, потому что если оно напишет, например что “организовал защиту нашей сети по стандарту NIST 800-171”, при первом же вопросе кандидату, “а как конкретно вы это делали, какие инструменты использовали” — кандидат, что называется, “поплывёт”.

А при найме на работу меня не интересуют общие фразы. Меня интересуют конкретные знания, опыт, и умение применять технологии. И именно эти навыки абсолютно невозможно вычленить из резюме, написанных ИИ.

–Ага! — сказали мужики

Пытаюсь нащупать границы возможностей своей предсказательной модели на TensorFlow. Точность предсказания, кстати, после чтения комментов, стал оценивать по трём параметрам: среднему (по модулю) отклонению, минимальному отклонению, и максимальному отклонению (всё в процентах).

Так вот какие-то там сложения, деления, вычитания и умножения в самых разных комбинациях — без проблем.

–Вжик — сказала нейросеть

Ах вот ты как? А логаритм10 суммы двух дробей, помноженных на значение, возведённое в квадрат, могёшь?

–Дыр-дыр-ддд — сказала нейросеть. И стала ошибаться аж на двести процентов.

Примитивное наращивание количества параметров результатов пока не даёт. Видимо, предсказание резко нелинейных функций (особенно если их там >1) оно всё же не очень.

Хочу зачесть литературу:

Я уверен, что просто что-то не так делаю.

Математическое и компьютерное

Вот некоторые думают, что если вычисления перенести на ГПУ вместо ЦПУ, то:

1. Всё сразу заработает в сто раз быстрее.
2. Будет сразу работать лучше.

АвотшЫш. Не всегда, и не везде.

Вот сделал я нейросеть, модель одинаковая, довольно несложная, пятислойная, сто нейронов в каждом слое, итого 50 тысяч параметров — по нынешним меркам вообще три копейки.

Запускаю на ЦПУ — сеть тренируется за три минуты, и выдаёт довольно нормальный результат, с точностью в пределах 0.7%

Запускаю на ГПУ — сеть тренируется уже за пять минут, а не за три, а результат у ней — заметно хреновей, с погрешностью уже 1.23%

Я полагаю, что последнее это потому, что TensorFlow, будучи запущенным на ГПУ, по умолчанию до сих пор использует 16 бит для представления чисел с плавающей запятой, вместо 32 бит или даже 64. Надо будет поглядеть, можно ли его заставить использовать больше бит. Хотя, конечно, математика на компьютерах — она дело такое, что вообще-то никто гарантии, что результат вычислений будет одинаковым, если программа запускается на процессорах разной архитектуры, никогда не давал. Особенно, если числа такие, что представить их точно в формате IEEE-754 невозможно (например, десятичная дробь 0.2).

А вот почему оно ничуть не быстрее работает на ГПУ, чем на ЦПУ — для меня уже загадка. RTX3080 вроде как пошЫрше должен быть во флопсах, чем i9-11900k @ 3.5GHz. Может быть, такая маленькая модель его просто нагрузить толком не в состоянии.

И да, “чтобы два раза не вставать”.

Как наиболее правильно считать и представлять среднюю ошибку в вычислениях?

Вот, например, если в одном предсказании из двух программа ошиблась на +100%, а во втором — на -100%, врядли заявление о том, что средняя ошибка составляет 0% (100-100)/2, будет представляться нам истинным.
Но с другой стороны, если тупо считать ошибки по модулю, а программа при этом стабильно ошибается то на +1%, то на -1%, статистически-то ведь она, можно сказать, что не ошибается вовсе.
Как обычно действуют, вдруг кто знает?

ИИ-погромизм

Занимался вчера созданием нейросетей под руководством ChatGPT. По итогам я имею сказать вот что.

В целом — впечатляет. Даёт не самый плохой код на Питоне для создания нейросети на TensorFlow, что характерно — используя keras. Практически то же самое, что я сам рисовал четыре года назад.

Только в этот раз я замахнулся пошЫрше и решил нейросети скормить csv с “финансовыми транзакциями”. Внутри csv было одиннадцать колонок, десять просто с числами, а одиннадцатая — с довольно сложным вычислением из данных, находящихся в шести колонках (сложение двух дробей, вычисление 10% от полученного, и складывание с ещё двумя колонками). Четыре оставшиеся колонки не делали ничего.

Модель делал пятислойную, сто нейронов в четырёх слоях, один нейрон в выходном слое (это уже не ЧатЖПТ предлагал, это уже я сам). Наверное, это даже избыточно сложная модель.

Сделал два csv файла, один с 200 строками — это был тренировочное множество, и второй — всего с десятью. Я хотел посмотреть, сможет ли нейросеть распознать, какая именно зависимость существует в одиннадцатой колонке, и сможет ли она предсказать данные, полученные таким образом.

Скажу сразу, всё получилось. Конечно, математика на нейросетях довольно неаккуратна, но после 5000 эпох тренировки она смогла предугадывать значения с точностью, не выходящей за рамки 5%. Планирую показать результат начальнику, контора сильно озаботилась встраиванием ИИ в продукцию.

Но помимо этого, у меня возникли небольшые сложности, и возникли они именно от применения ИИ.

Во-первых, ЧатЖПТ нередко даёт код для Питоновских библиотек, который уже является устаревшим (deprecated). Например, свойство pandas.DataFrame.iloc — вытаскивание индивидуальных колонок из pandas.DataFrame.

Во-вторых, ЧатЖПТ создаёт в коде баги. Например, вместо десяти строк в тестовом наборе данных у меня почему-то считывались только девять. Разговор шёл примерно вот так:

–А у меня вместо десяти ожидаемых строк только девять.
–Может, данные кривые? Вот как их надо нормализировать.
–Данные нормальные, но считывается только девять строк вместо десяти. Первая строка проглатывается.
–Не должна. Вот код, как правильно считывать csv через pandas.read_csv
–Я этот код и использую, но первой строки нет.
–Ну, правильно, потому что по умолчанию первая строка считывается в имена колонок. В pandas.read_csv надо ставить параметр header=None, чтобы так не происходило.
–А чо сразу-то не сказал?
–Извиняюсь.

Но в целом (в целом) — впечатляет, да. Далеко не с каждым человеком я на эту тему могу поговорить, более того, не каждый сразу “на гора” выдаст работающий (более-менее) код. Ошибается иногда? Ну да, ошибается. Покажите мне человека, который не ошибается, и я покажу вам лентяя, который никогда ничего не делает. Тем не менее, лентяю в способности рассуждать почему-то не отказывают, а искуственному интеллекту — таки да. Неправильно это, ИМХО. ИИ вполне способен на рассуждения.

Принялся за Хайнлайна

Я люблю научную фантастику, и помимо самих сюжетов, мне нравится то, что писатели-фантасты имеют возможность задавать вопросы, о которых человечество ещё даже думать не начало. Например, Филип Дик задал вопрос о том, а что такое — “человек”, и может ли являться что-то искуственное, что выглядит, думает, чувствует как человек — человеком? Очень глубокий вопрос, учитывая, что мы буквально стоим на пороге создания сильного искуственного интеллекта, и его отношения с человечеством непременно будут натыкаться на отсутствие соответствующего понятийного аппарата и правовой базы. Последнюю, правда, спешно (и довольно бестолково) пытаются создать наши дорогие слуги народа.

https://www.washingtonpost.com/technology/2023/10/30/biden-artificial-intelligence-executive-order/

Из американских фантастов я читал Азимова, Брэдбери, Дика — а вот Хайнлайна пока не приходилось. Хайнлайн был в Союзе не сильно в фаворе, так как он был убеждённым антикоммунистом и либертарианцем, и почти не печатался, так что его роман 1966 года “The Moon is a Harsh Mistress” (“Луна — суровая хозяйка”) не увидел русского перевода до падения советской власти, в 1993 году. Так что как-то Хайнлайн прошёл мимо меня.

Читаю на английском, и прямо с первых строк вижу, что правильно я не стал читать его в переводе. Вот, извольте, пример. Если вы хорошо владеете английским языком, вы сразу увидите, что конкретно не так с этим отрывком:

Объясняю. Так на английском языке говорят русские. Это английский язык с русской грамматикой и типичной же ошибкой русскоязычных — полным “глотанием” артиклей и некоторых частиц. В русском их нет, поэтому о них и забывают. Помножим это на огромное количество заимствованных слов — tovarisch, gospozha, и получим то, что книга Хайнлайна в моей голове однозначно говорит с тяжёлым русским акцентом. И как вы предлагаете правильно передать такое в переводе? А никак, вот как.

Надо отдать должное переводчику Щербакову, который в 1993 году попытался создать с нуля некий суржик, которым он попытался донести оригинальный язык романа, название какового он перевёл как “Луна жёстко стелит”, но всё же это… не то. Другие переводы не делали и этой попытки, поэтому языковой замысел автора в них вообще пролетает как фанера над городом Парижем.

Если есть возможность, читать надо в оригинале.

А книжка хорошая, мне очень нравится пока. В ней присутствует компьютер с сознанием, на основе нейросетей (!!) И это было написано в 1966 году! Отрадно видеть, что автор сумел заглянуть так далеко вперёд. Правда, вместо “искуственного нейрона” или “перцептрона” он использует термин “нейристор”, но это сущие пустяки.

Про освоение искуственного интеллекта

Подростки из школы города Вестфильд, что в Нью-Джерси, использовали ИИ, чтобы виртуально “раздевать” одноклассниц.

Кстати, с легальной точки зрения, производство таких изображений несовершеннолетних практически приравнено к изготовлению детской порнографии. Первого гражданина уже посадили. Хоть и ненадолго, на шесть месяцев, но…

Представляю, как крипово сейчас их одноклассницам. Поставьте себя на место отца одной из девочек. У меня бы кулаки зачесались.

ИИ и возрождение голосов

Уже не первый раз вижу сообщения о том, что голоса людей используют, не привлекая самих людей. Иногда ради изготовления фейков и подделок, иногда — для того, чтобы возродить голос уже умершего актёра. Это уже не новость.

Лично мне бы хотелось, чтобы кто-то наконец сделал продолжение игры Full Throttle (Полный газ), которую я нежно люблю. Она вышла в 1995 году, потом долго шли разговоры о выходе Full Throttle 2 (и даже сделали трейлер), но во-первых, из Лукас Артс ушёл разработчик первой игры Тим Шейфер, а во-вторых, в 2002 году актёр озвучки Рой Конрад, стоящий за голосом главного героя Бена, умер от рака лёгких.

Не голосом единым, конечно, но всё же звучал он отлично.

Самое время теперь Шейферу подсуетиться и сделать наконец продолжение игры. Сделал же он ремастеринг оригинала в 2017 году, который я с удовольствием приобрёл и прошёл заново.

ИИ-музыка

Генерация музыкального контента при помощи ИИ уже довольно долго используется композиторами в цифровых звуковых рабочих станциях (DAW). Но теперь есть инструмент, который позволяет любому человеку задать текстовый запрос и получить музыкальный ответ. Например “дум-метал с агрессивными сбивками” или “прогрессия аккордов для соло”.

Кто искал? Получите, распишитесь. Это анонс Stable Audio — музыкального генератора от тех же людей, что сделали Stable Diffusion.

Про найм на работу

Знакомая, доктор наук по математике, ищет работу аналитика данных. Последнее её интервью по видеозвонку проводил… искуственный интеллект. Голосом общались, все дела. Я даже и не знал, что техника настолько продвинулась.

Интервью писалось в файл, видимо, чтобы потом человек просмотрел.

Чего-то не уверен я, что прогресс наш идёт в нужном направлении. Мы-то думали, что роботы будут делать всю грязную и неприятную работу, а люди будут зарабатывать большие деньги, и быть Свободными и Креативными. А получается, что Свободные и Креативные как раз роботы, а мы с вами вынуждены доказывать этим электронным болванам, что мы тупорылые люди.

Вот такой ИИ нам нужен

Очень впечатляющий трибьют Студии “Гибли” от Дмитрия Алексеева AKA Aifilmmaker. Огромная туча Миядзаковских персонажей, в ранне-пост-советском антураже. Лучший, конечно (ну, на мой взгляд) — это свин, ну, который куренаи но бута, в гараже с 408-м “Москвичом”.

Каваи!!!!!!!!