Вопрос данных всегда был центральным в области машинного обучения.
Зачастую именно сбор систематизированных наборов данных (датасетов) приводил к
прорывам. Еще в 2010 году исследовательница из Стэнфордского университета
Фэй-Фэй Ли высказала идею, что в области компьютерного зрения основная проблема
не в алгоритмах, а в том, что нет достаточно большого и хорошего датасета для
обучения.
Инициатива Фэй-Фэй Ли по сбору
датасета ImageNet из картинок из интернета, распределенных по тысяче классов,
стала одной из предпосылок начала современной эпохи глубокого обучения.
Одновременно началась эпоха охоты за данными. Долгое время первым вопросом,
который задавали заказчикам специалисты, было «А какие у вас есть данные?» Если
данных не было или если они оказывались недостаточного качества, то за задачу
зачастую могли просто не взяться.
Потом пришло время предобучения и
самообучения глубоких нейронных сетей. Их обучали на некой тренировочной
задаче, а в процессе загружали титаническое количество информации — например,
подавали на вход всю «Википедию» и просили угадать следующее слово в тексте.
Таким сетям уже нужно было меньше данных, чтобы дообучиться до способности
выполнять конкретные задачи. Это можно сравнить с получением образования:
человеку с дипломом инженера нужно меньше усилий, чем школьнику, чтобы влиться
в технологический процесс.
В 2022 году произошел обратный
сдвиг парадигмы. Вышел ChatGPT, успех которого помимо размера сети
обуславливался комбинацией трех способов обучения: предобучения, о котором шла
речь выше, дообучения на качественных примерах и обучения по оценкам качества
генерируемых ответов. Весь 2023 год был посвящен разнообразным экспериментам по
обучению таких сетей. Почти сразу все игроки на рынке пришли к выводу, что чуть
ли не самое ценное в процессе — качество примеров из второго этапа.
Для генерации очень качественных
данных компании стали обучать целые когорты ИИ-тренеров — именно обучать,
потому что готовых специалистов на рынке не было. Одной из альтернатив создания
датасетов с нуля стало преобразование уже имеющихся качественных источников,
например учебников с задачами и ответами или записей общения сотрудников службы
поддержки с клиентами.
Сейчас наши создатели систем,
подобных ChatGPT, научились закрывать свои потребности в ИИ-тренерах. Но по
мере того, как системы начинают проникать в финансовую сферу, в промышленность,
появляется новая потребность: в ИИ-тренерах, понимающих отраслевую специфику.
Сейчас она как-то закрывается сотрудниками компаний, но если те хотят
интенсифицировать внедрение таких моделей, то им нужно будет развивать
институты таких тренеров. Потребность понимает Альянс в сфере ИИ, где IT-компании
представлены вместе с отраслевыми. В случае со сложными инженерными задачами
нужно будет обучать модели на технической документации. Мы столкнемся с тем,
что часть документации запрещена к обработке, а часть имеет ограниченный
доступ.
Алексей Шпильман, руководитель
программ развития ИИ в «Газпром нефти»