Машинное обучение – Как зарабатывать на данных
Машинное обучение – это процесс обучения компьютерной системы, как делать точные прогнозы при подаче данных. Эти предсказания могли бы ответить на вопрос, например, является ли фрукт на фотографии бананом или яблоком, правильно ли люди пересекают дорогу, сразу же распознать спам среди тонны электронных сообщений и т. д.
Технологическим компаниям очень выгодно использовать в своих продуктах алгоритмы, способствующие машинному обучению. Однако для всех этих инструментов нужно очень много данных.
Технологическим компаниям очень выгодно использовать в своих продуктах алгоритмы, способствующие машинному обучению. Однако для всех этих инструментов нужно очень много данных.
Какие данные имеют ценность?
Давайте сначала подробнее разберемся, с чем именно работает машинное обучение. Так как этот процесс подразумевает улучшение алгоритмов, значит дело имеется с закономерностями, которые извлекаются общего потока информации. Результатом удачной работы считается успешный исход испытания в результате анализа миллиона выводов.Алгоритмами могут выступать обычные статистические модели или нейронные сети. Принцип у них всех одинаковый – формулировка вопроса и выдача ответа. Ответы формируют разметку данных, суммарный объем который называется датасетом. Таким образом, ценны не все данные, а именно размеченные. Стоимость процесса разметки может быть разной и она зависит от нескольких факторов:
- Профессионализм разметчиков;
- Организация процесса;
- Конфиденциальность информации и т. д.
К примеру, любой человек смог бы справиться с отсортировкой рецензии, вооружившись одним только текстовым редактором. Для выделения контуров машин на перекрестках тоже не требуется больших знаний, однако понадобятся специальные программы. А вот для сортировки рентгеновских снимков понадобится и ПО, и имеющий медицинское образование специалист. Данные такого типа стоят и ценятся гораздо выше остальных.
Ручное аннотирование (разметка) данных имеет большой недостаток – оно совершенно не подходит для задач, в которых требуется применить не один, а несколько параметров. Скажем, помимо корпусов машин на перекрестке нужно также определить скорость, с которой они двигаются. Для таких задач используются синтетические данные.
Что такое синтетические данные?
Синтетические данные – это информация, которая создается искусственно, то есть при помощи компьютерных алгоритмов. Предположим, у вас есть много-много хайпов – система хайпов. Для этой системы вы знаете параметры (ну там проценты, вероятность скама, наличие рефбека и т. д.), определяющие ее динамику.Путем изменения этих параметров в такой системе вы можете имитировать ожидаемый результат – ваш общий профит. То есть изменяя параметры и моделируя поведение такой системы в разных ситуациях (например, в праздники или летнее время), вы в основном генерируете различные результаты. Эти измерения и называются синтетическими данными.
При работе с данными такого типа появляется необходимость связать компьютерные данные с реальным миром. В этом направлении помогут нейронные сети, которые сейчас активно развиваются. Они позволяют адаптировать цифровые данные под реальный мир.
Как работают синтетические данные?
Пару лет назад агрегатор объявлений Авито собрал огромный датасет и провел соревнование для спецов по алгоритмам обучения. Призовой фонд равнялся $20 тыс. Хостингом была площадка Kaggle. Участники должны были найти объявления, помеченные вручную, как дубликаты. Сложность была в том, что тексты и изображения в них могли отличаться. Это дало возможность протестировать механизмы, предназначенные для большего объема данных, нежели путем простого сравнение, которое, очевидно, неэффективно.В 2016 году исследовательская группа из Apple опубликовала статью, где говорилось об определении направления взгляда при помощи изображений синтетических глаз. Тестовой группе было предложено найти отличия между фото настоящих глаз и искусственных. Выяснилось, что люди не могут показать результат выше, чем простое угадывание.
В этом году специалисты из Berkeley представили работу, где было показано использование генерируемых данных в стоматологической реставрации. При помощи нейронных сетей можно упростить и автоматизировать процесс создания формы зубных коронок.
Киностудия Нетфликс успешна не только благодаря смелым проектам и качественной работе (ну тут не все согласятся), сервис также работает с системой Cinematch. С ее помощью пользователям предлагаются сериалы, которые могли бы им понравиться – это как функция "Показать похожие" в аудиозаписях VK. Подобная система не может работать без огромнейшего датасета, где отражен рейтинг, проставленный зрителями тому или иному фильму.
Синтетические данные применяются и в реальной жизни. Вы не задумывались, почему, например, в супермаркетах товары на полках так грамотно классифицированы и расставлены? С этим уже давно работают компьютеры при помощи рендеринга искусственных полок с 3D моделями товаров. Проблема вот только в том, что наименований и типов товаров очень много, поэтому некоторые из них имеют схожие названия и внешний вид.
Тем, кто занимался бы разметкой такого “датасета” было бы трудно узнавать развернутые упаковки или товары, расположенные на дальних рядах. Определить дополнительные параметры, вроде угла разворота и расстояния до полки вручную, то есть одними только человеческими силами, было бы невероятно сложно.
Как можно на всем этом заработать?
Ну и теперь перейдем к самому вкусному – как зарабатывать на данных. По-разному! Давайте выделим несколько групп:-
Выгода от продуктов, улучшенных при помощи машинного обучения:
- Работа по разметке данных. Вы можете делать это вручную, создать площадку для аннотирования или разработать специальное ПО.
- Сбор и реализация датасетов. Вы самостоятельно собираете данные и продаете их заинтересованным лицам.
- Призы от соревнований по обработке данных, либо создание сервисов, на которых можно проводить такие мероприятия.
- Взаимодействие с синтетическими датасетами – цифровые модели и объекты из реального мира, созданные при помощи специального оборудования, рендеринг разных объектов и сцен, предоставление мощностей для рендеринга и моделирования, разработка ПО для работы с данными такого типа. Для прогеров самое то.
Тарас С.Частный инвестор, предприниматель, блогер. Инвестирую с 2008 года. Зарабатываю в интернете на высокодоходных проектах, криптовалютах, IPO, акциях и других активах. Со-владелец нескольких ресторанов и сети магазинов электронной техники. Консультирую партнеров, делюсь опытом.
Присоединяйся в Telegram-канал блога со свежими новостями. Чат с консультантом в Телеграм.
Присоединяйся в Telegram-канал блога со свежими новостями. Чат с консультантом в Телеграм.