Курск

общественно-политический еженедельник

12+

Компьютеры научились предсказывать будущее

Предсказание будущего на основе машинного анализа больших данных становится обыденным явлением. Ученым из Массачусетского технологического института (MIT) удалось получить необычно высокие показатели точности предсказаний в разных областях, превосходящие прогнозы соответствующих экспертов.

Главная проблема машинного предсказания на основе анализа больших данных заключается в том, что даже при наличии необходимой информации все еще требуется специалист с интуитивным мышлением, формирующий алгоритм обработки данных. Это существенно замедляет внедрение подобных технологий.

Ученые из MIT поставили своей целью устранение человека из процесса машинного обучения и добились впечатляющих результатов: первый прототип системы под названием Data Science Machine соревновался с 906 командами специалистов в разных отраслях по предсказанию результата на основе необработанной информации.

По точности предсказаний суперкомпьютер обошел 615 команд, при этом, если людям требовались месяцы на составление своих прогнозов, у машины на это уходило от 2 до 12 часов. В некоторых случаях точность предсказаний Data Science Machine составила от 87% до 96%.

"Сам факт такого исследования неудивителен: во множестве сегментов, от финансового трейдинга до ядерной физики, используется прогнозирование на основе больших данных, — рассказал главный аналитик Российской ассоциации электронных коммуникаций Карен Казарян. — Интересна сама реализация алгоритмов  Deep Learning (набор алгоритмов машинного обучения), которая показала отличные результаты, как в случае с технологией MIT".

Но все же нужно понимать, что, по крайней мере до появления полноценного AI, подобные технологии не смогут заменить аналитиков, предупреждает эксперт.

Алгоритмам нужно обучать, информацию нужно собирать, нужно понимать, где искать зависимости. И очень важно иметь качественные данные. Все это работа для аналитиков.

Тем не менее, Data Science Machine уже показала свою эффективность для предсказания результатов в различных отраслях, таких, как отчисление студентов с онлайн—курсов MIT на основе данных о том, за сколько дней до сдачи работ они начинают посещать сайт института, и производительность ветряных электростанций в зависимости от места их расположения и данных о погоде.

Ученые собираются представить результаты своих работ на конференции по большим данным и компьютерному анализу Института инженеров электротехники и электроники (IEEE). По их словам, им удалось решить ряд проблем так называемого функционального инжиниринга, связанных с тем, что для начала обработки данных необходимо идентифицировать, какие параметры надо извлекать из баз данных и как их комбинировать. Тут может возникать множество идей.

Например, ключевыми факторами отчисления студентов оказались: время до дедлайна, за которое студент приступает к выполнению заданий, и как долго по сравнению с другими студентами он проводит за курсом. Учетная система MIT не записывает эти параметры, но они могут быть вычислены на основе других данных.

Data Science Machine анализирует отдельные таблицы из общей базы данных и добавляет в них параметры из других таблиц для выявления взаимосвязей. Например, в таблицу с товарной номенклатурой и ценами могут быть добавлены данные о частоте и суммах заказов с участием той или иной позиции. При этом система рассчитает минимальные, средние и максимальные суммы заказов с этим товаром и другие статистические показатели и таким образом выявит существенные взаимосвязи. Также суперкомпьютер ищет так называемые категорийные данные, которые появляются лишь в определенных категориях, например, в определенные дни недели или для отдельных брендов. Затем отбирается ограниченный набор параметров, изменение которых наиболее взаимосвязано. Далее отобранный набор параметров проверяется на тестовом образце неструктурированных данных с постепенным повышением точности предсказаний.

"То, что они сделали, это совершенно новый подход к проблеме, который очень быстро станет стандартом", — считает профессор Гарвардского университета Марго Зельцер.

Однако пока готовых решений на рынке в данной области не так много. Например, одним из немногих подобных продуктов является IBM Watson, но его распространение невелико.

"Анализ больших данных включает в себя три составляющие, — говорит Казарян. — Железо — тут уже нет ничего сложного, облачных хранилищ сейчас много. Специалисты — алгоритмы машинного анализа нужно создать и обучить. Данные — а вот это нигде не продается в принципе, их нужно собирать".

Системы машинного предсказания уже активно применяются в области финансов, используются крупнейшими интернет—компаниями, фармацевтическими гигантами, исследовательскими физическими и химическими лабораториями для предсказания результатов экспериментов.

"Однако это очень значительные вложения с неизвестным результатом, поэтому быстрого распространения технологий машинного предсказания ожидать не стоит", — подытоживает Казарян.

www.gazeta.ru