Курс лекций «Большие данные и информация в крупномасштабной распределенной обработке данных»
25 ноября c 13:30 до 16:00 по московскому времени
В задачах больших данных исходные данные обычно собираются на многих сайтах, имеют огромный объем, и постоянно появляются новые данныу. Часто невозможно собрать все данные, необходимые для исследовательского проекта, на одном компьютере. Поэтому многие подходы направлены на адаптацию классических алгоритмов обработки данных для распределенной вычислительной среды. В идеале такой модифицированный алгоритм должен, работая параллельно на многих компьютерах, извлекать некоторую промежуточную компактную «информацию» из каждого набора исходных данных, постепенно комбинировать и обновлять ее и, наконец, использовать накопленную информацию для получения результата. Когда появляются новые данные, он должен извлкать из них информацию, добавить ее к накопленной и в конечном итоге обновлять результат.
Мы рассмотрим несколько примеров подходящего преобразования алгоритмов обработки; обсудим особенности возникающих форм представления информации, в частности их алгебраические свойства; и посмотрим, как полученные алгоритмы подходят к платформе MapReduce для параллельной обработки огромных объемов данных на больших кластерах. Кроме того, мы увидим, как определенная формализация самого понятия информации и ее алгебраические свойства могут возникнуть просто в результате адаптации методов обработки к требованиям больших данных.
Лектор
Петр Голубцов получил степени специалиста и кандидата физ.-мат. наук в Московском государственном университете им. М.В. Ломоносова в 1983 и 1988 годах, соответственно, и степень доктора наук в Институте проблем передачи информации Российской академии наук в 1999 году. В настоящее время он является профессором МГУ и Национального исследовательского университета «Высшая школа экономики.
Его текущие исследовательские интересы включают проблемы принятия решений в условиях неопределенности, обработку изображений, информационные эффекты в играх и т.д. Они в основном сосредоточены на различных аспектах понятия информации и, в частности, на алгебраических свойствах и информативности различных источников данных. В своих недавних исследованиях он показывает, что необходимость распараллеливания обработки данных в задачах больших данных приводит к сходным алгебраическим структурам, которые отражают основные свойства информации и обеспечивают теоретические основы для изучения информационных процессов в системах больших данных.