Отправить новость
1541 просмотр Версия для печати

Политехник помогает ученым ЦЕРНа не запутаться в больших объемах данных

Молодой ученый Томского политехнического университета Валерий Парубец разрабатывает алгоритмы, упрощающие методы распределения информации о результатах экспериментов, которые проводятся на Большом адронном коллайдере. Эти данные в больших объемах распределяются в вычислительные центры по всему миру, и ученым важно не запутаться в том, какая информация и куда должна быть направлена.

Специалист кафедры прикладной математики Института кибернетики ТПУ Валерий Парубец работает в IT-департаменте проекта «АТЛАС» (ATLAS) Европейского центра ядерных исследований (ЦЕРН).  Валерий стал одним из первых молодых ученых вуза, отправившихся на долгосрочную стажировку в крупнейший научный центр мира.

По словам молодых ученых, эксперименты на Большом адронном коллайдере длятся по несколько месяцев. Все это время его детекторы непрерывно фиксируют столкновения частиц, которые происходят непрерывно.

Объемы получаемых данных составляют петабайты в секунду. Однако большая их часть ученым и не нужна. Существенная часть столкновений частиц науке известна, и физикам важно запечатлеть необычные столкновения, подтверждающие ту или иную гипотезу. Это примерно 1 % от общего объема данных, получаемых с коллайдера.

Однако даже этот процент очень велик. Проводятся все новые эксперименты, в систему поступают все новые данные. Чтобы обработать всю собранную на сегодняшний день информацию, по примерным подсчетам ученым потребуется 100 лет, а то и больше, непрерывных вычислений на нынешних мощностях. Поэтому очень важно придумать, как оптимизировать все необходимые подсчеты. Именно это и является задачей стажеров Томского политеха в рамках участия в эксперименте ATLAS —  работа над анализом и хранением данных большого объема (Big Data).

Пока собранная с Большого адронного коллайдера информация «дожидается» обработки, ее необходимо где-то сохранять. Вопрос — как? Ведь даже сотни компьютеров не хватит, чтобы все разместить.

Однако ученые ЦЕРНа нашли выход из этой ситуации, разработав систему Grid (LHC Computing Grid). Это  глобальная вычислительная сеть ЦЕРНа, место расположения которой — весь мир. В состав Grid входит 170 вычислительных центров из 36 стран. Их задача: получать, сохранять и обрабатывать информацию из ЦЕРНа.

Важно также не запутаться, куда и какие данные положены на хранение. Ведь без строгого порядка эти данные легко потерять. Для этого необходимо, чтобы кто-то определял, в какой из мировых центров будет направлена информация о том или ином эксперименте.

«Моя задача состоит как раз в том, чтобы доработать систему распределения данных. Проработать алгоритмы — куда и что следует отправлять.

Большинство работников ЦЕРНа в итоге ничего и не заметит. Однако это избавит людей, которые занимаются хранением информации, от постоянных консультаций с экспертами о порядке приема этих данных, — рассказывает о своей работе Валерий Парубец. — С точки зрения «айтишника», это очень интересная задача — приходится ворочать колоссальными объемами информации, которая растекается по всему миру».

В дальнейшем полученный опыт работы политехник использует в своей научной работе по возвращении в Томский политехнический университет, где  участники проекта «АТЛАС» продолжат удаленную работу с центром. Они будут работать в Лаборатории обработки и анализа больших объемов данных при центре RASA в Томске, которой руководит ученый ЦЕРНа, ведущий мировой специалист в области современных методов сбора, хранения, обработки и анализа данных для экспериментов и установок мегасайнс класса Алексей Климентов.

Справка:

ЦЕРН — крупнейший международный научный центр в области ядерной физики. В числе его ускорительных установок — Большой адронный коллайдер (LHC), крупнейший ускоритель в мире, на котором учеными центра найден бозон Хиггса — частица, отвечающая за появление инертной массы у элементарных частиц.

«АТЛАС» (ATLAS)  — один из четырех основных экспериментов на Большом адронном коллайдере в ЦЕРНе. Он предназначен для исследований в области физики элементарных частиц. Это один из двух экспериментов, в процессе которых был открыт бозон Хиггса.

Grid. LCG (LHC Computing Grid) — глобальное хранилище данных ЦЕРНа. В состав Grid входит 170 вычислительных центров из 36 стран. Их задача: получать и сохранять информацию из ЦЕРНа.

Заметили ошибку?
Выделите ее и нажмите Ctrl+Enter