Дата-центр как хранилище научно-справочной информации

___________________________

М.Р. Биктимиров, Ю.С. Вишняков, А.Б. Жижченко, А.Н. Сотников



Аннотация

Статья посвящена некоторым аспектам создания специализированного хранилища информации с учетом современных тенденций и подходов к построению систем хранения и обработки данных, а также опыта, накопленного в Вычислительном центре Российской академии наук. Особое место уделено новым подходам к обеспечению работоспособности системы в течение всего ее жизненного цикла.

Ключевые слова: научные данные, хранилище, центр обработки, информационный ресурс, доверенная система, жизненный цикл, ИТ-инфраструктура, семантический анализ.

Создание системы накопления научных данных на базе информационно-телекоммуникационных технологий позволяет эффективно оперировать огромными объемами информации. С 2000 г. объем научных данных удваивается каждые два года, а по некоторым зарубежным прогнозам, с 2012 г. объем технической информации по отдельным отраслям экономики будет удваиваться каждые 18 месяцев. Стремительный рост доступного цифрового контента и бурное развитие технологий обработки информации создают предпосылки для решения задач агрегации знаний в научно-технологической сфере на новом уровне [1].

Одной из приоритетных задач Вычислительного центра им. А.А. Дородницына Российской академии наук (ВЦ РАН) является создание дата-центра как ключевого компонента формируемого единого научного информационного пространства. В связи с этим в настоящее время на базе Отдела информационных технологий ВЦ РАН осуществляется пилотный проект, нацеленный на отработку технических, технологических и организационных решений по сбору, хранению научных данных и обеспечению доступа к ним. В процессе подготовки к его реализации ставилась задача проанализировать и учесть в будущей работе основные актуальные тенденции и современные подходы в данной области.

Понятие дата-центра. Термин «дата-центр» (data center), или центр обработки данных (ЦОД), в классическом понимании означает технологическую площадку, которая предназначена для размещения и подключения оборудования хранения и обработки данных к высокоскоростным каналам связи. В более широком смысле дата-центр – это комплекс организационно-технических решений для консолидации ресурсов высокопроизводительной и отказоустойчивой информационно-коммуникационной инфраструктуры.

История возникновения дата-центров восходит к 1980-м годам – периоду распространения больших ЭВМ, например серии «ЕС», и создания на их базе вычислительных центров (ВЦ). Помимо собственно вычислительных машин, ВЦ в то время обладали достаточно сложными инженерными системами жизнеобеспечения вычислительной техники и периферийного оборудования, включая подсистемы охлаждения, резервного электропитания, безопасности и т. п., многие из которых используются в современных дата-центрах. Поэтому прежние ВЦ вполне можно считать предками нынешних ЦОДов. Позднее, с появлением персональных компьютеров, необходимость в сложных инженерных комплексах отпала, и их реинкарнация состоялась только на рубеже нового века, когда в связи с развитием клиент-серверной архитектуры возникла необходимость установки серверов в специальных серверных комнатах. Очевидно, что одними из самых приспособленных для этого помещений оказались машинные залы старых ВЦ. Тогда же в обиходе появился термин «дата-центр», обозначающий специально спроектированное компьютерное помещение [2].

Для современных дата-центров проектируются и строятся специальные помещения и здания, обеспечивающие не только надежность и повышенную безопасность хранения, обработки и передачи данных, но и высокоскоростной доступ к глобальным телекоммуникационным сетям. Тем не менее спроектированные 30 лет назад помещения для ВЦ вполне могут отвечать современным требованиям для небольших специализированных ЦОДов при условии соответствующей доработки инженерных систем жизнеобеспечения и коммуникаций. Сложилось целое направление, которое занимается вопросами оптимизации строительства и эксплуатации дата-центров.

Назначение и общие принципы. В зависимости от назначения современные дата-центры условно можно поделить на корпоративные, которые работают в рамках конкретной организации, корпорации или ведомства, и коммерческие, предоставляющие профессиональные сервисы сторонним пользователям на коммерческих условиях.

Дата-центр может функционировать как отдельная организационная структура и оказывать всем структурам корпорации услуги по хранению и доступу к информации, а также предоставлять различные информационно-вычислительные сервисы. Идея дата-центра, создающегося на базе ВЦ РАН, заключается в комбинированном подходе, когда соответствующие услуги и сервисы могут предоставляться не только научным подразделениям РАН, но и всему научно-образовательному сообществу. В основу положены сформулированные разработчиками общие принципы функционирования научного дата-центра:


Современные тенденции. При создании хранилища данных невозможно использовать готовое «коробочное» решение, инсталлировать его и надеяться, что все сразу заработает. Необходимо уделить серьезное внимание не только процессу проектирования самого хранилища как сложного информационно-вычислительного комплекса, но и задачам внесения изменений в действующую инфраструктуру, существующие информационно-коммуникационные системы, имеющиеся потоки данных. Требуется обратить отдельное внимание вопросам обеспечения надежности, безопасности хранилища, защитить его как от внешних угроз, так и от халатности администраторов и пользователей. Кроме того, каждый дата-центр имеет собственный набор услуг – уникальный в своем роде.

Изменение архитектур информационно-вычислительных систем повлекло за собой разделение программ, данных и виртуализацию процессов обработки. Становится очевидной тенденция централизации вычислений в центрах обработки данных, а также перемещение клиентских или пользовательских данных в области удаленного хранения. Такая организация дела позволяет не только снизить затраты на хранение данных, но и обеспечить существенное повышение надежности хранения, а также снизить угрозы нарушения конфиденциальности, достоверности и целостности информации [3].

Значительное внимание стало уделяться поддержанию работоспособности информационно-вычислительных комплексов и обеспечению их управляемости, оптимизации информационных процессов, а также возможности осуществления технического аудита информационно-вычислительной системы. В научной и методической литературе все чаще наряду с терминами «безопасность» и «надежность» встречаются термины «доверие», «доверенные системы», «доверенная среда». Термин «доверие» означает свойство системы отвечать априорно заданной регламентациями высшего уровня целевой функции на всем протяжении ее жизненного цикла. Это переход от узкого понимания безопасности компонентов системы к общим вопросам обеспечения выполнимости ее целевой функции. Необходимо, чтобы информационно-вычислительная система точно соответствовала той целевой функции, для реализации которой она создается. В этом случае естественным является рассмотрение архитектуры системы и всего ее жизненного цикла, начиная с формулирования корректной, непротиворечивой целевой функции, заданной в терминах системного анализа целостности компонентов и связей между ними.

Как известно, этапы жизненного цикла включают: проектирование, разработку, реализацию, эксплуатацию, модернизацию и развитие [4]. Нарушение свойств доверия на этапах жизненного цикла приводит к возможности нарушения свойств защищенности (доступности, конфиденциальности и целостности) информации на текущем или следующем этапе жизненного цикла доверенной системы. Таким образом, среди требований к современной информационно-вычислительной системе сегодня выделяют:

• доверенность на всех или большинстве этапов жизненного цикла;

• высокую техническую надежность и доступность ресурсов;

• резервирование и катастрофоустойчивость;

• удаленное надежное хранение данных;

• расширяемость и масштабируемость с сохранением свойств доверия;

• стабильность предоставления сервисов, изоляцию пользователей от данных;

• аудит и подконтрольность ресурсов и вычислительного процесса в целом;

• управляемость системы, переход к управлению безопасностью через управление пользовательскими процессами.

Организационно-технологическая структура. В целом дата-центр состоит из ИТ-инфраструктуры, представляющей собой комплекс взаимосвязанных организационных, технических, программных средств, и систем и инженерной инфраструктуры, которая отвечает за поддержание оптимальных условий их функционирования.

ИТ-инфраструктура, как правило, включает систему хранения, вычислительную компоненту, инфраструктуру доступа, подсистемы эксплуатации и информационной безопасности, которые интегрированы между собой. В качестве аппаратно-программных компонентов систем могут использоваться готовые технические решения, удовлетворяющие предъявляемым к ним требованиям. В дата-центре организуется круглосуточная служба эксплуатации и мониторинга систем жизнеобеспечения, телекоммуникационного и серверного оборудования, сети и состояния каналов связи. Для примера, в пилотном проекте ВЦ РАН в качестве системы хранения используется модульный комплекс Hitachi Adaptable Modular Storage 2100, а инфраструктурой доступа является вся корпоративная телекоммуникационная сеть РАН, с которой дата-центр соединен собственными волоконно-оптическими линиями связи.

Размещенное в дата-центре оборудование работает в круглосуточном бесперебойном режиме при определенных параметрах окружающей среды. Для соблюдения этих условий требуется целый ряд надежных систем обеспечения. Инженерная инфраструктура дата-центра насчитывает более десятка различных подсистем, включая основное и резервное питание, слаботочную, силовую и другие виды проводки, системы охлаждения и климатики, пожарной безопасности, контроля физического доступа и др. Однако адаптированная к современным требованиям инженерная инфраструктура традиционного вычислительного центра вполне может быть пригодной для полноценного функционирования хранилища данных.

Информационное наполнение. Главный вопрос для любого хранилища: что накапливать и хранить? Поскольку речь идет о научно-справочной информации, то это в первую очередь: проекты по фундаментальным и прикладным исследованиям; результаты теоретических и экспериментальных исследований; результаты физических наблюдений; модели, алгоритмы, программы; сведения о научных коллективах, ученых и экспертах; электронные копии объектов библиотечного, архивного и музейного хранения; научные публикации. Список, естественно, далеко не полный.

В рамках пилотного проекта ВЦ РАН осуществляется работа со следующими информационными ресурсами:


Еще одно перспективное направление – результаты семантического анализа научной информации и открытые связанные данные. Развитие информационных технологий создало предпосылки для решения задач сбора и накопления зачастую никак не структурированных знаний, размещенных в научном и технологическом сегменте ресурсов интернета, в ведомственных и корпоративных хранилищах информации, профессиональных социальных сетях. Извлечение в виде метаданных содержания страниц интернета, документов корпоративных хранилищ и социальных сетей профессиональных исследовательских сообществ позволит увеличить объем доступной научной информации в 5–6 раз (для справки, порядка 85% цифровой информации хранится в неструктурированном виде). Семантическая обработка и связывание извлеченной научной, технической информации, проектной документации, публикаций и исторических документов позволяют создать уникальный научный информационный ресурс. В итоге хранилище информации по обширным тематическим областям науки в формате открытых данных позволит обеспечить равноценный доступ ко всему многообразию знаний, в значительной степени снижая влияние цифрового разрыва между различными регионами.

Литература

1. Максимычев И.Ф., Машлыкин В.Г. Европейское информационное пространство // Современная Европа. 2000. № 2.

2. Харатишвили Д. Центры обработки данных: вчера, сегодня, завтра// КомпьютерПресс. 2007. № 11.

3. Биктимиров М.Р., Щербаков А.Ю. Современные подходы к проблемам обеспечения защищенности и надежности систем хранения данных// Динамика неоднородных систем/ Под ред. Попкова Ю.С. М.: Труды Института системного анализа Российской академии наук (ИСА РАН). Т. 53(4). 2010. 323 с.

4. Запечников С.В., Милославская Н.Г., Толстой А.И., Ушаков Д.В. Информационная безопасность открытых систем. В 2-х т. Т. 1. Угрозы, уязвимости, атаки и подходы к защите. М.: Горячая Линия – Телеком, 2006. Т. 2. Средства защиты в сетях. М.: Горячая Линия – Телеком, 2008.

__________________________________

Биктимиров Марат Рамилевич – кандидат технических наук, ФГУН «Вычислительный центр им. А.А. Дородницына» Российской академии наук, генеральный директор

Национальной ассоциации исследовательских и научно-образовательных электронных инфраструктур «е-АРЕНА»

Вишняков Юрий Саввич – доктор технических наук, главный научный сотрудник ФГУН «Вычислительный центр им. А.А. Дородницына» Российской академии наук, заместитель академика-секретаря Отделения математических наук РАН

Жижченко Алексей Борисович – доктор физико-математических наук, профессор, академик, заведующий отделом ФГУН «Вычислительный центр им. А.А. Дородницына» Российской академии наук, заместитель академика-секретаря Отделения математических наук РАН

Сотников Александр Николаевич – доктор физико-математических наук, профессор,

главный научный сотрудник ФГУН «Вычислительный центр им. А.А. Дородницына» Российской академии наук, заместитель директора ФГУН «Межведомственный суперкомпьютерный центр РАН»


© Информационное общество, 2013 вып. 1-2, с. 11-16.