Технологические, архитектурные и, как следствие, инфраструктурные решения современного интернета, основы которого закладывались 20–30 лет назад, на сегодня уже не удовлетворяют развившимся на их основе потребностям современного общества, приложениям в различных сферах деятельности человека. В настоящее время (на рубеже веков) во всех экономически развитых государствах мира наблюдаются активные действия исследовательского сектора, направленные на поиск подходов, разработку и внедрение в практику технических и технологических, архитектурных и инфраструктурных решений для интернета следующего поколения. Основу таких решений формируют результаты фундаментальных исследований в области прикладной математики и информатики. В первую очередь благодаря именно этой теоретической базе достигается прогресс в области телекоммуникаций высокой и сверхвысокой производительности, сетей с интегральным обслуживанием, в суперкомпьютерных вычислениях, в области создания метакомпьютерных структур, современных систем информационной безопасности и средств визуализации с высоким разрешением.
Формируя теоретическую, а на ее основе – и технологическую базу для интернета следующего поколения, исследователи разных стран уже сегодня создают новые средства и способы работы с информацией, поэтапно развивая и эффективно используя мировое инфотелекоммуникационное пространство. Российская академия наук и высшая школа активно сотрудничают на этом направлении развития науки и техники. К настоящему времени уже сложились и апробированы временем определенные формы и методы такого взаимодействия. Не все из них одинаково эффективны, есть разные примеры и уже сложилась определенная база для осмысления и выбора рациональных путей интеграции науки и высшей школы для решения задач в области новейших, в том числе критических, технологий.
Далее, на фоне обсуждения проблем и решений, связанных с разработкой перспективной базы и проведением практических работ в области телекоммуникаций и информационно-вычислительных технологий на сетях следующего поколения, представим результаты сотрудничества Московского государственного университета им. М.В. Ломоносова (в лице НИИ механики, механико-математического факультета и Института проблем информационной безопасности) с Российской академией наук (в лице Центра научных телекоммуникаций и информационных технологий РАН).
М.В. Ломоносова, ФГУП «НИИ «Квант», Межведомственного суперкомпьютерного центра (МСЦ). Значительную часть коллектива исполнителей задач, решение которых представлено далее, составляют студенты и аспиранты кафедры вычислительной математики механико-математического факультета МГУ. Участвуя в течение двух лет в выполнении работ на данном направлении, они выросли в специалистов высокой квалификации, некоторые защитили кандидатские диссертации, стали сотрудниками ЦНТК РАН, НИИ механики и Института проблем информационной безопасности МГУ. Далее представлены лишь краткие сведения, показывающие актуальность и формулировки задач, которые решаются в рамках отдельных проектов, а также конспективно изложены результаты, которые получены на начальных этапах их решения.
Эффективное внедрение GRID-решений в повседневную практику обеспечивается лишь с достижением скоростей передачи данных в глобальных сетях, соизмеримых с современными скоростями внутримашинного (ЭВМ) обмена. Такое возможно при скоростях маршрутизации пакетов на магистральных каналах »106–109 пакетов/сек и передачи данных порядка 109–1012 бит/сек, то есть на скоростях, близких к терабитным.
Достижение подобных скоростей передачи данных на физическом уровне в ближайшие годы возможно. Перспективы разработки механизмов необходимой для этого сверхскоростной (по сегодняшним меркам) маршрутизации пакетов по магистральным сетям интернета следующего поколения в настоящее время определяются так называемыми l-подходами. Лямбда-коммутация, объединяющая технологии DWDM (Dense Wavelength Division Multiplexing) – уплотнения каналов по длине волны в одной физической волоконно-оптической линии связи под управлением MPlS (MultiProtocol l-Switching) – протокола маршрутизации пакетов на основе их меточной (по длине волны) коммутации.
С учетом темпов развертывания этих работ в странах с развитой сетевой инфраструктурой и результатов, которые уже удалось получить, можно в ближайшие годы ожидать готовых решений, поддерживающих нижние (от физического до сетевого) уровни OSI систем GRID.
Основными объектами исследований, связанных с распределенной обработкой данных на основе GRID-технологий, являются принципы, модели и алгоритмы, программные средства для построения подобных систем и управления ими [1, 4, 5].
В ходе выполнения работ по проекту «Сетевая среда распределенной обработки данных на основе технологий GRID» использовались методы сравнительного анализа известных решений в области создания распределенных высокопроизводительных вычислительных сетей, синтеза принципов построения и алгоритмов функционирования сетевой среды распределенных вычислений на основе требований, предъявляемых к функциональности подобных систем, а также методы экспериментального исследования предлагаемых решений, разработанных алгоритмов и программных средств с использованием имитационных моделей и натурных экспериментов.
Результатом работы на первом этапе выполнения проекта являются опробованные на практике рекомендации по установке и настройке свободно распространяемого программного обеспечения Globus Toolkit 2.0, предназначенного для построения подобных систем, разработанные оригинальные программные средства управления сетевой средой распределенных вычислений, научные публикации [1,7–12], содержащие описание разработанных принципов, алгоритмов функционирования и технологических этапов построения сетевой среды распределенных вычислений, результаты моделирования разработанных алгоритмов, а также действующий фрагмент GRID-полигона.
Разработанные в ходе реализации проекта принципы, алгоритмы, программные средства позволяют объединять отдельные, соединенные коммуникационными каналами вычислительные системы в единый ресурс, обеспечивая при этом большую производительность, доступность и эффективность его использования при решении прикладных задач. В состав сетевой среды распределенных вычислений могут входить отдельные комплексы, имеющие различную архитектуру, программное обеспечение, коммуникационные средства. Для включения таких комплексов в состав распределенной системы обязательным является функционирование на ней (на управляющей машине соответствующего кластера) компонентов Globus Toolkit, библиотек MPI для Globus и менеджеров системы управления. Отдельный вычислительный комплекс может использовать собственную систему планирования заданий. В этом случае требуется реализация интерфейса процесса Jobmanager пакета Globus к конкретной системе планирования заданий (в пакет Globus уже включена поддержка таких систем планирования, как LSF, PBS, PRUN, NQE, CODINE и др.). В случае нахождения отдельного вычислительного комплекса в защищенном сетевым экраном фрагменте сети может потребоваться установка на нем программных средств туннелирования сетевого трафика (например, программы Vtune) для преодоления ограничений, устанавливаемых администраторами данного сегмента сети.
В ходе работ по данному проекту создан и прошел первые тестовые испытания отечественный экспериментальный GRID-полигон-фрагмент ССРВ, объединяющий инструментальные средства всех уровней архитектурной иерархии систем аналогичного назначения, которые созданы или создаются за рубежом.
Базовое ядро GRID-полигона составили вычислительные кластеры НИИ механики МГУ им. М.В. Ломоносова (16 процессоров AMD Athlon, коммуникационная среда SCI) и НИИ «Квант» (16 процессоров Intel Xeon, коммуникационная среда Myrinet; 9 процессоров Intel Itanium, коммуникационная среда Myrinet), соединенные каналами сети Интернет.
Новизна результатов выполненной работы заключается в том, что:
В связи с изложенным представляет интерес подход к созданию системы FLAME – Functional Active Monitoring Environment [8,13], реализуемый в рамках проекта «Среда активного функционального мониторинга больших вычислительных систем». Объектом разработки по этому проекту является программный комплекс, предназначенный для контроля состояния вычислительных ресурсов, извещения обслуживающего персонала и программных средств реконфигурации об отказавших программно-аппаратных модулях, а также оперативного реагирования на критические состояния с целью предотвращения разрушения отдельных модулей и системы в целом.
Конечной целью работы является создание оригинальной отечественной системы активного функционального мониторинга больших вычислительных систем на базе свободно распространяемого программного обеспечения и программных модулей собственной разработки. Создаваемая система мониторинга должна формировать информационную базу для самовосстановления вычислительных систем путем обнаружения отказавших или сбойных аппаратно-программных компонент, обеспечения возможности продолжения исполнения всех или критически важных прикладных программ. Кроме того, система мониторинга должна включать программные средства автоматизации для описания конфигурации контролируемых вычислительных систем, а также сохранения и представления в удобном для администратора виде статистических данных о работе контролируемых систем за длительный промежуток времени.
В ходе выполнения проекта использовались методы сравнительного анализа известных решений в области создания систем мониторинга, таких как HP OpenView, SUN Net Manager, а также ряд свободно распространяемых программных продуктов. Работа проводилась с применением современных технологий программирования и представления структур данных, а также с учетом проблем обеспечения компьютерной безопасности. Для представления конфигурации контролируемой системы используется язык на основе XML, а результаты запросов о состоянии ресурсов возвращаются в XML-формате по HTTP-протоколу, что позволяет использовать для визуализации XML-браузер.
В результате проделанной работы создана первая версия системы активного функционального мониторинга с полными исходными текстами, предназначенная для контроля состояния больших вычислительных систем и компьютерных сетей. Система мониторинга может использоваться как самостоятельный продукт в локальных и глобальных сетях, а также в вычислительных системах и кластерах. Она может быть встроена в свободно распространяемый продукт Globus в составе программного обеспечения среды распределенной обработки данных на базе GRID-технологий.
Система мониторинга FLAME позволяет работать с любым оборудованием, которое доступно по протоколам SNMP или HTTP. Для функционирования FLAME необходим компьютер, работающий под управлением ОС Linux, имеющий не менее 64-х мегабайт оперативной памяти и достаточно дискового пространства. Компьютер должен быть в одной сети с контролируемыми устройствами. В качестве консоли может использоваться компьютер под управлением ОС Linux или ОС Windows с функционирующим программным обеспечением X-Windows для отображения экранных форм консоли.
По результатам исследований и практических разработок, проведенных в рамках данного проекта, в качестве основных могут рассматриваться следующие:
К основным результатам работ в рамках данного проекта следует отнести следующие:
Результаты исследований могут использоваться как на отдельных многомашинных кластерах и параллельных вычислительных системах, так и в составе сетевых сред распределенной обработки. Разработанные в рамках проекта программные продукты позволяют создавать переносимые (без какой-либо доработки) параллельные программы с одной параллельной архитектуры на другую. Они способствуют повышению производительности при параллельном программировании и исполнении параллельных программ как за счет эффективной реализации разделяемой памяти, так и за счет ускорения параллельного доступа к устройствам ввода-вывода.
Построение надежно защищенных объектов (продуктов или систем) информационных технологий требует формирования их политики безопасности, разработки надлежащих механизмов, создания средств защиты и их верификации на строгое выполнение принятой политики. Формирование и политики безопасности, и доказательной базы гарантированной защищенности таких объектов связано с построением строгих математических моделей, алгоритмов и инструментальных, в первую очередь, программных средств.
В настоящее время результаты ранее «закрытых» работ на этом направлении, базовые математические модели и основы критериального подхода к оценке уровня защищенности объектов информационных технологий стали общедоступными. Это обстоятельство обеспечило базу для развертывания работ по созданию современных средств защиты распределенных систем в интернете. Такая деятельность в настоящее время ведется в научно-исследовательских центрах, университетских лабораториях экономически развитых стран мира. Она финансируется и активно координируется государственными ведомствами, общественными фондами, заинтересованными в создании средств защиты на инфраструктуре интернета следующего поколения.
Механизмы и модели защиты сложных систем рассредоточены и располагаются на всех ее уровнях – от системного до прикладного. Особая роль в этом комплексе средств защиты принадлежит операционной системе (ОС), ее ядру, в котором реализуются механизмы логического разграничения доступа, составляющие, как правило, основу политики безопасности объекта. Разработка механизмов ОС, обеспечивающих повышенные требования к безопасности объектов разной степени сложности, связана с применением последних достижений дискретной математики и информатики. Задачи этого направления в экономически развитых странах относятся к числу национально значимых.
Отдельной, очень наукоемкой задачей в области построения современных систем информационной безопасности является разработка так называемых систем активного аудита. Они призваны обеспечить контроль состояния, своевременно обнаруживать аномальную, деструктивную активность в сложной системе и, на основании более детального анализа ситуации, оперативно предпринимать адекватные действия.
К сожалению, несмотря на объективно существующие заделы в области прикладной математики и теоретической информатики, российских результатов на указанных выше направлениях пока очень мало. Вместе с тем появившиеся в последние годы тенденции на объединение усилий теоретиков и специалистов-прикладников начинают давать свои плоды. Сегодня можно привести результаты работ, которые можно рассматривать как этапы (шаги) на пути решения перечисленных задач.
В рамках проекта «Математические модели, алгоритмы и инструментальные средства защиты ресурсов распределенных информационно-вычислительных систем» исследовались задачи на следующих направлениях:
На основе вероятностных методов разработаны математические модели гарантированно защищенных систем, обоснованы условия их применения, расширяющие ограничения традиционно используемых для этих целей детерминированных автоматных моделей невлияния [19]. Обобщение этой модели на случай вероятностных автоматов, ее «огрубление» за счет уменьшения детализации функции перехода позволило:
Исследования в рамках подобной модели создают хорошие исходные посылки для создания на их основе прикладной системы мониторинга состояния распределенного информационно-вычислительного комплекса на предмет наличия атак на отказ в обслуживании и оперативного реагирования на них.
С целью разработки подходов к построению политик безопасности сложных распределенных объектов формализована постановка задачи объединения (интеграции) разнородных (различных) политик безопасности отдельных подсистем в составе единой системы.
В развитие работ по построению отдельных элементов и прототипа системы активного аудита распределенных информационно-вычислительных комплексов:
Для систематизации технических проблем интеграции всю совокупность подлежащих объединению ресурсов целесообразно разделять на уровни, каждый из которых обладает специфическими требованиями к способам обработки данных, качеству данных и правилам их использования, что в свою очередь влияет на выбор стратегии их интеграции. Например, при интеграции ресурсов научных организаций [24] такими уровнями могут являться:
На нижних уровнях иерархии характерно использование общедоступных текстовых документов. Учитывая широкое распространение веб-технологии, децентрализованный характер сопровождения и большие объемы информации, размещенные в настоящее время на серверах интернета, содержимое веб-серверов является значимым информационным ресурсом. В связи с этим особое значение имеют системы информационного поиска в глобальных сетях.
Сложность задачи создания подобных систем состоит в том, что в подавляющем числе случаев поступающая информация представлена в слабоструктурированном или неструктурированном текстовом виде. Примерами полуструктурированных данных являются XML- и HTML-документы, тексты математических работ в формате TeX или результат объединения данных из нескольких информационных источников. Большие коллекции таких данных не могут эффективно обрабатываться существующими полнотекстовыми информационными системами, которые не учитывают логическую структуру документов. Это требует разработки новых механизмов поиска и обработки информации.
Для повышения релевантности поиска, то есть отношения числа значимых документов к общему числу найденных по запросу, следует использовать различные модели, механизмы и методы, позволяющие выявлять или формально описывать смысловое содержание документов. К числу таких методов можно отнести использование логической структуры документа, кластеризацию, классификацию, поиск по подобию, исследование структуры перекрестных ссылок для выявления значимых ресурсов и уточнения процесса кластеризации, использование метаданных, лингвистический анализ текстов.
Целью проекта «Организация, поиск и кластеризация полуструктурированных данных в глобальных сетях» является анализ перечисленных выше методов обработки текстов и разработка на их основе архитектуры автоматизированной системы информационного обеспечения (АСИО), позволяющей производить поиск и тематический мониторинг (фильтрацию) информационных ресурсов. Основными требованиями, которым должна удовлетворять система, являются высокая скорость обработки данных и возможность работы с большим числом непрерывно изменяющихся информационных ресурсов. Потенциальными сферами применения системы являются корпоративные информационные комплексы или глобальные информационно-поисковые системы в интернете.
В результате выполнения работ по проекту были проанализированы различные методы обработки текстов, включая методы выявления новых тематических направлений [26] поиска с использованием логической структуры документов [27, 28], классификации и кластеризации гипертекстов [29–31], автоматического реферирования. Предложена архитектура автоматизированной системы информационного обеспечения [27], предоставляющей возможности поиска и тематического мониторинга информационных ресурсов. Для отдельных элементов архитектуры разработаны прототипы соответствующих модулей.
При выборе методов, алгоритмов и конкретных технических решений значительное внимание уделялось проблеме скорости обработки информации. Комбинация вероятностного и нейросетевого подходов к проблеме классификации текстов дает возможность обрабатывать с использованием современной вычислительной техники десятки мегабайт текста в минуту. Для задачи уточнения классификации на основе анализа структуры перекрестных ссылок, которая является вычислительно сложной, известны эффективные параллельные алгоритмы ее решения. Все это позволяет рассчитывать на возможность применения системы в глобальных сетях.
Результаты предварительных испытаний показывают, что предложенный подход к решению задач поиска и тематического мониторинга позволяет получить результаты, находящиеся на уровне современных информационно-поисковых систем. Аналогов крупномасштабных систем поиска полуструктурированных документов в мире пока не предложено. Проведенный анализ методов вычисления и оптимизации запросов с учетом структуры документов показывает, что известные на настоящее время алгоритмы могут использоваться для создания подобной системы.
Предложенные в последнее время модели полуструктурированных данных и языков запросов основываются на понятиях ориентированного помеченного графа и регулярного путевого запроса [27, 28]. Данные представляются в виде графа (или дерева), вершины которого соответствуют объектам предметной области, а ребра помечены символами некоторого алфавита и определяют отношения между объектами. Так как задача информационного поиска может быть сформулирована как задача поиска объектов, связанных некоторыми соотношениями, то при графовом представлении данных это приводит к поиску вершин графа, связанных путями в графе. Характерной является следующая задача: для заданного графа G и регулярного языка Q (запроса) требуется найти такие вершины u и v, что найдется путь между u и v, метки которого образуют слово в языке Q.
На основе регулярных путевых запросов можно построить более сложные языки запросов. Одной из возможностей являются конъюнктивные регулярные путевые запросы. В этой модели запрос представляется совокупностью регулярных путевых выражений относительно переменных x1,…,xn, а вычисление запросов может быть сведено к поиску подграфа в помеченном мультиграфе.
В работе по проекту «Проектирование и реализация параллельных алгоритмов вычисления и оптимизации запросов в системах управления полуструктурированными данными» рассматриваются проблемы построения эффективных параллельных алгоритмов вычисления конъюнктивных регулярных путевых запросов к базам полуструктурированных данных. База данных представляется большим массивом изолированных полуструктурированных документов. Такая модель отражает потребности реальных прикладных задач, в частности, – поиска информации в массиве текстовых документов с заданной логической структурой.
Целью работы является математически строгая постановка задачи вычисления запросов к полуструктурированным данным и разработка параллельных алгоритмов вычисления запросов. В ходе выполнения данной работы использовались методы теории графов и теории формальных языков.
В результате выполнения работ были получены следующие результаты:
Эффективное взаимодействие ЦНТК РАН с НИИ механики, механико-математическим факультетом и Институтом проблем информационной безопасности МГУ им. М.В. Ломоносова, направленное на разработку и реализацию технологий, которые принято относить к числу критических, на их использование в составе национально значимых систем, наглядно демонстрирует перспективные подходы к организации подобных работ.
Оригинальные подходы к решению задач, полученные в рамках выполнения различных, однако взаимосвязанных и взаимодополняющих друг друга проектов уже сегодня могут и должны использоваться для разработки новых инфокоммуникационных технологий, инфраструктурных элементов (компонентов) и полигонов для тестирования приложений и оценки их функциональности. Такая деятельность позволит в ближайшие годы создать отдельные экспериментальные сегменты на основе технологий будущего, аналогичных тем, которые существуют в развитых (в первую очередь, в информационном плане) странах, для постепенного объединения их на национальном уровне.
В ходе выполнения работ по обсуждаемым проектам не только появляются новые теоретические результаты, технологические решения и технические системы. Не менее важным и значимым является тот факт, что несколько десятков студентов выросли в специалистов высшей квалификации на стратегически важном для будущего страны направлении. Таким образом, сотрудничество с Российской академией наук помогает первому российскому Московскому государственному университету им. М.В. Ломоносова успешно выполнять свою главную задачу – готовить интеллектуальную элиту общества.
Васенин Валерий Александрович - Заведующий отделом Института проблем информационной безопасности МГУ им. М.В. Ломоносова, доктор физико-математических наук, профессор.
© Информационное общество, 2005, вып. 1, сс. 56-64.