Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Глава 13. Тема 13. Усиление воздействия икт на развитие научных исследований и формирование пограничных технологийСодержание книги
Поиск на нашем сайте
Формирование новых информационно-коммуникационных технологий и рост производительности и эффективности традиционных информационных систем привели к интенсификации влияния ИКТ на развитие научных исследований и даже к появлению новых направлений научных исследований. В принципе даже такие относительно хорошо изученные области как гравитация с периода разработки общей теории относительности и появления гипотезы о существовании гравитационных волн существенно опираются (особенно в последнее время) на возросшие возможности ИКТ и вычислительных систем. Для экспериментального исследования природы гравитации и гравитационных волн ученые используют естественные лаборатории, образованные такими астрофизическими объектами как нейтронные звезды, пульсары и квазары и так называемые «черные дыры». Выдающуюся роль в развитии и углублении подобных исследований играют методы космической интерферометрии. Эти методы и многие другие технологии космологических и астрофизических исследований немыслимы без применения наиболее совершенных ИКТ. Особый интерес представляют космические лаборатории, известные как VIRGO (гравитационно-волновая лаборатория), LIGO (лазерно-интерференционная гравитационная лаборатория). Чувствительности даже этих установок недостаточно для обнаружения гравитационных волн или иных признаков взаимодействия черных дыр, однако было предложено повысить чувствительность подобных технологий за счет применения интерферометрии со сверхдлинной базой в применении к парам пульсаров. Таким образом, удалось определить, что пульсары сближаются со скоростью 7 мм в сутки – это для объектов, удаленных от нас на 3500 световых лет. Другим важным и весьма интересным примером из совершенно иной области может служить теория фракталов и ее применение. Фракталы представляют чрезвычайно своеобразные объекты, генерируемые в процессе специфических случайных воздействий и/или чрезвычайно сложных динамических воздействий. Прежде явления и процессы подобного уровня сложности оставались за пределами человеческого понимания, и уж тем более не шла речь о возможности применения соответствующих технологий. В настоящее время сформированы основы представлений о фракталах и разработаны численные методы моделирования фрактальных систем и процессов в них. Составной частью информационного общества является так называемая e-Science – синтез науки и информатики, наступающий, когда роль информации и ее обработки в научных исследованиях становится превалирующей. Переход на e-стадию (информационную стадию) развития – реальная ситуация, затронувшая на сегодняшний день ряд естественных наук, оперирующих огромными объемами информации: физика (в первую очередь исследование элементарных частиц и физика высоких энергий), геофизика и геология, астрономия, биология, экономика, медицина. В этих науках происходит процесс лавинного поступления информации, в первую очередь связанный с успехами в технологии создания приемных устройств (сенсорно-ориентированная наука). Также, приходится работать с гигантскими объемами синтетических данных, полученными при численном моделировании. В современных крупных экспериментах (включая и численное моделирование) анализ терабайтов и даже петабайтов научных данных становится повседневной задачей. Причины «информационного взрыва» в астрономии обусловлены следующими факторами:
Доступ к информации осложнен тем, что результаты наблюдений хранятся в неоднородных распределенных архивах. Разнородность архивов определяется тем, что они создавались независимо и были ориентированы на различные эксперименты со своими целями. Распределенность информации связана со следующими причинами:
Специфика научных данных состоит в необходимости «вечного» хранения сырых данных (raw data, – данные, полученные непосредственно с приемника и не подвергшиеся никакой обработке), что накладывает повышенные требования к масштабируемости и защищенности систем хранения. Отметим общие проблемы и особенности современной науки, связанные с увеличивающимся потоком данных (сейчас это сотни терабайтов, в ближайшие 5-10 лет – это десятки-сотни петабайт):
Машины стали основными производителями информации и ее потребителями, поэтому требуется обеспечить, прежде всего, не интерактивную работу с данными, а программный доступ к ним, чтобы можно было автоматизировать рутинные работы обработки наблюдений, поиска данных. Прежде всего, это относится к проблеме эффективного хранения и доступа семантической информации в базах данных. Эти проблемы необходимо срочно решать в ближайшее время, так как технологии производства приемных устройств (сенсоров) непрерывно улучшаются, что приводит к дальнейшему росту данных, а, следовательно, к усугублению описанных проблем. Следует различать базы данных как хранилища метаданных, которые содержат очень большое количество записей с активным доступом и базы данных, ориентированные на архивное хранение очень больших бинарных объектов (их также может быть очень много). На сегодня официально анонсирована самая большая в мире база данных с активным доступом – Yahoo Everest, которая на май 2008 года имела хранилище размером более 2 Pb, несколько триллионов записей, с ежедневным поступлением около 24 млрд событий и более 1/2 миллиарда пользователей в месяц. В 2009 году база данных доросла до 10Pb. Интересно отметить, что Yahoo Everest – это свободная СУБД PostgreSQL с распределенным вертикально-ориентированным хранилищем и поддержкой кластеризации. В 2010 году стало известно, что Yahoo рассматривает переход на Hadoop. Из планируемых научных экспериментов выделяются:
В компьютерных технологиях произошли революционные изменения:
Не удивительно, что сейчас насчитывается около сотни различных СУБД, начиная от классических реляционных баз данных (Oracle, SQL Server, PostgreSQL, MySQL, Firebird, Ingres,…), которые обладают богатым набором возможностей, но их архитектура закладывалась во времена одного (не сетевого) большого и дорогого компьютера с маленькой памятью и одноядерным процессором, и кончая специализированными хранилищами, оптимизированных для решения определенных задач (Vertica, H-Store, StreamDB...). Посередине находятся СУБД, для которых самым важным является масштабирование и ограниченный набор возможностей. Эти СУБД ориентированы на современную многоядерную архитектуру дешевых серверов с большой памятью, организованных в кластера. Поскольку один сервер уже не справляется с нагрузкой, то имеется два способа масштабирования:
Довольно часто вертикально-ориентированные базы данных отождествляют с не реляционными и NoSQL СУБД. На самом деле это не так, например, Vertica (C-Store), MonetDB – это реляционные СУБД с по атрибутным хранением и SQL. Далее остановился более подробно на двух типах вертикально-ориентированных хранилищах. Какой же класс СУБД годится для науки? Очевидно, что богатые возможности реляционных СУБД крайне интересны для науки, но также очевидно, что строгая целостность и изоляция данных (CI в ACID) не важны, так как данные в науке в основном WORM (Write Once Read Many). Кроме того, реляционной модели не присуща внутренняя упорядоченность, в то время как для «сенсорно-ориентированной» науки, естественно хранить данные в массивах, которым присуща упорядоченность! В реляционной модели реализация массивов очень неэффективна. Масштабируемость нужна по объему данных, но не нужна большая конкурентность и ориентированность на фиксированное время ожидания результата. В то же время, науке требуется более богатая модель данных нежели (ключ, значение). Многие науки согласились с тем, что наиболее важная структура данных – это многомерный вложенный массив с неровными краями и оптимизацией для разреженных данных. Если добавить сюда требования, специфические для науки, такие как поддержка версионности, происхождения, аннотирования данных, данных с ошибками и т.д., то приходим к выводу, что на сегодняшний момент нет СУБД, ориентированной на науку. Майк Стоунбрейкер считает, что надо перестать «латать» устаревшие СУБД, что требуются кардинальные изменения в технологии СУБД, а именно – изменение принципа хранения данных. Он считает, что эра обычных больших СУБД общего назначения прошла, и требуются совершенно новые подходы для создания современной БД, которая с самого начала будет ориентирована на распределенность, параллельное исполнение запросов, компрессию, хранение по атрибутам, высокую доступность, линейное масштабирование с использованием кластеров независимых серверов. Сложившаяся ситуация в больших научных проектах была оценена ведущими учеными из разных наук, представителями коммерческих компаний и разработчиками в области СУБД (систем управления баз данных) на серии конференций XLDB 2007, 2008, 2009 гг, в результате чего возник проект SciDB под руководством профессора MIT Майка Стоунбрейкера и его коллег из крупнейших университетов США. Основная цель проекта – разработка в кратчайшие сроки СУБД для нужд больших научных и промышленных проектов, в которых требуется анализ сверхбольших объемов данных (сотни и тысячи петабайт), масштабируемой на тысячи серверов. Новая СУБД для больших объемов научных данных. Система SciDB разрабатывается, в первую очередь, исходя из требований больших научных проектов и имеет ряд принципиальных отличий от существующих СУБД. SciDB разрабатывается как система для хранения и анализа сырых и производных научных данных. Некоторые основные функции традиционных баз данных не поддерживаются в SciDB, позволяя системе более эффективно обрабатывать аналитические запросы. Например, так как исходные данные фактически не обновляются, в SciDB не предусмотрена эффективная поддержка больших объемов транзакций, что позволяет избежать серьезных накладных расходов. Наконец, SciDB – проект с открытым исходным кодом и бесплатной лицензией на использование, что отвечает требованиям большинства заказчиков. Открытый код позволяет экономить средства заказчиков на масштабные внедрения системы, а открытый процесс разработки обеспечивает высокое качество технических решений. Кроме того, открытость СУБД обеспечивает технологическую независимость и возможность обмена данными между разными научными коллективами. Кроме привычных функций систем управления базами данных, в SciDB присутствуют новые механизмы работы с данными, специально разработанные для анализа научных данных. Модель данных SciDB представляет из себя многомерные вложенные массивы, таким образом, ученым не надо моделировать свои данные как таблицы записей, что в свою очередь ведет к более простой формулировке аналитических запросов и на порядки увеличивает производительность системы. Так как в SciDB будут храниться данные, полученные с приборов, SciDB поддерживает погрешность измерений на уровне модели данных и языка запросов. Наконец, SciDB изначально разрабатывается для работы на большом спектре вычислительных систем, от переносного ПК до больших кластеров и суперкомпьютеров. Таким образом, ученые смогут работать с данными в одной среде, например, отлаживая аналитические алгоритмы на персональных компьютерах, используя небольшую выборку данных, а отлаженные запросы без изменений запускать на высокопроизводительных кластерах. Также, SciDB интегрируется с популярными вычислительными пакетами программного обеспечения, такими как R, Matlab и другие, что позволит ученым использовать уже готовые алгоритмы обработки данных при переходе на SciDB. Основные характеристики разрабатываемой СУБД:
Полноценная поддержка полного цикла работы с научными данными. Как упоминалось раньше, из-за недостатков существующих СУБД, большинство научных проектов, в которых встает задача анализа больших объемов данных, осуществляют обработку и анализ исходных данных вне системы управления базами данных. SciDB решает эту проблему, обеспечивая эффективное и удобное хранилище исходных данных и широкий набор инструментов для обработки и анализа данных. Версионное хранилище и учет всех преобразований данных позволяет пользователям SciDB получить точную информацию о версиях данных и о всех вычислениях, произведенных над исходными данными. Это позволяет эффективно устранять ошибки в алгоритмах переработки данных, отслеживать процесс переработки исходных данных при получении подозрительных результатов, и в точности повторять вычисления над исходными данными. При этом SciDB работает без каких-либо ограничений, как на суперкомпьютерном кластере, так и на персональном компьютере, что позволит ученым работать в одной и той же среде со своими данными. После переработки исходных данных, SciDB позволяет делиться полученными результатами, осуществлять выборки и выполнять аналитические запросы широкому кругу коллег, при этом соблюдая произвольную политику доступа как к данным, так и к полученным результатам.
|
||||
Последнее изменение этой страницы: 2017-02-08; просмотров: 109; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.145.73.167 (0.017 с.) |