Раскрытие пространства данных 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Раскрытие пространства данных



Ответственным компонентом построения пространства данных является раскрытие его участников и связей между ними. Очень распространенная проблема сегодняшних крупных предприятий состоит в том, что они даже не знают, какие источники данных имеются в организации. Окончательной целью раскрытия пространства данных является обнаружение участников пространства данных, создание связей между ними и повышение точности существующих связей между участниками. Основными компонентами системы раскрытия пространства данных являются (1) обнаружение участников в организации; (2) полуавтоматическое средство для кластеризации и нахождения связей между участниками и (3) средство для создания более точных связей между участниками (в пределе, отображений схем).

Повторное использование человеческого труда

Одним из ключевых свойств пространств данных является то, что семантическая интеграция развивается во времени и только там, где требуется. Наиболее дефицитным ресурсом, который можно использовать для семантической интеграции, является человеческий труд. Поэтому важно, чтобы DSSP знали, как повторно использовать работу, проделанную людьми, обобщать ее результаты и повторно их использовать для решения других задач. В сообществе управления данными уже разработаны методы повторного использования работы людей при создании семантических отображений между источниками данных, но это только первый шаг. Другие примеры человеческого труда, результаты которого можно повторно использовать, включают аннотации (например, в созданной вручную аннотации связываются два элемента данных из разных источниках), временные коллекции данных, создаваемые для решения конкретной задачи (называемые цифровыми рабочими средами), запросы над данными (позволяющие вывести некоторые связи, наличие которых невозможно установить каким-либо другим образом) и операции над данными (например, взятие значений из одного столбца электронной таблицы и их вставка в столбец другой таблицы). Задача состоит в том, что предыдущая работа должна быть запомнена в системе, и ее результаты следует использовать при попытках создания дополнительных связей между участниками пространства данных или ответов на запросы к этому пространству. Мы ожидаем, что здесь будут полезными методы машинного обучения (Machine Learning).

Хранение и индексирование пространств данных

Ключевые проблемы, возникающие при создании компонента DSSP локального хранения и индексации, связаны с неоднородностью индекса. Индекс должен единообразно индексировать все возможные элементы данных, являются ли они словами, встречающимися в тексте, значениями, встречающимися в базе данных, или элементом схемы одного из источников. Кроме того, в индексе должна предусматриваться возможность наличия нескольких способов ссылки на один и тот же объект реального мира. (Заметим, что пока исследования в области согласования ссылок фокусируются на определении ситуаций, когда несколько ссылок относятся к одному и тому же объекту.)

Сложно будет поддерживать индекс в актуальном состоянии, особенно для участников, не имеющих механизмов извещения об обновлениях. Кроме того, несколько интересных проблем автоматической настройки следуют из потребности решать, какие части пространства данных следует кэшировать в локальном хранилище, и какие индексы следует создавать и поддерживать.

Гарантии корректности

Основным преимуществом использования DSSP для доступа к разнородным источникам данных является возможность делать это с некоторой уверенностью в качестве ответов на запросы и в стабильности результатов операций обновления. При наличии большого разброса в уровнях административной близости и семантической интеграции (см. п.1.1) источников данных в пространстве данных, традиционные гарантии, предоставляемые СУБД по поводу ответов на запросы и транзакционных обновлений, часто будут просто недостижимы. Исследовательский вопрос состоит в том, как определить реализуемые, практичные и осмысленные уровни гарантий обслуживания, которые могут быть обеспечены в области пространств данных. Для решения этой проблемы потребуется переосмыслить многие фундаментальные принципы управления данными и ввести новые абстракции. Также потребуются инструментальные средства, помогающие разработчикам и пользователям понимать неустранимые компромиссы в терминах качества, эффективности и контроля.

Теоретические основы

Имеется несколько вопросов относительно теоретических обоснований пространств данных. Ясно, что требуется формальное понимание различных моделей данных, связей и ответов на запросы в пространстве данных. Если копать глубже, то в традиционной теории баз данных одним из основных вопросов является выразительная мощность языка запросов. В контексте пространств данных аналогичный вопрос будет относиться к выразительной мощности языка запросов над множеством участников с использованием определенных свойств связей, специфицированных между ними. То есть вопрос состоит в том, какие запросы могут быть выражены над пространством данных? Аналогично, как мы можем распознать семантически эквивалентные, но синтаксически различные способы ответов на запросы?

Перспективы

В завершение нашего обсуждения, коротко обсудим несколько важных перспектив пространств данных.

Связь с другими областями

Разработка DSSP основывается на традиционных сильных сторонах нашей области, и будет вовлекать существенные расширения методов управления данными, но важно также применять методы из нескольких других областей. Здесь мы упомянем некоторые из них. Поскольку мы пытаемся придать смысл неоднородным коллекциями в пространстве данных, два преимущества можно извлечь из последних работ в области представления знаний (и Semantic Web): простые, но полезные формализмы для представления онтологий и понятие URI (Uniform Resource Identifiers) как механизма ссылок на глобальные константы, относительно которых имеется некоторое соглашение между несколькими поставщиками данных. Аналогично, как говорилось ранее, некоторые операции над пространствами данных по своему существу приводят к некоторой неопределенности данных, их происхождения, корректности и полноты. В сообществе искусственного интеллекта разработано несколько формализмов для моделирования неопределенности, но они обладают слишком большой выразительностью. Проблема состоит в нахождении моделей, которые были бы полезными, но простыми, понятными и масштабируемыми.

Естественно, большую часть данных в пространстве данных будет составлять неструктурированный текст. Поэтому важную роль при построении DSSP будут играть методы информационного поиска (Information Retrieval). Важно то, что в сложном пространстве данных пользователи часто не знают, что именно они ищут, и как интерпретировать результаты. Поэтому важно, чтобы они могли эффективно визуализировать результаты поиска и запросов для улучшения направленности своих исследований пространства данных. Здесь пригодятся современные методы из области визуализации информации (Information Visualization).



Поделиться:


Последнее изменение этой страницы: 2017-02-07; просмотров: 112; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.117.183.150 (0.008 с.)