Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Обобщенный сценарий использования открытых данныхСтр 1 из 8Следующая ⇒
8.1.1. Интерпретация паспорта (документации) и метаданных Набор данных малополезен без метаинформации, помогающей определить его формат и актуальность. Метаинформация набора открытых данных обычно состоит из паспорта открытых данных, их структуры, условий использования и дополнительной описательной информации. Для данных, публикуемых на государственных порталах, паспорт и структура обязательны. Открытые данные из других источников часто имеют те же метаданные, но в неорганизованной, разрозненной форме: например, их формат можно узнать из расширения файла. На порталах на странице скачивания набора открытых данных сразу виден его паспорт. Это форма из 18 стандартных полей, описанная в методических рекомендациях по публикации ОД, последняя, третья, версия которых опубликована на портале data.gov.ru. Паспорт доступен как в человекопонятном виде (таблица на сайте), так и в машиночитаемом, причём его формат регламентирован методическими рекомендациями. То есть, совокупность паспортов на портале — это ещё один набор открытых данных, который так же можно анализировать и визуализировать. Например, можно собрать список публикаторов данных и получить динамику их открытости. Пройдёмся по полям паспорта. Есть регламентированные поля: например, идентификатор открытых данных, который состоит из ИНН органа, опубликовавшего данные, и названия набора на английском в одно слово. И поля в свободной форме: например, название набора и его описание. При этом несмотря на строгий формат, идентификатор может оказаться не уникальным, поскольку это не прописано явно в рекомендациях. А вот название набора обязательно должно быть уникальным в пределах организации — но не в пределах портала. Поле описания должно содержать развёрнутое описание, с упоминанием единиц изменения, систем координат и так далее. Это не должна быть копия названия — но к сожалению, у большинства наборов в поле описания именно название, даже там, где нужны эти самые единицы измерения. Владелец набора ОД — государственный орган или коммерческая организация. Решать вопросы при использовании набора должно помогать ответственное лицо, чьи фамилия-имя, телефон и электронная почта входят в паспорт. Опять же, их редко указывают, поэтому главной точкой контакта остаётся владелец.
Допустимых форматов ОД всего пять: это CSV (текстовый файл со значениями, разд. запятыми), XML и JSON (структурированный текстовый файл), RDF (формат описания связанных данных, обычно поверх XML). Пятый формат — это программный интерфейс API: набор адресов в интернете и правил их построения, которые возвращают подмножества набора данных в одном из трёх форматов (чаще всего XML и JSON). В списке нет ни растровых форматов (например, JPEG), ни проприетарных (например, документов Microsoft Word). К сожалению, это ограничение легко обойти: так, всего за пять минут я нашёл на портале data.gov.ru данные в формате MS Excel, которые выглядят как XML и имеют то же расширение. Но программная их обработка затруднена описанием формата на 7000 страниц и отсутствием структуры для самих данных. Структура набора ОД задаётся отдельным файлом в форматах CSV, JSON или XSD/DTD. Формат структуры не всегда соотносится с форматом набора: например, описание полей для таблицы CSV может быть в формате JSON, как на портале открытых данных Москвы, или структура для RDF в CSV, как было у министерства культуры. Хорошо составленная структура позволяет для каждого элемента структуры набора данных (для столбцов в случае CSV, иерархических элементов в случае XML и JSON) узнать название, описание, тип данных (строка, число, дата) и обязательность заполнения. При этом, для XML это задаётся в стандартизованном формате схемы XSD, или в чуть устаревшем DTD, и хорошо описанный XML можно обрабатывать полностью автоматически. Для JSON есть язык описания схемы, аналогичный XSD, но он в статусе черновика. То есть, для наборов в форматах CSV и JSON можно получить структуру в любом непредсказуемом виде: как просто перечисление полей, так и сложный иерархический документ с десятком параметров на каждое поле. В любом случае, без человеческой экспертизы не обойтись. Также в паспорте есть три даты: · первой публикации, · последнего внесения изменений (с описанием изменений, которые все заполняют в форме «обновились данные») · дата актуальности набора. Это, другими словами, срок годности, и как в продуктовом магазине, первым делом внимание должно быть на него. Срок этот, конечно, весьма условен: для количества жителей он в реальности равен паре минут после подсчёта, — но он подсказывает, как часто данные обновляются, и обновляются ли вообще.
Кстати, пример дополнительной метаинформации — ссылка на сайт обладателя данных. Она бесценна: например, по курортам Железноводска на момент записи ролика информация на портале data.gov.ru устарела на год, а на сайте обладателя ежеквартально публикуют обновления. Наконец, в конце паспорта собраны ссылки на предыдущие версии набора открытых данных и его структуры. Хроника изменения данных во времени, по сути, является ещё одним виртуальным набором, и если даже сами данные оказались неинтересны, динамика их изменения — количественная или качественная — может быть полезной. Таким образом, при наличии паспорта один набор ОД превращается в три: плюс метаданные и плюс динамика. Именно поэтому метаинформация важна, и поэтому при использовании ОД нужно смотреть не только внутрь таблицы, но и на то, что ей сопутствует.
|
||||||
Последнее изменение этой страницы: 2016-12-27; просмотров: 165; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.144.154.208 (0.004 с.) |