Обобщенный сценарий использования открытых данных 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Обобщенный сценарий использования открытых данных



8.1.1. Интерпретация паспорта (документации) и метаданных

Набор данных малополезен без метаинформации, помогающей определить его формат и актуальность. Метаинформация набора открытых данных обычно состоит из паспорта открытых данных, их структуры, условий использования и дополнительной описательной информации. Для данных, публикуемых на государственных порталах, паспорт и структура обязательны. Открытые данные из других источников часто имеют те же метаданные, но в неорганизованной, разрозненной форме: например, их формат можно узнать из расширения файла.

На порталах на странице скачивания набора открытых данных сразу виден его паспорт. Это форма из 18 стандартных полей, описанная в методических рекомендациях по публикации ОД, последняя, третья, версия которых опубликована на портале data.gov.ru.

Паспорт доступен как в человекопонятном виде (таблица на сайте), так и в машиночитаемом, причём его формат регламентирован методическими рекомендациями. То есть, совокупность паспортов на портале — это ещё один набор открытых данных, который так же можно анализировать и визуализировать. Например, можно собрать список публикаторов данных и получить динамику их открытости.

Пройдёмся по полям паспорта. Есть регламентированные поля: например, идентификатор открытых данных, который состоит из ИНН органа, опубликовавшего данные, и названия набора на английском в одно слово. И поля в свободной форме: например, название набора и его описание. При этом несмотря на строгий формат, идентификатор может оказаться не уникальным, поскольку это не прописано явно в рекомендациях. А вот название набора обязательно должно быть уникальным в пределах организации — но не в пределах портала. Поле описания должно содержать развёрнутое описание, с упоминанием единиц изменения, систем координат и так далее. Это не должна быть копия названия — но к сожалению, у большинства наборов в поле описания именно название, даже там, где нужны эти самые единицы измерения.

Владелец набора ОД — государственный орган или коммерческая организация. Решать вопросы при использовании набора должно помогать ответственное лицо, чьи фамилия-имя, телефон и электронная почта входят в паспорт. Опять же, их редко указывают, поэтому главной точкой контакта остаётся владелец.

Допустимых форматов ОД всего пять:

это CSV (текстовый файл со значениями, разд. запятыми),

XML и JSON (структурированный текстовый файл),

RDF (формат описания связанных данных, обычно поверх XML).

Пятый формат — это программный интерфейс API: набор адресов в интернете и правил их построения, которые возвращают подмножества набора данных в одном из трёх форматов (чаще всего XML и JSON).

В списке нет ни растровых форматов (например, JPEG), ни проприетарных (например, документов Microsoft Word). К сожалению, это ограничение легко обойти: так, всего за пять минут я нашёл на портале data.gov.ru данные в формате MS Excel, которые выглядят как XML и имеют то же расширение. Но программная их обработка затруднена описанием формата на 7000 страниц и отсутствием структуры для самих данных.

Структура набора ОД задаётся отдельным файлом в форматах CSV, JSON или XSD/DTD. Формат структуры не всегда соотносится с форматом набора: например, описание полей для таблицы CSV может быть в формате JSON, как на портале открытых данных Москвы, или структура для RDF в CSV, как было у министерства культуры.

Хорошо составленная структура позволяет для каждого элемента структуры набора данных (для столбцов в случае CSV, иерархических элементов в случае XML и JSON) узнать название, описание, тип данных (строка, число, дата) и обязательность заполнения. При этом, для XML это задаётся в стандартизованном формате схемы XSD, или в чуть устаревшем DTD, и хорошо описанный XML можно обрабатывать полностью автоматически. Для JSON есть язык описания схемы, аналогичный XSD, но он в статусе черновика. То есть, для наборов в форматах CSV и JSON можно получить структуру в любом непредсказуемом виде: как просто перечисление полей, так и сложный иерархический документ с десятком параметров на каждое поле. В любом случае, без человеческой экспертизы не обойтись.

Также в паспорте есть три даты:

· первой публикации,

· последнего внесения изменений (с описанием изменений, которые все заполняют в форме «обновились данные»)

· дата актуальности набора. Это, другими словами, срок годности, и как в продуктовом магазине, первым делом внимание должно быть на него. Срок этот, конечно, весьма условен: для количества жителей он в реальности равен паре минут после подсчёта, — но он подсказывает, как часто данные обновляются, и обновляются ли вообще.

Кстати, пример дополнительной метаинформации — ссылка на сайт обладателя данных. Она бесценна: например, по курортам Железноводска на момент записи ролика информация на портале data.gov.ru устарела на год, а на сайте обладателя ежеквартально публикуют обновления.

Наконец, в конце паспорта собраны ссылки на предыдущие версии набора открытых данных и его структуры. Хроника изменения данных во времени, по сути, является ещё одним виртуальным набором, и если даже сами данные оказались неинтересны, динамика их изменения — количественная или качественная — может быть полезной.

Таким образом, при наличии паспорта один набор ОД превращается в три: плюс метаданные и плюс динамика. Именно поэтому метаинформация важна, и поэтому при использовании ОД нужно смотреть не только внутрь таблицы, но и на то, что ей сопутствует.

 



Поделиться:


Последнее изменение этой страницы: 2016-12-27; просмотров: 165; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.144.154.208 (0.004 с.)