![]() Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву ![]() Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Обобщенный сценарий использования открытых данныхСодержание книги
Поиск на нашем сайте
8.1.1. Интерпретация паспорта (документации) и метаданных Набор данных малополезен без метаинформации, помогающей определить его формат и актуальность. Метаинформация набора открытых данных обычно состоит из паспорта открытых данных, их структуры, условий использования и дополнительной описательной информации. Для данных, публикуемых на государственных порталах, паспорт и структура обязательны. Открытые данные из других источников часто имеют те же метаданные, но в неорганизованной, разрозненной форме: например, их формат можно узнать из расширения файла. На порталах на странице скачивания набора открытых данных сразу виден его паспорт. Это форма из 18 стандартных полей, описанная в методических рекомендациях по публикации ОД, последняя, третья, версия которых опубликована на портале data.gov.ru. Паспорт доступен как в человекопонятном виде (таблица на сайте), так и в машиночитаемом, причём его формат регламентирован методическими рекомендациями. То есть, совокупность паспортов на портале — это ещё один набор открытых данных, который так же можно анализировать и визуализировать. Например, можно собрать список публикаторов данных и получить динамику их открытости. Пройдёмся по полям паспорта. Есть регламентированные поля: например, идентификатор открытых данных, который состоит из ИНН органа, опубликовавшего данные, и названия набора на английском в одно слово. И поля в свободной форме: например, название набора и его описание. При этом несмотря на строгий формат, идентификатор может оказаться не уникальным, поскольку это не прописано явно в рекомендациях. А вот название набора обязательно должно быть уникальным в пределах организации — но не в пределах портала. Поле описания должно содержать развёрнутое описание, с упоминанием единиц изменения, систем координат и так далее. Это не должна быть копия названия — но к сожалению, у большинства наборов в поле описания именно название, даже там, где нужны эти самые единицы измерения. Владелец набора ОД — государственный орган или коммерческая организация. Решать вопросы при использовании набора должно помогать ответственное лицо, чьи фамилия-имя, телефон и электронная почта входят в паспорт. Опять же, их редко указывают, поэтому главной точкой контакта остаётся владелец.
Допустимых форматов ОД всего пять: это CSV (текстовый файл со значениями, разд. запятыми), XML и JSON (структурированный текстовый файл), RDF (формат описания связанных данных, обычно поверх XML). Пятый формат — это программный интерфейс API: набор адресов в интернете и правил их построения, которые возвращают подмножества набора данных в одном из трёх форматов (чаще всего XML и JSON). В списке нет ни растровых форматов (например, JPEG), ни проприетарных (например, документов Microsoft Word). К сожалению, это ограничение легко обойти: так, всего за пять минут я нашёл на портале data.gov.ru данные в формате MS Excel, которые выглядят как XML и имеют то же расширение. Но программная их обработка затруднена описанием формата на 7000 страниц и отсутствием структуры для самих данных. Структура набора ОД задаётся отдельным файлом в форматах CSV, JSON или XSD/DTD. Формат структуры не всегда соотносится с форматом набора: например, описание полей для таблицы CSV может быть в формате JSON, как на портале открытых данных Москвы, или структура для RDF в CSV, как было у министерства культуры. Хорошо составленная структура позволяет для каждого элемента структуры набора данных (для столбцов в случае CSV, иерархических элементов в случае XML и JSON) узнать название, описание, тип данных (строка, число, дата) и обязательность заполнения. При этом, для XML это задаётся в стандартизованном формате схемы XSD, или в чуть устаревшем DTD, и хорошо описанный XML можно обрабатывать полностью автоматически. Для JSON есть язык описания схемы, аналогичный XSD, но он в статусе черновика. То есть, для наборов в форматах CSV и JSON можно получить структуру в любом непредсказуемом виде: как просто перечисление полей, так и сложный иерархический документ с десятком параметров на каждое поле. В любом случае, без человеческой экспертизы не обойтись. Также в паспорте есть три даты: · первой публикации, · последнего внесения изменений (с описанием изменений, которые все заполняют в форме «обновились данные») · дата актуальности набора. Это, другими словами, срок годности, и как в продуктовом магазине, первым делом внимание должно быть на него. Срок этот, конечно, весьма условен: для количества жителей он в реальности равен паре минут после подсчёта, — но он подсказывает, как часто данные обновляются, и обновляются ли вообще.
Кстати, пример дополнительной метаинформации — ссылка на сайт обладателя данных. Она бесценна: например, по курортам Железноводска на момент записи ролика информация на портале data.gov.ru устарела на год, а на сайте обладателя ежеквартально публикуют обновления. Наконец, в конце паспорта собраны ссылки на предыдущие версии набора открытых данных и его структуры. Хроника изменения данных во времени, по сути, является ещё одним виртуальным набором, и если даже сами данные оказались неинтересны, динамика их изменения — количественная или качественная — может быть полезной. Таким образом, при наличии паспорта один набор ОД превращается в три: плюс метаданные и плюс динамика. Именно поэтому метаинформация важна, и поэтому при использовании ОД нужно смотреть не только внутрь таблицы, но и на то, что ей сопутствует.
|
|||||||||||||||||||||
Последнее изменение этой страницы: 2016-12-27; просмотров: 201; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.222.169.35 (0.008 с.) |