Сортировка и структурирование данных 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Сортировка и структурирование данных



 

Большинство собранных медицинских данных являются весьма неоднородными по характеру, имеют разнообразную форму и вид. Наименьшей единицей измерения данных является байт (он равняется 8 битам). Одним байтом, как правило, кодируется один символ текстовой информации. Два логически взаимосвязанных байта составляют слово. Условно 1000 байт составляет 1 Кбайт, 1000 Кбайт – 1 Мбайт, 1000 Мбайт – 1 Гбайт, 1000 Гбайт – 1 Тбайт.

При организации упорядоченных структур медицинских данных пользователь компьютерных технологий должен иметь представление об ориентировочном объеме этих данных. Так, одна страница машинописного текста может иметь объем в зависимости от используемого формата от 20 до 50 Кбайт. Значительный объем имеют медицинские диагностические изображения. В зависимости от размеров матрицы и ее строения изображение органов человека, например, на радионуклидной сцинтиграмме будет иметь объем несколько сот Кбайт, оцифрованное рентгеновское изображение – до 1 Гбайта, приблизительно такой же объем данных будут иметь компьютерные рентгеновские или магнитно-резонансные томограммы. А вот уже первично-цифровые рентгенограммы грудной клетки, кровеносных сосудов, молочных желез по своему объему могут достигать 50-100 Мбайт.

В качестве единицы хранения данных в информатике принят файл. Файл – это определенное количество данных, хранящихся в памяти компьютера и имеющих уникальное собственное имя. В медицинской информатике файлом могут являться страницы текста (истории болезни, отчеты, отдельные записи), визуальные картины (гистологический срез, ультразвуковая сканограмма, рентгенограмма). Файлами могут быть учебные или иллюстративные видеофильмы, звуковой ряд (музыка, речь, зарегистрированные тоны сердца, сосудистые шумы).

Уникальность имени файла очевидна, ибо это обеспечивает единственно правильный путь к нему доступа. Хранение файлов осуществляется в иерархической структуре, которая называется файловой структурой. На вершине файловой структуры указывается имя магнитного носителя. Далее файлы группируются в каталоги, или папки. Внутри каждой папки (каталога) могут быть созданы вложенные папки (каталоги). Характерным примером такой структуры в медицинской документации может служить электронная история болезни.

Полное имя файла включает в себя наряду с собственным именем файла также и путь доступа к нему. Например:

С:\заболевание\инфекционные\легкие\пневмония.doc.

В этом примере: «С» – имя носителя (диска), «заболевание» – адрес коренного каталога, «инфекционные\легкие» – вложенные в каталог папки, «пневмония» – имя файла (страницы), «doc» – расширение файла. Существуют также другие расширения, которые определяет его тип: exe, com – программы, txt, doc – текстовые файлы (документы), bmp, gif, jpg – графические файлы, avi – видеофайлы. Необходимо добавить, что только расширения .exe и .com служат признаками исполняемости указанных файлов. Для работы с файлами, имеющими другие расширения, на компьютере пользователя должны быть установлены специальные программные служебные модули.

Структурирование медицинских данных – это упорядочение массива данных по заранее заданному алгоритму. Существует три основных типа структурирования данных: линейный, табличный и иерархический. Для каждого из вышеуказанного типа характерны свой принцип разделения данных и система адресации элементов.

Линейные, или списочные, структуры данных состоят из простого перечня элементов данных. Подобную структуру, например, имеет список больных, находящихся в отделении. Чаще всего этот список представляет собою журнал, где каждый пациент зарегистрирован построчно. При этом разделителем элементов является конец каждой строки. Например:

1. Сидоров П. Е.

2. Куликов И. С.

3. Семенов В. П.

и т.д.

В таких случаях нахождение нужного элемента решается очень просто: он определяется по номеру строки, например, №2 – Куликов И.С.

Разделителем элементов может быть и какой-либо специальный символ, например, символ ^. Тогда линейная структур данных приобретет следующий вид: Сидоров П.Е. ^ Куликов И.С. ^ Семенов В.П ^ и т.д. В такой структуре нужный элемент с номером n разыскивается по формуле n-1, где n – число разделителей, начиная с первого зарегистрированного в строке. Заканчивается искомый элемент тогда, когда будет зарегистрирован следующий за искомым элементом разделитель.

Табличные, или матричные, структуры данных представляют собою таблицы, разбитые на ячейки горизонтальными и вертикальными линиями. Совокупность ячеек по горизонтали называется строкой, по вертикали – столбцом. Каждая ячейка содержит отдельный элемент данных (ячейка может быть и пустой). Пример такой структуры данных приведен в табл. 1.3.

Т а б л и ц а 1.3

Табличная (матричная) структура данных

Ф.И.О. пациента Диагноз заболевания Температура тела, оС Рост пациента, см Масса тела пациента, кг
Сидоров П.Е Холецистит 37,7   87,3
Куликов И.С. Панкреатит 38,4   66.7
Семенов В.П. Пневмония 39,1   96,6

 

Другим примером табличной структуризации данных является офисное приложение MS Excel, которое часто используется при обработке медицинской информации.

Адресация элементов в таблицах осуществляется двумя параметрами – номерами (или буквенными указателями) столбца и строки, например, А,7; В,5. В медицинской практике иногда приходится иметь дело с таблицами, все ячейки которых имеют одинаковую длину. Такие таблицы называются матрицами. С матрицами сталкиваются, например, при тестировании биосубстратов, определении диагностической эффективности различных методов исследования. Недостатком линейной и табличной структур данных является неудобство их развития. При добавлении какого-либо нового элемента внутри этих структур будет изменяться адресация всех других элементов.

Ниже приведен пример (рис.1.2) иерархической структуры данных. Она используется при сложной зависимости отдельных элементов, нерегулярности данных, а также при выполнении классификационных схем. Этот принцип лежит также в основе построения файловой структуры хранения данных в компьютерах.

 

 
 

 


Рис.1.2. Иерархическая структура данных

 

Адрес элемента в иерархической структуре определяется путем доступа (маршрута), который начинается у вершины структуры и оканчивается в искомом элементе. Так, например, в приведенной схеме доступ к митральным порокам сердца осуществляется по маршруту: заболевания сердца® приобретенные пороки® митральные пороки.

Иногда медицинские данные могут представляться более упрощенно – в дихотомическом виде (рис.1.3). В дихотомической схеме построения данных путь доступа к искомому элементу указывать проще и короче. Его можно обозначить как серию поворотов маршрута налево (0) или направо (1) и отобразить в виде двоичной записи. Например, в указанной схеме митральные пороки у взрослых могут быть найдены по маршруту 01.

 

Рис.1.3. Дихотомическая система группировки данных

 

Преимуществом иерархической и дихотомической структур данных, по сравнению с табличными и списочными методами, является более простой способ развития схемы: при этом необходимо лишь удлинить запись маршрута.

 

1.3.8. Преобразование данных

В медицинской практике данные могут сохраняться в различном виде – аналоговом или цифровом, на бумажных или магнитных носителях. Это касается всей медицинской документации, результатов медико-биологических исследований, данных клинического и инструментального обследований пациента. Необходимость в преобразовании данных возникает при изменении формы хранения данных, подготовке их для компьютерной и статистической обработки, а также при их транспортировке.

Часто медицинский работник сталкивается с необходимостью перевести данные с бумажных на магнитные носители, т.е. ввести их в память компьютера. Письменный или машинописный текст можно ввести в компьютер с помощью сканера или цифровой камеры и получить таким образом факсимильную репродукцию документа. В ряде случаев содержание документа может вводиться в компьютер без промежуточного бумажного носителя, путем непосредственного набора на клавиатуре компьютера (заполнения форм). Такой способ представления данных носит название электронного документа. Преимуществом электронного документа является возможность обработки его средствами офисных приложений, в частности текстовым редактором, а также доступность для шифровки содержащихся в нем данных.

При необходимости транспортировать цифровые данные, полученные компьютерным путем, по телефонным линиям связи, которые ориентированы на передачу аналоговых сигналов, служат специальные приспособления – модемы. С их же помощью выполняются также и обратный процесс – перевод полученного аналогового сообщения в цифровой вид.

Значительное распространение в медицинской практике получили аналого-цифровые преобразователи, или сокращенно АЦП. Они обеспечивают преобразование аналогового сигнала, получаемого с различных датчиков биологических функций человека (анализаторов биопотенциалов – ЭКГ, энцефалография, инфракрасные излучения, электрическое сопротивление кожи и др.), в цифровой вид, необходимый для компьютерной обработки. Данное направление особенно широко применяется при мониторинге биологических функций. Значительное распространение АЦП получили в преобразовании изображения из аналогового в цифровой. Это дает хороший эффект при исследовании органов человека средствами лучевой диагностики (рентгенологической, радионуклидной, ультразвуковой), а также при лапароскопии и эндоскопии. Для обратного преобразования данных – из цифровой в аналоговую форму служат приборы обратного действия - цифроаналоговые преобразователи (ЦАП).

При необходимости получить медицинские данные (документы, медицинские диагностические изображения), хранящиеся в магнитной памяти компьютера, на твердых носителях (на бумаге или пленке) используются принтеры, преимущественно лазерные, а также специальные фотокамеры (лазерные, инфракрасные, работающие в зоне видимой части светового спектра).

 

 

Сжатие и архивация данных

 

Общеизвестна достаточно высокая стоимость хранения данных на магнитных носителях и особенно передачи их по линиям связи, поэтому существует необходимость, по-возможности, уменьшать их объем, разумеется, не жертвуя при этом их качеством.

В принципе любая сумма данных, циркулирующих в медицине, является в той или иной степени избыточной (и очень редко недостаточной). Степень этой избыточности зависит от вида данных. Так, видеофильм, получаемый, например, при рентгеноконтрастном исследовании сердца, или аускультативный звуковой ряд имеют степень избыточности в несколько раз большую, чем графические данные (рентгенограмма контрастированного сердца при том же исследовании). В свою очередь, избыточность графических данных значительно превышает таковую у текстовых данных. Интересен тот факт, что русский текст более избыточен, чем, например, английский или немецкий.

В медицинской практике избыточность данных используется для повышения качества информации. На этом принципе строятся многие статистические выкладки. Увеличение количества данных улучшает качество восприятия их человеком: видеофильмы, звук. Одна при хранении и передаче данных по каналам связи величина их объема приобретает критическое значение. Поэтому в информационных технологиях широкое распространение получили методы сжатия данных. Близкий по содержанию к нему термин – архивация данных. Осуществляют эти операции с данными с помощью программ, называемых архиваторами.

 

Выделяют два варианта сжатия (архивации):

1. Сжатие (архивация) файлов и папок, которое применяется при подготовке данных к хранению, особенно на переносных магнитных носителях, и транспортировке их по электронным каналам связи.

2. Сжатие (архивация) жестких дисков используется в целях повышения применения их рабочего пространства.

Обе эти процедуры могут выполняться двумя способами: 1) с частичной потерей данных при последующем разархивировании папок и файлов, 2) с полным восстановлением содержания данных при разархивировании. Первый способ позволяет сжать исходную совокупность данных в десятки раз. Он применяется при работе с данными, для которых потеря их части существенно не отражается на их использовании и восприятии: медицинские изображения, рисунки, мультимедийные комплексы, звукозапись. Следует, однако, отметить, что сжатие медицинских изображений (рентгенограмм, томограмм и др.) более чем в 5 раз приводит к некоторым искажениям, которые нужно учитывать в практической работе медицинского учреждения. Второй способ более щадящий: совокупность данных сжимается всего в несколько раз, иногда всего в 1,5–2 раза. Это сжатие применяется для тех данных, при разархивировании которых утрата даже небольшой их доли существенно отражается на их содержании. К таким данным относятся все текстовые документы, базы данных, программы.

Основными программами для сжатия данных с потерей являются: для графических данных – .JPG, для видеофильмов – .MPG, для звукозаписи – .MP3. Характерными программами (точнее форматами) для сжатия данных без их потери при разархивировании являются: для графических данных – GIF, TIF,.PCX, для видеофильмов - .AVI, для любых типов данных – .ARJ,.ZIP,.RAR. При разархивировании (распаковке) данных применяют программы .PKUNZIP.EXE,.UNRAR.EXE и некоторые другие.

Следует учесть, что если сжатые данные передаются другому лицу – по каналам связи или на магнитных носителях, у него обязательно должна быть программа по адекватному их разархивированию. Если таковой у получателя нет, отправляющий должен прикрепить к отправляемому архиву короткий специальный программный модуль. Такие архивы данных носят названия самораспаковывающихся. Их наименование заканчивается расширением .EXE.

Необходимо отметить, что современное программное обеспечение позволяет не только осуществлять архивацию и разархивацию файлов и папок, но помогает также выполнять ряд дополнительных функций. С его помощью можно осуществлять тестирование архивов, восстановление поврежденных архивов, извлечение одного или нескольких требующихся файлов из архива и добавление в него новых, создание распределенных архивов на нескольких переносных носителях или на жестком диске (например, программы .WINZIP,.WINRAR). Такие программные средства носят название диспетчеров архивов.

Защита данных

 

При хранении медицинских данных на магнитных носителях, особенно когда они циркулируют по локальным внутрибольничным сетям и уж тем более, когда они передаются по Интернету, возникает необходимость защиты данных от несанкционированного доступа. Нежелательность подобного постороннего доступа к больничным документам очевидна. Это не только медицинская проблема сохранения врачебной тайны, но в значительной степени проблема юридическая и финансовая.

Наиболее просто защита данных в архивах осуществляется с помощью паролей (password), запрашиваемых при попытке запустить требуемый файл. Иногда дополнительно запрашивается имя пользователя (login) для авторизации доступа к искомым данным. Следует учесть, что в принципе любой пароль может быть вскрыт путем перебора. Поэтому защита паролем применяется к данным, не имеющим особой важности. И, тем не менее, он достаточно широко распространен в медицинских компьютерных технологиях. Нелишне отметить, что стойкость пароля возрастает: во-первых, с увеличением количества знаков, составляющих пароль, во-вторых, с введением в него знаков препинания или специальных символов, и, в-третьих, при использовании русского алфавита.

Более серьезный способ уберечь данные от несанкционированного доступа – использовать метод шифрования (т.е. применить к документу ключ). Существует специальная наука о шифровании информации – криптография. При использовании ключа данные уже не могут быть восстановлены с помощью стандартных программных средств. Лишь человек, владеющий ключом, может прочесть нужный ему документ. При передаче данных по корпоративным сетям или через Интернет получатель документа, оба пользователя на обоих концах цепочки – и отправитель, и получатель, естественно, должны иметь эти ключи.

При передачи данных по коммуникационным сетям используют два вида шифрования: симметричный и асимметричный. В первом случае оба пользователя применяют для криптографического процесса один и тот же ключ. Неудобство такого метода очевидно: отправитель должен каким-то образом передать шифровальный ключ, что представляет собою трудную проблему.

При асимметричном шифровании используют два разных ключа: открытый (public – публичный) и закрытый (private – личный). Ключи устроены таким образом, что документ, зашифрованный одним ключом, можно расшифровать только другим ключом. Каждый участник обмена данными имеет в своем распоряжении одну пару ключей – открытый и закрытый. Идея такого подхода состоит в том, что обменивающиеся данными люди широко распространяют свой открытый ключ (например, публикуя его на сервере), но надежно сохраняют свой личный ключ. Криптостойкость ключей определяется их размерами (в битах). Чем больше бит содержит ключ, тем труднее он поддается взлому. Современные ключи имеют размерность 64–128 бит и выше. Вместе с тем более длинные ключи имеют более сложные алгоритмы дешифровки и требуют больших аппаратных ресурсов. Например, отправитель данных (первый пользователь) шифрует свое сообщение открытым ключом получателя (второго пользователя). Второй пользователь дешифрует полученное сообщение своим личным ключом. Обратное сообщение второй пользователь шифрует своим закрытым ключом, которое первый пользователь дешифрует открытым ключом второго пользователя. Таким образом, первый пользователь абсолютно уверен в том, что его послание получено нужным адресатом и никем иным. Асимметричное шифрование получило особенно широкое распространение в телемедицине, банковском деле, при обмене данными между коммерческими организациями.

При обмене медицинскими документами, имеющими важное юридическое значение, актуальным вопросом становятся авторизация отправителя и удостоверение в подлинности полученного документа. Осуществляется это путем электронной подписи, положение о которой регламентируется Законом РФ «Об электронной цифровой подписи» от 10.01.2002 №1-ФЗ. Цифровая подпись основана на асимметричной процедуре шифрования и, следовательно, она обеспечивается такой же парой ключей – открытым (публичным) и личным (закрытым) ключами. Так, например, если лечебное учреждение отправляет банку поручение на работу со своим счетом, оно кодируется публичным ключом банка, а личная подпись – личным ключом руководителя учреждения. Банк расшифровывает поручение своим закрытым ключом, а подпись руководителя – его публичным ключом. Применительно в телемедицинской проблеме передачи данных через Всемирную глобальную сеть или внутри корпоративной закрытой медицинской сети процедура работы с зашифрованными документами выглядит следующим образом (рис.1.4).

Все ключи пользователей подлежат обязательной сертификации. Осуществляет это специальное подразделение лечебного учреждения, которое состоит из электронного реестра сертификатов (база данных с открытыми ключами пользователей), бюро регистрации сотрудников и, наконец, удостоверяющий центр, в котором выполняется авторизация пользователей. В физическом плане электронный ключ представляет собою машинный магнитный носитель (дискета, флэш-карта), который содержит в себе программы чтения-записи и генерации ключей, шифрования и цифровой подписи документа.



Поделиться:


Последнее изменение этой страницы: 2016-09-20; просмотров: 866; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.191.234.62 (0.038 с.)