Особенности медицинских данных 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Особенности медицинских данных



Первым шагом, предваряющим собственно статистический анализ, является исследование типа данных, основными из кото­рых являются количественные и качественные.

Качественные данные подразделяются на порядковые, или ран­говые (например, тяжесть проявлений заболевания), и классифи­кационные, или номинальные (например, перенесенные заболе­вания, классы ксенобиотиков). Процедура ранжирования данных, т.е. упорядочивания их в соответствии с числовыми градациями, проводится в возрастающем, либо в нисходящем ряду значений. Число градаций, характеризующих данные, не должно быть из­лишне большим, так как в этом случае увеличивается элемент субъективности.

При обработке данных часто приходится переводить качествен­ные данные в количественные. В свою очередь количественные данные могут подвергаться квантованию в зависимости от постав­ленной задачи (для выделения интервалов, соответствующих раз­личным состояниям, например температура нормальная, субфебрильная, высокая и др.), и тогда они становятся аналогичны ка­чественным шкалированным.

В случае пропусков информации (отсутствующие данные) нельзя использовать так называемое «обнуление», т.е. приписы­вать кодовое число нуль, так как это в большинстве случаев со­впадает с кодированием нормы по данному признаку. Также ме­тодически неверно использовать среднее по классу, особенно при малых выборках, так как классы далеко не всегда являются одно­родными (гомогенными). Предпочтительно исключать такие на­блюдения или кодировать пропущенные данные специальным знаком (числом) при условии, что «обход» таких «значений» пред­усмотрен в программе, т.е. обработка проводится только по изве­стным значениям данных.

В клинической и экспериментальной медицинской практике исследователь реже употребляет слово «данные», но чаще — «па­раметры» или «переменные», ставя между этими понятиями знак равенства.

Нужно отличать понятие «переменная» от понятия «признак»: температура тела — параметр (переменная), температура тела бо­лее 37° С — признак (человек нездоров). Переменные бывают непрерывными и дискретными, в том числе, дихотомическими (принимающими одно из двух значений, например «здоров — болен»).

В клинической практике переменные часто описываются шка­лами. Как было отмечено ранее, шкалы бывают качественными (сознание ясное, спутанное и т.д.), классификационными (цвет кожных покровов — розовые, синюшные, желтушные, характер хрипов в легких — сухие, влажные мелкопузырчатые, крупнопу­зырчатые и т.д.) и количественные, в том числе интервальные, порядковые, балльные.

Интервальные переменные (например, ударный объем, мл: 50 — 80, менее 50, более 80) полезно использовать для решения конк­ретной клинической задачи. Их также можно переводить в поряд­ковые (на основе построения шкал), но лучше (при наличии воз­можности и если это не противоречит смыслу решаемой задачи) использовать собственно количественные значения переменной.

Балльные шкалы получают по-разному: после предваритель­ной математической обработки, на основе чисто клинической оценки параметра, комбинированным способом.

Как правило, затруднения в отнесении параметров к количе­ственным или качественным не возникают. Гораздо сложнее при переводе качественных данных в количественные, когда реально нужно определить «вес» градаций качественного параметра. Не всегда правомерен вариант «в лоб»: 1, 2, 3, 4 и т.д. (но не более девяти значений, исходя из известного закона в области психоло­гии, определяющего пределы способности человека к переработ­ке информации). Часто для получения реальных «весов» парамет­ров необходимо проводить дополнительное исследование.

Особым типом данных являются даты. Бывает, что по смыслу работы с ними приходится производить действия (например, оп­ределять, сколько времени прошло между соседними исследова­ниями), поэтому нужно следить, чтобы они записывались в опре­деленном формате.

Важен вопрос о точности измерения и представления меди­цинских параметров. Понятно, что точность исходных данных оп­ределяется точностью метода и(или) прибора, с помощью кото­рых осуществляется измерение.

В описательной статистике при работе с медицинскими дан­ными необходимо поступать следующим образом: с одной сторо­ны, не допускать потерь информации исходно — использовать данные с той точностью, которая имеет место при измерении; с другой — при представлении результатов статистической обра­ботки данных не приводить избыточной информации — в боль­шинстве случаев достаточно той точности представления инфор­мации, что и в исходных данных, либо использования одного Дополнительного разряда. Обычно при предъявлении числовых данных указываются два знака после запятой. Исключением являются случаи представле­ния констант и весовых коэффициентов функций, полученных в результате многомерного анализа (например, дискриминантного); тогда в результирующих таблицах обязательно должны приводиться все цифры после запятой.

Следует остановиться на еще одной особенности медицинских данных.

В математической статистике выводы основаны на допуще­нии: то, что верно на случайной выборке, верно и для генераль­ной совокупности, из которой она получена.

Генеральная совокупность — это набор данных, описывающих нечто всеобъемлющее, например все дети, живущие на планете Земля, вся совокупность пациентов, которые могли бы получать определенный пре­парат и т. п.

Выборка — часть генеральной совокупности, описывающая ее с той или иной долей погрешности.

Часто сформировать истинно случайную выборку из генераль­ной совокупности не представляется возможным в силу того, что для выполнения требований репрезентативности объекты иссле­дования (пациенты) должны проживать на разных континентах земного шара. Проведение таких исследований в настоящее время возможно, однако в силу существенных физиологических разли­чий между людьми, живущими в разных уголках планеты, может быть потерян клинический смысл исследования. Это утверждение справедливо для достаточно широко распространенных в насто­ящее время международных мультицентровых исследований, по­священных, например, метаболическому синдрому, в которых принимают участие крупные отечественные центры и институты. В таких случаях выборка должна быть репрезентативна к исследу­емой популяции (населению РФ или определенных, этнически сходных, регионов России).

Современная технология статистического анализа данных вклю­чает:

1) постановку задачи и планирование исследования: составле­ние детального плана сбора исходных данных, определение ха­рактера выборки;

2) подготовку данных;

3) выбор методов обработки данных;

4) проведение анализа данных;

5) интерпретацию и представление результатов анализа.

Суть современной технологии обработки медицинских данныхс помощью методов математической статистики и их последу­ющей интерпретации кратко изложена в подразд. 3.3 — 3.5.

 

3.3. Подготовка, предварительный анализ информации и выбор методов обработки данных

Рассмотрим пример из клинической дисциплины.

Постановка задач и планирование исследования. Предпочтитель­ным вариантом является строгий подход, когда до проведения исследования есть полная ясность, для чего предпринимается ра­бота, сколько и каких исследований будет осуществлено, какие методы и почему будут применяться для обработки полученного материала. Это позволяет оптимизировать усилия исследователя и затраты ресурсов.

Данный вариант исследования не исключает использования (целиком или частично) ретроспективных данных (собранных ранее и имеющихся в медицинской документации). В принципе нужно помнить, что в этом случае исследователя подстерегает еще одна «ловушка», связанная с различным толкованием симптомов. Это же может иметь место и при проспективном исследовании с участием группы врачей, особенно придерживающихся различ­ных научных школ. Поэтому помимо списка признаков, характе­ризующих заболевание, необходимо иметь их стандартные описа­ния. Это в значительной степени позволит избежать различий в толковании одних и тех же симптомов. Однако в клинической прак­тике до сих пор достаточно часто сначала получают данные, а уже затем клиницист решает, каким образом на имеющемся материа­ле получить некий обобщающий результат.

Подготовка данных. Данные для статистического анализа при­нято готовить в виде таблицы (таблиц). Современные статистиче­ские пакеты работают с данными наиболее распространенных в настоящее время форматов, в том числе .dbf и .xls.

В строки таблицы заносятся объекты исследования (например, паци­енты), а в столбцы — параметры. Если конкретное значение параметра отсутствует, клетку таблицы оставляют пустой. Если значение параметра равно нулю, оно все равно обязательно вносится. Если пациенты обсле­довались в динамике, т.е. по каждому больному есть несколько «срезов» параметров, обычно вводится дополнительный столбец, однозначно определяющий для конкретного больного (и соответственно — значений параметров) время исследования (например, номер хирургических су­ток). Таблицы данных включают в себя столбец (столбцы) группирующих параметров (например, номер группы, исход заболевания, если именно по нему будут исследоваться пациенты, и т.д.).

После занесения данных в таблицу необходимо их проверить: просматривают значения параметров, выявляют те из них, кото­рые сильно отличаются от остальных. Это могут быть как реаль­ные «выпадающие» значения, так и ошибки ввода, которые не­обходимо устранить.

Перенос (импорт) данных в статистический пакет затрудне­ний не вызывает. Для этого пользуются стандартными возможно­стями буфера обмена ОС Windows. Можно также применять специ­альные модули статистических пакетов, например модуль «Уп­равление данными» (Data management) пакета Statistica.

Современные статистические пакеты дают возможность управ­лять данными: часто при решении задач возникает необходимость объединения или разделения файлов (содержащих таблицы) по условию.

Выбор методов анализа и их реализация. Для грамотного выбо­ра метода обработки данных необходимо знать характер распреде­ления используемых переменных, поэтому предварительный ана­лиз данных начинают с определения характера их распределения.

Распределение элементов выборки по значениям параметра — это сово­купность частот встречаемости интервалов его значений в данной вы­борке. К наиболее часто встречающимся видам распределений относят­ся: колоколообразное (нормальное, гауссово), полимодальное (чаще — бимодальное), равномерное и др.

К основным характеристикам распределения относятся:

· среднее арифметическое (М) — при непрерывных числовых типах параметров; все значения по выборке сложить и поделить на их количе­ство;

· медиана — значение параметра, делящее распределение параметра пополам; выборка значений параметра ранжируется (по возрастанию или убыванию); если число значений нечетно, то медиана — это централь­ное значение, если число значений четно, то медиана — это среднее арифметическое двух центральных значений;

· квантили (центили) — весь диапазон значений разбивается на 10 интервалов. Границы между интервалами — квантили, от 10%-го до 90%-го квантиля укладываются 80 % значений;

· квартили — весь диапазон разбивается на четыре интервала: 50%-й квартиль — медиана, кроме нее часто указываются 25%-й и 75%-й квар­тили, т.е. описывается 50 % наиболее «близких к центру» значений;

· мода — значение параметра с наибольшей частотой встречаемости на выборке;

· асимметрия — характеристика несимметричности распределения элементов выборки относительно среднего арифметического. В случае симметричного распределения значение асимметрии равно нулю.

В медицинских публикациях часто встречается запись значений в виде М± т, где т — стандартная ошибка среднего (standard error of mean). Это допустимо делать в случае нормально распределен­ного параметра, а к величине т нужно относиться с определен­ной долей скептицизма. Правда, при увеличении выборки рас­пределение параметра достаточно часто стремится к квазинормаль­ному, и тогда использование т в какой-то мере оправдано. Лучше указывать само выборочное стандартное отклонение (среднее квад­ратичное отклонение — standard deviation — s), которое характе­ризует ширину нормального распределения. Основанием для та­кого подхода является то, что s не уменьшается при увеличении числа наблюдений п; в диапазон М ± s укладывается около 70% значений нормального распределения параметра.

Параметрические методы. Для решения многих клинико-научных задач необходимо формулировать статистические гипотезы. Среди них можно назвать анализ соответствия распределения зна­чений параметра определенному закону, сравнение групп по ха­рактеристикам распределения параметров и др.

Статистическая гипотеза — это формально строго сформули­рованное предположение.

Нулевой (Н0) называют гипотезу, которую исследователь предпола­гает отклонить (например, об отсутствии различий между группами).

Альтернативная гипотеза(Н1) противоположна нулевой (например, о наличии различий между группами).

Уровень статистической значимости (а) — это пороговое значение для ошибочного отклонения верной нулевой гипотезы (ошибки первого рода). В медицине принято выбирать а = 0,05 или а = 0,01.

Ошибка второго рода — это ошибочное принятие ложной нулевой гипотезы.

В настоящее время в публикациях принято указывать реальное значе­ние р (вероятность ошибки первого рода). Если значение р меньше 0,05, говорят о наличии статистически значимых отличий между выборками параметра.

Статистически значимые различия следует отличать от клини­чески значимых. Встречаются результаты, значимые статистически, но не значимые с клинической точки зрения, бывает и наоборот. Клинически значимые, но статистически незначимые результаты обычно получаются на малых выборках, а при увеличении выбо­рок они, как правило, подтверждаются и статистически.

Чем распределения отличаются с практической точки зрения? Тем, что наиболее распространенные методы параметрической статистики (например, t-критерий Стьюдента) можно применять только для нормально распределенных величин (колоколообразных распределений). Неправомочное использование t-критерия Стьюдента — самая часто встречающаяся ошибка статистической обработки данных клинических исследований, приводящая к оши­бочным выводам.

Непараметрические методы. В клинической медицине и при об­работке данных медико-биологических экспериментов в большин­стве случаев необходимо пользоваться непараметрическими ме­тодами статистического анализа. Они являются менее мощными, чем параметрические, но применимы для любых видов распределений.

Анализ характера распределения данных (его еще называют проверкой на нормальность распределения) осуществляется по каждому параметру. Для проверки на нормальность используют как визуализирующие методы (метод построения гистограмм), так и статистические (например, тест Колмогорова—Смирнова, кри­терий Шапиро—Уилкса). Для того чтобы уверенно судить о соот­ветствии распределения параметра нормальному закону, необхо­димо, чтобы выборка была достаточно многочисленной (не менее 50 значений).

Кроме разделения по уже описанному важнейшему статисти­ческому подходу (параметрические, непараметрические) методы статистического анализа данных принято классифицировать не­сколькими способами:

1) по количеству одновременно анализируемых параметров (одномерные, двухмерные, многомерные или многофакторные);

2) имеющимся исходно предположениям о характере распре­делений выборок (односторонние тесты — при наличии предположения о смещении распределения

 

Таблица 1



Поделиться:


Последнее изменение этой страницы: 2016-09-19; просмотров: 757; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.216.251.37 (0.022 с.)