Часть 16. Основы статистического анализа 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Часть 16. Основы статистического анализа



 

Статистический анализ охватывает методы описания и представления статистических данных (описательная статистика) и методы обработки этих данных (аналитическая статистика) с целью изучения, формулирования выводов, принятия решений и прогнозирования.

Статистический анализ строится на большом объеме данных, сплошном и полном охвате всех событий, называемой генеральной совокупностью. Часто генеральная совокупность слишком многочисленна или малодоступна, поэтому для исследования из нее делают выборки (выборочная совокупность), по которым судят обо всей генеральной совокупности. Для наилучшего представления информации о генеральной совокупности выборка должна быть представительной (репрезентативной). Иногда лучшим способом получения представительной выборки является многократный случайный отбор данных или повторение опыта. Если генеральная совокупность доступна, то для получения представительной выборки можно воспользоваться инструментом Выборка из Пакета анализа Excel. На основе полученной выборки приблизительно устанавливают выборочный закон (выборочную функцию) распределения и другие характеристики случайной величины.

Статистическая вероятность или статистическая частота есть отношение число успешных исходов m к общему числу испытаний n (m / n). Статистическая частота события стремится к теоретической вероятности p при большом числе испытаний. Выборочная функция распределения также стремится к теоретической функции распределения F(x) при больших n. Для построения выборочных функций распределения в Excel используется функция ЧАСТОТА и инструмент Гистограмма из Пакета анализа.

Случайные выборки значений из генеральной совокупности всех событий имеют числовые статистические характеристики. Среднее арифметическое случайных значений (СРЗНАЧ). Медиана есть число, которое является серединой множества чисел, т.е. половина чисел больше медианы, а половина меньше; вычисляется функцией МЕДИАНА. Мода есть наиболее часто встречающееся значение; вычисляется функцией МОДА. Среднее гармоническое есть величина обратная среднему арифметическому обратных величин (СРГАРМ). Среднее геометрическое используется для вычисления средних темпов роста и есть корень n -ой степени из произведения n положительных значений (СРГЕОМ). Дисперсия – функция ДИСП. Стандартное отклонение – функция СТАНДОТКЛОН. Эксцесс характеризует степень остроконечности (>0) или сглаженности (<0) «хвостов» распределения, т.е. частоты появления удаленных от среднего значений (ЭКСЦЕСС). Асимметрия характеризует степень несимметричности распределения относительно среднего вправо (>0) и влево (<0), вычисляется функцией СКОС. Подробнее см. справку по F1, введя для поиска имя функции.

При обработке случайных выборок в первую очередь вычисляют их числовые статистические характеристики и группируют по каждому параметру: по среднему значению, по разбросу от среднего, ошибке среднего и др. Кроме перечисленных выше функций, для работы с несколькими выборками и вычисления их статистических характеристик, Excel содержит инструмент Описательная статистика из Пакета анализа.

При обработке случайных выборок, кроме получения статистических характеристик, обычно решаются следующие задачи:

1. Определение степени достоверности выборки, отнесение или не отнесение событий выборки к некоторой статистической совокупности. Определяется с помощью доверительных интервалов – интервалов, в который события попадают с заданной доверительной вероятностью p =1–a. a - есть уровень значимости – максимальное значение вероятности, при котором появление события практически невозможно. Достаточным обычно считается a=0.05 – ей соответствует доверительная вероятность 0.95. Для повышения надежности статистических выводов берут a=0.01, чему соответствует доверительная вероятность 0.99. Вычисление границ доверительного интервала в Excel используется функция ДОВЕРИТ и инструмент Описательная статистика.

2. Определение меры соответствия выборки какому-либо теоретическому распределению. Выполняется с использованием критериев согласия, в частности ХИ-квадрат – функция ХИ2ТЕСТ в Excel. Ориентировочная оценка может быть выполнена с помощью построения графиков и визуального сравнения расхождений и совпадений выборочного и теоретического распределений.

3. Выявление различий между выборками выполняется с использованием критериев различия, в частности t-критерия Стьюдента (функция ТТЕСТ) и критерия Фишера (функция ФТЕСТ). Можно использовать инструменты из Пакета анализа Excel: Двухвыборочный t-тест с различными дисперсиями Двухвыборочный F-тест для дисперсий, а также Парный двухвыборочный t-тест для средних и Двухвыборочный t-тест с одинаковыми дисперсиями.

4. Оценка влияния на выборки одного, двух или более факторов – однофакторный, двухфакторный и т.д. дисперсионный анализ. Инструменты Excel: Однофакторный дисперсионный анализ, Двухфакторный дисперсионный анализ с повторениями и Двухфакторный дисперсионный анализ без повторений.

5. Выявление степени связи между выборками (переменными) - корреляционный анализ. В качестве меры связи двух случайных величин используют коэффициент корреляции R. Если R =0 – зависимости нет, R >0 – зависимость прямо пропорциональная, R <0 – зависимость обратно пропорциональная. В Excel используется функция КОРРЕЛ и инструмент Корреляция.

6. Установление формы зависимости (уравнения регрессии) между выборкой (случайной переменной Y) и одной или несколькими независимыми переменными величинами – регрессионный анализ, с целью оценки достоверности принятой математической модели статистическим данным. Инструменты регрессионного анализа были рассмотрены ранее.

 

Ниже будут рассмотрены перечисленные средства Excel для статистической обработки данных. Они достаточны для статистического анализа большинства экономических и других типов данных. В тоже время полноценный статистический анализ данных и прогнозирование выполняют в специализированных пакетах программ. Однако большинство из них требует соответствующей математической подготовки и глубокого знания пакетов.

Подробное описание каждого инструмента из Пакета анализа Вы найдете в справке по F1, введя для поиска строку «О средствах статистического анализа данных».

Наиболее распространенными пакетами статистического анализа и прогнозирования являются Statistica, Statgraphics, NCSS, SPSS, Project Expert (финансовое планирование). Извеcтны также пакеты SAS, SYSTAT, SigmaStat, SigmaPlot, ESB Stats, MVSP, Chameleon Statistics, Leo Statistic, Simca-P и другие. Перспективным инструментом решения трудноформализуемых задач прогнозирования, статистического и регрессионного анализа являются пакеты, построенные по технологии обучающихся нейронных сетей, в частности пакет STATISTICA Neural Network. Известны применения нейрокомпьютеров (CNAPS PC/128), имитаторов нейронных сетей (Qnet for WIndows) для прогнозирования финансовой деятельности и пр. Найти описания возможностей этих пакетов можно в поисковых системах Интернет (Yandex, Rambler, Google) по названию пакета.

 

 



Поделиться:


Последнее изменение этой страницы: 2016-08-26; просмотров: 778; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 54.81.136.84 (0.007 с.)