Информатика и информационные системы 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Информатика и информационные системы



Под информационной системой понимают систему, организующую, хранящую и преобразующую информацию, то есть систему, основным предметом и продуктом в которой является информация. По своей природе такие системы являются эрготехническими, в их функционировании принимают непосредственное участие и люди (эргатические элементы), и технические средства.

Информатика — это наука, изучающая свойства, структуру и функции информационных систем, основы их проектирования, создания, использования и оценки, а также информационные процессы, в них происходящие.

Информационные технологии – система процедур преобразования информации с целью ее формирования, организации, обработки, распространения и использования.

Индустрия информатики — это инфраструктурная отрасль хозяйства, обслуживающая другие отрасли материального производства и непроизводственной сферы, обеспечивающая их необходимыми информационными ресурсами, создающая условия для их эффективного функционирования и развития (своеобразная «нервная система» общественного производства).

Интеллектуальный анализ данных (ИАД)

    Анализ данных это система подходов и методов, ориентированная на выявление механизма порождения представленных данных в рамках имеющейся априорной модели этого механизма.

     Современный анализ данных новая парадигма процесса исследования данных, основанная напринципах, предложенных Джоном Тьюки:

  • Анализ – это способ существования данных. Его материальная основа – системы «человек – машина». 
  • Принцип многократного возвращения к одним и тем же данным.
  • Принцип множественности возможных моделей.
  • Принцип варьирования предпосылок с рассмотрением последствий такого варьирования.
  • Принцип множественности результатов и выбора на основе неформальных процедур принятия решений.
  • Принцип полного использования эндогенной информации и максимального учета информации экзогенной.

Искусственный интеллект (artificial intelligence)– это общее понятие, описывающее «способность вычислительной машины моделировать процесс мышления за счет выполнения функций, которые обычно связывают с человеческим интеллектом»: построение и использование экспертных систем, логический вывод, понимание естественных языков, зрительное и слуховое восприятие (ГОСТ 15971 – 90. Системы обработки данных. Термины и определения).

   Экспертная система (expert system) – это система искусственного интеллекта, включающая базу знаний с набором правил и машину вывода (inference engine), позволяющую на основании правил и предоставляемых пользователем фактов распознать ситуацию, сформулировать решение или дать рекомендацию. Экспертная система – это компьютерная система, которая эмулирует способности эксперта к принятию решения.

  Интеллектуальный анализ данных (ИАД) – исследование данных, использующее методы искусственного интеллекта и ориентированное на придание системе свойств искусственного интеллекта. 

  Вычислительная техника создавалась прежде всего для обработки данных. Рутинную часть анализа данных стараются переложить на системы поддержки принятия решений (СППР, DSS) – системы, обладающие средствами ввода, хранения и анализа данных из конкретной предметной области с целью поиска решения. Такие системы не генерируют правильные решения, а предоставляют специалисту – аналитику данные в форме, удобной для изучения и анализа. Интеллектуальные СППР содержат функции, основанные на методах искусственного интеллекта.

Data Mining

   Машинная форма хранения данных содержит полезную информацию в скрытом виде, для ее извлечения и представления в удобном виде приходится использовать специальные методы. Технология Data Mining изучает именно процессы нахождения новых знаний в базах данных. В ее основе лежат

  • Системы баз данных;
  • Прикладная статистика;
  • Теория искусственного интеллекта.

  Data Mining переводится как «добыча» или «раскопка данных». Нередко рядом с Data Mining встречаются слова «обнаружение знаний в базах данных» (knowledge discovery in databases). Наиболее известная реализация технологий Data Mining – это поисковые системы в Интернете. В сфере бизнеса известны сообщения об экономическом эффекте от внедрения таких технологий, в 10-70 раз превысившем первоначальные затраты.

   Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining: ассоциация, последовательность, классификация, кластеризация и прогнозирование.

  Ассоциация – это выделение различных типов связей между событиями: корреляционные связи, if-then правила и т.п. 

  Последовательность – это ассоциация между событиями, сдвинутыми во времени.

С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.

Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.

Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить найти шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.

Примеры

  1. В ходе расшифровки генома человека получены следующие выводы. Выделено примерно 35000 генов (17% объема), остальное – непонятные обломки. Для подавляющее большинства генов понятна их предыстория: такой ген был у рыб, у человека он развился таким-то образом. Отличие человека от шимпанзе – около 350 генов, но из них 223 не имеют никакой предыстории, их происхождение непонятно. Очень хотелось бы так же изучить ДНК не из ядра, а из митохондрий, ее можно выделять из окаменевших костей, но это очень дорого. При этом можно было бы определить, когда эти новые гены попали в наследственность человека.
  2. Холодная дождливая зима приводит к плохому урожаю и, одновременно, создает благоприятные условия для развития спорыньи – сорняка, содержащего наркотик ЛСД. Возникает цепочка: плохие урожаи – нарушение технологий выпечки хлеба – попадание в пищу ЛСД. В истории Европы обнаружена очень сильная корреляционная связь между этими событиями и непонятными психическими эпидемиями: плясками Святого Витта, вспышками бессмысленного насилия, массовыми сожжениями ведьм и колдунов. В частности, такие события наблюдались во Франции в 1793 году и в России – в 1917 и в 1928 г.г.
  3. Анализ речей знаменитых ораторов – Троцкого, Гитлера, Фиделя Кастро и др., а также текстов, с помощью которых знахари заговаривают болезни, насылают и снимают порчу и т.п., привели к созданию специальной технологии – нейролингвистического программирования, которую теперь широко используют в средствах массовой информации, в речах политиков, в рекламе и т.д.

Задачи хранения, оперативной модификации, информационно-поискового анализа в условиях одновременного обращения многих пользователей решают системы OLTP (On - Line Transactions Proceeding). Однако практика использования таких систем показала, что они плохо приспособлены к решению задач собственно анализа данных. Выход нашелся в создании специализированных подсистем – хранилищ данных (У. Инмон, 1992).  

   Хранилище данных(ХД, Data Warehouse) – предметно-ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений. ХД может быть как физическим, так и виртуальным. Обычно данные для ХД копируются критически, очищаются и обогащаются новыми атрибутами.

   Витрина данных (ВД, Data Mart) – упрощенный вариант ХД, содержащий только тематически объединенные данные. ВД часто формируют как надстройки над более общим ХД.

    В 1993 г. Е. Кодд – основоположник реляционной модели БД – предложил представление данных в виде многомерной модели, гиперкуба, ребрами которого являются измерения. Эту технологию назвали OLAP (On - Line analytical processing), ее полное определение задается 18 правилами Кодда.

    Data Mining – исследование и обнаружение машиной (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком.

    Решаемые задачи разделяются на описательные (Descriptive) и предсказательные (Predictive). Для описательных задач ключевой момент – прозрачность результатов для восприятия человеком. В предсказательных задачах строится модель, которая затем тестируется на новом массиве данных. К описательным относятся регрессионные модели, модели кластеров, модели исключений, ассоциативные модели и итоговые модели (выявление ограничений). К предсказательным относятся модели классификации и модели последовательностей.

    По постановке задачи разделяют на обучение с учителем (Supervised Learning) и обучение без учителя (Unsupervised Learning). Для управления полученными в результате анализа знаниями используются технологии Knowledge Management.

Подсистемы Data Mining

   Визуальный анализ данных (Vizual Mining) – специальные технологии представления данных в форме, удобной для восприятия человеком.

   Анализ текстовой информации (Text Mining) – технологии обнаружения новых, потенциально полезных и понятных шаблонов в неструктурированных текстовых данных. Отдельно стоят технологии извлечения знаний из Web (Web Mining).

   Data Mining в реальном времени (Real - Time Data Mining) – технологии накапливаемого обучения с использованием обратной связи от прогноза.



Поделиться:


Последнее изменение этой страницы: 2021-03-09; просмотров: 216; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.117.182.179 (0.012 с.)