Комп’ютерний контент-аналіз і Text Mining 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Комп’ютерний контент-аналіз і Text Mining



8.1.Зародження і розвиток комп’ютерного контент-аналізу

Перші спроби використати технічні засоби для аналізу текстових документів пов’язані з іменем італійського священика Р. Бузи, який наприкінці 40-х років двадцятого століття розпочав роботу над створенням корпусу текстів Томи Аквінського (Index Thomisticus). У 1949 році отець Буза зустрівся з Т. Ватсоном, засновником ІВМ і переконав його стати спонсором проекту. Проект тривав понад 30 років. У кінці 70-років вийшли друком 56 томів, у 1989 році з’явилася версія на диску, з 2005 року існує Інтернет-версія цього корпусу (www.corpusthomisticum.org). Однак перші спроби механізувати чи автоматизувати окремі операції при аналізі текстових масивів істотно не змінили методики проведення контент-аналізу. Водночас внаслідок стрімкого збільшення кількості текстів та їх обсягу зросла потреба у ефективних комп’ютерних програмах, які би швидко і якісно аналізували б текстові масиви. У 50-х роках двадцятого століття з’явилися програми комп’ютерного контент-аналізу першого покоління. Ці програми призначалися для зберігання та архівування текстів, формування індексів, побудови нескладних графіків і виконання простих статистичних розрахунків, керуваннями базами даних. Фактично ці програми виконували допоміжну функцію і мали на меті полегшити «ручну» працю дослідників. Появу програм другого покоління пов’язують із іменем Ф. Стоуна (Гарвардський університет), який почав систематичну розробку комп’ютерного контент-аналізу. У 1966 році вийшла програма General Inquirer. На першому етапі аналізу дослідник створює словник категорій аналізу. На другому етапі комп’ютер проводить кодування тексту (проглядає кожне слово у тексті і порівнює його із категоріями, поміщеними у словник. Якщо категорію знайдено, то програма додає це слово у лічильник і в результаті ми отримуємо частотний розподіл категорій дослідження. На третьому етапі програма виводить результати аналізу. Ці програми були спрямовані передусім на кількісний аналіз тексту, основними їх функціями були: кодування, пошук ключових слів, виведення результатів пошуку на друк. Програми другого покоління нездатні були відшукати співвідношення між категоріями, однак у них була вже передбачена можливість працювати з електронними текстами. У програмах другого покоління був реалізований автоматизований режим кодування на рівні слів, тобто програма допомагала знаходити у тексті категорії аналізу. У програмі General Inquirer було застосовано підхід до автоматизованого кодування, який отримав назву «a-priori” (дедуктивний). При такому підході визначальною для аналізу є теорія (візія дослідника). Власне вона визначає основні категорії аналізу, схему їх класифікації, послідовність кодування текстів. Основним інструментом контент-аналізу при дедуктивному підході є спеціальний словник. Цей словник містить сукупність словоформ, які належать до різних категорій. Категорії є концентрованим виразом певної теми. Ці словники укладаються відповідно до завдань дослідження. Прикладом може слугувати Словник цінностей Г.Ласвела (The Lasswell Value Dictionary). Г. Ласвел виділив 8 базових категорій WEALTH (багатство), POWER(влада), RESPECT (повага), RECTITUDE (чесність), SKILL (спритність), ENLIGHTENMENT (освіченість), AFFECTION (прихильність), WELLBEING (здоров’я). Cхема словника розрізняє основні завдання і ознаки процесу поширення ціностей та їх розподіл у суспільстві. У словнику подано різні види реалізації цінностей (value transactions). Для проведення контент-аналізу часто укладають вузькоспеціалізовані словники, які містять базові категорії конкретної галузі знань. Як приклад наведемо тут два словники з галузі психотерапії. Словник стану неспокою (The Anxiety Theme Dictionary) розроблений у середині 80-х років двадцятого століття в університеті м. Ульм (Німеччина). Іншим прикладом є створений американським психіатром Д. Огілві спеціальний словник для перевірки гіпотези про існування так званого "комплексу Ікара". Матеріалом для контент-аналізу були 626 казок із 44 примітивних суспільств. Перед проведенням аналізу Д.Огілві створив «Ікаріанський словник», який налічував 74 категорії і 2500 слів. Для створення системи категорій були використані різні джерела: праці дослідників, життєві історії людей, щоденники психотерапевтів. Д. Огілві дослідив кореляції між 74 категоріями і провів факторний аналіз кінцевої матриці. Гіпотезу на рівні аналізованих казок автор вважав підтвердженою, якщо окремі категорії є взаємопов’язаними в конкретних одиницях фольклору чи на основі одних категорій можна передбачити появу суміжних категорій у аналізованому тексті.

У процесі кодування перед дослідниками постало питання: кодувати у тексті усі слова чи ні? Внаслідок дискусії у тодішньому комп’ютерному контент-аналізі виокремилося два підходи – вибірковий і тотальний. Прихильники першого, серед яких був і розробник програми General Inquirer Ф. Стоун, вважали що дослідникові слід обмежитися лише тими лексичними одиницями, які відображають суть досліджуваної проблеми. Прихильники тотального підходу, до яких належить американський психотерапевт Ю. Лафаль, вважали, що кодувати слід кожне слово у тексті, окрім функціональних, які є найчастотнішими у будь-якій мові. Альтернативним до підходу a-priori був підхід а-posteriori. Визначальним прп цьому підході є не теорія, а конкретні дані. Система категорій формується після прочитання досліджуваного тексту. Спочатку текст поділяють на сегменти, для яких формується таблиця частот слів. У кожному сегменті дослідник відбирає n найчастотніших слів, які творять n міні-категорій. Далі на основі усіх сегментів визначають кореляції між цими категоріями і визначають актуальні чи неактуальні. Іншою визначальною ознакою програм другого покоління є спосіб реалізації пошуку даних. Серед них варто згадати побудову конкордансів. Основним завданням конкордансів є з’ясувати безпосереднє оточення слова, тобто його контекст. Існує два формати конкордансу – KWOC і KWIC. Більш поширеним є формат KWIC (keyword-in-context). Його автором є німецький фахівець у галузі комп’ютерних наук Ганс Петер Люн (1896-1964), який працював для ІВМ. Цей формат призначений для сортування та вирівнювання слів у тексті для пошуку ключового слова. Конкорданс має вигляд рядка, у центрі з ключовим словом, а зліва і справа від нього – його оточення. Цей формат дозволяє з точністю визначити, чи це слово є однозначним індикатором категорії контент-аналізу зангалом чи лише в межах певної комбінації слів є індикатором визначених раніше категорій. Цей прийом, поруч із частотним аналізом, застосовують для обробки протоколів соціологічного опитування, яке має на меті визначити теми, які є цікавими для респондентів. На рисунку 8 показано фрагмент конкордансу KWIC.


Рис. 8. Фрагмент конкордансу KWIC.

Розширення можливостей аналізу текстів за допомогою комп’ютерних програм зумовили необхідність створення електронних текстів. У 70-х роках двадцятого століття почалося створення електронних текстових архівів. До найбільш відомих належить The Oxford Text Archive (www. ota.ahds.ac.uk). У 70-ті роки активізувалися дослідження матеріалів друкованих ЗМІ. У цих дослідженнях було використано комп’ютерний контент-аналіз. У 1974 році в Італії відбулася презентація міжнародного проекту дослідження газетних заголовків. Метою проекту було визначення інтересу провідних періодичних видань світу до місцевих, національних та світових подій. Однак обмеженість доступу до ЕОМ (лише на базі обчислювальних центрів), недостатня кількість електронних баз текстів, труднощі з переведенням текстів усного мовлення у машинний формат дещо пригальмували розвиток комп’ютерного контент-аналізу у 70-ті роки. Ця ситуація збереглася до середини 80-х років двадцятого століття. Від середини 80-х років двадцятого століття спостерігається стрімкий розвиток галузі інформаційних технологій. У цей період відбувся перехід від громіздких ЕОМ до персональних комп’ютерів, а також від операційної системи MS DOS до WINDOWS. Поява Інтернету і поширення електронних бібліотек, архівів і можливість доступу до них в режимі online.

Саме у цей період з’явилися програми третього покоління. Попри те, що ці програми базувалися на тих самих принципах, що і їх попередники, арсенал їх можливостей був значно ширшим. У цих програмах, окрім опцій кількісного аналізу, були вже присутні також і функції аналізу якісного. До цих функцій належать:

  • організація текстів і їх кодування (створення проектів);
  • дослідження частотності та визначення контексту вживання слів;
  • аналіз і підтримка процесу кодування (як часто окремі категорії присвоюють слову чи фрагменту. які категорії і як часто з’являються поруч, побудова системи категорій;
  • функція приміток (memos) до тексту, категорій, фрагментів тексту;
  • експортування кодів у іншу програму для подальшої обробки і формування звітів;
  • підтримка функції командної роботи;
  • об’єднання закодованих текстів;

Програми третього покоління можна класифікувати за функціями: (управління базами даних, архіватори, текстовий пошук, кодування текстів) чи за характером досліджень, у яких ці програми використовують (кількісні, якісні). Особливістю програм третього покоління є те, що вони характеризуються поліфункціональністю (combination of functionality): вони не призначені виключно для текстового пошуку чи обробки тексту. Алгоритм таких програм поєднує кілька операцій. Про важливість і популярність комп’ютерного контент-аналізу свідчить існування у багатьох країнах науково-дослідних центрів. Серед них варто назвати: Centre for Computer Assisted Qualitative Data Analysis Software у м. Суррей,Великобританія(www.surrey.ac.uk/sociology/research/researchcentres/caqdas/), Сentre for Social Anthropology and Computing у м. Кент, Великобританія (www.lucy.ukc.ac.uk/CSAC), GESÌS Leibnitz-Institut у м. Мангайм, Німеччина (www.gesis.org/das-institut), Research Centre for Computers, Communication and Social Innovation в університеті la Trobe (Австралія) (http://www.latrobe.edu.au/reccsi).



Поделиться:


Последнее изменение этой страницы: 2016-08-06; просмотров: 87; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.221.129.19 (0.008 с.)