Контент-моніторинг і Text Mining: сфери застосування 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Контент-моніторинг і Text Mining: сфери застосування



Із розвитком комп’ютерного контент-аналізу змінився і спосіб його використання. Поступово контент-аналіз вийшов за межі аналізу і обробки текстів. З кінця 90-х років його стали використовувати як допоміжний засіб у технології «видобування даних», відомої як Text Mining. Ця технологія використовує елементи статистичного і лінгвістичного аналізу. Вона виникла як результат взаємодії кількох сучасних методів обробки документально-інформаційних потоків – інформаційного пошуку, статистики, комп’ютерної лінгвістики, інтелектуального аналізу даних. (рис.10).


Рис. 10. Методи обробки документально-інформаційних потоків.

Основним завданням цієї технології є пошук логічних зв’язків у неструктурованих текстових даних. Вона призначена для забезпечення навігації у текстах і отримання нової високоякісної інформації. Критеріями якості інформації є її релевантність (відповідність інформаційним потребам «замовника») та новизна. Text Mining передбачає низку послідовних кроків:

Структурування вхідного тексту (граматичний аналіз)

Виділення ключових фрагментів тексту

Формування на їх основі бази даних

Оцінка та інтерпретація вихідних даних

Типовими операціями Text Mining є: класифікація (text categorization), кластеризація (text clustering), відбір ключових понять (concept extraction), аналіз настроїв (sentiment analysis), анотування документа (document summarization), моделювання зв’язків між поняттями (entity relationship modelling). Алгоритм проведення Text Mining показано на рисунку 11.


Рис. 11. Алгоритм проведення Text Mining.

Розглянемо ці операції докладніше. Класифікація та кластеризація тексту передбачають віднесення об’єктів до визначених категорій. Кластеризація відрізняється від класифікації тим, що тут не існує заздалегідь визначених категорій, вони формуються на основі самих даних. Документ може належати одночасно до кількох кластерів. Відбір ключових понять можна здійснювати з використанням тезауруса. Прикладом може служити лексична база даних WordNet, яка поєднує традиційний словник і тезаурус. Станом на 2007 рік у базі даних налічувалося 155287 слів. Ці слова організовані у 117659 синсетів. Кожен синсет містить групу синонімів, різні значення слова належать до різних синсетів. Значення синсетів уточнюється короткими глосами (визначення чи приклади вживання). Наприклад: good, right, ripe -- (most suitable or right for a particular purpose; "a good time to plant tomatoes"; "the right time to act"; "the time is ripe for great sociological changes"). WordNet розрізняє іменники, дієслова, прикметники та прислівники. Синсети поєднані один з одним різними семантичними звязками. Наприклад: Y є гіперонімом для Х, якщо Х є видом У (canine є гіперонімом для dog, тому що кожен пес є членом ширшої категорії («родина собачих») чи гіпонімом, якщо Y є видом Х (dog є гіпонімом для canine).

Аналіз настроїв має на меті визначити ставлення автора документа до тієї чи іншої теми, загальну тональність документа та емоційний стан автора при створенні документа. Анотування документа – це створення його стислої версії тексту за допомогою комп’ютерних програм. В умовах стрімкого розвитку інформаційних технологій доступ до релевантної і компактно поданої інформації стає життєво важливим. Тому логічним є збільшення інтересу до технологій автоматичного анотування документів. Прикладом таких технологій є пошукові машини.

Mоделювання співвідношень між поняттями – це логічна операція, яка має на меті встановлення логічних звязків між досліджуваними одиницями тексту. Найпростішу схему визначення зв’язків між поняттями показано на рисунку 12:


Рис. 12. Визначення співвідношень між поняттями.

На рисунку зображено два поняття класу «особа» (виражені іменником). Між ними існує зв’язок, у якому кожна особа має свою роль (виражену дієприкметником).

Одним із найперспективніших напрямів обробки інформаційних потоків є контент-моніторинг. Це постійно здійснюваний в часі контент-аналіз неперервних інформаційних потоків. Власне неперервний процес обробки вхідних даних є найбільш характерною ознакою контент-моніторингу. Контент-аналіз є складовою контент-моніторингу, який має власну проблематику і власні шляхи вирішення прикладних завдань. Контент-моніторинг відбувається наступним чином: за допомогою спеціальних програм вхідний документ розділяють на окремі незалежні фрагменти (інформаційні модулі). Кожен з цих модулів містить посилання на бібліографічну інформацію про документ. Таким чином формується масив ключових фрагментів публікації, який є інформаційним відображенням досліджуваної проблеми. Кожен модуль програма розділяє на три незалежні складові: цитату документа (зміст), повний бібліографічний опис документа і фасетну формулу (структурна характеристика текстового фрагмента). Процес формування банку ключових фрагментів поєднує дві операції - аналітично-синтетичну обробку і багаторівневий контент-аналіз текстів публікацій. Специфіка цієї технології полягає у тому, що вона поєднує кількісний та якісний контент-аналіз. Процедуру аналізу досліджуваної проблеми можна умовно розділити на якісний аналіз публікацій і кількісний аналіз інформаційних масивів: індексного, бібліографічного і масиву ключових фрагментів публікацій. Інформацію, яка не стосується проблеми, не виділяють з тексту і не заносять у базу даних. Документ, занесений у інформаційну систему, є сукупністю ключових фрагментів тексту, індексованих відповідно до їх змісту. Процедура обробки публікацій є своєрідним інформаційним ситом, крізь яке проходить лише релевантна для досліджуваної проблеми інформація. Серед переваг цієї технології слід назвати зведення до мінімуму інформаційного шуму. Сформовані бази даних, зберігаючи текст оригіналу, є компактними і зручними в користуванні. Серед недоліків варто назвати трудомісткість, а також значні інтелектуальні затрати при обробці першоджерела і наповненні баз даних. Окрім того, варто зауважити, що проблематичним є визначення специфічних інформаційних потреб замовників, які інколи і самі не до кінця не усвідомлюють цих потреб і тому нечітко формулюють завдання для інформаційно-аналітичних служб. Тому уточнення інформаційних потреб у більшості випадків відбувається вже в процесі роботи. Виникають також труднощі як із визначенням досліджуваних параметрів та їх граничних значень, так і з встановленням частоти оцінки цих параметрів.

Розглянемо кілька прикладів застосування технологій Text Mining. В Україні з 1993 року в Національній бібліотеці України ім. Вернадського існує «Фонд президентів України». (http://www.nbuv.gov.ua/fpu/index.html). Це збірка документів на різних носіях інформації, які розповідають про історію, розвиток та функціонування інституту президентства в нашій країні. Документальний фонд складають бібліотечний фонд (друковані твори), архівний фонд, музейний фонд, фонд електронних інформаційних ресурсів (бази даних; електронні версії та копії документів). До складу останнього входять повнотекстова база даних «Президент України: послання, звернення, доповіді, виступи, заяви, статті, листи, інтерв’ю, прес-конференції, привітання, співчуття».

Ще одним прикладом застосування технологій Text Mining є конкурентна технологічна розвідка CTI - Сompetitive Technical Intelligence).

Конкурентна технологічна розвідка (КТР)це процес збору, структурування та аналізу даних про внутрішнє й зовнішнє середовище фірми та надання її керівництву інформації, яка дозволяє передбачати зміни в ситуації і приймати оптимальні рішення у таких сферах діяльності: управління ризиками, впровадження змін, заходи, спрямовані на задоволення потреб споживачів та збільшення ринкової вартості фірми. Конкурентна розвідка дозволяє передбачати зміни на ринках, дії конкурентів, виявляти нових або потенційних конкурентів, прогнозувати появу нових технологій, забезпечує моніторинг політичних ризиків. Для виживання в умовах сучасної конкурентної боротьби першочергового значення набуває розвідка намірів конкурентів, вивчення основних тенденцій бізнесу, аналіз можливих ризиків. Конкурентна технологічна розвідка (КТР) виникла на перетині трьох чинників, які істотно впливають на процес збору технологічної та бізнесової інформації: технології, ринок і конкуренти. (рис. 13).


Рис. 13.

Конкурентна розвідка є потужним інструментом дослідження ринку. Схему організації КТР показано на рис. 14.


Рис. 14. Схема організації КТР.

Джерела інформації, яку використовує конкурентна розвідка, поділяють на об’єктивні/cуб’єктивні та внутрішні/зовнішні. Основні джерела інформації подані у таблиці 3.

 

  Внутрішні Зовнішні
Об’єктивні корпоративні документи науково-технічні звіти звіти про бізнес-поїздки маркетологічні звіти (оцінка ринку) бізнес-пропозиції E-Mail (ділове листування) матеріали конференцій
технічні журнали
науково-технічні звіти
патенти і торгові марки
новини, прес-релізи
звіти про дослідження ринку
інтернет-документи
Суб’єктивні E-Mail технічні мережі
Звіти про бізнес-поїздки колеги
допоміжний персонал професійні асоціації
юридичний персонал консультанти
портье (gatekeepers) дослідники

 

Таблиця 3. Джерела конкурентно-технологічної розвідки.

У США існує асоціація SCIP (Strategic and Competitive Inteligence Proffesionals). Ця неприбуткова міжнародна організація була заснована 1986 року і обєднує фахівців з досліджень ринку, стратегічного аналізу і планування, дослідників економіки та економічних технологій. (http://www.scip.org). SCIP - це мережа професіоналів, які працюють у сфері виробництва та управління бізнес-знань. Асоціація регулярно проводить семінари, які висвітлюють такі теми: етичні та правові аспекти конкуренції, аналіз бізнес-інформації, можливості, слабкі місця, наміри конкурентів. SCIP видає щомісячний журнал «Competitive Intelligence Magazine».

Технологію Text Mining застосовують і в т.зв. інтеграторах новин. Прикладом може слугувати аналітична служба США «COMTEX». (http://www.comtex.com). Одним із завдань цієї служби є підготовка пакетів найважливіших новин дня. У інформаційний пакет входять 5 найбільш важливих новин дня, доступних як заголовки чи як повний текст. Ці новини розподіляються за тематикою у 12 категоріях: бізнес, розваги, державне управління, міжнародна політика, суспільство, охорона довкілля, охорона здоров’я, Інтернет, енергетика, фінанси, High Tech, спорт.

Українським аналогом є система InfoStream, розроблена Київським інформаційним центром «ЭЛВИСТИ». (http://infostream.ua/). Система призначена для знаходження в мережі Інтернет новин, оперативної доставки замовникам результатів пошуку, змістової обробки матеріалу. InfoStream забезпечує доступ до оперативної інформації з єдиного інтерфейсу (в міру її появи в Мережі) в пошуковому режимі, враховує можливе дублювання та семантичну близькість документів, доступ до архівного фонду (з 1996 року), який налічує понад 80 млн. записів, підтримку аналітичної роботи в режимі реального часу: побудова сюжетних ланцюжків, дайджестів, діаграм зустріваності, таблиць взаємозв'язків понять, медіа-рейтингів. Оновлення матеріалів відбувається кожні 15 хвилин. Система черпає інформацію з понад 4500 українських та зарубіжних джерел. Цими джерелами є: онлайн-версії традиційних ЗМІ, інформаційні агентства, інтернет-видання, сайти державних структур, сайти компаній, форуми, блоги, соціальні мережі.

Підсумовуючи, можна стверджувати що комп’ютерний контент- аналіз і контент-моніторинг як один із видів технології Text Mining є ефективними інструментами пошуку, обробки, аналізу та інтерпретації значних обсягів інформації. Ці інструменти не лише істотно полегшують працю дослідника, а й забезпечують доступ до якісної інформації і значною мірою посилюють об’єктивність результатів дослідження.


Список літератури



Поделиться:


Последнее изменение этой страницы: 2016-08-06; просмотров: 138; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.118.1.232 (0.015 с.)