Машинный способ анализа текста 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Машинный способ анализа текста



Далее мы коснемся возможностей машинной обработки материа­лов способом контент-анализа. Из всех возможностей контент-анализа, которые суммированы в группах 1 и 2, ЭВМ можно поручить задачи анализа текстов, когда в качестве единицы анализа выступает слово. Когда мы говорим, что речь идет о достаточно ограниченном наборе слов, мы имеем в виду ограничен­ность с точки зрения человеческого мышления. Память же компьюте­ра оперирует списком, состоящим из тысяч слов. Когда мы проверяем орфографию напечатанного текста, происходит операция сличения вашего текста с набором слов, уже введенных в память компьютера. И человеку, выступающему тут в качестве «машиниста», кажется, что число таких слов, введенных в память, беспредельно. Тем не менее оно «конечно», и машинный анализ текста возможен, когда в память ЭВМ заложены эти тысячи слов.

И тогда машина при обработке текстов ничем иным не занима­ется, как подсчитывает число материалов, где встречаются те слова, которые интересуют исследователя.

Такие операции находят все большее применение и предложения­ми ¾ провести такой анализ ¾ уже пестрят рекламные странички профессиональных журналов. Дело тут за малым: предусмотреть, напри­мер, возможности синонимического ряда понятий...

Более сложные случаи, когда речь идет о генерализации вывода, не обеспеченного симметричным рядом известных слов, пока неподв­ластны компьютеру, и на этот счет иллюзий пока питать не следует. Другое дело, что компьютер может выступать как машинописный лист фиксации результатов, к которым приходит кодировщик текста. Но и тут существует соображение контроля за этим выводом. Думается, что возможности предъявления такого анализа для контроля пока сдержи­вают применение компьютера в этом качестве.

Но вспомним, как все это начиналось. Группа ученых Гарвардско­го университета в США (рук. Ф. Стоун) в 1961 г. начала разработку принципов подобной машинной обработки, проведя серию анализов самых различных текстов: газет, сочинений членов малых групп, про­граммных речей, произнесенных кандидатами на президентский пост от демократической и республиканской партий США, личных доку­ментов (писем, дневников, автобиографий)[99].

В рамках этого исследования было разработано несколько программ со следующими общими требованиями: компьютер отыскивает в тек­сте лингвистические аналоги тем категориям, которые интересуют и оговорены исследователем; подсчитывает частоту употребления этих категорий и их сочетания; выводит результаты в таблицы распределе­ний; группирует текст в зависимости от употребляющихся там катего­рий и т.д.

Эти операции компьютер осуществлял только после того, как в его память были заложены языковые знаки (слова, идиомы, фразы), кото­рые в своих группировках могут быть выражены на понятийном язы­ке социальной теории исследователя и каждая из которых представля­ет из себя определенную переменную величину в его гипотезах. Для этого исследователь составляет словарь своего исследования: поня­тийному слову в качестве его расшифровки даны «носители» его смыс­ла в бытующем в реальности языке.

Построение такого словаря аналогично построению «тезауруса» — языка определенной области человеческого знания, когда ключевым словам из этой области знаний соответствует синонимический ряд общеупотребительных слов. Таким образом, словарная статья в «теза­урусе» ¾ это более крупный семантический блок, чем словарная ста­тья обычного толкового словаря.

Обозреваемое нами комплексное исследование включает следую­щие самостоятельные анализы.

Исследование Д. Данфи связано с изучением малых групп, оно основано на анализе вербального поведения членов малых групп. Це­лью этого изучения было выяснение ролевых различий в группах, свя­зей, отношения к фигуре формального наставника ¾ все это во вре­менном развитии. Материалом для анализа были сочинения испытуе­мых групп. Основными категориями были самоотождествление, величина группы, служащей для испытуемых референтной, действия и эмоции, институциональный контекст и т.д.

Группа исследований была связана с политическими текстами, в частности, анализ М. Смитом, Ф. Стоуном и Е. Гленн программных речей, произнесенных кандидатами на президентский пост от демок­ратической и республиканской партии США в течение 36 лет (от Сми­та и Гувера до Джонсона и Голдуотера).

Исследователи Дж. Нейменвирс и Т. Брейер провели анализ ста­тей, опубликованных в газетах The Times (Англия), Le Monde (Франция), Frankfurtur Allgemeine Zeitung (тогда еще Западная Германия), The New York Times (США), на предмет того, как, по их мнению, об­стоит дело с политической интеграцией западных стран в связи с су­ществованием экономических и военных союзов между ними.

Процесс межгосударственной интеграции понимался как измене­ние следующих четырех элементов: характер принятия решений, касающихся судеб различных стран; обмен между странами почтой, студентами; торговля, иммиграция; мнения масс и элиты по поводу перспектив на этот счет. Показателями изменений в ориентации ана­лизируемых престижных газет были выбраны внимание к нацио­нальным и региональным символам и степень тождественности в ори­ентации газет всех четырех стран.

Даниэл М. Огилви построил специальный словарь для проверки гипотезы о существовании так называемого «комплекса Икара», психологического явления, которое отмечалось по наблюдениям психо­логов за рядом своих пациентов. Огилви решил подвергнуть испыта­нию эту гипотезу, проанализировав текстовые материалы, созданные в рамках разных культур. В качестве такого материала были выбраны сказки ¾ 626 сказок из 44 примитивных сообществ. Контент-анализ этих сказок был предварен созданием так называемого «Икарианского словаря», охватывающего 74 категории и 2500 слов, их наполняю­щих. Для разработки системы категорий использовались разные ис­точники: работы исследователей, описывающих комплекс Икара, истории жизни людей, явно обладавших этим комплексом, тексту наблюдений за ними психотерапевтов и т.д.

Поскольку изначально комплекс Икара определялся как направленность на «полет, падение, огонь, воду, бессмертие и нарциссизм»,, гипотезу о существовании комплекса на уровне анализируемых ска­зок можно было, по мнению автора, считать доказанной, если эти темы окажутся «связанными» в конкретных единицах фольклора, или на определенном этапе окажется возможным по одним темам предсказать появление в анализируемом тексте смежных тем. Итог анализа состо­ял в расчете корреляций между 74 категориями и факторном анализе конечной матрицы.

С самых первых попыток использования электронно-счетных устройств для работы с текстом становились ясными преимущества и недостатки обработки текстового материала с помощью машин ¾ они обеспечивали адекватность анализа огромных текстовых материалов, но требовали огромных усилий по составлению программы ¾ собствен­но «словника», с учетом всех синонимических вариантов понятий, ко­торые надо будет отыскивать в этом море пропускаемых через маши­ну слов. Не случайно, что многие из тех анализов, которые были про­деланы в Гарвардском университете, использовали категориальный аппарат ранее проделанных исследований и «обкатывали» его на ком­пьютерах.

Для начала же авторы системы «Дженерал Инкуайерер» создали отперфорированные тексты с общим количеством слов, равным 6 миллионам. Из этих слов была произведена выборка в 511 тыс. слов. Тек­сты, попавшие в выборку, были просеяны через процедуру поиска клю­чевого слова. В результате осуществления этой процедуры исследова­тели получили распечатку всех случаев употребления интересующих их слов в выбранной совокупности текстов. На реализацию процеду­ры ушло шесть часов машинного времени, а полученная распечатка была толщиной в несколько десятков сантиметров. Одним из самых неожиданных результатов процедуры было то, что для определения смысла ключевого слова оказалось вполне достаточно нескольких слов, расположенных по обе стороны ключевого слова. То есть для ряда за­дач не нужно было иметь значения всего предложения целиком, вклю­чая анализ его синтаксической структуры. Но оставались еще место­имения, идиомы и т.д.

Хотя первые словники создавались исследователями под конкрет­ные задачи и главным тут была идентификация ключевых слов, сами авторы отлично понимали перспективы развития компьютерного де­ла ¾ их размышления о том, что наборная клавиатура, связанная с ком­пьютером, будет обычной принадлежностью школьного класса и де­лового офиса учителя, бухгалтера, психотерапевта, библиотекаря (ясно видно, что эти размышления относились к дореволюционной эпохе ¾ до революции, когда был изобретен персональный компьютер), звучат сегодня как предвидение. Но для того чтобы выполнять все эти ожи­даемые операции, нужно было, чтобы компьютер мог различать не только слова, но и смысл более пространных языковых единиц. Для этого нужно было решение проблемы синтаксического анализа. К се­годняшнему дню частично такие проблемы решены, коль скоро мы доверяем своему компьютеру ¾ при наличии в нем специфических программ - проверку ошибок набранного текста.

Отметим существенный момент в разработке методологии анали­за текста с помощью машины (что помимо всего прочего означа­ло движение в направлении общения человек-машина): как только исследователи вышли на изучение диалога, они осознали, что эта проблема выводит их за пределы узкоспециальных «ведомственных» словарей...

С тех пор машинный метод обработки текстовых массивов все больше находит себе применение. При чем мы имеем в данном случае не те чисто прикладные случаи, когда машина помогает отыскать нуж­ную вам научную литературу по ключевым словам, которые такая ли­тература имеет заранее в виде своеобразной паспортички (или патент изобретения, если вы хотите проверить, не изобрел ли кто уже предла­гаемый вами велосипед); или практику, по которой работает Меж­дународный междисциплинарный Индекс публикаций (Citation In­dex) ¾ индекс представляет из себя распечатку статей из 7000 журна­лов, издаваемых во всем мире, по лицам, упоминаемым там. Каждое упоминание лица классифицируется по источнику: является ли оно автором статьи, упоминается ли в ходе дискуссии, появляется ли его имя в рецензии, в библиографии и т.д. Более детальный вариант этого индекса по социальной проблематике содержит роспись всех статей по ключевым словам.

Так, выпуск 1984 г. содержит данные о 1000000 статей из этих журналов, а поскольку форма его выхода ¾ алфавитный список упоминаемых фамилий ¾ то это составляет 10,5 млн. ссылок. К примеру, в течение нескольких минут мы можем (а этот Индекс есть в Государ­ственной российской библиотеке) определить, какие статьи по этой проблематике напечатаны во всем мире в период, например, мая¾ав­густа 1985 г. Оказалось, что за это время было опубликовано 7 статей (все в американских журналах): три посвящены исследованиям речи лиц с психопатологическими изменениями, статья У. Миллса по со­держанию китайской пропаганды, статья К. Уинника «Контент-анализ журналов с сексуальной тематикой». Все упоминания снабжены указанием названия журнала, тома, номера и страниц.

Уже через десять лет после этого пионерского проекта Ф. Стоуна и его коллег практически повсеместно стали осуществляться проекты контент-аналитических исследований с применением ЭВМ. На со­стоявшемся в 1974 г. в Италии рабочем совещании по проблемам контент-анализа было представлено несколько таких проектов, в ча­стности проект международного исследования газетных заголовков с задачами определения внимания различных газет к местным, общена­циональным и международным событиям, сравнения внимания аме­риканских и европейских газет к проблемам «общего рынка», сравне­ния освещения гражданской войны вНигерии газетами разных стран и др. Германия была представлена на этой конференции проектом по созданию специализированного словаря для целей анализа содержа­ния текстов[100].

Как ни странным это покажется на первый взгляд, именно пример с машинной обработкой текстов иллюстрирует очень важную для понимания сущности контент-анализа мысль. И в другом месте учебни­ка эта мысль не прозвучала бы так явственно. Анализ содержания как метод не обладает магическими качествами - вы не получите из него больше, чем вложили в него. Если нечто значительное, важное, нео­бычное не предусмотрено процедурой, то оно не появится в результа­те анализа, каким бы сложным и кропотливым он ни был.

Говоря о машинной обработке текстов, мы должны уточнить, что сейчас обсуждали случаи, когда компьютер оперирует непосредствен­но текстом. Гораздо более часты случаи, когда ЭВМ используется, грубо говоря, как арифмометр, оперируя с введенными в него кодировочными карточками, которые уже содержат итоги наблюдения за текстом, осуществленного исследователем. Сейчас это уже распространенная практика.

Выбор единиц наблюдения

Даже только начинающие овладевать методом анализа содержа­ния исследователи начинают с вопроса: сколько текстов надо исследо­вать, чтобы исследование считалось корректным? Мне даже кажется, что они не до конца осознают важность этого вопроса ¾ а важность в ответе, которым должно начинаться каждое исследование, где автор заявляет: «Я изучил такое-то количество текстов. Этого достаточно, чтобы сделать выводы о таком-то периоде деятельности источника». Просто начинающего исследователя берет легкая оторопь от осозна­ния сложности, тщательности, пунктуальности, трудоемкости мето­да ¾ подчеркиваем, что эти характеристики должны быть присущи методу всегда ¾ и он задает этот вопрос, чтобы получить логичный ответ, насколько минимальной должна быть выборка изучаемых тек­стов, чтобы по возможности максимальным был период, на который мы распространяем свои выводы.

Вопрос этот вполне логичен. Методология многих наук основана на том, что целое описывается по его части.

Вспомним, что, например, такая отрасль социологии, как зондиро­вание общественного мнения, смогла встать на индустриальные рель­сы не раньше, чем для институтов, специализирующихся на таком зон­дировании, был решен вопрос с научной выборкой. Стали известны законы отбора отдельных индивидуумов, чтобы сравнительно неболь­шое их число ¾ в случае, например, с американским институтом обще­ственного мнения Дж. Гэллапа, это 1500 ¾2000 американцев ¾ позво­лило распространять данные опроса на все население США. Говоря научным языком, с разработкой научной теории выборки была реше­на проблема, как добиться «надежных обобщений при интенсивном изучении относительно небольшого числа случаев». Реально выборка представляла возможность экономично, при большой скорости прове­дения работ, профессионально провести опрос, который зачастую дает более верную информацию, чем сплошное обследование.

Кстати, вспомним, что на заре исследований общественного мне­ния именно выборка подвергалась поистине уничтожающей критике оппонентов изучения общественного мнения. Обыденное сознание никак не могло согласиться с тем, что достаточно опросить всего 1500 человек, чтобы знать, что думают по определенному поводу 150 млн. человек.

Главное, что мы должны себе представить, это то, что существуют различные типы выборок и что далеко не все из них сможет приме­нить на практике контент-аналитик.

Не последняя тут проблема ¾ доступность материала. Хотя библиотеки многих стран уже давно озаботились проблемой сохранности продукции СМК для потомства, пробелов здесь множество. Как пра­вило, хранятся только самые престижные газеты[101]. Особенно остро сто­ит эта проблема по отношению к продукции радио и телевидения. Это может быть естественным ограничителем при общей разработаннос­ти технологии выборок.

Так, существует большой класс выборок репрезентативных, т.е. таких, которые претендуют на то, чтобы быть представительными для более широкой совокупности. Этот класс можно разделить на две не­равные группы по способу отбора единиц уже для конкретного иссле­дования. Большая часть ¾ это так называемые квотные выборки (или многочисленные модификации их: районированные, стратифициро­ванные, многоступенчатые, послойные и т.п.). При составлении их нужно обладать предварительной информацией обо всей совокупно­сти единиц, из которой производится отбор. В случае, например, с кон­кретной страной нужно знать распределение по количеству населения в каждом регионе, причем надо знать распределение этого населения по полу, возрасту, образованию или другой характеристике, которая, по мнению исследователя, влияет на то конкретное поведение, кото­рое он изучает ¾ например, потребление конкретных средств массо­вой коммуникации.

Понятно, что для аналитика содержания такая возможность отпа­дает. Всякий раз исследователь начинает с «белого листа». Ему как раз и надо знать распределение характеристик текста ¾ это не те достаточ­но постоянные характеристики населения, как пол, возраст, и прочие, которые нужны при определении выборки в исследованиях аудито­рии. Действительно, они для определенного региона могут считаться постоянными. Для больших совокупностей людей меняются мало, а если меняются, то эти изменения тут же становятся известными соответствующим статистическим органам, поскольку это их работа, которая заканчивается тем, что они сразу же информируют социум об этих изменениях.

Существуют и другие выборки в классе репрезентативных ¾ это вероятностные, или случайные выборки. Их построение основывает­ся на том факте, что если для каждой единицы генеральной совокуп­ности, например, населения всей страны, будет выдерживаться равновероятная возможность попасть в число отобранных для исследова­ния, т.е. конкретных людей будут отбирать случайным образом, то такая выборка будет отвечать высшему критерию представительнос­ти ¾ она будет репрезентативна для всего населения страны.

Мы повели разговор о репрезентативной выборке, а именно о ней идет речь, когда встает вопрос, в какой мере выводы исследования по ряду случаев приложимы (характерны, репрезентативны) ко всему явлению в целом, идя на поводу у неискушенного исследователя-аналитика. Репрезентативная выборка представляет лишь один из двух типов выборок, которыми практически (в принципе) исчерпываются все случаи выборок в социальных исследованиях. Другой класс выборок ¾ типологическая выборка ¾ в ходе исследования говорит нам, что наблюдаемое нами в обществе явление есть, оно при этом имеет определенные, зафиксированные в ходе нашего исследования характеристики (хотя может этими характеристиками и не исчерпываться).

Говоря о репрезентативных выборках, мы остановились на том, что один из подвидов их ¾ и только он один ¾ применим в контент-аналитических исследованиях.

Но здесь вероятностная, или случайная выборка ¾ а это как раз тотсамый подвид ¾ приобретает некоторые особенности, с которыми специалист не может не считаться.

В самом деле ¾ в случае с исследованиями общественного мнения мы имеем дело с объектом, протяженным в пространстве, скажем, с населением страны. Как ни сложно оперировать с таким объектом (или, как говорят социологи, с генеральной совокупностью исходных еди­ниц), социологи, установив определенную ступенчатость отбора для разных характеристик, обеспечивают для каждого человека, входяще­го в эту генеральную совокупность, искомую равновероятную возмож­ность попасть в выборку.

В случае с исследованиями содержания прессы мы имеем дело с объектом, протяженным во времени. Что тут считать генеральной совокупностью? Всю совокупность текстов с первого дня существова­ния газеты? Десятилетие? Пятилетие? Год? Другими словами ¾ если мы возьмем эмпирическую выборку Гэллапа в 1500 человек за обра­зец и будем строить свою выборку текстов в 1500 единиц (пока отвле­чемся от того, что считать тут единицей: это с людьми все ясно, а с текстом, как говорится, возможны варианты ¾ это могут быть отдель­ные дни/номера газеты целиком или отдельные материалы), то реаль­но мы должны промерить все тексты гигантским циркулем, «шаг» которого будут составлять эти 1500 единиц, от сегодняшнего дня в прошлое. Сделаем пять этих гигантских шагов (или двадцать пять), а потом пойдем в обратном порядке ¾ возьмем в отмеренном простран­стве каждую пятую единицу (или двадцать пятую) и получим идеаль­ную случайную выборку.

Но ¾ где остановиться циркулю? В пятой точке или двадцать пя­той? Это всегда произвольное решение исследователя. Иначе говоря — определение границ генеральной совокупности, из которой будет произведена выборка ¾ это авторитарное решение исследователя и никто ему этого подсказать не сможет. На его выбор должно влиять одно тактическое соображение ¾ его выборка репрезентативна для всего выбранного временного интервала, но не для отдельного периода внут­ри этого интервала. Другими словами, если для исследования выбра­ны 1500 текстов газеты с определенным интервалом внутри периода 1963 ¾1966 гг., то результаты будут относиться ко всему этому периоду, но не к маю месяцу 1964 г. (точно так же выбранные случайным обра­зом 1500 опрошенных по России демонстрируют мнение, репрезента­тивное в целом для России, но не для Красноярского края ¾ такая задача потребует увеличения выборки, при чем все на тех же началах от­бора уже по Красноярскому краю).

Каковы должны быть эти временные границы, повторяем, это воля исследователя. Ответ на этот вопрос теснее всего связан с про­граммой исследования, т.е. с его задачами. Ясно, что логика опреде­ления этих временных границ должна быть одной для выяснения воздействия текстов на аудиторию, процесса, который по самой своей сути является долговременным, и другой ¾ для снятия картины деятельности источника, которая может быть и одномоментной; одной ¾ когда само исследование замышляется для того, чтобы внести коррективы в сегодняшнюю деятельность источника, но она может быть совершенно другой в случае с историко-сравнительными иссле­дованиями.

Во всех случаях, когда речь идет о долговременном процессе, повышается необходимость репрезентативных выборок со случайным отбором единиц наблюдения. Вспомним исследование, связанное с изучением языка идеологий в мировой прессе (см. с. данной работы). Для анализа брался каждый номер престижных газет нескольких стран, вышедший первого и пятнадцатого числа каждого месяца.

Случайность этого отбора уравнивала источники с точки зрения частоты употребления в них политических символов. Поясним свою мысль ¾ определенная газета могла продемонстрировать первого чис­ла какого-то месяца в данном пятилетии необычную даже для нее «гу­стоту», частоту обращения к политической тематике, но эта же газета пятнадцатого числа другого месяца (в другом пятилетии) по причи­нам того, давно ушедшего пятилетия, абсолютно не касалась полити­ки: она вышла под лозунгом «день спорта». Но в пределах одного-двух-трех десятилетий, на которые распространялся анализ, любая другая газета могла быть точно в таком же положении в другие первое и пятнадцатое числа.

В этом смысле справедливо замечание, что большой временной отрезок для отбора и сам механизм случайного отбора (а это мог быть каждый второй и шестнадцатый номер газеты и т.п.) уравняли источ­ники и в этом смысле сделали надежными выводы исследования: они были характерны для всего анализируемого периода деятельности источника.

Такой случайный отбор уравнял газеты еще в одном отношении. Известно, что в газетах разных стран существенно разнятся номера в зависимости от дня недельного цикла. Так, например, американские ежедневные газеты имеют различную толщину в разные дни недели. Это зависит в основном от количества рекламы, размещаемой на стра­ницах газет, а она в свою очередь отражает динамику привычек поку­пателей в течение недели. И тогда выпуски газеты в четверг имеют одну толщину, а субботние ¾ другую. Когда газеты отбираются на боль­шом временном отрезке случайным образом, возрастает вероятность того, что в выборку попадут номера газет разных дней недели.

Когда исследователя интересует современная ему деятельность источника и он хочет ограничиться заведомо небольшим временным периодом для анализа, он должен специально учесть этот фактор. Так, известно, что каждая газета имеет сменные тематические рубрики для каждого дня недели, телевизионные каналы приурочивают особые развлекательные передачи к концу недели и т.д.

Чтобы отразить в выборке недельную цикличность, столь харак­терную для деятельности СМК, у аналитика содержания есть уже оп­робованный метод «конструирования» недели (авторы этого метода ¾ Роберт Джоунс и Рой Картер). По этому методу в годичном выпуске газет отмечаются все выпуски в понедельник, вторник и т.д. Затем бе­рется каждый десятый выпуск из числа выпусков в понедельник, каж­дый десятый выпуск из выпусков во вторник и т.п. Сконструирован­ная таким образом неделя будет репрезентировать весь год, выбран­ный для анализа. Надо сказать, что этот вывод не голословен: исследователи, рекомендовавшие такой подход к отбору единиц для анализа, в ходе своих сравнительных исследований показывали, что точно такие же результаты получаются, если анализировать весь мате­риал за год сплошь.

Интересный вариант выборки с использованием такой недели содержит исследование Ч. Окигбо (отделение массовых коммуникаций, Университет Нигерии).

После отбора четырех газет ¾ объекта исследований, репрезентирующих разные формы собственности, разные политические направ­ления: частное предприятие, наиболее элитарную газету, государствен­ную собственность/контроль, газету ¾ собственность управления штата¾формы, которые, по мысли автора, в значительной мере опреде­ляют отбор новостей (механизм отбора новостей был предметом ис­следования), автор использовал следующий механизм построения выборки. На первом этапе из годичной подшивки каждой газеты за 1986 г. (52 недели) методом случайного отбора была взята одна сплошная неделя для каждой газеты ¾ это была неделя с понедельника 10 марта по понедельник 17 марта 1986 г. Причем, поскольку воскресные но­мера газет в этой стране скорее напоминают еженедельник (большой объем, множество редакционных материалов и аналитических статей), они были изъяты из анализа. К этим семи номерам была прибавлена сконструированная неделя (случайным образом был отобран понедельник из всех понедельников и т.д.; в итоге в выборку попал понедель­ник 14 июля, вторник 9 сентября, среда 14 мая, четверг 28 августа, пятница 7 февраля, суббота 26 июля и понедельник 20 октября). Та­ким образом, исследование было осуществлено на 14 номерах анали­зируемых газет[102].

Но начинающий аналитик содержания, как и его оппоненты, дол­жен отчетливо сознавать, что в таком случае выводы его исследования относятся к этому обозначенному как основание для выборки году, но не к каждой неделе в отдельности.

И все-таки вопрос «сколько» остается. И здесь мы опять обраща­емся к изначальным задачам исследования: если мы анализируем раз­нородный материал, например, совокупный теле- или радиодень с их разнообразием рубрик или весь номер газеты, где есть информационные и очерковые материалы, редакционные статьи и теоретические «подвалы», справочные материалы и уголок юмора, надо выбирать больший объем; если в этой совокупности мы имеем дело с отдельной передачей или жанровым куском газеты как с объектом анализа, мы ограничиваемся меньшим объемом.

И здесь самое место «закрыть» еще один вопрос: о единицах, кото­рые мы выбираем ¾ дни (выпуски) или отдельные материалы. Согла­симся, что разница существенная ¾ проанализировать 1500 газетных выпусков или 1500 отдельных материалов. Исходя из тактики случай­ного отбора, это должны быть отдельные материалы: только они обра­зуют совокупность, уменьшение которой в тысячу или в десять тысяч раз (как в опросах общественного мнения) делает посильным, а зна­чит, и осуществимым анализ текстовой продукции.

Но тактика вероятностного случайного отбора требует, чтобы исходные единицы были, образно говоря, хорошо перемешаны[103]: едини­цы должны иметь равновероятную возможность попасть в выборку, это обязательное условие такого отбора. Теоретики вероятностного метода приводят в качестве примера в таких случаях урну, в которой перемешаны разноцветные шары или лотерейные билеты.

Если обсуждать с этой точки зрения текстовую продукцию СМК, то мы убеждаемся, что она существует в виде устоявшихся многосту­пенчатых структур: каждая полоса газеты имеет сложившуюся струк­туру информации (по тематике, по локальности, по расположению официальных материалов и справочных документов). Даже в преде­лах более простого случая, например одной передачи на телевидении, сложились определенные модели сосуществования отдельных мате­риалов ¾ как самый красноречивый пример такого рода ¾ программа «Время».

В таком случае отбор отдельных материалов может привести к значительным систематическим искажениям. Как правило, контент-аналитики, оперируя сравнительно небольшим искомым числом отдель­ных материалов (сопоставимым с вышеуказанными 1500¾500 едини­цами), случайно отбирают их в пределах одного теледня или одного выпуска газеты. Примеры со сконструированной неделей, о которой мы говорили, или с отбором каждого первого и пятнадцатого номера каждой газеты на протяжении десятилетий в исследовании языка по­литической пропаганды могут служить тут иллюстрациями.

Все вышеизложенные соображения о сложности обоснования вы­борки в контент-аналитических исследованиях объясняют, почему на практике за всю историю применения этого метода исследователи ¾ авторы одноразовых, эпизодических «замеров», «зондажей» содержа­ния СМК объясняют свою выборку на уровне здравого смысла: дос­тупностью единиц наблюдения, возможностью изучить данный объем в короткий срок и т.д.

Практически за этим стоит то, что аналитики всякий раз имеют ¾ за редкими исключениями ¾ дело с типологическими выборками: они скрупулезно констатируют, что в деятельности источника есть в дос­таточно короткий, точно ими фиксируемый отрезок времени. Социо­логи знают, что все социальные исследования чрезвычайно чувстви­тельны к фактору времени. Тем не менее, поскольку ¾ как мы можем судить из ретроспективного анализа применения контент-анализа в мировой социологии ¾ границы этого отрезка времени подвижны, мы можем сформулировать несколько методических правил, которые по­зволят начинающим аналитикам содержания определиться со своей выборкой.

Прежде всего исследователь должен учитывать реальную периодичность, цикличность, ритмичность в деятельности анализируемых СМК или отдельных газет, радио- и телеканалов. Ясно, например, что при анализе передачи, которая выходит в эфир один раз в месяц, и которая выходит несколько раз в день (информационные выпуски), мы должны будем предусмотреть ¾ если нас интересует их сравнение ¾ такой промежуток времени, чтобы обе эти передачи были представле­ны в нем равновесомо.

Если мы сравниваем ежедневную общенациональную газету с районной, которая имеет другую ¾ более редкую ¾ периодичность, соответственно, номеров для анализа ежедневной газеты мы можем брать меньше. Поможет принять тут правильную тактику такое методологи­ческое объяснение, что чем чаще воспроизводятся в деятельности ис­точника какие-то характеристики (а комплекс определенных характе­ристик программы «Время» воспроизводится, например, ежедневно), тем меньше единиц для наблюдения за этим источником нужно выб­рать по сравнению с другим источником, характеристики которого воспроизводятся реже.

Если мы интересуемся какой-либо одной характеристикой в деятельности источника, то мы при определении выборки руководству­емся следующими соображениями. Рассмотрим их на примере программы «Время», на характеристике «Обоснование коммуникатором выбора факта». Допустим, что мы на основании пробного пилотажно­го исследования, предварительного знакомства с этой телевизионной информационной программой убедились, что существуют такие виды этого обоснования:

1 ¾ сюжеты с лексической маркировкой времени события;

2 ¾ сюжеты с лексической маркировкой качественных признаков события и факта;

3 ¾ сюжеты без лексического обоснования выбора факта.

Начиная отслеживать материал (точка отсчета, начало отсмотра произвольно задается самим исследователем в зависимости от его ин­тереса к определенному временному периоду), мы фиксируем все слу­чаи появления разных видов «обоснования выбора факта». Как только появилась наиболее редко встречающаяся характеристика, мы можем закончить наше микроисследование. Мы получили результаты клас­сического типологического исследования: мы получили количествен­ное распределение массива информации по одной интересующей нас характеристике. Оказалось, что нам понадобилось проанализировать для этого 6¾7 телевыпусков программы «Время» (табл. 3.3).

Таблица 3.3

Распределение сюжетов программы «Время» по обоснованию выбора факта за май ¾июнь 1985 г. (в абс. цифрах)

 

Сюжеты Количество сюжетов
А. С лексической маркировкой вр6мени события  
Событие произошло сегодня  
Событие произошло вчера или ранее этого срока  
Юбилейные даты со словом «сегодня»  
Событие состоится в будущем  
Б. С лексической маркировкой качественных признаков  
Новизна  
Лучшие образцы  
Сложности, трудности  
Важность, ценность  
В. Без лексического обоснования выбора факта  

 

Если бы нас интересовала частотность появления в эфире облас­тей, краев, республик России, можно было бы заведомо утверждать, что в эфир пройдет гораздо больше выпусков «Времени», пока в поле внимания коммуникатора, а значит, и исследователя, попадет наиме­нее часто упоминаемая территориальная единица.

С учетом такого поведения реальных характеристик содержания исследователь, включающий в одну программу исследования до де­сятка признаков, берет достаточно большой отрезок времени, чтобы подстраховать себя. В случае с ежедневной газетой, информационной программой и т.п. это, как правило, два-три месяца.

Если исследователя заинтересует какое-либо конкретное событие, происходящее сегодня в мире, и информационная политика несколь­ких источников по освещению этого события, то потребуется сплош­ное наблюдение за всеми источниками в сроки, максимально совпада­ющие с самим событием. Если мы вспомним исследование газеты «Истинный американец», то пропуск какого-то номера за исследуе­мый период дал бы великолепную возможность адвокату подследствен­ных оспорить выводы экспертов. Или вообразим, что мы исследуем освещение ведущими телеканалами России кризис в Косово. Ясно, что исчерпывающий ответ на вопрос, как освещали этот конфликт ОРТ, РТР, НТВ и т.д., мы получим, если в поле зрения попадет весь времен­ной отрезок этого конфликта.

Следует предусмотреть чисто организационные моменты. Сегод­ня нашелся заказчик, который заказывает вам исследование информационного источника, и как всегда в таких случаях, результаты ему тре­буются «вчера». Сколько вам понадобится времени, чтобы разрабо­тать программу исследования, осуществить собственно анализ, написать комментарий и сдать отчет заказчику? Тогда проблема срока наблюдения за объектом приобретает совсем другой характер. И нич­то тут не заменит опыта исследователя, а также его знания всех эле­ментов, из которых состоит исследование. К следующему такому эле­менту мы и переходим.

 

Полевой этап

Каждое социологическ



Поделиться:


Последнее изменение этой страницы: 2016-07-14; просмотров: 818; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.22.61.246 (0.045 с.)