Основні поняття класифікації інформації 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Основні поняття класифікації інформації



 

Методи організації і пошуку економічної інформації в умовах її автоматизованої обробки потребують попередньої класифікації і кодування.

Класифікація – обов’язковий етап попередньої підготовки економічних даних до автоматизованої обробки, а також передумова раціо­нальної організації інформаційної бази і моделювання інформаційних процесів. ЇЇ можна схарактеризувати як складову інформаційного забезпечення будь-якої інформаційної системи, яка належить до мовних засобів управління. Тому класифікація – поділ множини об’єктів на підмножини за їх подібністю або відмінністю згідно з прийнятими методами класифікації – і є основою для кодування інформації і наступного її пошуку за допомогою обчислювальної техніки.

Під класифікацією інформації розуміємо не лише інформацію, яка є у масивах і повідомленнях, а й класифікацію безпосередньо інформаційних повідомлень (документів) і масивів.

Система класифікації є сукупність методів і правил класифікації та її результат.

Об’єкт класифікації – елемент класифікаційної множини (предмети, поняття, властивості тощо).

Ознака (критерій) класифікації – властивість чи характеристика об’єкта, за яким здійснюється класифікація. Кількісні та якісні вирази ознаки класифікації є її значенням.

Класифікаційне групування – підмножина об’єктів, які отримані в результаті класифікації.

Залежно від того, як розглядається дана множина об’єктів – послідовно чи одночасно за всіма ознакам основи поділу,– використовують ієрархічний чи фасетний метод класифікації.

Ієрархічний метод класифікації – послідовний поділ множини об’єктів на підлеглі класифікаційні групування.

Множину, яка класифікується, поділяють на підпорядковані підмножини спочатку за деякою ознакою (основою поділу) на великі групування, потім кожну з них – на ряд наступних групувань, які в свою чергу поділяють на дрібніші, поступово конкретизуючи об’єкт класифікації. Між цими угруповуваннями встановлюються відношення підпорядкованості (ієрархії).

Рис. 7.1. Схема побудови коду за ієрархічним методом класифікації

 

Ієрархічна класифікація характеризується кількістю ступенів класифікації, глибиною, обсягом і гнучкістю.

Сукупність класифікаційних групувань є ступенем класифікації.

Кількість ступенів класифікації визначає глибину класифікації, яку встановлюють залежно від ступеня конкретизації групування і кількості ознак, необхідних для розв’язання конкретних задач.

Від глибини класифікації й кількості групувань, які створюються на кожному ступені класифікації, залежить обсяг класифікації.

Як правило, найбільша кількість групувань, на яку може поділятися дане групування, що встановлюється постійним для всієї класифікації чи для даного ступеня, звичайно є кратною десяти.

Переваги: логічність побудови, чіткість виділення ознак, великий інформаційний обсяг, традиційність і звичність використання, добра пристосованість для ручної обробки інформації, можливість створення мнемонічних кодів, які несуть смислове навантаження.

Недоліки: жорстка структура, зумовлена фіксованістю ознак і заздалегідь встановленим порядком їх проходження, які не допускають включення за відсутності резервного обсягу нових об’єктів, класи-фікаційних групувань і ознак; неможливість групувати за будь-якою, наперед не заданою ознакою; для стабільності класифікаторів потрібні великі резервні обсяги.

Фасетний метод класифікації – паралельний поділ множини об’єктів на незалежні класифікаційні групування.

При цьому множина об’єктів, що характеризується деяким набором однакових для всіх об’єктів ознак (фасет), значення яких відповідають конкретним виразам зазначених ознак, може поділятися багаторазово і незалежно. У класифікаторах фасети найчастіше розміщуються простим переліком і мають свій код (рис. 7.2).

 

Рис. 7.2. Схема побудови коду за фасетним методом класифікації

 

Класифікаційні групування створюються з об’єктів, які мають конкретні комбінації ознак, взяті з відповідних фасет. Послідовність розміщення фасет при створенні класифікаційного групування задається фасетною формулою

.

У кожному окремому випадку фасетна формула визначається залежно від характеру розв’язуваних задач і алгоритму обробки даних. Можуть створюватись одночасно різні незалежні підмножини класифікаційних групувань:

,

,

,

.

Обсяг залежить від кількості фасет і кількості конкретних значень ознак у фасеті. Фасети у створюваному класифікаторі мають строго фіксоване місце. Їх ідентифікують за кодовим позначенням фасета, найчастіше це його порядковий номер.

Переваги: гнучкість структури, яка може пристосовуватися до змін у задачах; можна включати нові фасети чи видаляти старі.

Недоліки: недостатньо повне використання обсягу через відсутність практично багатьох із можливих комбінацій фасет; нетрадиційність і незвичність при використанні для ручної обробки даних.

Вибраний метод класифікації має задовольняти такі вимоги.

1. Мати достатній обсяг і необхідну повноту, які б гарантували охоплення всіх об’єктів класифікації в заданих межах.

2. Не перетинати груп об’єктів, які виділяються.

3. Мати достатню та економічно обгрунтовану глибину.

4. Мати гнучкість і надмірність для можливого збільшення множини об’єктів, які класифікуються.

5. Забезпечувати розв’язання всього комплексу задач.

6. Забезпечувати сполучення з іншими класифікаціями однорідних об’єктів.

7. Бути погодженим з алгоритмами і забезпечувати найбільшу ефективність обробки.

8. Забезпечувати простоту і автоматизацію процесу ведення класифікатора.

9. Лаконічність, чіткість і ясність класифікаційних ознак.

 

Кодування інформації

 

У процесі кодування об’єктів класифікації їх групуванням і ознакам за певними правилам присвоюють цифрові, літерні чи літерно-цифрові коди.

Кодування – утворення і присвоєння коду класифікаційному групуванню чи об’єкту класифікації.

Система кодування – це сукупність методів і правил кодування класифікаційних групувань і об’єктів класифікації заданої множини.

Код – це знак чи сукупність знаків, прийнятих для позначення класифікаційного групування чи об’єкта класифікації.

Код і його структура характеризуються алфавітом, основою і довжиною.

Структура коду – це умовне позначення складу і послідовності розміщення знаків у коді.

Розряд коду – позиція знаку в коді.

Алфавіт коду – система знаків, яка прийнята для утворення коду.

Основа коду – кількість знаків у алфавіті коду.

Довжина коду – кількість знаків у коді без урахування пропусків.

За державним стандартом (ГОСТ 6.01.–87 «Единая система класси-фикации и кодирования технико-экономической информации. Основные положения».– М.: Изд-во стандартов, 1987) є чотири методи кодування: порядковий, серійно-порядковий, послідовний і паралельний.

Усі ці методи розглянемо на прикладі кодування студентів академічної групи з визначенням ознаки статі. Дані розмістимо в табл. 7.1.

 

Таблиця 7.1

Кодування академічної групи з визначенням ознаки статі

Список групи Порядковий Серійно-порядковий Послідовний Паралельний
1. Абрамов 2. Сидорова 3. Рогачова 4. Борисов ... 24. Шутов 25. Юрова        
26. Волошин        

 

Порядковий метод кодування – створення коду із чисел натурального ряду і його привласнення. Найбільш простий і повний, однозначний.

На основі максимальної кількості об’єктів, які класифікуються, визначається кількість розрядів для ознаки і всього коду.

Так, у групі 25 студентів – потрібна довжина коду при десятковій основі у два розряди. Присвоїмо коди студентам у таблиці.

Серійно-порядковий метод кодування – створення коду із чисел натурального ряду, із закріпленням окремих серій чи діапазонів цих чисел за об’єктами класифікації з однаковими ознаками і його привласнення. Використовується для двоознакових номенклатур.

При визначенні кількості розрядів для коду беруть до уваги максимальну кількість об’єктів для найбільшої серії чи діапазону і добавляють резервні позиції для кодування нових об’єктів. Їх кількість визначають на основі обстеження проблемної сфери чи беруть 25 % найбільшої кількості об’єктів.

У групі 17 дівчат і 8 хлопців. Для кодування найбільшої серії (дівчата) потрібен код із двух розрядів.

8 – хлопців 01 – 08, 3 розряди резервні. Тому 01 – 11.

17 – дівчат 12 – 29, 4 розряди резервні. Тому 12 – 33.

Присвоїмо коди студентам у таблиці.

Ці два коди повністю ідентифікують об’єкт, але не віддзеркалюють ознакову інформацію про нього в коді і здебільшого використовуються для передавання інформації на відстані. Їх особливість – незалежність від методів класифікації, які використовуються, і суті розв’язуваних задач, складність при автоматизованій обробці (групування з подібними ознаками, підсумовування за групою об’єктів).

Послідовний метод кодування – це створення коду класифіка-ційного групування і (чи) об’єкта класифікації з використанням кодів послідовно розміщених підпорядкованих групувань, які отримані при ієрархічному методі класифікації, і його привласнення.

Переваги послідовного методу: простота побудови коду, велика місткість при великій інформативності, можливість отримання результатів по вищих (старших) розрядах.

Недоліки: велика кількість знаків у коді і складність побудови задач.

Паралельний метод кодування – це створення коду класифіка-ційного групування і (чи) об’єкта класифікації з використанням кодів незалежних групувань, які отримані при фасетному методі класифікації, і його привласнення.

Переваги паралельного методу: добра пристосованість для автоматизованої обробки і розв’язання техніко-економічних задач, характер яких постійно змінюється, фасетна побудова уможливлює стандартизацію.

Недоліки: обмежені можливості ідентифікації об’єктів, велика надмірність, неповне використання обсягу створеної класифікації.

Ці методи дають істотну ознакову інформацію про об’єкт, але мають обмежені можливості ідентифікувати їх.

Як методи класифікації, так і методи кодування самостійно практично не застосовуються. Аби скористатися перевагами різних методів, на практиці використовують різні комбінації методів класифікації та кодування.

Можливі комбінації визначаються їх взаємозв’язком, який дає певні конкретні структури, що використовуються у відповідних класифікаторах. Вибір тієї чи іншої комбінації залежить від призначення класифікатора і конкретних задач, у яких він буде використовуватись.

У документації з інформаційного забезпечення РД 50–34.698–90 (розділ 5 «Требования к содержанию документов с решениями по инфор-мационному обеспечению») складається документ «Побудова системи класифікації і кодування» і «Опис систем класифікації і кодування», в якому по кожному об’єкту, який класифікується, має бути наведено опис методу кодування, структуру і довжину коду, вказівки про систему класифікації та інші відомості на вибір розробника.

Вимоги до кодів:

1. Забезпечення розв’язання всіх задач системи при мінімумі їх довжини.

2. Єдність кодів на всіх рівнях управління.

3. Структура коду має забезпечувати групування інформації у необхідних розрізах.

4. Зміст номенклатур повинен відповідати вимогам державних стандартів чи керівних методичних матеріалів.

5. Забезпечення інформаційного сполучення взаємопозв’язаних систем.

6. Автоматичний контроль помилок.

Кодування інформації виконується такими способами:

1) ручним проставленням у повідомленнях того чи іншого коду поряд з назвою об’єктів номеклатур;

2) друкарським – ряд номенклатур кодується в процесі виготов-лення бланків носіїв інформації (код складу, код операції руху матеріалів, код документа і т.п.);

3) автоматизованим – виведенням коду на екран з масиву;

4) на спеціальному обладнанні, яке дає змогу автоматично кодувати інформацію.

Потрібно створювати спеціальні програмні засоби, які автома-тизують процес їх побудови і використання.

 



Поделиться:


Последнее изменение этой страницы: 2016-06-26; просмотров: 741; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.14.80.45 (0.03 с.)