Каталог курсовых, рефератов, научных работ! Ilya-ya.ru Лекции, рефераты, курсовые, научные работы!

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

КЛАССИФИКАЦИЯ ОБЪЕКТОВ НЕЧИСЛОВОЙ ПРИРОДЫ НА ОСНОВЕ НЕПАРАМЕТРИЧЕСКИХ ОЦЕНОК ПЛОТНОСТИ.

           

            В СССР в середине 70-х годов активно ведутся работы по статистическому анализу нечисловых данных [1]. В настоящее время во Всесоюзном центре статистических методов и информатики мы при разработке методических документов и программных продуктов по прикладной статистике делим ее на четыре части соответственно виду обрабатываемых статистических данных: на статистику случайных величин, многомерный статистический анализ, статистику временных рядов и случайных процессов, статистику объектов нечисловой природы (другими словами, статистику нечисловых данных).

            Вероятностный и статистический анализ нечисловых данных сопровождали теорию вероятностей и математическую статистику с самого начала их развития. Типичными примерами являются урновые схемы и изучение рождаемости. Испытание Бернулли- вероятностная модель простейшего объекта нечисловой природы. Наиболее массовым применением статистических методов является, видимо, выборочный контроль качества продукции по альтернативному признаку (т. е. по признаку "годен” - “не годен"), относящийся, очевидно, к статистике объектов нечисловой природы [2].

            Развитие прикладных исследований привело к необходимости рассмотрения в качестве статистических данных различных объектов нечисловой природы. Этот термин применяем к объектам, которые нецелесообразно рассматривать как описанные числами. Другими словами, речь идет об элементах пространства, не являющихся линейными (векторными). Примеры: бинарные отношения (ранжировки, разбиения, толерантности и т. д.); множества; нечеткие множества; результаты измерений в шкалах, отличной от абсолютной; как обобщение перечисленных объектов - элементы пространств общей природы. Для результатов наблюдений, являющихся объектами нечисловой природы, рассматривают [1] классические задачи статистики: описание данных (включая классификацию) оценивание (параметров, характеристик, плотности распределения, регрессионной зависимости и т. д.).

            Математический аппарат статистики объектов нечисловой природы основан не на свойстве линейности пространства, а на применении симметрик и метрик в нем, поэтому существенно отличается от классического.

            В прикладных работах наиболее распространенный пример объектов нечисловой природы - разнотипные данные. В этом случае реальный объект описывается вектором, часть координат которого - значения количественных признаков, а часть - качественных (номинальных и порядковых).

            Основная цель настоящего раздела - обосновать новый подход [3] к классификации в пространствах произвольной природы, основанный на построении не параметрических оценок плотности распределений вероятности в таких пространствах [4].

" Пусть  Классификация объектов нечисловой природы на основе непараметрических оценок плотности - измеримое пространство,.  Классификация объектов нечисловой природы на основе непараметрических оценок плотности и  Классификация объектов нечисловой природы на основе непараметрических оценок плотности. суть  Классификация объектов нечисловой природы на основе непараметрических оценок плотности -конечные меры на  Классификация объектов нечисловой природы на основе непараметрических оценок плотности., причем  Классификация объектов нечисловой природы на основе непараметрических оценок плотности абсолютно непрерывна относительно  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, т. е. из равенства.  Классификация объектов нечисловой природы на основе непараметрических оценок плотности. =0 следует равенство  Классификация объектов нечисловой природы на основе непараметрических оценок плотности=0, где  Классификация объектов нечисловой природы на основе непараметрических оценок плотности.. В этом случае на  Классификация объектов нечисловой природы на основе непараметрических оценок плотности существует неотрицательная измеримая функция  такая, что

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности

для любого  Классификация объектов нечисловой природы на основе непараметрических оценок плотности Функция называется производной Родона-Никодима меры  Классификация объектов нечисловой природы на основе непараметрических оценок плотности по мере  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, а в случае, когда  Классификация объектов нечисловой природы на основе непараметрических оценок плотности - вероятностная мера, также плотностью вероятности  Классификация объектов нечисловой природы на основе непараметрических оценок плотности  по отношению к  Классификация объектов нечисловой природы на основе непараметрических оценок плотности. " [5]

                                          Будем считать, что в пространстве объектов нечисловой природы фиксирована некоторая мера  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, а мера  Классификация объектов нечисловой природы на основе непараметрических оценок плотности соответствует распределению Р случайного элемента  Классификация объектов нечисловой природы на основе непараметрических оценок плотности со знаниями в измеримом пространстве  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, т. е.

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности

Если -  Классификация объектов нечисловой природы на основе непараметрических оценок плотности пространство из конечного числа точек, то в качестве меры  Классификация объектов нечисловой природы на основе непараметрических оценок плотности можно использовать считающую меру (приписывающую единичный вес каждой точке), т. е.  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, или

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности

                                          В случае считающей меры значение плотности в точке  Классификация объектов нечисловой природы на основе непараметрических оценок плотности совпадает с вероятностью попасть в точку  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, т. е.  Классификация объектов нечисловой природы на основе непараметрических оценок плотности

              Многие методы классификации используют расстояния или меры близости между объектами или признаками. Такие методы пригодны и для классификации объектов нечисловой природы, лишь бы в соответствующем пространстве было определено расстояние или мера близости. Таким образом, широко известные иерархические агломеративные алгоритмы ближайшего соседа, дальнего соседа, средней связи и др., результатом работы которых являются дендрограммы, на самом деле относятся к статистике объектов нечисловой природы.

              Не пытаясь рассмотреть все многообразие методов классификации в статистике объектов нечисловой природы (см., например, [6, 7]), сосредоточимся на тех из них, которые используют плотности распределения и их оценки. Зная плотности распределения классов, можно решать основные задачи классификации - как задачи выделения кластеров, так и задачи диагностики. В задачах кластер-анализа можно находить моды плотности и принимать их за центры кластеров или за начальные точки итерационных методов типа динамических сгущений. В задачах диагностики (дискриминации, распознавания образов с учителя) можно принимать решения о классификации объектов на основе отношения плотностей, соответствующих классам. При неизвестных плотностях представляется естественным использовать их состоятельные оценки. Корректность такой постановки, как правило, нетрудно обосновать, например, в стиле [8]. Таким образом, для переноса на пространства произвольной природы основных методов классификации рассматриваемого типа достаточно уметь оценивать плотность распределения вероятности в таких пространствах.

              Методы оценивания плотности вероятности в пространствах общего вида предложен и первоначально изучены в [4]. В частности, в задачах классификации объектов нечисловой природы предлагаем использовать непараметрические ядерные оценки плотности типа Парзена-Розенблатта (этот вид оценок и его название введены нами в [4]):

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности,

где К:  Классификация объектов нечисловой природы на основе непараметрических оценок плотности - ядерная функция  Классификация объектов нечисловой природы на основе непараметрических оценок плотности - выборка по которой оценивается плотностью,  Классификация объектов нечисловой природы на основе непараметрических оценок плотности - расстояние между элементом выборки  Классификация объектов нечисловой природы на основе непараметрических оценок плотности и точкой  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, в которой оценивается плотность последовательность  Классификация объектов нечисловой природы на основе непараметрических оценок плотности показателей размытости такова, что при  Классификация объектов нечисловой природы на основе непараметрических оценок плотности0 и n Классификация объектов нечисловой природы на основе непараметрических оценок плотности, а  Классификация объектов нечисловой природы на основе непараметрических оценок плотности - нормирующий множитель, обеспечивающий выполнение условия

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности

              Оценки типа Парзена-Розенблатта - частный случай линейных оценок [4]. В теоретическом плане они выделяются тем, что удается получать результаты такого же типа, что в классическом одномерном случае ( Классификация объектов нечисловой природы на основе непараметрических оценок плотности), но, разумеется, с помощью совсем иного математического аппарата.

              Одна из основных идей состоит в том, чтобы согласовать между собой расстояние  Классификация объектов нечисловой природы на основе непараметрических оценок плотности и меры  Классификация объектов нечисловой природы на основе непараметрических оценок плотности. А именно, рассмотрим шары радиуса  Классификация объектов нечисловой природы на основе непараметрических оценок плотности

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности

и их меры

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности

              Предположим, что  Классификация объектов нечисловой природы на основе непараметрических оценок плотности как функция  Классификация объектов нечисловой природы на основе непараметрических оценок плотности при фиксированном  Классификация объектов нечисловой природы на основе непараметрических оценок плотности непрерывна и строго возрастает. Введем функцию

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности

              Это - монотонное преобразование расстояния, а потому  Классификация объектов нечисловой природы на основе непараметрических оценок плотности - метрика или симметрика (т. е. неравенство треугольника может быть не выполнено), которую, как и  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, можно рассматривать как меру близости между  Классификация объектов нечисловой природы на основе непараметрических оценок плотности и  Классификация объектов нечисловой природы на основе непараметрических оценок плотности.

              Введем

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности.

              Поскольку  Классификация объектов нечисловой природы на основе непараметрических оценок плотности определена однозначно, то

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности^

где  Классификация объектов нечисловой природы на основе непараметрических оценок плотности., а потому

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности

              Переход от  Классификация объектов нечисловой природы на основе непараметрических оценок плотности к  Классификация объектов нечисловой природы на основе непараметрических оценок плотности напоминает классическое преобразование, использованное Н. В. Смирновым,  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, переводящее случайную величину  Классификация объектов нечисловой природы на основе непараметрических оценок плотности с непрерывной функцией распределения  Классификация объектов нечисловой природы на основе непараметрических оценок плотности в случайную величину  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, равномерно распределенную на [ 0, 1]. Оба рассматриваемых преобразования существенно упрощают дальнейшие рассмотрения.

              Преобразование  Классификация объектов нечисловой природы на основе непараметрических оценок плотности зависит от точки  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, что не влияет на дальнейшие рассуждения, поскольку ограничиваемся изучением сходимости в точке.

              Функцию  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, для которой мера шара радиуса  Классификация объектов нечисловой природы на основе непараметрических оценок плотности равна  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, называют [4] естественным показателем различия или естественной метрикой. В случае пространства  Классификация объектов нечисловой природы на основе непараметрических оценок плотности и евклидовой метрики  Классификация объектов нечисловой природы на основе непараметрических оценок плотности имеем

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности

где  Классификация объектов нечисловой природы на основе непараметрических оценок плотности-объем шара единичного радиуса в  Классификация объектов нечисловой природы на основе непараметрических оценок плотности.

              Поскольку можно записать, что

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности

где

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности

то переход от  Классификация объектов нечисловой природы на основе непараметрических оценок плотности к  Классификация объектов нечисловой природы на основе непараметрических оценок плотности соответствует переходу от  Классификация объектов нечисловой природы на основе непараметрических оценок плотности к  Классификация объектов нечисловой природы на основе непараметрических оценок плотности. Выгода от такого перехода заключается в том, что утверждения приобретают более простую формулировку.

              ТЕОРЕМА 1. Пусть  Классификация объектов нечисловой природы на основе непараметрических оценок плотности - естественная метрика,

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности  Классификация объектов нечисловой природы на основе непараметрических оценок плотности

Плотность  Классификация объектов нечисловой природы на основе непараметрических оценок плотности непрерывна в  Классификация объектов нечисловой природы на основе непараметрических оценок плотности и ограничена на  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, причем  Классификация объектов нечисловой природы на основе непараметрических оценок плотности. Тогда  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, оценка  Классификация объектов нечисловой природы на основе непараметрических оценок плотности является состоятельной, т. е.  Классификация объектов нечисловой природы на основе непараметрических оценок плотностипо вероятности при  Классификация объектов нечисловой природы на основе непараметрических оценок плотности,

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности

Теорема 1 доказана в [4]. Однако остается открытым вопрос о скорости сходимости ядерных оценок, т. е. о поведении величины

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности

и об оптимальном выборе показателей размытости  Классификация объектов нечисловой природы на основе непараметрических оценок плотности.

              Введем круговое распределение  Классификация объектов нечисловой природы на основе непараметрических оценок плотности и круговую плотность  Классификация объектов нечисловой природы на основе непараметрических оценок плотности.

              ТЕОРЕМА 2. Пусть ядерная функция  Классификация объектов нечисловой природы на основе непараметрических оценок плотности непрерывна и  Классификация объектов нечисловой природы на основе непараметрических оценок плотностипри  Классификация объектов нечисловой природы на основе непараметрических оценок плотности. Пусть круговая плотность допускает разложение

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности

причем остаточный член равномерно ограничен [0, 1,....,  Классификация объектов нечисловой природы на основе непараметрических оценок плотности]. Пусть

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности

Тогда

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности

              Величина  Классификация объектов нечисловой природы на основе непараметрических оценок плотности достигает минимума, равного

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности

при

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности

что совпадает с классическими результатами для  Классификация объектов нечисловой природы на основе непараметрических оценок плотности (см. [9, с316]). Заметим, что для уменьшения смещения оценки приходится применять знакопеременные ядра  Классификация объектов нечисловой природы на основе непараметрических оценок плотности.

              В случае дискретных пространств естественных метрик не существует. Однако можно получить аналоги теорем 1 и 2 переходя к пределу не только по объему выборки  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, но и по параметру дискретности  Классификация объектов нечисловой природы на основе непараметрических оценок плотности.

              Пусть  Классификация объектов нечисловой природы на основе непараметрических оценок плотности- последовательность конечных пространств,  Классификация объектов нечисловой природы на основе непараметрических оценок плотности- расстояния в  Классификация объектов нечисловой природы на основе непараметрических оценок плотности

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности для любого  Классификация объектов нечисловой природы на основе непараметрических оценок плотности.

              Положим

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности,

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности,

 Классификация объектов нечисловой природы на основе непараметрических оценок плотности,

Тогда функции  Классификация объектов нечисловой природы на основе непараметрических оценок плотности кусочно постоянны и имеют скачки в некоторых точках  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, причем  Классификация объектов нечисловой природы на основе непараметрических оценок плотности.

              ТЕОРЕМА 3. Если  Классификация объектов нечисловой природы на основе непараметрических оценок плотности при  Классификация объектов нечисловой природы на основе непараметрических оценок плотности (другими словами,  Классификация объектов нечисловой природы на основе непараметрических оценок плотности при  Классификация объектов нечисловой природы на основе непараметрических оценок плотности), то существует последовательность параметров дискретности  Классификация объектов нечисловой природы на основе непараметрических оценок плотности такая, что при  Классификация объектов нечисловой природы на основе непараметрических оценок плотности,  Классификация объектов нечисловой природы на основе непараметрических оценок плотности,  Классификация объектов нечисловой природы на основе непараметрических оценок плотности справедливы заключения теорем 1 и 2.

              ПРИМЕР 1. Пространство  Классификация объектов нечисловой природы на основе непараметрических оценок плотности всех подмножеств конечного множества  Классификация объектов нечисловой природы на основе непараметрических оценок плотности из  Классификация объектов нечисловой природы на основе непараметрических оценок плотности элементов допускает [10, Пар 4. 3] аксиоматическое введение метрики  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, где  Классификация объектов нечисловой природы на основе непараметрических оценок плотности - символ симметрической разности множеств. Рассмотрим непараметрическую оценку плотности типа Парзена - Розенблатта  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, где  Классификация объектов нечисловой природы на основе непараметрических оценок плотности - функция нормального стандартного распределения. Можно показать, что эта оценка удовлетворяет условиям теоремы 3  Классификация объектов нечисловой природы на основе непараметрических оценок плотности.

              ПРИМЕР 2. Рассмотрим пространство функций  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, определенных на конечном множестве  Классификация объектов нечисловой природы на основе непараметрических оценок плотности со значениями в конечном множестве  Классификация объектов нечисловой природы на основе непараметрических оценок плотности. Это пространство можно интерпретировать как пространство нечетких множеств [11]. Очевидно,  Классификация объектов нечисловой природы на основе непараметрических оценок плотности. Будем использовать расстояние  Классификация объектов нечисловой природы на основе непараметрических оценок плотности. Непараметрическая оценка плотности имеет вид:  Классификация объектов нечисловой природы на основе непараметрических оценок плотности.

Если  Классификация объектов нечисловой природы на основе непараметрических оценок плотности,  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, то при  Классификация объектов нечисловой природы на основе непараметрических оценок плотности выполнены условия теоремы 3, а потому справедливы теоремы 1 и 2.

.             ПРИМЕР 3. Рассматривая пространства ранжировок  Классификация объектов нечисловой природы на основе непараметрических оценок плотности объект непреов, в качестве расстояния  Классификация объектов нечисловой природы на основе непараметрических оценок плотности между ранжировками  Классификация объектов нечисловой природы на основе непараметрических оценок плотности и  Классификация объектов нечисловой природы на основе непараметрических оценок плотности. Тогда  Классификация объектов нечисловой природы на основе непараметрических оценок плотности. не стремиться к 0 при  Классификация объектов нечисловой природы на основе непараметрических оценок плотности., условия теоремы 3 не выполнены.

              Пространства разнотипных признаков - это декартово произведение непрерывных и дискретных пространств. Для него возможны различные постановки. Пусть, например, число градаций качественных признаков остается постоянным. Тогда непараметрическая оценка плотности сводится к произведению частоты попадания в точку в пространстве качественных признаков на классическую оценку Парзена-Розенблатта в пространстве количественных переменных. В общем случае расстояние  Классификация объектов нечисловой природы на основе непараметрических оценок плотности можно, например, рассматривать как сумму евклидова расстояния  Классификация объектов нечисловой природы на основе непараметрических оценок плотности между количественными факторами, расстояния  Классификация объектов нечисловой природы на основе непараметрических оценок плотности между номинальными признаками ( Классификация объектов нечисловой природы на основе непараметрических оценок плотности, если  Классификация объектов нечисловой природы на основе непараметрических оценок плотности и  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, если  Классификация объектов нечисловой природы на основе непараметрических оценок плотности) и расстояния  Классификация объектов нечисловой природы на основе непараметрических оценок плотности между порядковыми переменными (если  Классификация объектов нечисловой природы на основе непараметрических оценок плотности и  Классификация объектов нечисловой природы на основе непараметрических оценок плотности - номера градаций., то  Классификация объектов нечисловой природы на основе непараметрических оценок плотности.

              Наличие количественных факторов приводит к непрерывности и строгому возрастанию  Классификация объектов нечисловой природы на основе непараметрических оценок плотности, а потому для непараметрических оценок плотности в пространствах разнотипных признаков справедливы теоремы 1 - 3.

Литература

1.Орлов А.И. Устойчивость в социально-экономических моделях.-М.Наука,1979.-296 с.

2.Орлов А.И. Экспертные оценки / Вопросы кибернетики. Вып.58.-М.: Научный Совет СССР по комплексной проблеме "Кибернетика", 1979.С.17-33.

3.Орлов А.И. / Тезисы докладов Четвертой международной Вильнюсской конференции по теории вероятностей и математической статистике: Том 2.-Вильнюс, Вильнюсский госуниверситет, 1985.С.278-280.

4.Орлов А.И. / Анализ нечисловой информации в социологических исследованиях.-М.Наука, 1985.С.58-92.

5.Орлов А.И. / Статистика. Вероятность. Экономика.-М.Наука,1985. С.99-107.

6.Орлов А.И. / Заводская лаборатория. 1987.Т.58. N3.С.90-91.

7.Орлов А.И. /Надежность и контроль качества. 1987.N6.С.54-59.

8.Рекомендации. Прикладная статистика. Методы обработки данных. Основные требования и характеристики.- М.:ВНИИС,1987.-64 с.

9.Кривцов В.С., Фомин В.Н., Орлов А.И. / Стандарты и качество. 1988.N3.С.32-36.

11.Колмогоров А.Н. Статистический приемочный контроль при допустимом числе дефектных изделий, равном нулю. - Л.: ДНТП, 1951. - 22 с.

12. Гнеденко Б.В. Математика и контроль качества продукции.- М.: Знание, 1978. - 64 с.

13. Беляев Ю.К. Вероятностные методы выборочного контроля.-М.: Наука, 1975. - 408 с.

14. Лумельский Я.П. Статистические оценки результатов контроля качества. - М.: Из-во стандартов, 1979. - 200 с. 

15. Орлов А.И. Современные проблемы кибернетики: Прикладная статистика. - М.: Знание, 1981. с 3-14.

16. Статистические методы анализа экспертных оценок / Ученые записки по статистике, т. 29, -М.: Наука, 1977-384 с. 17.

17.Экспертные оценки в системных исследованиях / Сборник трудов. - Вып. 4. - М.: ВНИИСИ, 1970 - 120 с.

18. Экспертные оценки / Вопросы кибернетики. - Вып. 58. - М.: Научный Совет АН СССР по комплексной проблеме / "Кибернетика". 1979. - 200 с.




Наш опрос
Как Вы оцениваете работу нашего сайта?
Отлично
Не помог
Реклама
 
Мнение авторов может не совпадать с мнением редакции сайта
Перепечатка материалов без ссылки на наш сайт запрещена