Зарегистрироваться

Распознавание образов

Категории Математическая кибернетика | Под редакцией сообщества: Математика

Распознавание образов – раздел кибернетики, развивающий теоретические основы и методы классификации и идентификации предметов, явлений, сигналов, ситуаций, и т.п.

Собственно распознавание состоит в установлении принадлежности объекта к одному из заранее выделенных классов объектов (образам). Если же предварительного разделения объектов на классы не задано, и это нужно сделать, то такая задача называется задачей кластеризации, таксономии, обучения без учителя, самообучения, и т.п.

Суть распознавания проще всего пояснить на примере распознавания изображений. Существуют классы изображений такие, что познакомившись с некоторыми из изображений данного класса, мы оказываемся способными узнавать все последующие изображения из этого класса. Так, например, познакомившись с несколькими начертаниями буквы А, мы в дальнейшем узнаем ее, написанную разными почерками, напечатанную разными шрифтами, увеличенную, уменьшенную, искаженную, и т.п. При этом характерно то, что мы с уверенностью назовем предъявленное нам изображение буквой А, хотя точно такого изображения, какое нам предъявлено, мы, возможно, в прошлом никогда не видели.

Распознавание, конечно, не ограничивается только изображениями. Аналогичным образом дело обстоит с распознаванием звуков или слов. Задачу распознавания решает и врач-диагност, когда по совокупности результатов наблюдений за больным и анализов относит его состояние к той или иной болезни, и т.п.

Можно выделить несколько подходов к решению задачи распознавания образов, которые сегодня наиболее продвинуты: дискриминантный (с подразделением на детерминированный и теоретико-вероятностный варианты), комбинаторно-логический и структурно-лингвистический.

Идея дискриминантного подхода состоит в следующем. Распознаваемый объект представляется в виде n-мерного вектора значений характеризующих этот объект признаков. Такой вектор определяет точку в n-мерном пространстве. Предполагается, что объекты одного образа группируются в соседних точках пространства и составляют некоторую область в пространстве. Если теперь некоторыми поверхностями разделить области, соответствующие разным образам, то задача распознавания неизвестного объекта сводится к определению области, в которую попадает точка, соответствующая объекту.

Поверхности, которые разделяют соответствующие разным классам области пространства, находятся с помощью дискриминантных функций. Основное различие между детеминированным и вероятностным вариантами дискриминантного подхода состоит в идеях, на основе которых находятся эти дискриминантные функции.

В рамках структурно-лингвистического подхода распознаваемый объект представляется состоящим из отдельных фрагментов, каждому из которых ставится в соответствие буква некоторого алфавита. Правилам соединения фрагментов в целый объект ставятся в соответствие правила соединения букв в слова и правила преобразования слов. Правила соединения букв в слова подбираются таким образом, чтобы и другие возможные слова, получающиеся при данном алфавите и данном наборе правил, соответствовали объектам, принадлежащим тому же образу, которому принадлежал и исходный объект. Совокупность алфавита и правил образования слов определяет так называемую грамматику, а совокупность слов, которые могут получиться с использованием данной грамматики, называется языком. Тогда вопрос о принадлежности данного объекта заданному образу сводится к выяснению того, является ли слово, соответствующее объекту, словом в языке, соответствующем заданному образу.

Комбинаторно-логический подход опишем на примере тестового подхода. В рамках этого подхода объект представляют в виде n-мерного вектора значений признаков аналогично дискриминантному подходу. Пусть, для примера, есть всего два образа, и распознаваемый объект принадлежит одному из них. Составляем таблицу, верхняя часть строк которой – векторы первого образа, нижняя - второго. Возьмем набор столбцов такой, что если вычеркнуть остальные столбцы, то в получившейся таким образом усеченной таблице любая строка верхней части отличается от любой строки нижней части. Такой набор столбцов называем тестом, и это понятие составляет основу тестового подхода. Содержательно тест – это такой набор признаков, которые сами по себе, без остальных признаков, позволяют подразделить имеющиеся образцы на два образа. Тест можно рассматривать и как сложный "агрегированный" признак, приспособленный для нужного деления образцов на классы. Если у предъявленного к распознаванию объекта его "укороченный" по столбцам теста вектор совпадает с какой-либо строчкой верхней части "усеченной" таблицы, то говорим, что этот тест "голосует" за первый образ, в противном случае (совпадения со строчкой в нижней части таблицы) - за второй. Разные тесты могут относить один и тот же объект к разным образам. В алгоритме голосования по тестам объект относим к тому из образов, за который проголосовало большинство тестов.

Тестовые алгоритмы были истоками обобщений комбинаторно-логического характера. В рамках алгебраического подхода к распознаванию образов распознающий алгоритм представляется в виде произведения распознающего оператора и решающего правила. Затем над распознающими операторами вводятся операции сложения, умножения, умножения на скаляр. Показывается, что в рамках определяемого таким образом алгебраического расширения исходного набора распознающих операторов, находится и такого распознающий алгоритм, который оптимален в некотором заранее определенном смысле.

Немалая часть реально работающих и значимых для практики алгоритмов распознавания – эвристические. Эвристика – подход, основывающийся на здравом смысле и изобретательности, ориентированных на конкретную задачу и ее особенности. Такое решение, как правило, не претендует на общность и теоретическую обоснованность. Главным является удовлетворительный в смысле практического применения результат, основной частью которого является программная реализация.

Значительная часть задач распознавания связана с распознаванием визуальных образов. Это в немалой степени определяется тем, что для человека подавляющая часть рецепторной информации о среде – зрительная информация (по некоторым оценкам биологов – до 90 процентов). При построении моделей зрительного распознавания многое зависит от того, что именно при формальном рассмотрении называть изображением. Существуют модели, где изображение – это функция, сопоставляющая каждой точке плоскости степень "зачерненности" этой точки. Изображение может быть и точкой в многомерном пространстве (перцептрон с ячеистым экраном), и предложением в некотором языке (структурно-лингвистический подход).

В рамках дискретно-геометрического подхода к распознаванию визуальных образов изображение – конечное множество точек в евклидовом пространстве. В частности двумерное изображение – конечное множество точек на плоскости. Так можно представить с нужной степенью точности любое реальное черно-серо-белое изображение. Цветное изображение очевидным образом представляется тремя такими нецветными. Точки в трехмерном пространстве задают отдельные объекты и целые сцены, в четырехмерном - трехмерные сцены в динамике.

За пределами зрительной и слуховой перцепции попытки моделирования работы других рецепторных органов редки. В последнее время появились работы по построению моделей тактильной перцепциии, и распознавания образов, основанного на такого рода восприятии.

Эта статья еще не написана, но вы можете сделать это.