Машинное зрение в производстве. Машинное зрение. Что это и как им пользоваться? Обработка изображений оптического источника. Достоинства и недостатки систем машинного зрения

Машинное зрение по своей сути предполагает анализ визуальной информации для дальнейшего принятия решения, какое действие совершить по отношению к объекту, который находится в фокусе. Простейший пример использования технологии: проверка состояния изделия на конвейере или перед отправкой посылки почтой. Также нередко машинное зрение используется для оценки качества печатных плат, моментально сравнивая каждый новый продукт с эталонной платой перед автоматическим переносом на следующий этап сборки. Эти технологии представляют собой бесценный ресурс для оценки качества и снижения уровня брака там, где человеческий глаз и мозг просто не в состоянии дать объективную оценку из-за необходимости просматривать одинаковые предметы сотни или тысячи раз в день.

Вычислительная потребность «машинного зрения»

По мере роста разрешения оптических систем потенциал машинного зрения также увеличивается, так как вместе с разрешением множится и количество деталей для оценки. Все более и более мелкие объекты могут быть обработаны по шаблонному принципу, что ведет к увеличению нагрузки на процессор, который должен проанализировать значительный массив данных и быстро принять решение о следующем шаге (соответствует/не соответствует, задержать, вернуть в начало и т. д.). Например, при сортировке овощей простые решения о соответствии и размере оказываются уже неподходящими, потому что стандарты разных стран отличаются, а качество продукции варьируется в зависимости от сезона. Чтобы минимизировать количество брака для производителя и одновременно обеспечить нужное качество для потребителя необходимы более детальные алгоритмы и категории — а это практически невыполнимая задача для человеческих глаз и мозга.

Скажем, существует датская фирма Qtechnology, которая поставляет «умные камеры» для сортировки овощей. Они способны без участия человека обрабатывать до 25 тонн продукции в час. Такие объемы достигаются за счет анализа свыше 250 000 отдельных продуктов на базе более чем 500 000 изображений. И поскольку каждая картинка занимает примерно 6,2 Мб, получается, что в итоге требуется анализ свыше 2,5 терабайт графических данных в час — колоссальный объем информации! Только для передачи такого массива потребуется более 6 часов при использовании гигабитного подключения Ethernet.

Чтобы решить эту задачу с использованием более простых алгоритмов, требуется разбить ее на стадии и установить несколько камер, увеличить зоны освещения, выделить больше места на фабриках и так далее. В качестве альтернативы можно применить более производительные вычислительные системы: с централизованной мощностью и более скоростным соединением или распределенной обработкой информации «умными камерами», которые будут фиксировать данные в реальном времени на каждом этапе, поставляя в финальный механизм принятия решений только готовые параметры.

В стандартных системах визуального контроля качество и безопасность продуктов чаще всего определяются по внешним физическим признакам, таким как текстура и цвет. Гиперспектральная съемка дает пищевой промышленности возможность оценивать продукты по дополнительным химическим и биологическим параметрам, позволяющим определить уровень сахара, жира, жидкости и количество бактерий в каждом продукте.
При гиперспектральной визуализации трехмерные наборы пространственной и спектральной информации получаются из каждого пикселя. Дополнительные спектральные характеристики дают более подробное описание параметров, позволяя осуществлять их классификацию. Трехмерные наборы включают в себя интенсивность (отраженный или пропускаемый свет) каждого пикселя, которая высчитывается при измерении длины всех видимых волн света, в результате каждый набор данных несет в себе массу информации. Этот объем информации отражает экспоненциальный рост в вычислительной задаче для проведения качественного и количественного анализа состояния продукта в реальном времени.

Применение гетерогенных вычислений

Для удовлетворения запросов, а также решения будущих задач, необходимы высокопроизводительные и масштабируемые вычислительные системы.

Упомянутая Qtechnology использует гибридные процессоры APU компании AMD в платформах «умных камер». Эти процессоры сочетают в себе GPU (графический процессор) и CPU (центральный процессор) на одном кристалле. В результате система имеет возможность отправлять на обработку массивы графических данных непосредственно на GPU без какой-либо задержки на передачу между компонентами. А CPU получает возможность обрабатывать без задержек другие задачи, повышая производительность всей системы в реальном времени и обеспечивая необходимую мощность для современных требований систем с машинным зрением.
Объединение разных вычислительных модулей на одном кристалле или в одной системе позволяет передать каждому элементу соответствующую ему нагрузку — и это основа гетерогенных вычислений. Консорциум Heterogeneous System Architecture (HSA) Foundation был основан в 2012 году, чтобы сформулировать открытые отраслевые спецификации для процессоров и систем, которые используют все доступные вычислительные элементы для повышения конечной эффективности. Компания AMD продвигает концепцию гетерогенных вычислений, суть которой заключается в совместном использовании всех вычислительных ресурсов системы: как центральных, так и графических процессоров.

В частности, GPU представляет собой модуль параллельных вычислений, который может легко применять одни и те же инструкции для больших наборов данных (в нашем случае — пикселей) одновременно; и это именно то, что необходимо компаниям для работы установок с машинным зрением. К тому же производительность системы может быть увеличена за счет объединения возможностей APU с внешней дискретной видеокартой. Такой подход позволяет компаниям при необходимости добавлять вычислительные ресурсы GPU для поддержки еще более сложных задач машинного зрения.

Обширная поддержка экосистемой архитектуры x86 позволяет компаниям использовать библиотеки для обработки изображений с открытым кодом или подключать решения от сторонних компаний, такие как OpenCV, Mathworks Matlab и Halcon. Инструменты отладки, анализаторы задержек и профилировщики (perf, ftrace) сегодня так же широко доступны. Машинное зрение представляет собой самый свежий пример использования вычислительной мощности полупроводников для сокращения затрат, ускорения производства, повышения качества и получения ряда других полезных преимуществ, используемых во многих приложениях и отраслях. Таким образом, благодаря инновациям и успешным идеям инженеров по встраиваемым решениям возникает положительный эффект в целом для экономики, культуры и каждого из нас в частности.

Обзор рынка технологий компьютерного зрения

овременный мир компьютерных систем сложно представить без технологий машинного, или компьютерного, зрения. В статье «Зачем компьютеру зрение?» (КомпьютерПресс № 5’2002) была рассмотрена история становления этой технологии и дан обзор ряда ее приложений. Безусловно, в статье описана лишь малая часть приложений из широкого спектра применяемых систем машинного зрения, и в следующих номерах мы еще вернемся к рассмотрению этой весьма интересной и стремительно развивающейся области знаний. Да, именно стремительно развивающейся. Ведь этой технологии всего около 50 лет, что по меркам многих точных наук не выходит за рамки периода становления. Наращивая свой научный и практический потенциал параллельно с совершенствованием вычислительной и регистрирующей техники, компьютерное зрение постепенно завоевывает все новые технологические рубежи. Высокопроизводительные вычислительные машины последнего поколения (к ним относятся и современные персональные компьютеры) уже позволяют решать многие задачи обработки потоков цифровой видеоинформации и принятия решения в режиме реального времени. И сегодня, порой незаметно для большинства из нас, компьютерное зрение достаточно прочно закрепляется во многих областях жизнедеятельности человека, помогая ему, а подчас заменяя его, избавляя от монотонного, рутинного или, нередко, связанного с риском для жизни труда.

Ни для кого не секрет, что компьютерное зрение как технология получило наиболее широкое, полное и всестороннее развитие на Западе, особенно в США, в Южной Корее и в Японии. Связано это прежде всего с мощной финансовой поддержкой этого направления со стороны правительства и инвесторов, прогнозирующих за ним большое будущее. Причем правительство в основном поддерживает развитие технологии в общеобразовательных центрах, а инвесторы обеспечивают поддержку частным высокоперспективным компаниям. Наиболее яркими примерами таких хорошо финансируемых научных центров могут служить Лаборатория Искусственного Интеллекта Массачусетсского Технологического Института (MIT Artificial Intelligence Laboratory), UC Berkeley Computer Vision Group, Vision and Autonomous Systems Center Университета Корнеги-Меллона, Stanford Vision Laboratory и ряд других. Примерами поддерживаемых частных компаний могут служить такие компании, как Visionics, Eyematic и др. Всего на Интернет-сайте, объединяющем разработчиков в области машинного зрения, - Computer Vision Home Page (http://www.2.cs.cmu.edu/afs/cs/project/cil/ftp/html/txtvision.html) - зарегистрировано около 200 групп и научных лабораторий, работающих над данной проблематикой. Следует отметить, что этим не исчерпывается круг организаций, занимающихся компьютерным зрением, так как существует большое количество коммерческих фирм, специализирующихся в области машинного зрения и обработки изображений. Информацию о них можно найти на специализированных тематических Интернет-сайтах, посвященных отдельным направлениям данной технологии. Иными словами, разработчики различных технологий внутри самой технологии компьютерного зрения как бы объединяются в клубы по интересам. Например, интересующиеся достижениями в области распознавания жестов могут найти достаточно подробную информацию об исследованиях, исследовательских группах, коммерческих приложениях, патентах на соответствующем специализированном Интернет-сайте - Gesture Recognition Home Page (http://www.cybernet.com/~ccohen/gesture.html). Там же можно скачать некоторые демонстрационные приложения и ознакомиться с последними научными публикациями. Если же читатель предпочитает заняться технологиями, связанными с распознаванием лиц, то ему прямая дорога в виртуальный клуб на другом Интернет-сайте - Face Detection and Recognition Home Page (http://home.t-online.de/home/Robert.Frischholz/face.htm).

Следует отметить, что все перечисленное выше приводит к быстрому росту и совершенствованию технологий компьютерного зрения. В настоящее время зарубежные научно-исследовательские и коммерческие центры привлекают большое количество ученых и высококвалифицированных программистов, проводят распараллеленные исследования в различных областях машинного зрения, добиваясь достаточно весомых результатов.

Россия, как полноправный член мирового экономического сообщества, не осталась в стороне от этого процесса. Вот уже несколько лет на российском технологическом рынке также наблюдается тенденция повышения интереса к проблемам компьютерного зрения, причем как со стороны руководителей ряда IT-компаний и компаний, работающих на рынке безопасности, так и со стороны потребителей (пользователей) и студентов, желающих специализироваться в этой области. Реакцией на этот интерес стало появление лабораторий, групп и коммерческих структур, ставящих перед собой задачу разработки различного рода технологий и приложений для решения проблем машинного зрения. И если еще десятилетие назад мы были в роли догоняющих, то на сегодняшний день многие компании - лидеры в области передовых технологий стремятся на российский рынок с целью приобретения соответствующих технологий компьютерного зрения или размещения заказов на передовые исследования и разработки в этой области.

Этой теме и посвящена настоящая статья, целью которой является не только продемонстрировать наличие интереса к данной тематике со стороны российских и зарубежных товаропроизводителей, но и рассказать о ряде российских фирм, разрабатывающих программное обеспечение для различных систем обработки и анализа изображений.

Кто есть кто на российском рынке компьютерного зрения

сследование российского рынка разработчиков технологии машинного зрения показывает, что количество фирм, занимающихся компьютерным зрением, относительно невелико. Рассмотрим наиболее заметные из этих компаний и приведем краткое описание некоторых интересных технологий компьютерного зрения, которые поставляются ими на отечественный и мировой рынки.

Компания SPIRIT

К наиболее известным в мире фотограмметрическим системам относятся такие аппаратно-программные комплексы, как Leica и Intergraph, поставляемые вместе с мощными рабочими станциями. Это весьма дорогостоящие системы, и позволить их себе могут немногие компании. С развитием вычислительной техники все популярнее становятся менее дорогостоящие системы, позволяющие проводить обработку изображений на персональных компьютерах. Российские цифровые фотограмметрические системы «Талка» (http://www.talka-tdv.ru/), Photomod (фирма «Ракурс» (http://www.racurs.ru/)), Z-Space (ГосНИИАС), ЦФС ЦНИИГАиК (Роскартография) или «Фотоплан» (29-й институт Министерства обороны), не уступая, а порой превосходя в качестве обработки цифрового видеосигнала зарубежные аналоги, будучи при этом в десятки раз дешевле аналогичных зарубежных разработок. Рассмотрение характеристик и возможностей таких систем - предмет отдельной статьи.

Еще одно направление в области машинного зрения - построение систем распознавания символов. В данной статье мы лишь косвенно упомянули об этой области, в которой технологии компьютерного зрения можно считать сложившимися. В частности, мы рассмотрели лишь узкоспециализированные задачи, решаемые компаниями в рамках коммерческих проектов. Если же вести речь о сложившихся коммерческих продуктах и технологиях систем распознавания символов, то нельзя не упомянуть о крупнейших российских и мировых поставщиках данной технологии - компании ABBYY с серией программ FineReader и компании Cognitive Technologies с серией программ CuneiForm. Обзору технологий, поставляемых данными компаниями, посвящена не одна статья на страницах КомпьютерПресс. Информацию о достижениях этих компаний можно найти и в этом номере журнала. Поэтому, отдавая должное этим компаниям и их технологиям, мы лишь вскользь упоминаем о них в рамках данной статьи.

Подводя итог, можно с уверенностью заявить, что российские технологии компьютерного зрения не уступают, а во многом и превосходят зарубежные аналоги. Зачастую компаниям, развивающим эти технологии, не хватает всемирно известного имени. Поэтому и инвестиции в них, как правило, делают неохотно. Однако не вызывает сомнений, что высокий уровень технологий и высокая квалификация российских специалистов уже в недалеком будущем приведут к доминированию на мировом рынке именно российских технологий компьютерного зрения.

КомпьютерПресс 7"2002

Магистрант. Мухамедияров Р.М.

Казахский национальный технический университет К.И.Сатпаева, Алматы, Казахстан

Машинное зрение: понятия, задачи и области применения

1. Основные определения и понятия машинного зрения

Машинное зрение - это научное направление в области искусственного интеллекта, в частности робототехники, и связанные с ним технологии получения изображений объектов реального мира, их обработки и использования полученных данных для решения разного рода прикладных задач без участия (полного или частичного) человека.

Машинное зрение теснейшим образом взаимодействует с такими областями как Компьютерное зрение , Обработка изображений , Анализ изображений , Распознавание образов и т.д. Также нет стандартной формулировки того, как должна решаться проблема данной области и ч асто трудно однозначно отнести возникающие задачи и применяемые методы решения к одной из этих областей. Если сделать обзор технических приемов, алгоритмов, методов обработки изображений, которые используются и разрабатываются в этих областях, можно увидеть, что они являются более или менее идентичными.

Машинное зрение сосредотачивается на применении, в основном промышленном, например, автономные роботы и системы визуальной проверки и измерений. Это значит, что технологии датчиков изображения и теории управления связаны с обработкой видеоданных для управления роботом и обработка полученных данных в реальном времени осуществляется программно или аппаратно.

Обработка изображений и Анализ изображений в основном сосредоточены на работе с 2D изображениями, т.е. как преобразовать одно изображение в другое. Например, попиксельные операции увеличения контрастности, операции по выделению краёв, устранению шумов или геометрические преобразования, такие как вращение изображения. Данные операции предполагают, что обработка/анализ изображения действуют независимо от содержания самих изображений.

Компьютерное зрение сосредотачивается на обработке трехмерных сцен, спроектированных на одно или несколько изображений. Например, восстановлением структуры или другой информации о 3 D сцене по одному или нескольким изображениям. Компьютерное зрение часто зависит от более или менее сложных допущений относительно того, что представлено на изображениях.

Также существует область названная Визуализация , которая первоначально была связана с процессом создания изображений, но иногда имела дело с обработкой и анализом. Например, рентгенография работает с анализом видеоданных медицинского применения.

Наконец, Распознавание образов является областью, которая использует различные методы для получения информации из видеоданных, в основном, основанные на статистическом подходе. Значительная часть этой области посвящена практическому применению этих методов.

Таким образом, можно сделать вывод, что понятие «машинное зрение» на сегодняшний день включает в себя: компьютерное зрение, распознавание зрительных образов, анализ и обработка изображений и т.д.

Основными элементами современных систем машинного зрения можно назвать камеру, с помощью которой получают изображение, плату ввода, оцифровывающую изображение, и плату управления движением. Технология машинного зрения имеет несколько этапов работы системы. Первым этапом является получение изображения контролируемого объекта. Далее полученное изображение необходимо ввести в промышленный контроллер или другой компьютер, где происходит компьютерная обработка, анализ полученных данных и принятие решений в соответствие с заложенной программой управления. Заключительным этапом является вывод управляющих воздействий на исполнительные устройства.

В целом, в задачи систем машинного зрения входит получение цифрового изображения, обработка изображения с целью выделения значимой информации на изображении и математический анализ полученных данных для решения поставленных задач.

Литература :

1. Computer Vision: A Modern Approach by D. A. Forsyth and J. Ponce, Prentice Hall, Upper Saddle River, N.J., 2002

2. Computer Vision. L. Shapiro and G. Stockman, Prentice-Hall, Upper Saddle River, N.J., 2000

3. К . Фу . Структурные методы в распознавании образов . Издательство « Мир ». Москва , 1977.

4. Эдвард А . Патрик . Основы теории распознавания образов. Москва «Советское радио», 1980.

5. Искусственный интеллект. Современный подход. Стюарт Рассел, Питер Норвиг. Москва/Санкт-Петербург/Киев, 2006.

УДК 004.93"1

Машинное зрение

Татьяна Вадимовна Петрова, группа 4241/3

Машинное зрение - это применение компьютерного зрения для промышленности и производства. Областью интереса машинного зрения являются цифровые устройства ввода/вывода и компьютерные сети, предназначенные для контроля производственного оборудования. Машинное зрение имеет некоторые преимущества перед зрением человека. Соответственно, актуально развивать это направление науки. В данном обзоре рассказывается об истории развития машинного зрения, компонентах системы машинного зрения, применении машинного зрения и будущем данной области науки.


Введение

компьютерный машинный зрение производственный

Основную часть информации о внешнем мире человек получает по зрительному каналу и далее весьма эффективно обрабатывает полученную информацию при помощи аппарата анализа и интерпретации визуальной информации. Поэтому встает вопрос о возможности машинной реализации данного процесса.

За счет возрастания сложности решаемых научно-технических задач, автоматическая обработка и анализ визуальной информации становятся все более актуальными вопросами. Данные технологии используются в весьма востребованных областях науки и техники, таких как автоматизация процессов, повышение производительности, повышение качества выпускаемых изделий, контроль производственного оборудования, интеллектуальные робототехнические комплексы, системы управления движущимися аппаратами, биомедицинские исследования и множество других. Кроме того, можно сказать, что успех современного бизнеса основывается главным образом на качестве предлагаемой продукции. А для его обеспечения, если говорить о производстве материальных вещей, требуется визуальный контроль.

Далее мы будем использовать термин «машинное зрение» (Machine vision) как понятие, наиболее полно объемлющее круг инженерных технологий, методов и алгоритмов, связанных с задачей интерпретации визуальной информации, а также как практическое использование результатов этой интерпретации.


1. История развития машинного зрения

Компьютерное зрение оформилось как самостоятельная дисциплина к концу 60х годов. Это направление возникло в рамках искусственного интеллекта в тот его период, когда еще были горячи споры о возможности создания мыслящей машины. Оно выделилось из работ по распознаванию образов. [Зуева, 2008]

Кратко история развития машинного зрения представлена на рисунке 1.

Рис. 1. История машинного зрения

В истории развития машинного зрения можно выделить следующие этапы:

· 1955 г. - профессор Массачусетского технологического института (МТИ) Оливер Селфридж опубликовал статью «Глаза и уши для компьютера». В ней автор выдвинул теоретическую идею оснащения компьютера средствами распознавания звука и изображения.

· 1958 г. - психолог Фрэнк Розенблатт из Корнеллского университета создал компьютерную реализацию персептрона (от perception - восприятие) - устройства, моделирующего схему распознавания образов человеческим мозгом. Персептрон был впервые смоделирован в 1958 году, причем его обучение требовало около получаса машинного времени на ЭВМ IBM-704. Аппаратный вариант - Mark I Perceptron - был построен в 1960 г. и предназначался для распознавания зрительных образов [Компьютерное зрение, 2010] .

Однако рассмотрение задач машинного зрения носило скорее умозрительный характер, так как ни техники, ни математического обеспечения для решения таких сложных задач еще не было.

· 1960-е гг.- появление первых программных систем обработки изображений (в основном для удаления помех с фотоснимков, сделанных с самолетов и спутников), стали развиваться прикладные исследования в области распознавания печатных символов. Однако все еще существовали ограничения в развитии данной области науки, такие как отсутствие дешевых оптических систем ввода данных, ограниченность и довольно узкая специализация вычислительных систем. Бурное развитие систем компьютерного зрения на протяжении 60-х годов можно объяснить расширением использования вычислительных машин и очевидной потребностью в более быстрой и эффективной связи человека с ЭВМ. К началу 60-х годов задачи компьютерного зрения в основном охватывали область космических исследований, требовавших обработки большого количества цифровой информации.

· 1970-е гг. - Лавренсе Робертс, аспирант МТИ, выдвинул концепцию машинного построения трехмерных образов объектов на основе анализа их двумерных изображений. На данном этапе стал проводиться более глубокий анализ данных. Начали развиваться различные подходы к распознаванию объектов на изображении, например структурные, признаковые и текстурные.

· 1979 г. - профессор Ганс-Хельмут Нагель из Гамбургского университета заложил основы теории анализа динамических сцен, позволяющей распознавать движущиеся объекты в видеопотоке.

· В конце 1980-х годов были созданы роботы, способные более-менее удовлетворительно оценивать окружающий мир и самостоятельно выполнять действия в естественной среде

· 80-е и 90-е годы ознаменовались появлением нового поколения датчиков двухмерных цифровых информационных полей различной физической природы. Развитие новых измерительных систем и методов регистрации двухмерных цифровых информационных полей в реальном масштабе времени позволило получать для анализа устойчивые во времени изображения, генерируемые этими датчиками. Совершенствование же технологий производства этих датчиков позволило существенным образом снизить их стоимость, а значит, значительно расширить область их применения

· С начала 90-х годов в алгоритмическом аспекте последовательность действий по обработке изображения принято рассматривать в согласии с так называемой модульной парадигмой. Эта парадигма, предложенная Д. Марром на основе длительного изучения механизмов зрительного восприятия человека, утверждает, что обработка изображений должна опираться на несколько последовательных уровней восходящей информационной линии: от «иконического» представления объектов (растровое изображение, неструктурированная информация) – к их символическому представлению (векторные и атрибутивные данные в структурированной форме, реляционные структуры и т. п.). [Визильтер и др., 2007]

· В середине 90-х годов появились первые коммерческие системы автоматической навигации автомобилей. Эффективные средства компьютерного анализа движений удалось разработать в конце XX века

· 2003 г. - на рынок были выпущены первые достаточно надежные корпоративные системы распознавания лиц.


2. Задачи машинного зрения и области его применения

2.1 Определение понятия «машинное зрение»

Машинное зрение - это применение компьютерного зрения для промышленности и производства. Областью интереса машинного зрения, как инженерного направления, являются цифровые устройства ввода/вывода и компьютерные сети, предназначенные для контроля производственного оборудования, таких как роботы-манипуляторы или аппараты для извлечения бракованной продукции.

Machine vision is the study of methods and techniques whereby artificial vision systems can be constructed and usefully employed in practical applications. As such, it embraces both the science and engineering of vision.

Its study includes not only the software but also the hardware environment and image acquisition techniques needed to apply it. As such, it differs from computer vision, which appears from most books on the subject to be the realm of the possible design of the software, without too much attention on what goes into an integrated vision system (though modern books on computer vision usually say a fair amount about the "nasty realities" of vision, such as noise elimination and occlusion analysis).

2.2 Машинное зрение в настоящее время.

В настоящее время существует четкая граница между так называемым монокулярным и бинокулярным компьютерным зрением. К первой области относятся исследования и разработки в области компьютерного зрения, связанные с информацией, поступающей от одной камеры или от каждой камеры отдельно. Ко второй области относятся исследования и разработки, имеющие дело с информацией, одновременно поступающей от двух и более камер. Несколько камер в таких системах используются для измерения глубины наблюдения. Эти системы называются стереосистемами.

К настоящему моменту теория компьютерного зрения полностью сложилась как самостоятельный раздел кибернетики, опирающийся на научную и практическую базу знаний. Ежегодно по данной тематике издаются сотни книг и монографий, проводятся десятки конференций и симпозиумов, выпускается различное программное и аппаратно-программное обеспечение. Существует ряд научно-общественных организаций, поддерживающих и освещающих исследования в области современных технологий, в том числе технологии компьютерного зрения.

2.3. Основные задачи машинного зрения

В целом, в задачи систем машинного зрения входит получение цифрового изображения, обработка изображения с целью выделения значимой информации на изображении и математический анализ полученных данных для решения поставленных задач.

Однако машинное зрение позволяет решать множество задач, которые условно можно разделить на четыре группы (Рис.2) [Лысенко, 2007] :


Рис.2. Задачи машинного зрения


· Распознавание положения

Цель машинного зрения в данном применении - определение пространственного местоположения (местоположения объекта относительно внешней системы координат) или статического положения объекта (в каком положении находится объект относительно системы координат с началом отсчета в пределах самого объекта) и передача информации о положении и ориентации объекта в систему управления или контроллер.
Примером такого приложения может служить погрузочно-разгрузочный робот, перед которым стоит задача перемещения объектов различной формы из бункера. Интеллектуальная задача машинного зрения заключается, например, в определении оптимальной базовой системы координат и ее центра для локализации центра тяжести детали. Полученная информация позволяет роботу захватить деталь должным образом и переместить ее в надлежащее место.

Обзор рынка технологий компьютерного зрения

овременный мир компьютерных систем сложно представить без технологий машинного, или компьютерного, зрения. В статье «Зачем компьютеру зрение?» (КомпьютерПресс № 5’2002) была рассмотрена история становления этой технологии и дан обзор ряда ее приложений. Безусловно, в статье описана лишь малая часть приложений из широкого спектра применяемых систем машинного зрения, и в следующих номерах мы еще вернемся к рассмотрению этой весьма интересной и стремительно развивающейся области знаний. Да, именно стремительно развивающейся. Ведь этой технологии всего около 50 лет, что по меркам многих точных наук не выходит за рамки периода становления. Наращивая свой научный и практический потенциал параллельно с совершенствованием вычислительной и регистрирующей техники, компьютерное зрение постепенно завоевывает все новые технологические рубежи. Высокопроизводительные вычислительные машины последнего поколения (к ним относятся и современные персональные компьютеры) уже позволяют решать многие задачи обработки потоков цифровой видеоинформации и принятия решения в режиме реального времени. И сегодня, порой незаметно для большинства из нас, компьютерное зрение достаточно прочно закрепляется во многих областях жизнедеятельности человека, помогая ему, а подчас заменяя его, избавляя от монотонного, рутинного или, нередко, связанного с риском для жизни труда.

Ни для кого не секрет, что компьютерное зрение как технология получило наиболее широкое, полное и всестороннее развитие на Западе, особенно в США, в Южной Корее и в Японии. Связано это прежде всего с мощной финансовой поддержкой этого направления со стороны правительства и инвесторов, прогнозирующих за ним большое будущее. Причем правительство в основном поддерживает развитие технологии в общеобразовательных центрах, а инвесторы обеспечивают поддержку частным высокоперспективным компаниям. Наиболее яркими примерами таких хорошо финансируемых научных центров могут служить Лаборатория Искусственного Интеллекта Массачусетсского Технологического Института (MIT Artificial Intelligence Laboratory), UC Berkeley Computer Vision Group, Vision and Autonomous Systems Center Университета Корнеги-Меллона, Stanford Vision Laboratory и ряд других. Примерами поддерживаемых частных компаний могут служить такие компании, как Visionics, Eyematic и др. Всего на Интернет-сайте, объединяющем разработчиков в области машинного зрения, - Computer Vision Home Page (http://www.2.cs.cmu.edu/afs/cs/project/cil/ftp/html/txtvision.html) - зарегистрировано около 200 групп и научных лабораторий, работающих над данной проблематикой. Следует отметить, что этим не исчерпывается круг организаций, занимающихся компьютерным зрением, так как существует большое количество коммерческих фирм, специализирующихся в области машинного зрения и обработки изображений. Информацию о них можно найти на специализированных тематических Интернет-сайтах, посвященных отдельным направлениям данной технологии. Иными словами, разработчики различных технологий внутри самой технологии компьютерного зрения как бы объединяются в клубы по интересам. Например, интересующиеся достижениями в области распознавания жестов могут найти достаточно подробную информацию об исследованиях, исследовательских группах, коммерческих приложениях, патентах на соответствующем специализированном Интернет-сайте - Gesture Recognition Home Page (http://www.cybernet.com/~ccohen/gesture.html). Там же можно скачать некоторые демонстрационные приложения и ознакомиться с последними научными публикациями. Если же читатель предпочитает заняться технологиями, связанными с распознаванием лиц, то ему прямая дорога в виртуальный клуб на другом Интернет-сайте - Face Detection and Recognition Home Page (http://home.t-online.de/home/Robert.Frischholz/face.htm).

Следует отметить, что все перечисленное выше приводит к быстрому росту и совершенствованию технологий компьютерного зрения. В настоящее время зарубежные научно-исследовательские и коммерческие центры привлекают большое количество ученых и высококвалифицированных программистов, проводят распараллеленные исследования в различных областях машинного зрения, добиваясь достаточно весомых результатов.

Россия, как полноправный член мирового экономического сообщества, не осталась в стороне от этого процесса. Вот уже несколько лет на российском технологическом рынке также наблюдается тенденция повышения интереса к проблемам компьютерного зрения, причем как со стороны руководителей ряда IT-компаний и компаний, работающих на рынке безопасности, так и со стороны потребителей (пользователей) и студентов, желающих специализироваться в этой области. Реакцией на этот интерес стало появление лабораторий, групп и коммерческих структур, ставящих перед собой задачу разработки различного рода технологий и приложений для решения проблем машинного зрения. И если еще десятилетие назад мы были в роли догоняющих, то на сегодняшний день многие компании - лидеры в области передовых технологий стремятся на российский рынок с целью приобретения соответствующих технологий компьютерного зрения или размещения заказов на передовые исследования и разработки в этой области.

Этой теме и посвящена настоящая статья, целью которой является не только продемонстрировать наличие интереса к данной тематике со стороны российских и зарубежных товаропроизводителей, но и рассказать о ряде российских фирм, разрабатывающих программное обеспечение для различных систем обработки и анализа изображений.

Кто есть кто на российском рынке компьютерного зрения

сследование российского рынка разработчиков технологии машинного зрения показывает, что количество фирм, занимающихся компьютерным зрением, относительно невелико. Рассмотрим наиболее заметные из этих компаний и приведем краткое описание некоторых интересных технологий компьютерного зрения, которые поставляются ими на отечественный и мировой рынки.

Компания SPIRIT

К наиболее известным в мире фотограмметрическим системам относятся такие аппаратно-программные комплексы, как Leica и Intergraph, поставляемые вместе с мощными рабочими станциями. Это весьма дорогостоящие системы, и позволить их себе могут немногие компании. С развитием вычислительной техники все популярнее становятся менее дорогостоящие системы, позволяющие проводить обработку изображений на персональных компьютерах. Российские цифровые фотограмметрические системы «Талка» (http://www.talka-tdv.ru/), Photomod (фирма «Ракурс» (http://www.racurs.ru/)), Z-Space (ГосНИИАС), ЦФС ЦНИИГАиК (Роскартография) или «Фотоплан» (29-й институт Министерства обороны), не уступая, а порой превосходя в качестве обработки цифрового видеосигнала зарубежные аналоги, будучи при этом в десятки раз дешевле аналогичных зарубежных разработок. Рассмотрение характеристик и возможностей таких систем - предмет отдельной статьи.

Еще одно направление в области машинного зрения - построение систем распознавания символов. В данной статье мы лишь косвенно упомянули об этой области, в которой технологии компьютерного зрения можно считать сложившимися. В частности, мы рассмотрели лишь узкоспециализированные задачи, решаемые компаниями в рамках коммерческих проектов. Если же вести речь о сложившихся коммерческих продуктах и технологиях систем распознавания символов, то нельзя не упомянуть о крупнейших российских и мировых поставщиках данной технологии - компании ABBYY с серией программ FineReader и компании Cognitive Technologies с серией программ CuneiForm. Обзору технологий, поставляемых данными компаниями, посвящена не одна статья на страницах КомпьютерПресс. Информацию о достижениях этих компаний можно найти и в этом номере журнала. Поэтому, отдавая должное этим компаниям и их технологиям, мы лишь вскользь упоминаем о них в рамках данной статьи.

Подводя итог, можно с уверенностью заявить, что российские технологии компьютерного зрения не уступают, а во многом и превосходят зарубежные аналоги. Зачастую компаниям, развивающим эти технологии, не хватает всемирно известного имени. Поэтому и инвестиции в них, как правило, делают неохотно. Однако не вызывает сомнений, что высокий уровень технологий и высокая квалификация российских специалистов уже в недалеком будущем приведут к доминированию на мировом рынке именно российских технологий компьютерного зрения.

КомпьютерПресс 7"2002