Курс лекций "Организация интеллектуальных вычислений"
Перспективные исследования и разработки интеллектуальных систем
Технологии интеллектуальных вычислений - состояние проблемы, новые решения
Основные модели и методы технологий интеллектуальных вычислений
Процесс находжения нового знания
Исскуственные нейронные сети
Детальное описание компонентов и работи нейронных сетей
Классификация известных нейросетей по основним категориям применения
Нейросети в задачах отображения
Современные направления развития нейрокомпьютерных технологий
Популярно про генетические алгоритмы
Нечеткая логика

 

Тема 2. Технологии интеллектуальных вычислений - состояние проблемы, новые решения

Компьютерные технологии для интеллектуальных вычислений переживают свой расцвет. Сейчас происходит стремительный рост числа программных продуктов, использующих новые технологии, а также типов задач, где их применение дает значительный экономический эффект. Элементы автоматической обработки и анализа данных, которые называют Data Mining (добыча знаний) становятся неотъемлемой частью концепции электронных хранилищ данных и организации интеллектуальных вычислений. Простой доступ пользователя к хранилищу данных обеспечивает только получение ответов на заданные вопросы, в то время как технология data mining позволяет увидеть ("найти") скрытые правила и закономерности в наборах данных, которые пользователь не может предвидеть, и знание которых может способствовать увеличению прибылей предприятия.

Data Mining переводится как "добыча" ли "раскопка данных". Часто, наряду с термином Data Mining применяют выражение "интеллектуальный анализ данных". Дело в том, что человеческий ум сам по себе не приспособлен для восприятия больших массивов разнородной информации. Человек вдобавок не способен улавливать более двух-трех взаимосвязей даже в небольших выборках.

Традиционная математическая статистика, которая длительное время претендовала на роль основного инструмента анализа данных, также не всегда подходит при решении задач из реальной сложной жизни. Она оперирует усредненными характеристиками выборки, которые часто оказываются фиктивными величинами (средний рост юношей в школе, средний вес женщин на предприятии и т.п.). Поэтому методы математической статистики оказываются полезными, главным образом, для проверки заранее сформулированных гипотез.

Большинство организаций накапливают во время своей деятельности огромные объемы данных, но главное, что они хотят от них получить - это полезная информация. Как можно узнать из данных о том, что является более выгодным для организации клиентов, как разместить ресурсы эффективным образом или как минимизировать потери? Для решения этих проблем предназначены новейшие технологии интеллектуального анализа, которые используют для нахождения моделей и отношений, скрытых в базе данных - моделей, которые не могут быть найдены обычными методами.

Модель, как и карта - это абстрактное представление реальности. Карта может указывать на путь от аэропорта к дому, но она не может показать аварию, которая создала пробку, или ремонтные работы, которые ведутся в данный момент и требуют объезда. До тех пор пока модель не отвечает существующим реально отношениям, невозможно получить благоприятный исход.

Существуют два вида моделей: прогнозирующие и описательные. Первые используют один набор данных с известными результатами для построения моделей, явным образом прогнозирующие результаты для других наборов, а вторые описывают зависимости в существующих данных, которые в свою очередь используются для принятия решений или действий.

Конечно ж, компания, давно находящаяся на рынке и знающая своих клиентов пользуется множеством моделей. Технологии интеллектуального анализа могут не только подтвердить эти эмпирические наблюдения, но и найти новые, неизвестные прежде модели. Сначала это может дать пользователю лишь небольшое преимущество, но если его объединить по каждому товару и каждому клиенту, дает большой отрыв от тех, кто не использует технологии Data Mining. С другой стороны, с помощью методов data mining можно найти такую модель, которая приведет к радикальному улучшению в финансовом и рыночном положении компании.

Data Mining - это набор средств, а не волшебная палочка. Она не находится в базах данных и не посылает электронную почту, если видит интересную модель. Она не исключает необходимости знания аналитиком бизнеса и понимания данных или аналитических методов. Эта технология помогает аналитикам в нахождении моделей и отношений в данных, но она не говорит о ценности этих моделей для организации. Каждая модель должна проверяться в реальной среде.

Хотя инструментарий интеллектуального анализа и освобождает пользователя от возможных сложностей в применении статистических методов, он все-таки требует от него понимания работы инструментария и алгоритмов, на которых он базируется. Кроме этого, технология нахождения нового знания в базы данных не может дать ответа на не заданные вопросы. Она не заменяет аналитиков или менеджеров, а дает им современный, мощный инструмент для улучшения выполняемой работы.

Современные технологии интеллектуального анализа перелопачивают информацию с целью автоматического поиска шаблонов, характерных для каких-нибудь фрагментов неоднородных многомерных данных. Тяжесть формулирования гипотез и выявления необычных шаблонов переведена с человека на компьютер.

В принципе нет ничего нового в постановке задачи Data Mining. Специалисты на протяжении нескольких последних десятков лет решали подобные задачи, но только сейчас общество в целом созрело для понимания практической важности и широты этих задач. Во-первых, в связи с развитием технологий записи и хранения данных сегодня на людей вылились колоссальные потоки информационной руды во всех областях, которые без продуктивной переработки грозят превратиться в никому не нужный мусор. И, во-вторых, средства и методы обработки данных стали доступными и удобными, а их результаты понятными для любого человека.

Для успешного проведения процесса нахождения нового знания необходимым условием является наличие хранилища данных. Хранилище данных - это предметно-ориентированный, интегрированный, привязанный ко времени, неизменный сбор данных для поддержания процесса принятия решений.

Предметная ориентация означает, что данные объединены в категории и сохраняются соответственно областям, что они описывают, а не к применениям, их использующих. Интегрированность означает, что данные удовлетворяют требованиям всего предприятия, а не одной функции бизнеса. Этим, хранилище данных гарантирует, что одинаковые отчеты, сгенерированные для разных аналитиков, будут содержать одинаковые результаты. Привязка ко времени означает, что хранилище можно рассматривать как совокупность "исторических" данных: можно восстановить картину на любой момент времени. Атрибут времени всегда явно присутствует в структурах хранилища данных. Неизменность означает, что, попав один раз в хранилище, данные там сохраняются и не изменяются. В хранилище данные лишь добавляются.

Для организации и эксплуатации информационного хранилища создается специализированное программное обеспечение, которое обеспечивает эффективное взаимодействие с пользователем.

Ключевой возможностью применения новейших технологий стало огромное падение цены за последние несколько лет на устройства хранения информации с десятков долларов за хранение мегабайта информации, до десятков центов. Это существенным образом удешевило и увеличило возможности сбора и хранения больших объемов информации.

Падение цен на процессоры с одновременным увеличением их быстродействия оказало содействие развитию технологий, связанных с обработкой огромных массивов информации. В результате этого было преодолено множество барьеров, встречающихся при нахождении нового знания в хранилищах информации.

Клиент-серверная архитектура также является необходимым атрибутом технологии интеллектуального анализа данных. Такой подход предоставляет возможности выполнять наиболее трудоемкие процедуры обработки данных на высокопроизводительном сервере как разработчикам проектов, так и пользователям. На этом же сервере могут храниться, и по запросам клиентов, выполняться корпоративные проекты.

Сфера применения технологий интеллектуальных вычислений ничем не ограничена - она везде, где есть какие-нибудь данные. Но в первую очередь методы Data Mining сегодня заинтриговали коммерческие предприятия, разворачивающих проекты на основе информационных хранилищ данных. Опыт многих таких предприятий показывает, что отдача от использования технологий интеллектуального анализа данных может достигать 1000%. Технологии Data Mining оказывают большую помощь для руководителей и аналитиков в их повседневной деятельности, поскольку они могут получить ощутимые преимущества в конкурентной борьбе. Коротко охарактеризуем некоторые возможные бизнес-применения технологий интеллектуального анализа данных и вычислений.

Применение интеллектуальных технологий распространено в широком спектре индустрий. Методы Data Mining распространены во многих организациях, поскольку они способствуют увеличению доходов. Эти методы могут использоваться для управления взаимоотношениями с клиентами. Определяя характеристики клиентов, которые могут обратиться к конкурентам, компания может начинать действия для их удержания, так как сохранить клиента всегда дешевле, чем приобрести нового.

  • Маркетинг данных - определение с помощью методов Data Mining круга кандидатов для рассылки целевой рекламы, что позволяет увеличить продажу, уменьшив при этом затраты на проведение такой рекламы.
  • Телекоммуникационные компании и компании, страховые компании и фондовые биржи применяют эти технологии для определения потерь клиентов.
  • Компании, действующие на финансовом рынке, определяют рыночные и отраслевые характеристики для предвидения индивидуальных и фондовых преимуществ в ближайшем будущем.
  • Медицина - определяется эффективность применения медикаментов, хирургических процедур и медицинских тестов.
  • Фармацевтические фирмы используют хранилища данных по химическим соединениям для нахождения комбинаций соединений, которые в дальнейшем можно будет использовать как лекарство для лечения разных заболеваний.
  • Супермаркеты определяют, какие продукты продавать и как их располагать внутри магазина для достижения большего количества продаж.

Ключом к успешному применению методов интеллектуальных вычислений служит не просто выбор алгоритма, а мастерство человека, создающего модель и возможности программы, моделирующей процесс. Существуют две стороны успеха в поиске данных. Во-первых - четкое и ясное формулирования задачи, подлежащей решению. Во-вторых - использование правильных данных. После выбора данных из всех доступных источников (или получения данных из внешних источников) необходимо их преобразовать или сгруппировать в определенном порядке.

Чем больше аналитик может "играть" с данными, строить модели, оценивать результаты, тем лучше может быть результат. Работа с данными становится эффективней, при интеграции следующих компонентов: визуализации, графическиого инструментария, средств формирования запросов, оперативной аналитической обработки, позволяющей понять данные и интерпретировать результаты.