<<
>>

4.5.МЕТОДЫ И СРЕДСТВА ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ


Интеллектуальный анализ данных — одно из новых направле­ний ИИ. Этот термин является кратким и весьма неточным пере­водом с английского языка терминов Data Mining и Knowledge Discovery in Databases (DM&KDD).
Более точный перевод - «добы­ча данных» и «выявление знаний в базах данных». Появление тех­нологий DM&KDD обусловлено накоплением огромных объемов информации в компьютерных базах данных, которые стало невы­годно хранить и которыми стало трудно пользоваться традицион­ными способами. Последнее обстоятельство связано со стреми­тельным развитием вычислительной техники и программных средств для представления и обработки данных. Большие объемы накопленных данных постоянно приходится модифицировать из-за быстрой смены аппаратного и программного обеспечения БД, при этом неизбежны потери и искажение информации. Од­ним из средств для преодоления подобных трудностей является создание информационных хранилищ данных, доступ к которым не будет сильно зависеть от изменения данных во времени и от используемого программного обеспечения. Другой подход ори­ентирован на сжатие больших объемов данных путем нахождения некоторых общих закономерностей (знаний) в накопленной ин­формации. Оба направления актуальны с практической точки зрения. Второй подход более интересен для специалистов в обла­сти ИИ, так как связан с решением проблемы приобретения но­вых знаний. Следует заметить, что наиболее плодотворным явля­ется сочетание обоих направлений.
Наличие хранилища данных — необходимое условие для ус­пешного проведения всего процесса KDD. Вопросы организации хранилищ данных рассматриваются в [19, 20, 25, 40, 48]. Храни­лищем данных называют предметно-ориентированное, интегри­рованное, привязанное ко времени, неизменяемое собрание дан­ных, используемых для поддержки процесса принятия управлен­ческих решений. Предметная ориентация означает, что данные объединены в категории и хранятся в соответствии с теми облас­тями, которые они описывают, а не в соответствии с приложени­ями, которые их используют. Такой принцип хранения гаранти­рует, что отчеты, сгенерированные различными аналитиками, бу-
214дут опираться на одну и ту же совокупность данных. Привязан­ность ко времени означает, что хранилище можно рассматривать как собрание исторических данных, т.е. конкретные значения данных однозначно связаны с определенными моментами време­ни. Атрибут времени всегда явно присутствует в структурах хра­нилищ данных. Данные, занесенные в хранилище, уже не изме­няются в отличие от оперативных систем, где присутствуют толь­ко последние, постоянно изменяемые версии данных. Для храни­лищ данных характерны операции добавления, а не модифика­ции данных. Современные средства администрирования храни­лищ данных обеспечивают эффективное взаимодействие с про­граммным инструментарием DM и KDD. В качестве примера можно привести разработки компании SAS Institute: SAS Warehouse Administrator и SAS Enterprise Miner.
Рассмотрим простой пример, иллюстрирующий технологии DM&KDD. В базах данных можно хранить большую таблицу зна­чений переменных Х и Y, но если удалось установить зависимость между этими переменными, то без существенных потерь инфор­мации можно значительно сократить объем занимаемой памяти, поместив туда найденную зависимость, например Y=sin(kX).
В общем случае зависимости, выявляемые в базах данных, могут быть представлены правилами, гипотезами, моделями нейрон­ных сетей и т.п. Интеллектуальные средства извлечения инфор­мации позволяют почерпнуть из БД более глубокие сведения, чем традиционные системы оперативной обработки транзакций (OLTP- On-Line Transaction Processing) и оперативной аналитиче­ской обработки (OLAP) [40]. Выведенные из данных закономер­ности и правила можно применять для описания существующих отношений и закономерностей, а также для принятия решений и прогнозирования их последствий.
Извлечение знаний из БД является одной из разновидностей машинного обучения, специфика которой заключается в том, что реальные БД, как правило, проектируются без учета потребнос­тей извлечения знаний и содержат ошибки [7].
В технологиях DM&KDD используются различные математи­ческие методы и алгоритмы: классификация, кластеризация, ре­грессия, прогнозирование временных рядов, ассоциация, после­довательность.
Классификация - инструмент обобщения. Она позволяет пе­рейти от рассмотрения единичных объектов к обобщенным по-
215 нятиям, которые характеризуют некоторые совокупности объек­тов и являются достаточными для распознавания объектов, при­надлежащих этим совокупностям (классам). Суть процесса фор­мирования понятий заключается в нахождении закономернос­тей, свойственных классам. Для описания объектов используют­ся множества различных признаков (атрибутов). Проблема фор­мирования понятий по признаковым описаниям была сформу­лирована М. М. Бонгартом [5]. Ее решение базируется на приме­нении двух основных процедур: обучения и проверки. В процеду­рах обучения строится классифицирующее правило на основе обработки обучающего множества объектов. Процедура провер­ки (экзамена) состоит в использовании полученного классифи­цирующего правила для распознавания объектов из новой (экза­менационной) выборки. Если результаты проверки признаны удовлетворительными, то процесс обучения заканчивается, в противном случае классифицирующее правило уточняется в про­цессе повторного обучения.
Кластеризация — это распределение информации (записей) из БД по группам (кластерам) или сегментам с одновременным определением этих групп. В отличие от классификации здесь для проведения анализа не требуется предварительного задания классов.
Регрессионный анализ используется в том случае, если отноше­ния между атрибутами объектов в БД выражены количественны­ми оценками. Построенные уравнения регрессии позволяют вы­числять значения зависимых атрибутов по заданным значениям независимых признаков.
Прогнозирование временных рядов является инструментом для определения тенденций изменения атрибутов рассматриваемых объектов с течением времени. Анализ поведения временных ря­дов позволяет прогнозировать значения исследуемых характе­ристик.
Ассоциация позволяет выделить устойчивые группы объектов, между которыми существуют неявно заданные связи. Частота по­явления отдельного предмета или группы предметов, выражен­ная в процентах, называется распространенностью. Низкий уро­вень распространенности (менее одной тысячной процента) го­ворит о том, что такая ассоциация не существенна. Ассоциации записываются в виде правил: А=>В, где А — посылка, В — следст­вие. Для определения важности каждого полученного ассоциа-
216тивного правила необходимо вычислить величину, которую на­зывают доверительность А к В (или взаимосвязь А и В). Довери­тельностьпоказывает, как часто при появлении А появля­ется В, и рассчитывается как— распространенность совместного появления А и В;— распро­страненность А. Например, еслито это значит, что при покупке товара А в каждом пятом случае приобретается и то­вар В. Необходимо отметить, что если то В самом деле, покупка компьютера влечет за собой покупку дисков, но покупка дисков не ведет к покупке компьютера. Важной характеристикой ассоциации является мощность, которая рассчитывается по формуле
Чем больше мощность, тем сильнее влияние, кото­рое наличие А оказывает на появление В.
Типичным примером применения ассоциации является ана­лиз структуры покупок. Например, при проведении исследова­ния в супермаркете можно установить, что 65% купивших карто­фельные чипсы берут также и «кока-колу», а при наличии скид­ки за такой комплект «колу» приобретают в 85% случаев. Подоб­ные результаты представляют ценность при формировании мар­кетинговых стратегий.
Последовательность — это метод выявления ассоциаций во времени. В данном случае определяются правила, которые опи­сывают последовательное появление определенных групп собы­тий. Такие правила необходимы для построения сценариев. Кроме того, их можно использовать, например, для формирова­ния типичного набора предшествующих продаж, которые могут повлечь за собой последующие продажи конкретного товара.
К интеллектуальным средствам DM&KDD относятся нейрон­ные сети, деревья решений, индуктивные выводы, методы рас­суждения по аналогии, нечеткие логические выводы, генетичес­кие алгоритмы, алгоритмы определения ассоциаций и последо­вательностей, анализ с избирательным действием, логическая ре­грессия, эволюционное программирование, визуализация дан­ных. Иногда перечисленные методы применяются в различных комбинациях.
Нейронные сети относятся к классу нелинейных адаптивных систем с архитектурой, условно имитирующей нервную ткань, состоящую из нейронов. Математическая модель нейрона пред­ставляет собой некий универсальный нелинейный элемент, до-
217пускающий возможность изменения и настройки его характери­стик. Подробнее вопросы построения моделей нейронных сетей рассмотрены в главе 5. Нейронные сети широко применяются для решения задач классификации. Построенную сеть сначала нужно «обучить» на примерах, для которых известны значения исходных данных и результаты. Процесс «обучения» сети заклю­чается в подборе весов межнейронных связей и модификации внутренних параметров активационной функции нейронов. «Обученная» сеть способна классифицировать новые объекты (или решать другие примеры), однако правила классификации остаются не известными пользователю.
Деревья решений — метод структурирования задачи в виде дре­вовидного графа, вершины которого соответствуют продукцион­ным правилам, позволяющим классифицировать данные или осуществлять анализ последствий решений. Этот метод дает на­глядное представление о системе классифицирующих правил, ес­ли их не очень много. Простые задачи решаются с помощью это­го метода гораздо быстрее, чем с использованием нейронных се­тей. Для сложных проблем и для некоторых типов данных дере­вья решений могут оказаться неприемлемыми. Кроме того, для этого метода характерна проблема значимости. Одним из послед­ствий иерархической кластеризации данных является то, что для многих частных случаев отсутствует достаточное число обучаю­щих примеров, в связи с чем классификацию нельзя считать на­дежной. Методы деревьев решений реализованы во многих про­граммных средствах, а именно: С5.0 (RuleQuest, Австралия), Clementine (Integral Solutions, Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery, США).
Индуктивные выводы позволяют получить обобщения фактов, хранящихся в БД (см. разд. 4.3.1, 4.3.2). В процессе индуктивного обучения может участвовать специалист, поставляющий гипоте­зы. Такой способ называют обучением с учителем. Поиск правил обобщения может осуществляться без учителя путем автоматиче­ской генерации гипотез. В современных программных средствах, как правило, сочетаются оба способа, а для проверки гипотез ис­пользуются статистические методы. Примером системы с приме­нением индуктивных выводов является XpertRule Miner, разрабо­танная фирмой Attar Software Ltd. (Великобритания).
Рассуждения на основе аналогичных случаев (Case-based reason­ing - CBR) основаны на поиске в БД ситуаций, описания которых
218сходны по ряду признаков с заданной ситуацией. Принцип ана­логии позволяет предполагать, что результаты похожих ситуаций также будут близки между собой. Недостаток этого подхода за­ключается в том, что здесь не создается каких-либо моделей или правил, обобщающих предыдущий опыт. Кроме того, надежность выводимых результатов зависит от полноты описания ситуаций, как и в процессах индуктивного вывода. Примерами систем, ис­пользующих CBR, являются: KATE Tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США).
Нечеткая логика применяется для обработки данных с размы­тыми значениями истинности (см. разд. 3.2, 3.4), которые могут быть представлены разнообразными лингвистическими пере­менными. Нечеткое представление знаний широко применяется в системах с логическими выводами (дедуктивными, индуктив­ными, абдуктивными) для решения задач классификации и про­гнозирования, например в системе XpertRule Miner (Attar Software Ltd., Великобритания), а также в AIS и NeuFuz и др. (см. главу 3).
Генетические алгоритмы входят в инструментарий DM&KDD как мощное средство решения комбинаторных и оптимизацион­ных задач. Они часто применяются в сочетании с нейронными сетями (см. главу 6). В задачах извлечения знаний применение ге­нетических алгоритмов сопряжено со сложностью оценки стати­стической значимости полученных решений и с трудностями по­строения критериев отбора удачных решений. Представителем пакетов из этой категории является GeneHunter фирмы Ward Systems Group. Генетические алгоритмы используются также в пакете XpertRule Miner и др.
Логическая (логистическая) регрессия используется для пред­сказания вероятности появления того или иного значения дис­кретной целевой переменной. Дискретная зависимая (целевая) переменная не может быть смоделирована методами обычной многофакторной линейной регрессии. Тем не менее вероятность результата может быть представлена как функция входных пере­менных, что позволяет получить количественные оценки влия­ния этих параметров на зависимую переменную. Полученные ве­роятности могут использоваться и для оценки шансов. Логичес­кая регрессия - это, с одной стороны, инструмент классифика­ции, который используется для предсказания значений категори­альных переменных, с другой стороны - регрессионный инстру­мент, позволяющий оценить степень влияния входных факторов на результат.
219Эволюционное программирование — самая новая и наиболее перспективная ветвь DM&KDD. Суть метода заключается в том, что гипотезы о форме зависимости целевой переменной от дру­гих переменных формулируются компьютерной системой в виде программ на определенном внутреннем языке программирова­ния. Если это универсальный язык, то теоретически он способен выразить зависимости произвольной формы. Процесс построе­ния таких программ организован как эволюция в мире программ (см. главу 6). Когда система находит программу, достаточно точ­но выражающую искомую зависимость, она начинает вносить в нее небольшие модификации и отбирает среди построенных до­черних программ те, которые являются наиболее точными. Затем найденные зависимости переводятся с внутреннего языка систе­мы на понятный пользователю язык (математические формулы, таблицы и т.п.). При этом активно используются средства визуа­лизации. Методы эволюционного программирования реализова­ны в системе PolyAnalyst (Unica, США).
В современных средствах DM&KDD часто используются ком­бинированные методы. Например, продукт компании SAS Enterprise Miner 3.0 содержит модуль автоматического построения результирующей гибридной модели, определенной на множестве моделей, которые предварительно были созданы различными ме­тодами: деревьев решений, нейронных сетей, обобщенной мно­гофакторной регрессии. Программная система Darwin, разрабо­танная компанией Thinking Machines, позволяет не только стро­ить модели на основе нейронных сетей или деревьев решений, но также использовать визуализацию и системы рассуждений по аналогии. Кроме того, этот продукт включает своеобразный гене­тический алгоритм для оптимизации моделей. Активно работает в области интеллектуального анализа данных компания IBM. Многие из полученных в ее лабораториях результатов нашли применение в выпускаемых инструментальных пакетах, которые можно отнести к четырем из пяти стандартных типов приложе­ний «глубокой переработки» информации: классификации, кла­стеризации, выявлению последовательностей и ассоциаций.
В настоящее время на рынке представлены разнообразные программные средства, реализующие технологии DM&KDD. Сле­дует отметить, что большинство из них имеет очень высокую сто­имость. Рассмотрим некоторые известные пакеты. Среди инстру­ментальных средств создания интеллектуальных приложений для бизнеса определенный интерес вызывает семейство програм-
220мных продуктов Business Intelligence (BI) компании Cognos, кото­рое включает четыре взаимосвязанные и дополняющие друг дру­га системы: Impromptu, PowerPlay, Scenario и 4Thought. Отличи­тельной особенностью рассматриваемых средств является соче­тание эффективности реализуемых в них методов с дружествен­ным интерфейсом, что делает их легкодоступными для освоения непрограммирующими пользователями [48].
Система Impromptu обеспечивает доступ к базам данных, поз­воляя непрофессиональному пользователю формировать разно­образные запросы и отчеты. Система поддерживает работу с рас­пространенными типами СУБД: Oracle, MS SQL Server, Sybase SQL Server, Sybase NetGateway, OmniSQL Gateway, MDI DB2 Gateway, Informix, CA-Ingres, Gupta SQLBase, а также обеспечи­вает доступ через ODBC. Отчеты Impromptu могут использоваться в качестве источников данных для остальных систем семейства BI, выступая при этом в роли информационных витрин.
Система PowerPlay является средством для проведения OLAP-анализа. Технология OLAP позволяет существенно повысить эф­фективность обработки информации в реляционных БД за счет многомерного представления данных в виде гиперкубов; привяз­ки информации ко времени, дающей возможность анализа дина­мики данных; реализации сложной вычислительной обработки больших массивов данных [54].
PowerPlay обеспечивает многомерный просмотр данных с нисходящим и уровневым анализом, в процессе которого суще­ствует возможность выявления исключений и особых случаев, ранжирования и разнообразной обработки данных. Гиперкубы имеют неограниченную размерность и могут создаваться как на серверах, так и на клиентских компьютерах. Новые версии PowerPlay обеспечивают возможность работы с гиперкубами че­рез Wfeb-браузеры.
Система Scenario предназначена для выявления взаимосвязей в данных статистическими методами, в частности по критерию Хи-квадрат (метод CHAID) для нахождения однородных сегмен­тов данных с «аналогичным» поведением относительно целевого показателя. Кроме того, в системе используется метод деревьев решений для построения классификаций. Результаты обработки данных наглядно отображаются средствами визуализации.
В системе реализованы следующие виды анализа данных:
• ранжирование — упорядочение факторов по степени их вли­яния на целевой показатель. С каждым фактором связывается ве-
221совой коэффициент, дающий количественную оценку степени влияния;
• сегментация — разделение области значений фактора на сег­ менты для проведения дальнейшего нисходящего анализа;
• профилирование лучших образцов — выявление основных ха­ рактеристик наиболее успешных результатов (регионов, филиа­ лов, клиентов и т.д.);
• выявление ассоциаций — поиск ассоциированных групп зна­ чений факторов;
• выявление исключений — поиск элементов, выпадающих из общей картины. Появление подобных элементов может быть вы­ звано как ошибками в данных, которые следует исправить, так и необычными ситуациями в работе компании, требующими опре­ деленных действий со стороны руководства.
В системе Scenario реализованы три стратегии анализа: 1) ре­жим исследования, предназначенный для предварительного ана­лиза задачи; 2) режим тестирования, ориентированный на высо­кую точность и надежность результатов; 3) режим верификации, позволяющий проводить оценку достоверности и значимости полученных знаний.
Система 4Thought осуществляет извлечение знаний из БД с применением нейронных сетей, предоставляя следующие воз­можности:
• моделирование сложных нелинейных зависимостей между факторами и целевыми показателями;
• выявление тенденций в данных (при наличии временных рядов);
• работа с неполными и зашумленными данными при относи­ тельно небольшом объеме исходной информации.
Анализируемые данные представляются в виде электронной таблицы, столбцам которой соответствуют атрибуты из таблиц базы данных, а строкам — записи. При подготовке данных для анализа пользователь может редактировать таблицы, а также включать в них вычисляемые столбцы. Как и в пакете Scenario, для постановки задачи моделирования должны быть указаны це­левой (моделируемый) показатель и переменные-факторы. Дан­ные в таблице рассматриваются системой как примеры для обу­чения нейронной сети. Совокупность всех данных разбивается на
222два подмножества — модельное и тестовое. В каждом цикле обу­чения сеть сначала обучается на модельном подмножестве, а за­тем проверяется корректность ее работы на тестовых данных. Обучение сети проводится до тех пор, пока точность результатов, полученных на модельном и на тестовом подмножествах, растет. При работе с небольшими объемами данных, когда выбор тесто­вого подмножества существенно влияет на результаты обучения, пользователь может проводить обучение последовательными циклами, выбирая для каждого цикла новое разбиение на тесто­вые и модельные данные.
Кроме рассмотренных программных продуктов фирмы Cognos можно привести длинный список программных средств, ориентированных на поддержку DM&KDD. Особенно активно в последние годы развиваются средства с использованием нейрон­ных сетей, примерами которых являются: BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic).
Применение технологий DM&KDD имеет большие перспек­тивы, так как существенно влияет на увеличение доходов пред­приятия путем выбора правильных стратегий деятельности. Ли­дерами в применении технологий интеллектуального анализа данных являются телекоммуникационные компании и компа­нии, выпускающие кредитные карточки. Средства DM&KDD активно применяют страховые компании и фондовые биржи. Серьезные успехи связаны с применением этих подходов в ме­дицине, где можно прогнозировать эффективность применения медикаментов, хирургических процедур и медицинских тестов. Прогнозирование в финансовой сфере всегда было одной из са­мых актуальных задач. В настоящее время компании, действую­щие на финансовом рынке, на основе /)М-технологий опре­деляют рыночные и отраслевые характеристики для предсказа­ния индивидуальных и фондовых предпочтений в ближайшем будущем.
Ключом успеха в применении методов DM&KDD являются качество данных, мощность используемого программного обес­печения и мастерство аналитика, который участвует в процессе построения модели. На эффективность обработки данных поло­жительно влияют следующие параметры программного обеспе­чения: развитые средства формирования запросов и визуализа-
223ции результатов, наличие графического инструментария, воз­можность оперативной аналитической обработки, разнообразие и эффективность алгоритмов построения моделей.
К типовым задачам DM&KDD в области экономики и бизне­са относятся [19,48]:
• прогнозирование — в частности, при планировании и со­ ставлении бюджета фирмы необходимо прогнозировать объемы продаж и другие параметры с учетом многочисленных взаимо­ связанных факторов: сезонных, региональных, общеэкономиче­ ских и т.п;
• маркетинговый анализ, в результате которого определяется зависимость спроса от таких факторов, как стоимость товара, за­ траты на продвижение продукции и рекламу и т.д.;
• анализ работы персонала — производительность труда слу­ жащих зависит от уровня подготовки, от оплаты труда, опыта ра­ боты, взаимоотношений с руководством и т.д. Установив степень влияния этих факторов, можно выработать методику повышения производительности труда, а также предложить оптимальную стратегию подбора кадров в будущем;
• анализ эффективности продажи товаров по почте — выявля­ ется круг потенциальных покупателей, оценивается вероятность возможных покупок и исследуются различные формы рекламной переписки;
• профилирование клиентов — формирование «портрета ти­ пичного клиента компании», т.е. определение группы клиентов, сотрудничество с которыми наиболее выгодно. Кроме того, важ­ но выяснить, почему работа с некоторыми из заказчиков стала неэффективной, и выработать стратегию поиска подходящих клиентов в будущем;
• оценка потенциальных клиентов — выявление характерных особенностей заявок, которые закончились реальными продажа­ ми. Полученные знания используются в процессах планирования переговоров и сделок;
• анализ работы региональных отделений компании;
• сравнительный анализ конкурирующих фирм.
Перечисленные задачи актуальны практически для всех от­раслей бизнеса: банковского дела, страхования, финансовых рынков, производства, торговли и т.д.
224Литература
1. Адамар Ж. Исследования психологии процесса изобретения в области математики. — М.: Советское радио, 1974.
2. Андрейчиков А. В., Андрейчикова О. Н. Анализ, синтез, планирова­ ние решений в экономике. - М.: Финансы и статистика, 2000.
3. Андриенко Г. Л., Андриенко Н. В. Игровые процедуры сопоставле­ ния в инженерии знаний // Сб. тр. III конференции по искусст­ венному интеллекту. — Тверь, 1992.
4. Бажин И. И. Информационные системы менеджмента . — М.: ГУ-ВШЭ, 2000.
5. Бонгарт М. М. Проблема узнавания. - М: Наука, 1967.
6. Буч Г. Объектно-ориентированное проектирование с примерами применения. — М.: Конкорд, 1992.
7. Вагин В. Н., Федотов А. А., Фомина М. В. Методы извлечения и обобщения информации в больших базах данных // Известия Академии наук. Сер. Теория и системы управления. — 1999. — № 5.
8. Вертгеймер М. Продуктивное мышление: Пер. с нем. - М.: Про­ гресс, 1987.
9. Выготский Л. С. Мышление и речь: Собр. соч. Т. 2. - М.: Педаго­ гика, 1982.
10. Выявление экспертных знаний / О. И. Ларичев, А. И. Мечитов, Е. М. Мошкович, Е. М. Фуремс. — М.: Наука, 1989.
11. Гаврилова Т. А,, Хорошевский В. Ф. Базы знаний интеллектуаль­ ных систем. — СПб.: Питер, 2000.
12. Гельфанд И. М., Розенфельд Б. И., Шифрин М. А. Структурная ор­ ганизация данных в задачах медицинской диагностики и про­ гнозирования // Вопросы кибернетики. Задачи медицинской диагностики и прогнозирования с точки зрения врача. — М.: АН СССР, 1982.
13. Джонс Дж. К. Методы проектирования: Пер. с англ. - М.: Мир, 1986.
14. Дрейфус X. Чего не могут вычислительные машины. — М.: Про­ гресс, 1978.
15. Дюран Б., Оделл П. Кластерный анализ: Пер. с фр. — М.: Статис­ тика, 1977.
16. Жамбю М. Иерархический кластер-анализ и соответствия. - М.: Финансы и статистика, 1988.
17. Каган М. С. Мир общения: проблема межсубъектных отноше­ ний. — М.: Политиздат, 1988.
22518. Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды: Пер. с англ. - М.: Наука, главн. ред физ.-мат. литературы, 1976.
19. Киселев М., Соломатин Е. Средства добычи знаний в бизнесе и финансах // Открытые системы. - 1997. - № 4.
20. Кречетов Н., Иванов П. Продукты для интеллектуального анали­ за данных //Computer Week - Москва. - 1997. - № 14-15.
21. Ларичев О. И. Структура экспертных знаний // Психологический журнал. - 1995. - № 3.
22. Ларичев О. И. Теория и методы принятия решений, а также хро­ ника событий в Волшебных странах. - М.: Логос, 2000.
23. Ларичев О. И., Болотов А. А. Система ДИФКЛАСС: построение полных непротиворечивых баз экспертных знаний в задачах дифференциальной классификации // Научно-техническая ин­ формация. Сер. 2. - 1996. - № 9.
24. Ларичев О. И., Нарыжный Е. В. Компьютерное обучение эксперт­ ным знаниям //Доклады Академии наук. - 1998. - Т. 332.
25. Львов В. Создание систем поддержки принятия решений на ос­ нове хранилища данных // Системы управления базами данных. - 1997. - № 3.
26. Мандель Н. Д. Кластерный анализ. — М.: Финансы и статистика, 1988.
27. Миркин Б. Г. Анализ качественных признаков и структур. — М.: Статистика, 1960.
28. Митиг П. П. Как проводить деловые беседы. — М.: Экономика, 1987.
29. Михеенкова М. А., Финн В. К. Правдоподобное рассуждение с ин­ формацией о ситуации // Тр. 7-й нац. конф. по искусственному интеллекту с международным участием. - М.: Изд-во физ.-мат. литературы, 2000.
30. Моргоев В. К. Метод извлечения и структуризация экспертных знаний: моделирование консультаций // Сб. тр. ВНИИСИ «Че­ ловеко-машинные процедуры принятия решений» / Под ред. С. В. Емельянова, О. И. Ларичева. - М.: ВНИИСИ, 1988.
31. Нечеткие множества в моделях управления и искусственного ин­ теллекта / Под ред. Д. А. Поспелова. - М.: Наука, 1986.
32. Обозов И. И. Психологическая культура взаимных отношений. — М.: Знание, 1986.
33. Осипов Г. С. Приобретение знаний интеллектуальными система­ ми. - М.: Наука, 1997.
226
34. Поспелов Д. А. Моделирование рассуждений. Опыт анализа мыс­ лительных актов. — М.: Радио и связь, 1989.
35. Поспелов Д. А. Ситуационное управление: Теория и практика. - М.: Наука, 1986.
36. Поспелов Д. А., Осипов Г. С. Прикладная семиотика // Новости искусственного интеллекта. - 1999. - № 1.
37. Представление и использование знаний: Пер. с яп. / Под ред. Х.Уэно, М. Исидзука. - М.: Мир, 1989.
38. Приобретение знаний: Пер. с яп. / Под ред. С. Осуги, Ю. Саэки. — М.: Мир, 1990.
39. Романов А. Н., Одинцов Б. Е. Советующие информационные сис­ темы в экономике. - М.: ЮНИТИ-ДАНА, 2000.
40. Статические и динамические экспертные системы: Учеб. посо­ бие / Э.В. Попов, И. Б. Фоминых, Е. Б. Кисель, М. Д. Шапот. - М.: Финансы и статистика, 1996.
41. Терехина А. Ю. Анализ данных методами многомерного шкали­ рования. — М.: Наука, 1986.
42. Терехина А. Ю. Представление структуры знаний методами мно­ гомерного шкалирования. — М.: ВИНИТИ, 1988.
43. Финн В. К. Правдоподобные рассуждения в интеллектуальных системах типа ДСМ // Итоги науки и техники. Сер. «Информа­ тика», т. 15. Интеллектуальные информационные системы. — М.: ВИНИТИ, 1991.
44. Финн В. К. Философские проблемы логики интеллектуальных систем // Новости искусственного интеллекта. - 1999. — № 1.
45. Франселла Ф., Баннисшер Д. Новый метод исследования личнос­ ти: руководство по репертуарным личностным методикам: Пер. с англ. - М.: Прогресс, 1987.
46. Фуремс Е. М., Гниденко А. С. STEPCLASS - система извлечения знаний и проведения экспертизы при решении диагностических задач // Научно-техническая информация. Сер. 2. - 1996. - № 9.
47. Шапот М. Интеллектуальный анализ данных в системах под­ держки принятия решений // Открытые системы. - 1998 - № 1.
48. Шапот М., Рошупкина В. Интеллектуальный анализ данных и уп­ равление процессами // Открытые системы. - 1998. - № 4.
49. Шенк Р., Бирнбаум Л., Мей Дж. К интерпретации семантики и прагматики //Новое в зарубежной лингвистике. Компьютерная лингвистика. Вып. 14. - М.: Прогресс, 1989.
50. ЭлтиДж., Кумбс М. Экспертные системы: концепции и приме­ ры: Пер. с англ. - М.: Финансы и статистика, 1987.
22751. Язык и интеллект. - М.: Прогресс, 1996.
52. Bennet J. S. A knowledge-based system for acquiring the conceptual structure of a diagnostic expert system // Journal of Automated Reasoning. — 1985. - No. 1.
53. Boose J. H., Bradshaw J. H., Shema D. B. Transforming repertory grids to shell-based knowledge bases using AQUINAS, a knowledge acqui­ sition workbench //Proceedings of the AAAI-88 Integration of Knowledge Acquisition and Performance Systems Workshop. - St. Paul, 1988.
54. Codd E. F, Codd S. В., Salley С. Т. Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate. - E. F. Codd & Associates, 1993.
55. Davis R. Interactive transfer of expertise // In: Rule-Based Expert Systems Ed. by Buchanan B.G., Shortliffi E.H. - London: Addison - Wesley, 1984.
56. De Marco T. Structured analysis and system specification. — Englewood Cliffs, NJ : Prentice Hall, 1979.
57. Diderich J., Ruhman I., May M. KRITON: a knowledge acquisition tool for expert systems // Int. Journal of Man-Machine Studies. 1987. -Vol. 26.-No. 1.
58. Ericson K. A. Expert and exceptional performance: evidence of maxi­ mum adaptation to task constraints // Annual Review of Psychology. - 1996. — No. 47.
59. Eshelman L. MOLE. Knowledge acquisition tool that buries certainty factors // Int. Journal of Man-Machine Studies. — 1987. — Vol. 26. - No. 1.
60. Fransella F., Dalton P. Personal construct counseling in action. - London: Sage Publications, 1994.
61. Gaines B. R., Shaw M.L.G. Knowledge engineering techniques // Proceedings of AUTOFACT'86, Detroit, 1986.
62. Gane C, Sarson T. Structured system analysis. - Englewood Cliffs, NJ: Prentice Hall, 1979.
63. Guarino N., Poli R. The role of ontology in the information technolo­ gy//International Journal of Human- Computer Studies, Special issue on the ontology. - 1995. - No. 43 (5/6).
64. Jones A. The Object model: a conceptual toll for structuring software. Operating Systems. — New York: Springer-\ferlag, 1992.
65. Kaplan R. N., Berry-Rogghe G. Knowledge-based acquisition of causal relationships in text // Knowledge Acquisition. — 1991. - No. 3.
228
66. Kelly G. A. Psychology of personal eensructs. - New Yoifc Norton, 1955.
67. Kihlstrom J. The Cognitive unconscious // Science. — 1987. - Vol. 237.
68. Kintsch W. The representation of meaning in memory. - New York, 1974.
69. Lewicki P., Hill., Czyzewska M. Non conscious acquisition of informa­ tion //American Psychologist. — 1992. - June.
70. Markus S. Taking backtracking with a grain of SALT // Int. Journal of Man-Machine Studies. - 1987. — Vol. 26. — No. 4.
71. Muzen M. A., Fagan L. M., Combs P. M., Shortliffe E. N. Use of a domain model to interactive knowledge-editing toll // Int. Journal of Man-Machine Studies. - 1987. - Vol. 26. - No. 1.
72. Repertory Grid Technique and Personal Constructs / Edited by Nigel Beail. — G room Helm London & Sydney, 1993.
73. Shaw M. Abstraction techniques in modern programming languages // IEEE Software. — 1984. - Vol. 1(4).
74. ShawM.L., Woodward J. B. Validation of knowledge support system// Proceedings of the 2nd Knowledge Acquisition for Knowledge-Based Workshop, Banff, Canada, 1988.
75. Yourdon E. Modern Structured Analysis. - Prentice-Hall Int. Ed., 1989.
Контрольные вопросы и задания
1. Охарактеризуйте основные аспекты процесса извлечения зна­ ний (психологический, лингвистический, гносеологический).
2. В чем заключаются основные особенности структурирования знаний на основе структурного и объектно-ориентированного подходов?
3. Опишите семиотический подход к моделированию человеческих знаний. Приведите пример треугольника Фреге. Охарактеризуй­ те синтаксис, семантику и прагматику знаков.
4. Дайте сравнительную характеристику методов извлечения зна­ ний.
5. Какие способы можно применять для извлечения «скрытых» знаний? Опишите принципы многомерного шкалирования, до­ стоинства и недостатки этого подхода.
6. Опишите метод репертуарных решеток Дж. Келли. Приведите пример. Расскажите о возможных применениях этого метода.
2297. Сформулируйте постановку задачи экспертной классификации с явно заданными признаками при построении баз знаний для экспертных систем диагностики. Что такое «конусы доминиро­ вания по характерности»?
8. Расскажите о методах машинного обучения. Приведите класси­ фикацию и дайте характеристики методов.
9. Охарактеризуйте индуктивные выводы в логике. В чем их основ­ ное отличие от дедуктивных выводов? Приведите пример индук­ тивного вывода.
10. Сформулируйте основные принципы индукции Милля. Опиши­ те обобщенный алгоритм ДСМ-метода.
11. Чем отличаются хранилища данных от баз данных? Что такое интеллектуальный анализ данных?
12. Дайте характеристику основных методов и алгоритмов, которые используются в технологиях DM&KDD.
13. Сформулируйте примеры задач в области экономики и бизнеса, для решения которых актуально применение технологий DM&KDD.
14. Подготовьте доклад или реферат о возможностях конкретного программного средства для извлечения знаний.
15. Решите небольшую задачу извлечения знаний из имеющейся БД, используя доступные программные средства (например, Excell Statistica for Windows и др.).
16. Подготовьте набор знаний для индуктивного вывода, используя логику предикатов первого порядка.
17. Решите задачу классификации из хорошо знакомой вам пред­ метной области, используя методику дерева решений.
18. Подготовьте набор знаний для решения задачи экспертной клас­ сификации в хорошо знакомой вам области.
19. Сформируйте набор знаний из знакомой вам предметной облас­ ти, используя семиотическую модель.
20. Подготовьте набор содержательной информации для выполне­ ния абдуктивного вывода. Разработайте алгоритм его реализации.
21. Разработайте программное обеспечение для реализации ДСМ- метода.
<< | >>
Источник: Андрейчиков Александр Валентинович Андрейчикова Ольга Николаевна. ИНТЕЛЛЕКТУАЛЬНЫЕИНФОРМАЦИОННЫЕСИСТЕМЫ. 2004

Еще по теме 4.5.МЕТОДЫ И СРЕДСТВА ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ:

  1. Изменение регистрационных данных транспортных средств
  2. Иерархия системы и разведочный анализ многомерных данных
  3. 3.4. Принципы анализа и интерпретации полученных данных патопсихологического обследования
  4. Глава 8. МЕТОДЫ ОБРАБОТКИ ДАННЫХ
  5. Этап анализа данных и проверки существования идеального решения
  6. МЕТОДЫ СБОРА ДАННЫХ
  7. Секуляризация средств интеллектуального производства
  8. Приложение I Метод использования хи-квадрата для оценки данных, содержащих условные частоты
  9. ОСНОВНЫЕ ПОНЯТИЯ, подходы И СРЕДСТВА КОНЦЕПТУАЛЬНОГО АНАЛИЗА
  10. 4.5. СБОР ДАННЫХ 4.5.1. Общее понятие о данных
  11. СРЕДСТВА И МЕТОДЫ
  12. МЕТОДЫ АНАЛИЗА ПРОИЗВОДСТВЕННОГО ТРАВМАТИЗМА
  13. МЕТОДЫ АНАЛИЗА ПРОИЗВОДСТВЕННОГО ТРАВМАТИЗМА
  14. 5.2. Основные методы и средства информационного воздействия на человека
  15. ОЦЕНКА МЕТОДА СЕТЕВОГО АНАЛИЗА
  16. ОБЗОР МЕТОДОВ СЕТЕВОГО АНАЛИЗА