Интеллектуальные анализ данных и прогнозирование в «1С:Предприятии 8»


Андрей Колесов

В предыдущей публикации раздела «1С:Предприятие» мы рассказывали о средствах экономической и аналитической отчетности платформы восьмой версии (PC Magazine/RE, 6/2006, с. 138). Там в одном из пунктов упоминались также новые функции интеллектуального анализа данных, в том числе обеспечивающие решение задач прогнозирования. О них стоит рассказать отдельно и подробнее.

Одна из главных тенденций на рынке учетно-управленческих систем — это постоянное повышение спроса на применение средств аналитической обработки данных, обеспечивающих принятие обоснованных руководящих решений. Однако сегодня заказчикам уже недостаточно использования традиционных инструментов, позволяющих создавать разнообразные отчеты, сводные таблицы и диаграммы на основе заранее определенных показателей и связей, анализируемых вручную. Предприятиям все чаще нужны качественно иные средства, позволяющие автоматически искать неочевидные правила и выявлять неизвестные закономерности (рис. 1), что дает возможность получать новые знания на основе накопленной компанией информации и принимать порой совсем нетривиальные решения для повышения эффективности бизнеса на основе методов интеллектуального анализа данных.

Стоит напомнить, что одна из концепций «1С:Предприятия 8» — реализация многих базовых прикладных функций на уровне технологической платформы. При этом с момента выпуска версии 8. наряду с появлением продуктов для конечных пользователей идет постоянное развитие самой платформы. Так, после первого объявления «восьмерки» в августе 2003 г. выпущено уже почти полтора десятка релизов платформы, по состоянию на июль 2006 г. самая последняя версия имеет номер 8.16, и она весьма существенно отличается от того, что было три года назад!

Общие сведения

Механизмы анализа данных и прогнозирования (МАДП), о которых идет сейчас речь, в составе «1С:Предприятия 8» появились в ней только в прошлом году. В сентябре 2005 г. «1С» выпустила специальное прикладное решение — подсистему поддержки принятия решений на основе интеллектуального анализа данных (ПИАД), которая может быть встроена в любую конфигурацию платформы «1С:Предприятие 8». Помимо широкого набора базовых функций, в нее вошли более 30 предварительно настроенных моделей для типовой конфигурации «Управление торговлей». Эти модели имеют самостоятельную ценность (могут многократно использоваться), а также применяются для автоматизированного формирования прогнозов, в том числе сценарных, с заранее неизвестными показателями. Все средства МАДП и ПИАД сегодня также доступны в последних релизах ключевых прикладных решений на базе «1С:Предприятия 8».

Как уже говорилось, МАДП предоставляет пользователям (экономистам, аналитикам и т. д.) возможность осуществлять поиск неочевидных закономерностей в данных, накопленных в информационной базе, и позволяет выполнять следующие операции:

• поиск закономерностей в исходных данных информационной базы;
• управление параметрами выполняемого анализа как программно, так и интерактивно;
• программный доступ к результату анализа;
• автоматический вывод результата анализа в табличный документ;
• создание моделей прогноза, позволяющих автоматически прогнозировать последующие события или значения неких характеристик новых объектов.

МАДП — это набор взаимодействующих друг с другом объектов встроенного языка, дающих возможность разработчику использовать его составные части в произвольной комбинации в любом прикладном решении. Встроенные объекты позволяют легко организовать интерактивную настройку параметров анализа пользователем, а также выводить результат анализа в удобной для отображения форме в табличный документ (рис. 2). Важно и то, что механизм может работать с данными, полученными как из информационной базы «1С», так и из внешних источников (в последнем случае — предварительно загруженными в таблицу значений или табличный документ).

Применяя к исходным данным один из типов анализа, можно получить результат, который представляет собой некую модель поведения данных. Результат анализа может быть отображен в итоговом документе или сохранен для дальнейшего использования (на его основе может быть создана модель прогноза, позволяющая прогнозировать поведение новых данных).

Например, можно проанализировать, какие товары приобретаются вместе (в одной накладной), и сохранить этот результат в базе данных. В дальнейшем, при создании очередной накладной на основании сохраненного результата анализа, можно построить модель прогноза, подать ей «на вход» новые данные, содержащиеся в этой накладной, и «на выходе» получить прогноз, например список товаров, которые контрагент Петров тоже, скорее всего, приобретет, если их ему предложить (рис. 3).

В настоящее время МАДП содержит пять типов анализа данных: общая статистика, поиск последовательностей, поиск ассоциаций, кластеризация и дерево решений.

Общая статистика

Представляет собой механизм для сбора общих сведений об исследуемой выборке. Этот тип анализа предназначен для предварительного исследования какого-то источника информации, позволяет получать статистическую информацию об имеющихся данных. Для непрерывных (тип «Число» или «Дата») и дискретных (все другие типы) полей рассчитываются следующие показатели: количество, максимум, медиана, минимум, размах, среднее и стандартное отклонение. Кроме того, для полей с дискретными типами данных вычисляются количество уникальных значений и мода, а также таблицы частот и значений.

Поиск последовательностей

Анализ этого типа позволяет выявлять в источнике данных последовательные, часто возникающие цепочки событий. Например, проанализировав заказы клиентов, можно выявить их последовательную взаимосвязь и на основании этого прогнозировать складские запасы, проводить рекламные акции и даже предлагать товары и услуги с опережением, если результаты проведенного анализа покажут высокую вероятность спроса на них в будущем. Анализ позволяет осуществлять поиск по иерархии, что дает возможность отслеживать не только последовательности конкретных событий, но и последовательности родительских групп. Набор параметров анализа позволяет специалисту ограничивать временные расстояния между элементами искомых последовательностей, а также регулировать точность получаемых результатов.

Поиск ассоциаций

Метод предназначен для выявления устойчивых комбинаций элементов в определенных событиях или объектах. Результаты анализа представляются подсистемой в виде групп ассоциированных элементов. Здесь же, помимо выявленных устойчивых комбинаций элементов, приводится развернутая аналитика по ассоциированным элементам (рис. 4).

Первоначально метод был разработан для поиска типичных сочетаний товаров в покупках, поэтому иногда его еще называют анализом покупательской корзины. Применительно к этому сценарию в качестве ассоциируемых элементов, как правило, выступают товарные группы или отдельные товары. А группирующим объектом, объединяющим элементы выборок, может быть любой объект информационной системы, идентифицирующий сделку, например заказ покупателя, акт об оказании услуг или кассовый чек.

Информация о закономерностях в товарных предпочтениях покупателей позволяет повысить эффективность управления отношениями с клиентами (в части рекламных кампаний и маркетинговых акций), ценообразования (формирование комплексных предложений и системы скидок), управления запасами и мерчендайзинга (распределение товаров в торговых залах). Другой пример использования этого метода — определение предпочитаемых клиентами комбинаций рекламных каналов для исключения их дублирования при проведении целевых рекламных кампаний. Это позволяет существенно снизить издержки на подобные мероприятия.

Реализованный в платформе алгоритм поиска ассоциаций имеет достаточно гибкие средства управления адекватностью моделей анализа или прогноза. Параметр «Минимальный процент случаев» определяет «порог срабатывания» алгоритма на ту или иную комбинацию элементов в событии или объекте, что позволяет не учитывать слабо распространенные ассоциации. Параметр «Минимальная достоверность» определяет требуемую устойчивость искомых ассоциаций, а параметр «Минимальная значимость» позволяет выявить наиболее приоритетные из них. Существенно облегчает восприятие результатов анализа и прогноза параметр «Тип отсечения правил», который может принимать значения «Отсекать избыточные» и «Отсекать покрытые другими правилами».

Для практической интерпретации результатов, полученных данным алгоритмом, особенно важно разбиение исходного множества ассоциируемых элементов на действительно однородные с точки зрения проводимого анализа группы.

Кластеризация

Цель кластеризации — выделение из множества объектов одной природы некоторого количества относительно однородных групп — сегментов или кластеров. Объекты распределяются по группам так, чтобы внутригрупповые отличия были минимальными, а межгрупповые — максимальными (рис. 5). Методы кластеризации позволяют перейти от пообъектного к групповому представлению совокупности произвольных объектов, что существенно упрощает оперирование ими.

Вот возможные сценарии применения кластеризации на практике.

• Сегментация клиентов по определенной совокупности параметров позволяет выделить среди них устойчивые группы, имеющие сходные покупательские предпочтения, уровни продаж и платежеспособности, что существенно упрощает управление взаимоотношениями с клиентами.

• При классификации товаров часто используются достаточно условные принципы классификации. Выделение сегментов на основе группы формальных критериев позволяет определить действительно однородные группы товаров. В условиях широкой и довольно разнородной номенклатуры товаров управление ассортиментом на уровне сегментов, по сравнению с управлением на уровне номенклатуры, существенно повышает эффективность продвижения, ценообразования, мерчендайзинга, управления цепочками поставок.

• Сегментация менеджеров позволяет эффективнее спланировать организационные изменения, улучшить мотивационные схемы, скорректировать требования к нанимаемому персоналу, что в конечном счете позволяет повысить управляемость компании и стабильность бизнеса в целом.

Сходство и различие между объектами определяется «расстоянием» между ними в пространстве факторов. Способ измерения расстояния определяется метрикой, которая указывает принцип определения сходства-различия между объектами выборки. МАДП содержит сейчас несколько метрик.

Способы формирования кластеров на основе информации о расстоянии между кластеризуемыми объектами определяются методом кластеризации. Любой из реализованных в платформе методов кластеризации предполагает явное указание количества искомых кластеров. Для атрибутов объектов можно вводить веса, что позволяет расставлять приоритеты между ними.

Результатами анализа с помощью кластеризации являются:

• центры кластеров, представляющие собой совокупность усредненных значений входных колонок в каждом кластере;
• таблица межкластерных расстояний (между центрами кластеров), определяющих степень различия между ними;
• значения прогнозных колонок для каждого кластера;
• рейтинг факторов и дерево условий, определивших распределение объектов на кластеры.

Алгоритмы кластеризации позволяют не только провести кластерный анализ объектов на множестве заданных атрибутов, но и спрогнозировать значение одного или нескольких из них для актуальной выборки на основании отнесения объектов этой выборки к тому или иному кластеру.

Дерево решений

В результате применения этого метода к исходным данным создается иерархическая (древовидная) структура правил вида «Если... то...», а алгоритм анализа обеспечивает процесс вычленения на каждом этапе наиболее значимых условий и переходов между ними. Данный алгоритм получил наибольшее распространение при выявлении причинно-следственных связей в данных и описании поведенческих моделей. Типичная зона применимости деревьев решений — оценка различных рисков, например закрытия заказа клиентом или его перехода к конкуренту, несвоевременной поставки товара поставщиком или просрочки оплаты товарного кредита. В качестве типичных входных факторов модели выступают сумма и состав заказа, текущее сальдо взаиморасчетов, кредитный лимит, процент предоплаты, условия поставки и иные параметры, характеризующие объект прогноза. Адекватная оценка рисков обеспечивает принятие информированных решений по оптимизации отношения доходность/риск в деятельности компании, а также полезна для увеличения реалистичности различных бюджетов (рис. 6).

В качестве примера, иллюстрирующего способность этого типа анализа выявлять причинно-следственные связи, можно привести задачу оптимизации работы отдела продаж. Для ее решения в качестве прогнозируемой величины выберем интересующий показатель эффективности менеджеров по продажам, например удельную доходность на клиента, а в качестве факторов — совокупность данных, потенциально влияющих на результат. Алгоритм определит факторы, оказывающие наибольшее влияние на результат, а также типичные комбинации условий, приводящих к тому или иному результату.

Более того, подсистема «Анализ данных» позволит оценить (спрогнозировать) ожидаемые значения целевого показателя на основании актуальных данных, а также провести прогноз «Что, если?», изменяя подаваемые на вход модели показатели. Результаты анализа и прогноза с помощью деревьев решений дают возможность существенно снизить влияние неопределенности бизнес-окружения на состояние компании, а также решить широкий спектр задач, связанных с выявлением сложных и неочевидных причинно-следственных связей.

Метод «Дерево решений» формирует причинно-следственную иерархию условий, приводящую к определенным решениям. В результате применения этого метода к обучающей выборке создается иерархическая (древовидная) структура правил расщепления вида «Если... то...». Алгоритм анализа (обучения модели) сводится к итеративному процессу вычленения на каждом этапе наиболее значимых условий и переходов между ними. Условия могут иметь как количественный, так и качественный характер и формируют «ветви» этого абстрактного дерева. Его «листву» образуют значения прогнозируемого атрибута (решения), которые, так же как и условия переходов, могут иметь как качественную, так и количественную трактовку. Совокупность этих условий, налагаемых на факторы, и структура переходов между ними до конечного решения и образуют модель прогноза.

Данный тип анализа получил наибольшее распространение при оценке исходов различных событийных цепочек и выявлении причинно-следственных связей в выборках. Управление значимостью и достоверностью модели данного алгоритма осуществляется с помощью параметров «Тип упрощения», «Максимальная глубина дерева» и «Минимальное количество элементов в узле».

В качестве результата анализа выборки с помощью алгоритма «Дерево решений» выступают:

• рейтинг факторов, представляющий собой список факторов, оказавших влияние на решение, отсортированный в порядке убывания значимости («цитирования» в узлах дерева);
• сопоставление решений (значений прогнозной колонки) и определивших их условий, иными словами — дерево «Следствие-Причина»;
• дерево «Причина-Следствие», представляющее собой совокупность переходов между условиями, которая определяет то или иное решение (по сути, визуальное представление модели прогноза).

Типовые бизнес-сценарии использования методов МАДП

В документации ПАИД имеется раздел, посвященный типовым примерам использования интеллектуального анализа данных применительно к конфигурации «1С:Управление торговлей 8». Здесь мы приведем только несколько таких бизнес-сценариев.

Управление взаимоотношениями с клиентами

Сценарий — «Планирование рекламной кампании»

Планирование предстоящей рекламной кампании рассматривается с точки зрения оптимизации распределения выделенного бюджета по рекламным каналам исходя из регионального, продуктового, клиентского и иных показателей целевого сегмента, а также эффективности рекламных каналов в указанных разрезах в некотором, предшествующем планируемому периоде.

Алгоритм — «Кластерный анализ».

Прогнозные атрибуты — доли откликов на рекламный канал условно однородных сегментов, выделенных алгоритмом.

Вычисляемые колонки — доли рекламных каналов в бюджете рекламной кампании с учетом вероятной доли откликов и эффективности (в смысле результирующей выручки) каждого рекламного канала.

Пример закономерности. Клиенты класса А региона П, предпочитающие товарную группу Р, привлечены тем же рекламным каналом, что и клиенты региона Н, предпочитающие товарную группу У.

Управление цепочками поставок

Сценарий — «Оптимизация выбора поставщиков по товарной группе».

Выбор доминирующих поставщиков «первого ряда» для ключевых товарных групп чрезвычайно важен для стабилизации системы логистики в частности и общей системы управления цепочками поставок в целом, уменьшения средней продолжительности цепочек поставок. Вместе с тем более тесная интеграция с основными поставщиками позволяет, как правило, существенно снизить себестоимость товаров. В связи с этим представляет интерес анализ устойчивых комбинаций поставщиков в различных товарных группах в сравнении с аналитикой по ассоциированным в рамках групп поставщикам. Это дает возможность выявить «пересечения» поставщиков в различных товарных группах и оптимизировать взаимоотношения с ними.

Алгоритм — «Поиск ассоциаций».

Прогнозные атрибуты — устойчивые комбинации поставщиков.

Основные факторы — товарные группы.

Расшифровка — аналитика по поставщикам (объем закупок, выручка, условия поставки, оплаты, пессимистичный, оптимистичный, средний сроки выполнения заказа).

Пример закономерности. Устойчивая ассоциация крупного и непредсказуемого поставщика А и предсказуемого среднего поставщика Б в большом количестве товарных групп. Возможно при формировании заказов по конкурентным товарным группам в качестве основного позиционировать среднего поставщика, если объем заказа крупному не превышает некоторого (дающего существенный выигрыш на масштабах) порога.

Управление персоналом

Сценарий — «Профилирование менеджеров отдела продаж по ключевым показателям эффективности».

Определение эффективности менеджеров (удержание, поиск клиентов, эффективность коммуникаций, инкассация условной и безусловной дебиторской задолженности, удельные показатели эффективности на клиента и т. д.) представляет интерес не только с точки зрения формирования системы материального стимулирования менеджеров, но и с точки зрения эффективного нормирования параметров их деятельности.

Алгоритм — «Деревья решений».

Прогнозные атрибуты — ключевые показатели эффективности отдела продаж (количество ключевых клиентов, коэффициенты оттока и привлечения, упущенный доход в месяц, привлеченный доход в месяц, доход в месяц с клиента, суммарные поступления от клиентов и т. д.).

Основные факторы — количество активных клиентов, выручка, доход, удельные показатели на клиента, эффективность коммуникации. В зависимости от прогнозных атрибутов состав факторов может существенно варьироваться.

Пример закономерности. Менеджеры, обеспечивающие лучшие показатели инкассации дебиторской задолженности (отношение поступлений ДС к выручке), имеют коэффициент удержания больше 0,8, коэффициент привлечения больше 0,25, количество одновременно открытых сделок не более 15, но не менее 10, интенсивность событий в день не более 10, но не менее 3, количество активных клиентов в периоде не менее 50, но не более 100.