НОВОСТИ Математика машинного обучения, основанного на теории решеток

Alvaros
Онлайн
Регистрация
14.05.16
Сообщения
21.452
Реакции
101
Репутация
204
Это третья статья серии работ (ссылки на и работы), описывающих систему машинного обучения, основанного на теории решеток, озаглавленную "ВКФ-система". Она использует структурный (теоретико-решеточной) подход к представлению обучающих примеров и их фрагментов, рассматриваемых как причины целевого свойства. Система вычисляет эти фрагменты как сходства между некоторыми подмножествами обучающих примеров. Существует алгебраическая теория таких представлений, называемая Анализом формальных понятий (АФП). Однако описываемая система использует вероятностные алгоритмы, чтобы устранить недостатки неограниченного подхода. Подробности ниже…
velmyzu6vz2h8mzwswr-4vitj-c.png



Введение



Мы начнем с демонстрации нашего подхода в применении к школьной задаче.
Она состоит в отыскании достаточных условий на выпуклый четырехугольник, чтобы вокруг него можно было описать окружность и предсказать это свойство у прямоугольника.
Следовательно, имеются два класса: позитивный (можно описать окружность вокруг четырехугольника) и негативный.


Обучающая выборка включает в себя квадрат, равнобедренную трапецию, ромб и дельтоид (смотри метки срочек в таблице)
Единственный тестовый пример — прямоугольник.


Мы представляем каждый четырехугольник множеством признаков, связанных с его симметриями:
"Есть центр симметрии" (A),
"Группа вращений тривиальна" (B),
"группа вращенией нетривиальна" (C),
"Есть диагональная ось симметрии" (D),
"Есть недиагональная ось симметрии" (E).
Они соотвествуют именам столбцов в таблице.

четырехугольникцельABCDE

квадрат

1

1

0

1

1

1

трапеция

1

0

1

0

0

1

ромб

0

1

0

1

1

0

дельтоид

0

0

1

0

1

0

прямоугольник

?

1

0

1

0

1


Чтобы обнаружить возможные причины (в териминах симметрий) программа вычисляет сходства (общие признаки) между обучающими примерами одного знака. Поэтому мы имеем



271704019c7457979279d58094eb9d37.svg



где первое подмножество содержит родителей (все обучающие примеры, сходство которых вычислялось), а второе — общий фрпагмент этих примеров.


Так как общий фрагмент
152ef54c15393db08dbe9f73f156d81d.svg
является подмножеством описания прямоугольника
c439294b1fbf9dff42b05285d11f5ca7.svg
, программа предскажет его целевое свойство положительным, т.е. прямоугольник описываем. Это соответсвует процедуре доопределения по аналогии в ДСМ-методе. Аналогами прямоугольника будут родители (квадрат и равнобедренная трапеция), которые имеют общий фрагмент, встречающийся и в прямоугольнике.


Однако мы можем поменять знаки: сходством отрицательных примеров будет



144d4b970949f5bc53b5a01af432ebde.svg



Это наблюдение приводит к логикам Аргументации, но мы предпочтем не погружаться здесь в детали. Заинтересованный читатель отсылается к статьям автора из сборника
Финн В.К., Аншаков О.М., Виноградов Д.В. (Ред.). Многозначные логики и их применения. Том 2: Логики в системах искусственного интеллекта, M.: URSS, 2020, 238 с. ISBN 978-5-382-01977-2


Важно, что сходство отрицательных примеров позволяет нам продемострировать принцип "запрета контр-примеров", так как его фрагмент
e849b3232eb032ca4a8ebbe414af693f.svg
вкладывается в описание
ba9f3e0776b4e06256e691f519664ac8.svg
примера противоположного знака (квадрат).

1 Анализ Формальных Понятий



Первоначально автор планировал излагать теорию в терминах ДСМ-метода автоматического порождения гипотез. Но его создатель выразил сомнение, что "можно изложить глубокие идеи ДСМ-метода популярным языком". Поэтому автор решил использовать язык АФП для этой статьи. Однако он будет использовать некоторые свои термины (наравне с оригинальными в скобках) там, где предпочтительнее сменить терминологию.


Выборка (=формальный контекст) — это тройка
e92b76131c7c4419f53c9589c8086d77.svg
, где
560bd97f235311a36dff00db005e6ab5.svg
и
94d13ee0aadd7f17977e0d279af38d42.svg
— конечные множества, а
394a2a802e09314c1560f0541605a10d.svg
. Элементы
560bd97f235311a36dff00db005e6ab5.svg
и
94d13ee0aadd7f17977e0d279af38d42.svg
наызваются объектами и признаками, соответственно. Как обычно, мы пишем
c3dbbf02977e1aa850969e784bf18d53.svg
вместо
ecb2030a76b3bd4c86d50f9d581be96b.svg
, чтобы обозначить ситуацию, когда объект
bdba7499baaa2899811e34409321d6eb.svg
обладает признаком
e2e33f15a96008ca33579599483c4531.svg
.


Для
52963e18df38044038d89091387dcce4.svg
и
b44c2d292b240ff5f054a89468b58d57.svg
определим



ce8318c372ed45f640bb6e0695605f6e.svg



так что
20b40da9efe9f6a915fd2d27e3b907a4.svg
— это множество всех признаков, общих для всех объектов из
493c1c008018df9bed4910321f29ff00.svg
, а
7a44c06efa49afe8a07fda0744201ecd.svg
— это множество всех объектов, обладающих всеми признаками из
20d8caec693d8d8eaf70885e408419f6.svg
. Отображения
244c75e3ca85e088249b5bf6e2ec5b71.svg
и
c73f2ba1a670b4c350ece877bba90271.svg
называются полярами (=операторами производной) для выборки
e92b76131c7c4419f53c9589c8086d77.svg
.


Кандидатом (=формальным понятием) для выборки
e92b76131c7c4419f53c9589c8086d77.svg
называется пара
699fca9219eb0d9fb08c3cd31d5c2d23.svg
, где
52963e18df38044038d89091387dcce4.svg
,
b44c2d292b240ff5f054a89468b58d57.svg
,
f9f44cf2d01f715b02e8a9a48b44eb54.svg
и
1d8879b1812ee4170f947276d987e925.svg
. Первая компонента
493c1c008018df9bed4910321f29ff00.svg
кандидата
699fca9219eb0d9fb08c3cd31d5c2d23.svg
называется списком родителей (=объемом) кандидата, а вторая компонента
20d8caec693d8d8eaf70885e408419f6.svg
называется его фрагментом (=содержанием). Множество всех кандидатов для выборки
e92b76131c7c4419f53c9589c8086d77.svg
обозначается через
41c970659343f621c8f94ea93ac8de01.svg
.


Легким упражнением является проверка того, что
41c970659343f621c8f94ea93ac8de01.svg
образует решетку с операциями



d83647fa891cc145d51d7ec9a0e340a0.svg



Мы используем специальный случай: для
8268b1b91fba155160288b90b874d7ea.svg
,
150ab0d5ce13bf0a3990a712c42c92ce.svg
и
57aba072f6d4272a98b060bd8323d141.svg
определим



1437aa5c4e5a810cb8b503e85ad42a2f.svg



Мы называем эти операции CbO, так как первая из них использовалась в известном алгоритме "Замыкай-по-одному" (Close-by-One (CbO)), чтобы породить все элементы
41c970659343f621c8f94ea93ac8de01.svg
.


Наиболее важное свойство монотонности операций CbO составляет следующую лемму


Путь
e92b76131c7c4419f53c9589c8086d77.svg
— выборка,
40ea6824fa3b1b126aab55e27d2203f4.svg
,
150ab0d5ce13bf0a3990a712c42c92ce.svg
и
57aba072f6d4272a98b060bd8323d141.svg
. Тогда



9848c92f4e18e7f2ed545a8a85da9a74.svg


2 Проблемы с АФП



К несчастью, автор и его коллеги обнаружили некоторые теоретические недостатки непосредственного применения АФП к машинному обучению:


  1. Число гипоез может оказаться экспоненциально велико по отношению к размеру входных данных (обучающей выборки) в худшем случае.


  2. Проблема обнаружения больших гипотез вычислительно (NP-)трудная.


  3. Переобучение неизбежно и возникает на практике.


  4. Существуют 'фантомные' сходства между обучающими примерами, где каждый такой родитель имеет альтернативную гипотезу о причине целевого свойства.


Чтобы продемонстрировать недостаток 1 нам нужна Булева алгебра с выборкой, задаваемой коатомами (как позитивными примерами):

3adc375da66e8991809770d9af138d28.svg
d61d0bc102ed8095031493b7a467c717.svg
370b2288367184559af4aabde48be904.svg
1da2be7fdf1d7129c673e433bd96c98d.svg
0dcdf63f1fe3c916dfd6c25b7d4f312e.svg

7bd715053f144fc1ba0cb0ca7e50642d.svg


0

1

1da2be7fdf1d7129c673e433bd96c98d.svg


1

c8a88bdc8c420fc1a6b5c223658eaafb.svg


1

0

1da2be7fdf1d7129c673e433bd96c98d.svg


1

6268cb5b34ace190ce7a6dde715452c6.svg


6268cb5b34ace190ce7a6dde715452c6.svg


6268cb5b34ace190ce7a6dde715452c6.svg


5a3ee60f0b9c93da2e9773f011944456.svg


6268cb5b34ace190ce7a6dde715452c6.svg


4d922fe9f719291e60674bac6a515371.svg


1

1

1da2be7fdf1d7129c673e433bd96c98d.svg


0


Легко проверить, что любая пара
fb7bca3f63d2ad72accd6c3441821e3a.svg
является кандидатом. Поэтому существует
7705832c309e60edb5a0330800112dfc.svg
кандидатов.


Чтобы оценить экспоненциальный взрыв выхода от размера входа, оценим память, нужную для хранения выборки для
6da6b36b66201340d635586e9e3ba618.svg
, как 128 байт, а память для сохранения
7705832c309e60edb5a0330800112dfc.svg
кандидатов потребуется
454c237009c1761047553bfac0815ca2.svg
бит, т.е. 16 Гигабайт!


Недостаток 2 был обнаружен проф. С.О. Кузнецовым (НИУ-ВШЭ Москва).


Недостатки 3 и 4 были открыты автором во время его работы над диссертацией. Он рассмотрел несколько вероятностных моделей, чтобы породить "фантомые" сходства вместе с контр-примерами, могущими их отвергнуть. Наиболее прозрачный результат — это асимптотическая теорема, которая утверждает, что вероятность порождения "фантомного" сходства двух родителей без контр-примеров стремится к



77167115443eff74b4e58d85625b1960.svg



когда вероятность появления каждого признака (рассматриваемого как н.о.р. переменные Бернулли)
31cff6aeab09b2c116418869a8203d80.svg
, число контр-примеров
7d50532cae9689f529173b0dfafecb6b.svg
, а число признаков
d09d80eba331f66672c69019b02c08bf.svg
.


Отметим, что даже меньшее число
a25442c9e230c672de569a25a427a75a.svg
явяляется положительным, так как совпадает с вероятностью того, что Пуассоновская величина со средним
372e18546a3b7abb94c2672708bc5dfe.svg
примет значение >1.


Можно обраиться к за дополнительными деталями и результатами.

3 Вероятностные алгоритмы



Ключевая идея ВКФ=метода случайным образом порожить малое подмножество решетки кандидатов и использовать его элементы как гипотетические причины целевошго свойства. С помощью этого трюка мы избегаем экпоненциально высокой вычислительной сложности обычных алгоритмов АФП (и ДСМ-метода тоже).


Так что нам нужны алгоритмы, подобные случайным блужданиям на ограмной решетке, с порождением кандидата только тогда, когда он нам потребуется.


Автор придумал и исследовал математические свойства нескольких таких алгоритмов (немонотонной, монотонной, спаренной, ленивой спаренной и рстановленной спаренной цепей Маркова). Детали могут найдены в .


Мы теперь представим алгоритм спаренной цепи Маркова, которая явлется основой вероятностного подхода к машинному обучени, онованному на АФП (ВКФ-метода).


input: выборка (G,M,I), внешние операции CbO( , )
result: случайный кандидат
X=G U M;
A = M'; B = M;
C = G; D = G';
while (A!=C || B!= D) {
выбрать случайный элемент x из X;
= CbO(,x);
= CbO(,x);
}


Существует ленивый вариант спаренной цепи Маркова. Автор доказал, что ленивые вычисления приводят к ускорению (по сравнению с классической схемой) до



d5db377efd02ed11162f3aba9bff5077.svg



раз, где
08d9faefbe272bdf8fbb80773542e343.svg
— число признаков, а
16da507b2fc389688ef0659939dcc647.svg
— число обучающих примеров.


Этот результат находится в замечательном соответствии с экспериментальными оценками, полученными бывшей студенткой РГГУ Л.А. Якимовой.

4 Общая структура ВКФ-метода



В машинном обучении с учителем обычно имеются две выборки, называемые обучающей и тестовой, соответственно.


Из положительных примеров обучающей выборки образуют
e92b76131c7c4419f53c9589c8086d77.svg
. Отрицательные обучающие примеры формируют множество
2b647eca43a3275e9b95a138b659a0ea.svg
контр-примеров (препятствий для превращение в ВКФ-гипотезы).


Множество
175f98839ab732db76d5f20cd6ce2ce9.svg
тестов содежат все элементы тестовой выборки для предсказания целевого свойства.


Программа вызывает алгоритм ленивой спаренной цепи Маркова, чтобы породить случайного кандидата
8268b1b91fba155160288b90b874d7ea.svg
. Программа сохраняет его как ВКФ-гипотезу VKF-hypothesis
699fca9219eb0d9fb08c3cd31d5c2d23.svg
, если не найдется такого контр-примера
0e964f8e12fdbe7d40957c7686144854.svg
, что
e78dcb0f1ad9fc91778099c40018a47f.svg
.


Основной алгоритм индуктивного обобщения таков


input: число N ВКФ-гипотез для порождения
result: случайная выборка S затребованных гипотез
while (i для (G,M,I);
hasObstacle = false;
for (o in O) {
if (B включается в {o}') hasObstacle = true;
}
if (hasObstacle == false) {
S = S U {};
i = i+1;
}
}


Условие
e78dcb0f1ad9fc91778099c40018a47f.svg
означает включение фрагмента
20d8caec693d8d8eaf70885e408419f6.svg
кандидата
ad14955a777b7bd7f2c5c94600d640c0.svg
во фрагмент (подмножество признаков) контр-примера
d7521936a2ef631da8017d5295046e99.svg
.


Если кандидат избегает все такие препятствия, он добавляется к списку порожденных ВКФ-гипотез.


Мы заменили детерминистский потребляющий много времени алгоритм (например, хорошо известный алгоритм "Замыкай-по-одному") для порождения всех кандидатов на вероятностный, котороый порождает случайное подмножество ВКФ-гипотез заданного объема.


После этого система машинного обучения предсказывает целевое свойство у тестов и сравнивает результаты предсказания с оригинальными значениями целевого свойства.


input: список T тестовых примеров для предсказания уелевого свойства
input: случайная выборка S порожденных индукцией ВКФ-гипотез
for (x in T) {
target(x) = false;
for ( in S) {
if (B is a part of {x}') target(x) = true;
}
}


Худшая ситуация случается, когда некоторый важный положительный тестовый пример пропустит все порожденные ВКФ-гипотезы и доопределится отрицательно.


Тестовый пример
817b92407f764f57af9226e50cc788fd.svg
называется
289a7a2101da9af41e701ec2de958d6b.svg
-важным, если вероятность всех ВКФ-гипотез
699fca9219eb0d9fb08c3cd31d5c2d23.svg
с
9e8174540d6050bbaa995f98a9f53e22.svg
превосходит
289a7a2101da9af41e701ec2de958d6b.svg
.


Автор доказал теорему об оценке параметра
1e80c3b3087c0a57b68ad11261a9ec2b.svg
из алгоритма индуктивного обобщения, чтобы избежать худший случай.


Для
bf077f01e64e5bebf9b89482daa23cb7.svg
, для любого
57da3a1b30a8f1a01e2f6190a48779e8.svg
и любого
5e81006040c0270185185a65ca1d1c97.svg
случайная выборка
cb6d45cf916546ae1085088c0c5dcd09.svg
ВКФ-гипотез мощности



5bbac7f9af656d5b168a401790005823.svg



с вероятностью
338ee990233edc69e145058576752b72.svg
имеет свойство, что каждый
289a7a2101da9af41e701ec2de958d6b.svg
-важный объект $x$ содержит фрагмент некоторой ВКФ-гипотезы
298d64d98c03af758e5e5cc1a5600a3b.svg
, т.е.
9e8174540d6050bbaa995f98a9f53e22.svg
.


Эта теорема является аналогом известных результатов проф. В.Н. Вапника и проф. А.Я. Червоненкиса из статистической теории обучения.

Заключение



Эта заметка описывает главные математические характеристики системы машинного обучения, основанной на теории решеток. Автор назвал ее "ВКФ-системой" в честь своего учителя проф. В.К. Финна.


Последняя статья цикла будет посвящена представлениям объектов с признаками различных типов для примения описываемой здесь машины обучения.


Дискретные признаки снова потребуют некоторую технику из АФП. Непрерывным признакам потребуется логистическая регрессия, энтропийные принципы разделения диапазонов на подынтервалы и представление, порождающее выпуклую оболочку интервалов, чье сходство вычисляется.


Автор рад возможности поблагодарить своих коллег и студентов за поддержку и стимулы.
 
Сверху Снизу