Как известно, у широко используемого в настоящее время алгоритма кластеризации данных K-средних (K-means) есть существенный недостаток — алгоритм требует задания будущего количества кластеров данных. Поскольку при обработке больших массивов данных заранее оценить оптимальное количество кластеров невозможно, то встает вопрос о модификации алгоритма с тем, чтобы определение количества кластеров стало частью самого алгоритма.
В настоящей работе автором предлагается модификация алгоритма, которая позволяет задать не точное количество будущих кластеров, а лишь его допустимую верхнюю границу. Само количество кластеров определяется самим алгоритмом исходя из соображений максимальной компактности полученных кластеров и максимально возможной удаленности центров кластеров друг от друга. При этом все преимущества алгоритма K-means сохраняются.
Работоспособность предложенной модификации алгоритма кластеризации проверяется на реальных данных. В качестве данных выступают векторы признаков сцен видеоархива (гистограммы цветов, гистограммы текстур, оптические потоки) и задачей алгоритма является объединение сцен в семантически значимые классы (виды спорта, новости и т.д.)
- Информационное сообщение
- К 100-летию А.А.Ляпунова
- Научные направления
- Организаторы
- Спонсоры конференции
- Международный программный комитет
- Локальный программный комитет
- Труды конференции
- Файлы для печати
- Представление материалов
- Важные даты
- Секретариат
- Регистрационный взнос
- Место проведения
- Как добраться
- Проживание
- Контактная информация
- Предыдущие конференции
- Программа конференции
- Список участников
- Список докладов и тезисы
- Регистрация / Вход