Как известно, у широко используемого в настоящее время алгоритма кластеризации данных K-средних (K-means) есть существенный недостаток – алгоритм требует задания будущего количества кластеров данных. Поскольку при обработке больших массивов данных заранее оценить оптимальное количество кластеров невозможно, то встает вопрос о модификации алгоритма с тем, чтобы определение количества кластеров стало частью самого алгоритма.
В настоящей работе автором предлагается модификация алгоритма, которая позволяет задать не точное количество будущих кластеров, а лишь его допустимую верхнюю границу. Само количество кластеров определяется самим алгоритмом исходя из соображений максимальной компактности полученных кластеров и максимально возможной удаленности центров кластеров друг от друга. При этом все преимущества алгоритма K-means сохраняются.
Работоспособность предложенной модификации алгоритма кластеризации проверяется на реальных данных. В качестве данных выступают векторы признаков сцен видеоархива (гистограммы цветов, гистограммы текстур, оптические потоки) и задачей алгоритма является объединение сцен в семантически значимые классы (виды спорта, новости и т.д.)