С использованием алгоритмов классификации текстов на основе деревьев решений предложен алгоритм оптимального по информационному критерию последовательного бинарного разбиения n-мерного признакового пространства стилей текстовых произведений на 2^n непересекающихся n-мерных интервалов, образующих таблицу стилей текстов, определяющую «стилевой портрет» (профили стилей) корпуса текстов. Предполагается, что признаковое пространство является частотным, т.е. образовано частотами появления в текстах наборов служебных слов, словосочетаний, биграмм и т.п. Алгоритм реализован программно в системе «СтилеАнализатор», предназначенной для комплексного исследования корпусов текстов различных типов. На материале различных корпусов текстов проведено сравнительное исследование качества классификации текстов по авторам, жанрам, стилям и другим характеристикам текстов по алгоритмам деревьев решений и таблицам стилей текстов. Получаемые при обучении алгоритма профили стилей текстов могут быть использованы для идентификации стиля предъявляемого текста неизвестного автора, что позволяет, в частности, определять наиболее вероятное авторство текста.
Работа поддержана грантом РФФИ № 11-07-00776-а
Файл тезисов: | Kubarev_Poddubny_Abstracts.doc |