062. Архитектура и алгоритмы сервиса обнаружения плагиата

В докладе описывается архитектура системы обнаружения плагиата, позволяющая определять в проверяемом документе наличие текстов,схожих с источниками, которые опубликованы в открытом доступе в сети Интернет. Акцент в работе делается на охране авторских прав в проверяемом материале. Данная задача решена путем того, что часть системы, выполняющая глобальный поиск  и предварительное сравнение возможных источников плагиата в сети Интернет, получает информацию, не позволяющую восстановить исходное содержимое проверяемого документа. При этом качество поиска документов в сети Интернет не ухудшается. Предлагаемая архитектура использует вычислительные мощности поисковых машин Интернета и уменьшает нагрузку на локальную информационную инфраструктуру пользователя. Кроме того, рассматриваются модификации алгоритмов сравнения схожих документов, которые позволяют перенести практически весь процесс построения хеша документов в СУБД. Тем самым, минимизируется объем оперативной памяти, используемой сервисом. Данный подход  позволяет также существенно снизить требования к вычислительной инфраструктуре пользователей сервиса.

 

Full text file: Дягилев_статья.pdf
Presentation file: Дягилев_през.pdf