Мера подобия текстов как инструмент оценки интертекстуальности при анализе больших коллекций документов | Вестник Российского нового университета

Серия: «Сложные системы: модели, анализ, управление»
Series: "Complex systems: models, analysis, management"

Мера подобия текстов как инструмент оценки интертекстуальности при анализе больших коллекций документов

Год/Year: 
2016
№: 
4
Серия/Series: 
Сложные системы модели, анализ и управление / Complex systems: models, analysis, management
Выпуск/Issue: 
4
Начальная страница/First page: 
62
Название: 
Мера подобия текстов как инструмент оценки интертекстуальности при анализе больших коллекций документов
Title: 
The measure of text similarity as a tool for assessment of intertextuality in large collections of documents
Краткое описание: 
Предложена методика обнаружения интертекстуальных отношений через нахождение неявных ссылок с помощью лингвистических и статистических методов. Интертекстуальность – это наличие в тексте элементов и идей из других текстов. Продемонстрирована возможность выявления временнóй межъязыковой миграции терминов и идей с целью прогноза и определения идеологических траекторий. Предложена новая мера подобия текстов, апробированная на коллекции научных документов и развиваемая путем максимизации корреляции явных и неявных ссылок. Описана методика кластеризации документов в соответствии с мерой подобия текстов. Продемонстрирована возможность применения предложенной меры для анализа экстремистских текстов из Интернета.
Short description: 
The method for detection of intertextual relations by finding implicit links using linguistic and statistical methods is suggested. Intertextuality is a presence in one text of elements and ideas from other texts. The possibility of identifying of crosslanguage migration of terms and ideas for prognosis and determination of ideological trajectories is demonstrated. A new text similarity measure is suggested. The measure was tested using collection of scientific documents. The measure was improved by maximizing correlation between explicit and implicit links. A method for documents clustering according to the measure of text similarity is suggested. The possible application of the proposed measure for analysis of extremist texts from the Internet is suggested.
Ключевые слова: 
интертекстуальность, миграция идей, мера подобия, кластеризация документов, неявные ссылки
Keywords: 
intertextuality, migration of ideas, measure of similarity, texts clustering, implicit links
Полная версия/Full version: