Научный журнал
Научное обозрение. Физико-математические науки

АВТОМАТИЧЕСКОЕ ВЫДЕЛЕНИЕ ИНФОРМАЦИИ ОБ АВТОРЕ И ИХ ТЕКСТАХ НА СТРАНИЦАХ ИНТЕРНЕТ-ФОРУМОВ

Пронин А.К. 1 Копылов Н.Ю. 1
1 ООО «Аби ИнфоПоиск»
В данной статье рассматривается метод автоматического выделения со страниц Интернет-форумов публично доступной информации об авторе сообщений (пола, возраста, местоположения) и принадлежащих ему текстах. Для построения алгоритма использовалась концепция деревьев стилей, представляющих собой подход по агрегации схожих вершин в древовидной структуре, представляющей объектную модель документа. Сходными считаются вершины, имеющие одинаковые имена соответствующих HTML-тэгов и имеющие одинаковый родительский узел. На конечных шагах алгоритма использованы простые эвристики, использующие наблюдения о характере текстов, содержащих псевдонимы пользователей и их тексты. При тестировании построенного алгоритма достигнута точность 80 %. Практическая ценность разработанного алгоритма заключается в расширении множества текстовых ресурсов, используемых в качестве источников естественных текстов в задаче построения очень больших корпусов.
AN APPROACH OF AUTOMATIC EXTRACTION OF INFORMATION ABOUT THE AUTHORS AND THEIR TEXTS FROM WEB-FORUMS

Pronin A.K. 1 Kopylov N.Y. 1
1 LLC «Abi InfoPoisk»

Abstract:
This article describes the approach of automatic extraction of information about the author and his/her texts from web forums. For building the algorithm the concept of style trees was used – approach of aggregating similar nodes in a tree representing Document Object Model. Nodes are similar if they all have the same name of the corresponding HTML-tags and have the same parent node. At final steps, simple heuristics were applied, employing observations about characteristics of texts containing users’ pseudonyms and their messages. When testing the developed algorithm 80 % accuracy was reached. Practical value of the developed algorithm resides in expansion of text resources, used as sources for natural discourse, especially when faced with a problem of building very large text corpus.

Keywords:

Библиографическая ссылка

Пронин А.К., Копылов Н.Ю. АВТОМАТИЧЕСКОЕ ВЫДЕЛЕНИЕ ИНФОРМАЦИИ ОБ АВТОРЕ И ИХ ТЕКСТАХ НА СТРАНИЦАХ ИНТЕРНЕТ-ФОРУМОВ // Научное обозрение. Физико-математические науки. – 2014. – № 1. – С. 49-50;
URL: http://physics.science-review.ru/ru/article/view?id=67 (дата обращения: 22.07.2019).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1.252