Ангидрид Сернистый
Мудрец
(18322)
16 лет назад
Для каждой пары пользователей посчитать число одинаковых (похожих) запросов (или, лучше, отношение похожих запросов к общему числу их запросов) . Если это число больше некоторого значения, считать, что эти пользователи "связаны". Дальше можно рассматривать все это как граф. Есть алгоритм выделения компонент связности, сильно связных подграфов и т. п. см. Роберт Седжвик - Фундаментальные алгоритмы на С++.
Цель:
Выделить группы пользователей с близкими интересами на основе анализа их запросов к поисковым системам.
Для решения задачи можно использовать кластерный анализ. Данных порядка 60 000 и они не числовые, а символьные.
Как решить задачу? Кто-нибудь может посоветовать?