За основу были взяты статьи про отношения. Тексты поделились на группы C3, C4, C5. Остались в одиночке текст 3 и 9. Я думаю, что были выделены именно такие группы из-за большей схожести в тематике и стилю описания, также, возможно, по эмоциональному окрасу они могли соединиться в группы. А тексты, которые не объединились, могут сильно отличаться по характеристикам, нежели остальные. 

Число групп по общности текстов при изменении уровня кластеризации будет меняться  в  сторону меньшего числа групп. Опять же, из-за какой-то общей ключевой темы (например, проблемы отношений)

Комментарии

Популярные сообщения из этого блога