Автор: Василий Владимирович Куликов
Аннотация:
В задачах
определения авторства текстов, как и других задачах классификации текстов,
возникает проблема работы с большим числом признаков, порядка десятков и сотен тысяч, подавляющее большинство из которых является шумовыми.
Для уменьшения размерности признакового пространства могут быть использованы алгоритмы отбора признаков.
В работе приводится сравнение распространённых алгоритмов отбора признаков при различном выборе признакового пространства: Хи-квадрат, Gain Ratio, Info Gain, ReliefF, SVM Recursive Feature Elimination, самые частые слова из частотного словаря Шарова, самые частые признаки из корпуса OpenCorpora и из тестового корпуса.
Показано, что наилучшим алгоритмом является выбор самых частых признаков из тестового корпуса, а также, что оптимальное число признаков существенно зависит от размера текста и признакового пространства.
Ключевые слова:
отбор признаков, классификация, определение авторства текста