УПРАВЛЕНИЕ БОЛЬШИМИ СИСТЕМАМИ
на главную написать письмо карта сайта

Интернет конференция по проблемам теории и практики управления

На этом форуме обсуждаются научные публикации, связанные с применением математических моделей в управлении сложными (большими) системами. Для размещения новой публикации воспользуйтесь ссылкой "Подать статью" сверху. С помощью той же ссылки подаются статьи для публикации в Сборнике "Управление большими системами". Все подаваемые в Сборник статьи автоматически публикуются в этой Интернет-конференции, но можно подать статью в Конференции, не подавая ее в Сборник.

Появление статьи в Интернет-конференции не говорит о том, что она опубликована или будет опубликована в Сборнике "Управление большими системами". Статьи в Интернет-конференции публикуются в первоначальной авторской редакции. Изменения, вносимые в статью редколлегией Сборника в процессе ее рассмотрения, не отображаются автоматически в Интернет-конференции. Авторы статей могут внести соответствующие изменения вручную, разместив ответ на сообщение со своей статьей в Интернет-конференции.

Поиск  Пользователи  Правила 
Закрыть
Логин:
Пароль:
Забыли свой пароль?
Регистрация
Войти  
Выбрать дату в календаре ...  Выбрать дату в календаре

Страницы: 1
Частота признаков как фактор отбора признаков в задаче определения авторства текстов, В задачах определения авторства текстов, как и других задачах классификации текстов, возникает проблема работы с большим числом признаков, порядка десятков и сотен тысяч, подавляющее большинство из которых является шумовыми. Для уменьшения размерност
Название: Частота признаков как фактор отбора признаков в задаче определения авторства текстов
Автор: Василий Владимирович Куликов
Аннотация:
В задачах
определения авторства текстов, как и других задачах классификации текстов,
возникает проблема работы с большим числом признаков, порядка десятков и сотен тысяч, подавляющее большинство из которых является шумовыми.
Для уменьшения размерности признакового пространства могут быть использованы алгоритмы отбора признаков.
В работе приводится сравнение распространённых алгоритмов отбора признаков при различном выборе признакового пространства: Хи-квадрат, Gain Ratio, Info Gain, ReliefF, SVM Recursive Feature Elimination, самые частые слова из частотного словаря Шарова, самые частые признаки из корпуса OpenCorpora и из тестового корпуса.
Показано, что наилучшим алгоритмом является выбор самых частых признаков из тестового корпуса, а также, что оптимальное число признаков существенно зависит от размера текста и признакового пространства.
Ключевые слова:
отбор признаков, классификация, определение авторства текста
Страницы: 1

ИПУ РАН © 2007. Все права защищены