Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: https://ea.donntu.edu.ua/jspui/handle/123456789/32829
Назва: Оценка точности извлечения концептов и понятий на основании мер ассоциации
Автори: Гайдук, К.С.
Шевченко, Ольга Георгіївна
Святный, Владимир Андреевич
Ключові слова: выделение понятий и концептов
коллокации
меры ассоциации
классификация
функция логарифмического правдоподобия
метод KDE
Дата публікації: 29-чер-2020
Видавництво: Покровськ : ДонНТУ
Бібліографічний опис: Гайдук, К. С. Оценка точности извлечения концептов и понятий на основании мер ассоциации / К. С. Гайдук, О. Г. Шевченко, В. А. Святный. // Прикладні питання математичного моделювання : наук. журн. – Херсон,2020. – №2. т. 3. - С. 76-92.
Короткий огляд (реферат): В работе представлены результаты оценки качества двоичной классификации пар слов (биграмм) на основании различных мер ассоциации, в ходе которой выполнялось разделение биграмм на классы «концепты и понятия» и «прочие биграммы». Показано, что обычное ранжирование объектов на основании значений меры ассоциации, с последующим применением пороговой фильтрации (либо отбором фиксированного количества первых элементов сортированного списка), позволяет получить лишь некоторую вершину рейтинга, но не позволяет достичь эффективного решения задачи классификации. Предложенный авторами подход основан на пороговой фильтрации не значений меры ассоциации, но вероятности принадлежности биграммы классу «концепты и понятия» при заданном значении меры ассоциации. Указанная вероятность рассчитывается на основании значений функций плотности вероятности (ФПВ), соответствующих распределениям меры ассоциации как случайной величины в обоих классах. Построение эмпирических ФПВ выполнено посредством анализа размеченной обучающей выборки. Определение порогового значения вероятности сведено к решению одномерной задачи оптимизации, в ходе которой максимизируется отношение количества объектов, идентифицированных как «концепты и понятия», к количеству объектов, отнесенных к классу «прочие биграммы». Определение характера статистического распределения большинства рассмотренных мер ассоциации вызывает затруднение (отклонение нулевой гипотезы для основных известных распределений по итогам χ^2-теста), в силу чего была использована аппроксимация ФПВ методом окна Парзена-Розенблатта. Подобное решение позволило существенно увеличить качество классификации (прирост F_1-меры до 58% для отдельных мер ассоцации). Выполненный корреляционный анализ мер ассоциации позволил выделить два кластера: меры, ориентированные на силу связи в коллокации, и меры, ориентированные на частоту встречаемости коллокации. Функция логарифмического правдоподобия и критерий Стьюдента примерно в равной степени учитывают оба указанных фактора. Установлено, что применение функции логарифмического правдоподобия (как меры ассоциации), совместно с предложенным алгоритмом пороговой фильтрации, позволяет достичь классификации с единичным значением F_1-меры (по данным, полученным для использованных обучающей и тестовой выборок).
URI (Уніфікований ідентифікатор ресурсу): http://ea.donntu.edu.ua/jspui/handle/123456789/32829
Розташовується у зібраннях:Наукові публікації кафедри комп'ютерної інженерії

Файли цього матеріалу:
Файл Опис РозмірФормат 
5_Оценка точности извлечения концептов.pdf1,92 MBAdobe PDFПереглянути/Відкрити


Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.