Разработан детектор сарказма — теперь у ИИ будут нетривиальные задачи
Социальные сети стали доминирующей формой общения для частных лиц и компаний, стремящихся продвигать и продавать свои продукты и услуги. Именно тут и нужен анализ тональности — часть компьютерной лингвистики, изучающая эмоциональную окраску текста. Этот термин относится к автоматическому процессу определения эмоции — положительной, отрицательной или нейтральной — связанной с текстом. В то время как искусственный интеллект — это логический анализ данных, анализ тональности сродни правильному определению общения на эмоциональном уровне.
Как правило, наличие сарказма в тексте является основным препятствием при проведении анализа тональности, особенно в социальных сетях и онлайн-СМИ. Сарказм часто используется для передачи смысла, противоположного сказанному, обычно чего-то очень неприятного с намерением оскорбить или высмеять. Неоднозначность, присущая саркастическим выражениям, очень затрудняет обнаружение сарказма. Его не всегда легко выявить даже в очном разговоре между двумя людьми, хотя часто он считывается по мимике, жестам и тону говорящего.
Команда ученых из Университета Центральной Флориды (UCF) разработала методику, позволяющую точно определять сарказм в тексте в социальных сетях. Результаты недавно были опубликованы в журнале Entropy.
По сути, компьютерную модель научили находить шаблоны, которые часто указывают на сарказм, и одновременно — правильно выбирать ключевые слова в последовательностях, с большей вероятностью указывающих на сарказм. Для обучения в модель загрузили большие наборы данных, а затем проверили ее точность.
Ученые разработали интерпретируемую модель глубокого обучения с использованием современной архитектуры Multi-Head Attention и управляемых рекуррентных нейронов (GRU). Модуль Multi-Head Attention помогает идентифицировать важные саркастические ключевые слова из входных данных, а GRU изучают дальнодействующие зависимости между этими ключевыми словами, чтобы лучше классифицировать текст. Для экспериментов использовались твиты, обсуждения на Reddit и заголовки новостных ресурсов.
В результате по точности определения сарказма новый детектор обошел все предыдущие методы — модель показала значительное улучшение по сравнению с современными моделями по всем параметрам оценки. Затруднения возникали, в основном, при классификации вопросительных предложений. Но их правильная классификация является сложной задачей не только для моделей глубокого обучения, но и для людей.
Точный детектор сарказма позволит компаниям лучше ориентироваться в потребностях клиентов и использовать возможности социальных сетей. Он поможет не только точнее определять целевую аудиторию, но и обрабатывать отзывы в виде сообщений в соцсетях, комментариев и твитов.