Выбирай : Покупай : Используй
0

Microsoft создала приложение для ввода текста глазами. Видео

Microsoft создала приложение GazeSpeak, которое позволяет на мобильных устройствах вводить текст с помощью движений глаз. Если раньше за глазами пользователя следили инфракрасные датчики, то теперь это делает камера смартфона. Это сделало систему дешевле и позволило ей работать при ярком свете.

Microsoft создала GazeSpeak

Компания Microsoft Research разработала программу, которая позволяет пользователю вводить текст на смартфоне с помощью движений глаз. В официальном релизе, разосланном компанией, решение называется Eye-gaze, однако на сайте Microsoft и в тексте самой научной работы фигурирует название GazeSpeak. Система будет представлена на конференции социально значимых технологических проектов CHI 2017, которая пройдет в Денвере, США, в мае 2017 г.

Разработчики утверждают, что GazeSpeak дешевле и удобнее в использовании, чем существующие аналоги. Программа предназначена для использования людьми с ограниченными двигательными возможностями. Пока что она работает на мобильных устройствах, где установлена iOS, выпущенных позднее 2012 г. Помимо Microsoft Research в разработке принимали участие сотрудники Университета Вашингтона.

Как и другие подобные программы, GazeSpeak следит за глазами пользователя, который смотрит на таблицу с буквами. Разница заключается в том, что раньше для отслеживания движений глаз использовались инфракрасные датчики, а теперь для этого достаточно камеры смартфона. Комплект необходимой инфракрасной аппаратуры, во-первых, стоит порядка $5-10 тыс., во-вторых, не работает при ярком освещении. Соответсвенно, GazeSpeak, предназначенная для мобильных устройств, обходится на порядок дешевле и позволяет вводить текст даже при ярком солнечном свете. Кроме того, использование смартфона сделало всю систему менее громоздкой, избавив от необходимости использовать штативы и стенды.

Упрощенный процесс ввода

Кроме смартфона пользователю понадобится таблица с алфавитом. Процесс выбора нужной буквы в GazeSpeak также претерпел изменения. Работая с аналогичными системами, пользователь одним движением глаз выбирает группу символов, вторым – конкретную букву в группе, то есть выбор происходит по тому же принципу, что и в кнопочном телефоне. GazeSpeak позволяет ограничиться в процессе выбора буквы одним-единственным движением глаз. Для удобства символы сгруппированы в четыре группы, что позволяет пользователю быстрее их находить. Чтобы удалить букву, нужно моргнуть левым глазом, чтобы подтвердить правильность ввода слова – правым.

На каждом этапе ввода слова GazeSpeak выдает список возможных вариантов. С помощью движений глаз пользователь может выбирать из них подходящие. В словарь подсказок включены 5 тыс. наиболее употребительных слов. В него можно добавлять те слова, которые наиболее часто употребляет пользователь. Все предлагаемые буквы и слова программа озвучивает голосом.

Разработчики утверждают, что GazeSpeak позволяет набрать предложение за 1,5 минуты. Для сравнения – более дорогие системы того же назначения тратят на это более чем 2 минуты. Microsoft заявляет, что участники тестирования находят GazeSpeak «менее сложным и более приятным способом ввода».

Технические особенности

Перед использованием GazeSpeak нужно откалибровать под конкретного пользователя. По команде он должен совершить все движения глазами, чтобы программа запомнила, как они выглядят в его исполнении. GazeSpeak позволяет удалять и приближать смартфон к лицу пользователя без потери точности распознавания. Также система адекватно воспринимает небольшие изменения угла обзора камеры или поворота лица.

Технология GazeSpeak позволяет распознать 6 движений глаз: вверх, вниз, вправо, влево, взгляд в центр, моргание. Система отличает моргание левым и правым глазом. Механизм распознавания написан на C++ с использованием открытых библиотек Dlib и OpenCV. Скорость распознавания для iPhone в зависимости от конкретной модели варьируется от 17 до 27 изображений в секунду. Для различных моделей iPad она составляет от 16 до 34 изображений в секунду.

В тестировании GazeSpeak участвовали 12 человек разного типа внешности в возрасте от 20 до 44 лет. Система обеспечила среднюю точность распознавания жестов глазами на уровне 86%.

Комментарии