Искусственный интеллект. Detectron

Detectron — ПО, которое позволяет узнать о человеке его суть еще до того, как он вступил в открытый диалог.

В статье рассматривается разработка программного модуля по анализу физиологических параметров и аудиоканала для оценки эмоционального состояния человека по видеопотоку в режиме реального времени с использованием моделей искусственного интеллекта.

Разрабатываемый проект помогает решать проблемы с коммуникациями в отношениях с любыми незнакомыми или знакомыми людьми, не вступая с ними в диалог. Программа работает в онлайн-режиме. Detectron измеряет и анализирует человеческое поведение, что позволяет подстроиться под любого человека и достичь поставленных целей в продажах, управлении, мониторинге, маркетинге, медицине и в других сферах человеческой деятельности. Продукт работает в режиме реального времени. Программе достаточно от 20 до 90 секунд, чтобы диагностировать и решить любую задачу, связанную с людьми, которую поставил заказчик. Для этого в большинстве случаев достаточно обычного смартфона со встроенной в него видеокамерой (которая по техническим характеристикам эквивалентна «Айфону-6» и выше). В редких случаях нужно дополнительное аудио- и видеооборудование. Программа анализирует видеопоток с видеокамеры в режиме реального времени, может распространяться как в виде коробочного решения, так и в виде интеграции на мощности заказчика.

Чем полезен Detectron?

Разрабатываемый продукт позволяет по внешности и преобладающему эмоциональному состоянию предсказывать реакцию человека на предъявляемые стимулы, вопросы. Анализируются следующие показатели: манера речи собеседника, сценарий диалога, предлагаемые предметы, а также уровень стресса собеседника. Все вышеперечисленные данные используются в комплексе, т. е. одно предсказание подтверждает либо корректирует другое, таким образом строится архитектура, позволяющая анализировать поток входных данных с большой скоростью — порядка 60 кадров в секунду.

Отдельно для служб безопасности (СБ) и кадровых подразделений предлагается программный комплекс, предназначенный для оптимизации и повышения надежности работы подразделений СБ и управления персоналом.

Комплекс позволяет проводить первичную оценку персонала на предмет благонадежности сотрудника, его мотивации и способностей, сразу отсеивая неблагонадежные кадры, а также привлекая внимание специалистов к кадрам, к которым по разным причинам стоит проявить большее внимание или осторожность. Также программа позволяет отследить динамику каждого отдельного сотрудника, сигнализируя об отклонениях до того, как они проявятся в виде проблем в коллективе и организации, давая возможность предупредить усложнение ситуации, а также оценивать способности и мотивацию существующих сотрудников для более эффективного формирования проектных команд и кадрового резерва и масштабировать перечисленные функции  на любой объем штата предприятия.

Для отделов продаж комплекс позволяет проводить оценку интересов и ценностей потенциального клиента на основании его психотипа, а также давать рекомендации по ценностям для того, чтобы сразу предложить соответствующий им продукт, получая лояльность и интерес клиента, что позволяет менеджерам оценивать потенциальную результативность коммуникации по настроению и состоянию клиента, и, таким образом, проводить коммуникации только при достаточной результативности.

Методы и способы решения поставленных задач для получения ожидаемых характеристик

На данный момент бета-версия программы распознает эмоции человека, его психотип, базовую линию поведения, уровень стресса, ряд медицинских показателей. Далее происходит построение 3—5 моделей, предсказывающих поведение субъекта на основе быстрых нейронных сетей. Модель более высокого порядка либо подтверждает, либо нейтрализует выводы моделей низкого порядка. В качестве исходных данных используется порядка 20 000 видеозаписей, в которых выделяются промежутки времени, на которых происходили характерные реакции, дополнительно выделяются интервалы, где реакция отсутствовала, и интервалы, где реакции были нехарактерными, т. е. то, что программе необходимо проигнорировать. Затем модель дополняется вычислением физиологических характеристик (пульс, дыхание, моргание, мимика, жесты, тембр голоса, паузы в речи и т. д.) и скорости их изменения. Работа системы оформлена как веб-сервис, принимающий видео или последовательность кадров и возвращающий массив числовых значений с разметкой по времени — в формате json. Между системой и конечным пользователем разрабатывается промежуточный диспетчер, распределяющий нагрузку и выводящий ответы в наглядном виде. Для вычислений используется массив серверов, оснащенных графической картой класса NVidia GTX 1080. Подсистема оценки эмоционального состояния может быть условно разделена на 2 части: часть, отвечающая за выделения компонентов поведения, — реализуется в виде нейросети с использованием алгоритмов; часть, выполняющая непосредственно оценку эмоционального состояния по выделенным компонентам, — реализуется в виде отдельной нейросети и использует для расчетов комплекс подходов (в первую очередь разработки Международной академии исследования лжи), дополненный остальными исследованиями и теоретическими подходами.

Подсистемы структурирования, хранения и анализа результатов разрабатываются как программные сервисы, использующие результаты расчетов подсистемы оценки эмоционального состояния. Также при работе будут внедрены технические инструменты и практики: распознавание эмоций по мимике лица с помощью технологии Active Appearance Model на основе системы кодирования лицевых движений (FACS) П. Экмана; определение частоты пульса с помощью PCA-декомпозиции видеоизображения; определение частоты дыхания с помощью метода Eulerian Video Magnification; фиксация изменения цвета лица с помощью PCA-декомпозиции видеоизображения; определение направления взгляда (технологии компьютерного зрения); определение положения тела, рук, ног, головы (технологии компьютерного зрения); распознавание предметов одежды, обуви и аксессуаров (технологии компьютерного зрения); определение походки (технологии компьютерного зрения); распознавание голосовых паттернов (системы акустического моделирования); анализ амплитудно-частотной характеристики голоса; мел-кепстральный анализ голосовых фонограмм (MFCC); современные подходы и практики построения нейросетей.

Объем и емкость рынка продукта, анализ современного состояния и перспектив развития отрасли, в которой реализуется проект.

Сейчас рынок детектирования эмоций переживает бум, и, по оценке западных специалистов, к 2021 году он вырастет, по разным подсчетам, от $19 млрд до $37 млрд. Системы детектирования и распознавания эмоций (EDRS) и эмоциональные вычисления (affective computing) формируют собственную экосистему в поле разработок искусственного интеллекта (AI). Оценки объемов этого рынка и его перспектив на период до 2022 года разнятся, поскольку отталкиваются от различных метрик и формул подсчета. По мнению агентства MarketsandMarkets, глобальный объем рынка эмоций в 2016 г. составил $6,72 млрд и предполагается, что к 2021 году достигнет планки $36,07 млрд с ежегодным ростом в 39,9 %. Reportlinker и Orbis Research придерживаются более консервативных прогнозов — $29,17 млрд / 27,4 % и $19,96 млрд /21,2 % к 2022 году соответственно. Агентство Gartner утверждает, что наш смартфон в 2021—2022 годах будет знать нас лучше, чем наши же друзья и родственники, и взаимодействовать с нами на тонком эмоциональном уровне. Референтными для индустрии остаются три географические зоны: Азиатско-Тихоокеанский регион (АТР), Северная Америка (США и Канада) и Европейский Союз. Наиболее привлекательные темпы демонстрируют по-прежнему два канала анализа эмоций: распознавание микроэкспрессий лица и биосенсорные датчики, встроенные в носимые устройства. Следом идут голос/речь и видеоокулография (айтрекинг). Эмоциональные и поведенческие технологии востребованы в различных сферах, включая медицинскую. Израильская компания Beyond Verbal совместно с Mayo Clinic ищет в голосе человека вокальные биомаркеры, по которым не только определяются эмоции, но и закладывается возможность прогнозирования аортокоронарных заболеваний, болезней Паркинсона и Альцгеймера, что уже подводит эмоциональную проблематику к теме геронтологии и поиску путей замедления старения. Если говорить о применимости технологий, то тут преимущественно задействована B2B-сфера в секторах вроде интеллектуального транспорта, ретейла, рекламы, HR, IoT, gaming. Но и в B2C тоже есть спрос: EaaS (Emotionas a Service) или же облачное аналитическое решение (human data analytics) позволит любому пользователю загружать видеофайл и получать по нему всю эмоциональную и поведенческую статистику для каждого фрагмента записи. Если речь идет о предвыборных дебатах на пост президента (будь то России или США), то от алгоритма едва ли что-то скроется. Более того, через пару лет технология по распознаванию эмоций будет в каждом смартфоне. Трендом станет создание умных интерфейсов распознавания человеческих эмоций — программное обеспечение позволит определять состояние пользователя в произвольный момент времени при помощи обычной веб-камеры. Это перспективная ниша, так как определение эмоций человека может быть использовано в коммерческих целях: от анализа восприятия видео- и аудиоконтента до расследования криминальных дел.

С другой стороны, это безграничные возможности развлекательной индустрии. Например, в новых iPhone встроена технология распознавания лица Face ID, которая не только разблокирует телефон, но и может создать эмодзи с вашей мимикой. Основная масса новых продуктов в сфере эмоциональной науки строится на семи базовых эмоциях и микроэкспрессии лица, которая отражает наши эмоции на уровне, неподвластном контролю мозга. Сознательно мы можем сдержать улыбку, но легкие подергивания уголков губ останутся, и это будет сигнал для технологий распознавания эмоций. Есть также блок технологий, специализирующихся на анализе речи, голоса и взгляда. Использование этих методов в психиатрии или уголовном делопроизводстве позволит узнать максимум об эмоциональном состоянии человека и его истинном настрое благодаря информации о мельчайших изменениях в мимике и телодвижениях. Сейчас компании и отдельные команды могут использовать открытые научные данные о распознавании эмоций и использовать их в стеке с технологиями, формируя область эмоциональных вычислений (affective computing). Колоссальный вклад в развитие рынка эмоциональных технологий внесла пятерка FAANG (Facebook, Apple, Amazon, Netflix, Google) и техногиганты вроде IBM. Вместе с тем всеобщая диджитализация, распространение гаджетов и девайсов любого рода, повсеместное обращение к изображениям и видео (несколько миллиардов видео попадает в Сеть ежедневно), публичность в социальных сетях позволяют эффективно извлекать эмоциональные данные из общего потока и использовать их для анализа человека как потребителя товаров и услуг и как пользователя. И все это должно проходить в правовом поле, корректно и этично.

Здоровье и Healthtech

Индустрия здоровья активно внедряет самые современные методы сбора и анализа данных о пациентах или пользователях, так как машинные алгоритмы определяют симптомы, используя сотни и тысячи похожих случаев. Уже существуют мобильные приложения, которые анализируют по фото и тексту психоэмоциональное состояние, и чем больше человек общается с программой, тем лучше она обучается, «понимает» его и дает точные прогнозы лечения. Одно дело, когда устройство просто улавливает, «понимает» на своем уровне ваше настроение и в соответствии с ним включает музыку, регулирует свет или готовит кофе. Другое, когда оно по вашему внешнему виду оценивает степень усталости или определяет какие-то отклонения от нормы. Или заболевания. К примеру, болезнь Альцгеймера или Паркинсона.

Задолго до своего проявления болезнь начинает влиять на мышцы лица, на скорость движения глаз, на неощутимые, казалось бы, изменения в голосе и микродвижениях. Что касается сферы рекламы, уже сейчас мировые ретейл-сети максимально интегрируют онлайн в офлайн, пытаясь узнать, чего хочет покупатель и что он, вероятнее всего, купит. Когда нейроинтерфейсы достигнут уровня точного высокочувствительного распознавания эмоций, реклама в витрине торгового центра будет за доли секунд подстраиваться под настроение проходящих мимо людей. В апреле 2017 года исследовательская группа из Сан-Франциско научила нейронную сеть LSTM точнее распознавать эмоциональную составляющую текста. Теперь машина почти безошибочно опознает настроение в отзывах покупателей на Amazon и кинорецензиях на Rotten Tomatoes, что помогает улучшить сервис и предугадать популярность продукта у пользователей.

Игровая индустрия

Когда вышла первая модель очков Google Glass, предполагалось, что управление жестами выйдет на новый уровень — для того, чтобы читать текст на внутренней стороне линзы, достаточно было провести глазами сверху вниз, чтобы система поняла, что вы уже прочитали этот абзац и можно показывать следующий. Несмотря на то что сам гаджет не вышел за рамки прототипа, история с исследованием движений глаз переместилась в новое поле — игровое.

Конкурентные преимущества создаваемого продукта, сравнение технико-экономических характеристик с мировыми аналогами

Loom.ai создает новую эру виртуальной коммуникации благодаря анимации и совместному использованию персонализированных 3D-аватаров. Команда, прошедшая Y Combinator Fellowship и награжденная премией Академии, сформировалась в Сан-Франциско и создала лучшее в своем классе решение, основанное на Deep Learning и компьютерном зрении. Binary VR разрабатывает технологию обнаружения лица в реальном времени силами лучших мировых экспертов в области компьютерного зрения и Deep Learning. Технология включает в себя широкий спектр распознавания лиц, отслеживание ориентиров лица и распознавания мимики. Генерируется 3D-персонаж в реальном времени, с помощью AR-фильтра создается VR-аватар, наделенный выражением лица прототипа.

Affectiva была создана на базе MIT Media Lab. Эта компания является пионером в сфере распознавания эмоций с помощью искусственного интеллекта. Affectiva понимает, насколько эмоции играют важную роль во всех аспектах нашей жизни. Они формируют опыт, взаимодействия и решения. Сегодня же в нашем технологическом мире эмоции либо отсутствуют, либо существенно упрощены.

Cyntient AI — это программная платформа, использующая искусственный интеллект для имитации поведения человека в видеоиграх и симуляторах. Это позволяет сделать виртуальных персонажей, которые реагируют на поведение игрока, анализируют ситуацию и обучаются по ходу игры. С помощью этого создаются реалистичные личности, которые умны, интуитивны и эмоциональны.

Целевые сегменты потребителей создаваемого продукта и оценка платежеспособного спроса

Целевые сегменты: отделы продаж компаний, HR-службы, службы безопасности, медицинские и образовательные учреждения.

Отдел кадров

На подбор сотрудника компания тратит в среднем сумму равную 1,5—2 зарплатам сотрудника (среднего совокупного дохода за месяц). Из чего складывается эта сумма:

  • Прямые затраты — это то, что мы платим, чтобы у нас появился кандидат, которому мы готовы будем сделать предложение. Сюда включаются затраты на оплату работных сайтов и других ресурсов, на которых ищут кандидата, время сотрудника, занимающегося подбором, время других специалистов, участвующих в оценке кандидата, сюда же относим время, которое требуется на обсуждение потребности в подборе, составление портрета, вакансии, оценку выполнения тестового задания, затраты на подготовку кадровых документов при оформлении и т. д. Эта сумма уже приближается к сумме, примерно равной среднемесячному доходу искомого сотрудника.
  • В косвенных затратах стоит учесть все дополнительные затраты — например, на премию или дополнительный день отпуска тому, кто работает с повышенной нагрузкой в период подбора нового кандидата, оборудование рабочего места для новичка, расходы на увольнение и компенсации, если речь не о расширении штата. Итого: получаем, что подбор, например, среднего уровня разработчика с зарплатой 60 000 руб. обойдется в около 100 000 руб. Если взять первого попавшегося кандидата, то затраты не снизятся. Точнее, сначала снизятся, а потом с лихвой окупятся проваленным проектом, возвращением денег клиенту и огромными репутационными потерями. Адаптации часто уделяют незаслуженно мало внимания.

Адаптация как процесс в любом случае будет проходить, хотим мы или нет, но в наших силах влиять на процесс и на его продолжительность. Длится этот процесс от 3 до 6 месяцев и условно делится на две части — производственную и психологическую. В это время сотрудник требует к себе большего внимания и эффективность его колеблется в диапазоне от 50 до 70 %. А это значит, что зарплату ему платят несколько авансом. Плюс время, которое коллеги тратят на объяснения и ответы на вопросы, а не на выполнение своих текущих дел. А также коммуникации по задачам идут сложнее, ведь приход нового человека — стресс и для всей команды. Если посчитать, сколько компания теряет, если сотрудник уходит на испытательном сроке: затраты на подбор + заработная плата на испытательном сроке + время коллег + косвенные затраты, включающие оплату офиса, налогов и прочих затрат компании, получаем около 400 000 рублей.

А если человек не адаптировался и ушел, отработав не 3, как мы посчитали, а 6 месяцев, эта сумма увеличится практически вдвое. Вряд ли кто-то захочет просто выкинуть эти деньги. Российский рынок услуг подбора персонала в 2017 г. начал расти после затяжной стагнации, по данным исследования Ассоциации частных агентств занятости (АЧАЗ). Эта ассоциация объединяет крупнейшие российские рекрутинговые компании. В 2017 г. российские кадровые агентства заполнили гораздо больше вакансий, чем в предыдущие три года, показало исследование. По оценке АЧАЗ, в 2017 году рекрутеры закрыли 44 000 вакансий на 7,4 млрд руб. и это на 15 % превысило показатель 2016 г. (6,5 млрд руб.).

Общее количество вакансий, переданных в агентства, выросло по сравнению с 2016 г. на 28 %, а рынок услуг подбора персонала в целом составил 66,3 млрд руб. Как сообщается в исследовании, количество закрытых рекрутерами вакансий выросло впервые за три года с 2014 г. В 2017 г. рынок труда оживился благодаря небольшому росту экономики — в компаниях к этому времени накопился спрос на развитие, и при первой же возможности они стали искать людей, говорит Рустам Барноходжаев, директор по работе с ключевыми клиентами компании «Юнити».

Кроме того, замечает он, в 2017 г. кандидаты тоже стали активнее вести себя на рынке: в годы кризиса они больше держались за работу, а теперь решили поискать лучшей жизни. В 2017 г. работодатели в основном продолжали подбирать персонал собственными силами, но в отраслях, где оживление экономики чувствовалось больше, они чаще заполняли вакансии с помощью внешних рекрутеров, говорит Татьяна Баскина, заместитель генерального директора по работе с профессиональным сообществом кадрового холдинга «Анкор». По ее словам, так произошло в сфере производства и продаж товаров народного потребления, в тяжелой промышленности, энергетике и агропромышленном комплексе. С помощью агентств в 2017 г. компании чаще всего привлекали специалистов — 36 % (36 % в 2016 г.) и реже линейных руководителей — 30 % (33 % в 2016 г.). Возросло количество заказов на подбор персонала на начальные позиции — 24 % (19 % в 2016 г.).

Выше описан один из векторов целевого спроса клиентов со стороны рынка сбыта. Однозначно можно сказать, что вышеописанные сферы, такие как отделы продаж кампаний, HR-службы, службы безопасности, медицинские и образовательные учреждения, нуждаются и заинтересованы в разрабатываемом проекте, как так это значительно снизит расходы на оценку кандидатов и повысит точность и скорость принятия решений. Для менеджеров по продажам — неумение быстро найти общий язык с клиентом, что ведет к потере клиента. Для компаний из сферы безопасности — проверка на детекторе лжи занимает три часа и больше, программе необходимо для выявления лжи не более 3 минут. Программа же в состоянии вести круглосуточное наблюдение за психоэмоциональным состоянием любого сотрудника. Для медицины — постановка первичного диагноза в течение 2 минут на основании видеозаписи, сделанной пациентом. Образование — постоянный контроль уровня заинтересованности аудитории при офлайн- и онлайн-обучении. Таким образом, необходимость разработки продукта заключается в рыночной востребованности следующих направлений: увеличения продаж при помощи индивидуализированного подхода без длительного обучения сотрудников низкой и средней квалификации; сокращения штата отдела кадров путем уменьшения времени на проведение собеседования при трудоустройстве без потери качества оценки соискателя; получения объективной обратной связи от клиента без прямых вопросов о продукте; выявления мошеннических схем в организации; превентивных мер против них; автоматического мониторинга предрасположенности сотрудников к девиантному поведению.

Выделяют несколько направлений деятельности:

  • Бизнес. В данном случае программа может заменить специалистов, распознающих ложь, сопровождающих клиентов на деловых встречах, чтобы определить, не является ли будущее партнерство аферой.
  • Страховые компании. Обращаются к услугам верификаторов и страховые компании. Суть работы сводится к выявлению махинаций при оформлении страховых случаев.
  • Банковские организации. Создание онлайн-системы кредитного скоринга.
  • Аудиторские компании. При проверке честности бухгалтеров это эффективное дополнение к традиционной проверке бухгалтерских документов.
  • Транспортная сфера. Профилактика безопасности движения, антитеррор.
  • Гостиничный бизнес. Действие направлено на профилактику преступлений в отелях.
  • Рекрутинг. Программа помогает рекрутеру распознать обман со стороны кандидата на должность, докопаться до неприглядных истин в его биографии (крупные долги, криминальное прошлое, игромания и т. п.).

Основные технические параметры, определяющие количественные (числовые) и качественные характеристики готового продукта

Поток видео обрабатывается в онлайн-режиме. Несколько раз в секунду возвращаются результаты его анализа, в т. ч.:

  • определяем текущее эмоциональное состояние и его выраженность по шкале эмоция/сила;
  • определяем текущее эмоциональное состояние и его выраженность по шкале позитив-негатив/возбуждение-торможение;
  • предсказываем реакцию человека на стимулы на основе преобладающего эмоционального состояния;
  • предсказываем реакцию человека на стимулы на основе анализа внешности и поведения;
  • сравниваем оба предсказания — видим, какие реакции подтверждаются, а какие нейтрализуются;
  • строим график смены эмоциональных состояний по времени;
  • строим график, отражающий учащение пульса, моргания, учащения/задержки дыхания, появление характерных для стресса мимических реакций;
  • анализируем изменение скорости речи, высоты и тембра голоса.

Информация на выходе:

  • эмоциональное состояние и его сила (величина каждого из факторов — матрица, нормировано);
  • уровень стресса (частота пульса, дыхания, моргания, динамика мимики — числа, волнение — да/нет);
  • предполагаемая реакция на стимулы (текст).

Параметры:

  • непрерывная обработка входного потока с разрешением не менее 1280 × 720;
  • скорость обработки входного потока — не менее 40 кадров в секунду;
  • точность прогнозирования — не менее 90 %;
  • частота появления числовых данных на выходе — не менее 4 в секунду;
  • временной интервал при отображении информации на графиках — не менее 30 секунд. Подготовлены прототипы инструментов для повышения точности (имеются рабочие блоки тестирования и обучения).

Конструктивные требования для готового продукта: разрешение видеокамеры 1280 × 720 и выше.

Минимальные системные требования: облачное дисковое хранилище, покупка и аренда вычислительных мощностей и оперативной памяти.

Функциональные требования: возможность пользования всеми функциями ПО.

Нефункциональные требования

Требования по безопасности: включают в себя три большие категории — требования, связанные с разграничением доступа; требования, связанные с работой с приватными данными; требования, направленные на снижение рисков от внешних атак.

Планы по созданию и защите интеллектуальной собственности: в ходе реализации проекта планируется получение в 2020—2021 гг. патента «Метод измерения и анализирования человеческого поведения».

К 2021 году планируется дополнительная разработка в данном проекте:

  • подсистемы, использующей видео- и аудиоданные для оценки эмоционального состояния человека;
  • подсистемы, структурирующей эмоциональное состояние с помощью контекста (модули структурированной беседы, интервью, произвольного контекста);
  • подсистемы регулярного сбора и хранения информации об эмоциональном состоянии человека;
  • подсистемы анализа собранных данных для выявления отклонений.

Также планируется создание программного комплекса для медицинских служб, предназначенного для оптимизации и повышения надежности работы учреждений медицинской помощи.

В результате комплекс будет позволять:

  • выделять отклонения или отсутствие отклонений (только по заболеваниям, по которым проведено обучение нейросети);
  • вести статистику, сохранять состояния, выполнять анализ изменений во времени и сигнализировать о потенциально критических изменениях (только по заболеваниям, по которым проведено обучение нейросети);
  • масштабировать перечисленные функции на любой регион и любое количество пациентов;
  • масштабировать перечисленные функции на любые заболевания и нарушения, допускающие направление на проведение дополнительной диагностики по движениям лица и тела, состоянию кожи и другим внешним признакам.