яндекс

Yandex объявил об применении компьютерного зрения с целью повышения качества видеотрансляций и назвал это технологией DeepHD

Во время поиска в сети интернет картинок или видеороликов, люди зачастую дописывают к запросу «в хорошем качестве». Под качеством имеется в виду разрешение — для пользователей важно, чтобы изображение было крупным и при этом хорошо рассматривалось на экранах современных компьютеров, смартфонов и телевизоров. Но что делать в случае, когда их просто не существует в хорошем качестве?

Во всемирной паутине очень много видеоконтента в низком качестве и разрешении. Это фильмы, которые были сняты много лет назад, или же трансляции TV-каналов, что по разным причинам являются не в лучшем качестве. При растягивании пользователем такого видео на весь экран — изображение превращается в мутное и нечеткое. Идеальное решение для старых фильмов это найти оригинал плёнки, сделать скан на современном оборудовании и провести реставрацию вручную, но это хлопотливо и к сожалению не всегда является возможным. С трансляциями еще сложнее – их пришлось бы обрабатывать в прямом эфире.Учитывая все перечисленное, наиболее приемлемый вариант действий — увеличить разрешение и вычистить артефакты, пользуясь технологиями компьютерного зрения.

Super-resolution — задача увеличения картинок и видео без потери их качества. Существует множество статей на эту тематику, но реализация «боевого» применения оказалась намного сложнее и конечно же интереснее.

Вкратце об основных проблемах, которые пришлось решить технологии DeepHD:

  • Потребовалось научиться восстанавливать детали, которые не присутствовали на оригинальном видео из-за его низкого разрешения и качества, и банально “дорисовывать” их.
  • Концепция super-resolution восстанавливает детали и делают чёткими и детализованными не только объекты на видео, а также артефакты сжатия, что может вызвать  неприязнь у зрителей.
  • Существовала проблема со сбором выборки для обучения – нужно собирать большое количество пар, в которых бы одно и то же видео присутствовало и в низком разрешении и качестве, и в высоком. В действительности же для плохого контента зачастую нет качественной пары.
  • Технология также должна работать в реальном времени.

Выбор технологии

Наиболее перспективными на взгляд исследователей показались технологии на основе GAN (Generative Adversarial Networks, генеративные соперничающие сети). Это решение позволяет получать фотореалистичные кадры высокой чёткости, прибавляя недостающие детали, к примеру, прорисовывает волоски и реснички там, где изображены людские лица.

Нейронную сеть составляют две части.

Первая – генератор, который берет базовое изображение, а возвращает уже увеличенное в 2 раза. Вторая часть – дискриминатор – принимает изображение, сгенерированные и “настоящие”, и отличает их друг от друга.

И так через что же пришлось пройти работникам Яндекс для получения желаемого результата:

  1. Подготовка обучающего множеств: сбор нескольких десятков видео в UltraHD-качестве, уменьшение их до разрешения 1080p (эталонный размер), повторное уменьшение этих видео ещё вдвое, сжав их с разным битрейтом с целью получения что-то похожего видео в низком качестве. Результат разбили еще на кадры и уже кадры использовали при обучении нейронной сети.
  2. Деблокинг: подавление артефактов сжатия видео
  3. Обучение генеративной сети: основой нейронной сети для повышения разрешения было взято архитектуру SRGAN.
  4. Ускорение нейросети: с целью получения возможности обработки потокового видео.
  5. Оценка качества решений: в этом принимали участие обычные пользователи сети. В сервисе Яндекс.Толока они определяли разницу на паре изображений, одно из них исходное, а другое – обработанное нейросетью, либо оба были обработанные различными версиями наших решений. “За вознаграждение пользователи выбирали более качественное видео из пары, так мы получали статистически значимое сравнение версий даже при сложно различимых глазом изменениях” — объясняет компания. “Наши итоговые модели одерживают победу в более чем 70% случаев, что достаточно много, учитывая, что пользователи тратят на оценку пары видео всего несколько секунд.”

Интересным решением также был тот факт, что видео в разрешении 576p при увеличении технологией DeepHD до 720p, показывает себя лучше, чем такой же оригинальный ролик с разрешением 720p в 60% случаев – это говорит о том, что данная обработка не только сможет повысить разрешение видео, но и улучшить его визуальное восприятие.

Предоставленные Yandex примеры:

Весной технологию DeepHD было испытано на нескольких старых фильмах: «Радуга» Марка Донского (1943), «Летят журавли» Михаила Калатозова (1957), «Дорогой мой человек» Иосифа Хейфица (1958), «Судьба человека» Сергея Бондарчука (1959), «Иваново детство» Андрея Тарковского (1962), «Отец солдата» Резо Чхеидзе (1964) и «Танго нашего детства» Альберта Мкртчяна (1985).

Очень хорошо видно действие технологии на мелких деталях: мимика героев на крупных планах, фактура одежды или рисунки ткани. Удалось снизить недостатки оцифровки: уменьшить пересветы на лицах или показать более четко предметы в тени.

Технология DeepHD уже стала использоваться на некоторых каналах в сервисе Яндекс.Эфир. Такой контент отличается меткой dHD.

Примеры в динамике можно посмотреть в следующем ролике:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *