Современное состояние и перспективы развития систем видеокомпрессии (Часть 4)
Представление и кодирование изображений в различных системах видеокомпрессии
Применение видеокомпрессии неизбежно приводит к некоторому снижению качества изображения. Алгоритм сжатия представляет собой баланс между скоростью передачи сжатых данных и качеством выходного изображения декодера. Создание такого алгоритма всегда подразумевает поиск компромисса между объемом отбрасываемых данных (степенью сжатия) и уровнем ухудшения качества. Действительно, потеря части видеопотока не обходится без последствий. В мире идеальных технологий компрессия была бы ненужной. Однако телевидение высокой четкости требует передачи несжатого видеопотока около 1,5 Гбит/с, как отмечалось ранее. Работа с такими объемами данных, например, при записи и воспроизведении, является сложной задачей. Упрощение достигается благодаря использованию систем видеокомпрессии.
Показателем сжатия служит эффективность, измеряемая скоростью сжатого потока при заданном качестве воспроизводимого изображения. Но не менее важны параметры, связанные с технологическим процессом и во многом определяющие область применения кодека. Эти параметры включают:
• структуру дискретизации компонентов изображения и формат пикселя;
• число уровней квантования, задаваемое длиной кодового слова;
• тип кодирования (межкадровое или внутрикадровое)

Эти параметры нелинейно влияют на качество изображения и определяют возможный технологический процесс. Их значения связаны с ухудшением качества при повторном кодировании или транскодировании. Они также влияют на возможность выполнения операций в реальном времени, а также на относительную сложность кодера и декодера.
Структура дискретизации
Наивысшую четкость воспроизводимого изображения обеспечивает цифровое представление с субдискретизацией, обозначаемой как 4:4:4. В этом случае компоненты видеосигнала Y, Cr и Cb дискретизируются одинаково, что гарантирует полное цветовое разрешение, соответствующее разрешению яркостного компонента.
В формате 4:2:2 частота дискретизации цветоразностных компонентов снижается вдвое, что приводит к уменьшению цветового разрешения по горизонтали также в два раза (рис. 20). Такое снижение допустимо благодаря особенностям человеческого зрения, которое менее чувствительно к мелким цветовым деталям. Этот подход применяется в аналоговом телевидении, где полоса частот цветоразностных сигналов значительно уже полосы яркостного сигнала. В цифровом телевидении субдискретизация 4:2:2 можно рассматривать как форму сжатия с коэффициентом 3:2 = 1,5:1.
Дальнейшее снижение скорости цифрового видеопотока достигается переходом к субдискретизации 4:2:0, при которой цветовое разрешение уменьшается вдвое как по горизонтали, так и по вертикали по сравнению с 4:4:4. Субдискретизация 4:2:0, используемая в системе сжатия MPEG-2, показана на рис. 21, а вариант для системы DV — на рис. 22. Преимущество заключается в двукратном сокращении скорости видеопотока. Аналогичное уменьшение объема данных (вдвое) происходит и при субдискретизации 4:1:1 (рис. 23), где частота дискретизации цветоразностных компонентов снижается в четыре раза, что приводит к четырехкратному уменьшению цветовой четкости по горизонтали по сравнению с 4:4:4. Таким образом, субдискретизации 4:2:0 и 4:1:1 обеспечивают сжатие с коэффициентом 2:1.
Практическую значимость этих подходов иллюстрируют следующие примеры.



Формат 1080p/50 и скорости видеопотока
Как отмечалось в предыдущих статьях, формат 1080/50/p, часто называемый просто 1080p, обеспечивает очень высокое качество изображения. Однако при цифровом представлении видеосигнала с субдискретизацией 4:4:4 и 10 битами на отсчет скорость потока достигает 4,455 Гбит/с. Если использовать 8 битов на отсчет, скорость снижается до 3,564 Гбит/с. Переход к субдискретизации 4:2:2, где цветовое разрешение по горизонтали вдвое ниже, позволяет уменьшить скорость потока до 2,376 Гбит/с.
Замена прогрессивной развертки на чересстрочную дает возможность дальнейшего снижения скорости цифрового видеопотока. Для передачи телевизионного изображения в формате 1080i50 (чересстрочная развертка с 1080 активными строками, частотой полей 50 Гц и частотой кадров 25 Гц) требуется скорость потока 2,227 Гбит/с при субдискретизации 4:4:4 и 10 битах на отсчет. Переход к субдискретизации 4:2:2 снижает ее до 1,485 Гбит/с.
Цифровое представление телевизионного изображения стандартной четкости (576 активных строк, 720 активных элементов в строке, частота кадров 25 Гц, соотношение сторон 4:3) при субдискретизации 4:4:4 и 10 битах на отсчет соответствует скорости потока 405 Мбит/с. Переход к субдискретизации 4:2:2 позволяет снизить ее до 270 Мбит/с при той же разрядности и до 216 Мбит/с при 8-разрядном квантовании. Дальнейшее уменьшение скорости достигается с субдискретизацией 4:2:0, где поток составляет 162 Мбит/с. Тот же объем данных получается и при субдискретизации 4:1:1. Устранение структурной избыточности позволяет дополнительно сократить скорость потока. Например, при субдискретизации 4:2:0 и 8 битах на отсчет, передавая только активную часть растра, скорость снижается до 124,416 Мбит/с.
Формат пиксела
В цифровом телевидении стандартной четкости пиксел имеет прямоугольную форму, даже при субдискретизации 4:4:4. Это обусловлено желанием использовать единую частоту дискретизации и одинаковое число пикселей в активной части строки для двух систем разложения: 625/50 и 525/60. Соотношение сторон стандартного телевизионного изображения равно 4:3. Если требовать одинаковой четкости по горизонтали и вертикали, то при разложении на 625 строк (576 активных) каждая строка должна содержать 576 × 4/3 = 768 пикселей, а при 525 строках (480 активных) — 480 × 4/3 = 640 пикселей. Однако согласно Рекомендации ITU-R BT.601, активная часть строки включает 720 пикселей как для системы 625/50, так и для 525/60. Это значит, что пиксел не квадратный ни в одной из систем, и четкость по горизонтали и вертикали различается. В системе 625/50 пиксел вытянут по горизонтали (соотношение примерно 768:720 = 1,07), и горизонтальная четкость хуже вертикальной, даже для яркостной составляющей. В системе 525/60 пиксел сжат по горизонтали (соотношение 640:720 ≈ 0,89), и горизонтальная четкость лучше вертикальной. Аналогичное соотношение сторон пикселя сохраняется в формате 16:9, где число активных элементов в строке равно 960 для обеих систем.
Форматы цифрового телевидения высокой четкости
Стандарты цифрового телевидения высокой четкости предусматривают использование квадратных пикселей, обеспечивающих равное пространственное разрешение по горизонтали и вертикали. Однако для снижения скорости видеопотока может применяться уменьшение горизонтального разрешения путем введения прямоугольного пикселя для яркостной составляющей изображения (рис. 24). Например, в формате с 1080 активными строками пиксель может удлиниться по горизонтали, принимая соотношение сторон 4:3. При этом число пикселей в активной части строки снижается с 1920 до 1440, что уменьшает скорость видеопотока. Использование прямоугольного пикселя здесь эквивалентно сжатию с коэффициентом 4:3 = 1,33:1.
Квантование
При цифровом представлении видеосигнала его значение выражается двоичным числом, длина которого определяет количество уровней квантования. Например, 8-битовое кодирование позволяет представить сигнал одним из 256 возможных значений. Квантование подразумевает округление реального значения сигнала до ближайшего уровня. Это всегда связано с ошибкой, максимальная величина которой составляет половину шага квантования. Разница между исходными и квантованными значениями называется шумом квантования. При 8-разрядном представлении отношение сигнала к шуму равно 48 дБ, при 10-разрядном — 60 дБ. Чем больше уровней квантования, тем меньше шум и выше точность цифрового изображения. С другой стороны, увеличение длины кодового слова повышает скорость видеопотока. Поэтому уменьшение числа битов можно рассматривать как форму сжатия. Например, переход с 10-разрядного на 8-разрядное квантование (отбрасывание двух битов в каждом слове) сокращает объем данных на 20%, что соответствует сжатию с коэффициентом 10:8 = 1,25:1.
Межкадровое и внутрикадровое кодирование
Межкадровое кодирование устраняет не только пространственную, но и временную избыточность. Рассмотрим группу из 12 изображений с последовательностью: I-B-B-P-B-B-P-B-B-P-B-B. Как отмечалось ранее, сжатое изображение типа P для типичных телепередач занимает примерно треть объема изображения типа I, а B-изображения — четверть. Общий объем данных для группы после сжатия равен сумме объемов четырех I-изображений. Без устранения временной избыточности объем был бы в 12/4 = 3 раза больше. Коэффициент 3 примерно отражает снижение скорости потока благодаря межкадровому кодированию с группами из 12 изображений при сопоставимом уровне искажений. Чем крупнее группы, тем больше выигрыш от устранения временной избыточности. Однако в системах с внутрикадровым кодированием отсутствуют артефакты, связанные с движущимися объектами. С другой стороны, глаз менее замечает такие искажения при быстром движении. Эти факторы в некоторой степени компенсируют друг друга. Приведенный выигрыш ориентировочный и зависит от множества факторов, но его значимость несомненна, поэтому межкадровое кодирование с устранением временной избыточности целесообразно во всех звеньях тракта, где требуется существенное снижение скорости потока.
Особенности кодеков с межкадровым кодированием:
• Высокая эффективность (скорость видеопотока в среднем в три раза ниже, чем при внутрикадровом кодировании, при одинаковом качестве декодированного изображения).
• Сложности с монтажом (точки монтажа привязаны к группам кадров, разделенным примерно на 0,5 с при группах из 12–15 кадров).
• Скорость потока может быть постоянной, но объемы отдельных кадров различаются.
• При движении объектов или панорамировании возникают дополнительные артефакты и искажения.
• Длительное восстановление после потери данных (ошибки могут исказить всю группу кадров).
• Асимметрия кодека (декодер требует значительно меньшей вычислительной мощности, чем кодер, что важно для вещания).
Внутрикадровое кодирование устраняет только пространственную избыточность цифрового телевизионного изображения. Поэтому такие кодеки менее эффективны, чем межкадровые. Однако каждый кадр кодируется и декодируется независимо, что дает существенные преимущества.
Особенности кодеков с внутрикадровым кодированием:
• Простота монтажа: отдельные сжатые кадры можно удалять, заменять или добавлять без влияния на другие.
• Все сжатые кадры могут иметь одинаковый объем.
• Движение объектов не вызывает дополнительных артефактов, что удобно, например, для спортивных программ.
• Быстрое восстановление после потери данных (искажаются только кадры с ошибками).
• Симметрия кодека (кодер и декодер требуют примерно одинаковой вычислительной мощности).
• Меньшая эффективность по сравнению с межкадровым кодированием при одинаковом качестве.
Кодеки видеокомпрессии и технологический процесс
К настоящему времени разработано множество систем видеосжатия с различными характеристиками и параметрами. Выбор системы и кодека — сложная задача, зависящая от требований конкретного этапа технологического процесса. Основные требования для типовых процессов формулируются следующим образом.
Цифровой промежуточный процесс (Digital Intermediate)
Преобразование кадра кинопленки в видеопоток должно обеспечивать максимальное качество. В идеале сжатие не применяется вовсе, но допустима небольшая компрессия без потерь или с визуально незаметными искажениями. Это сжатие первого поколения.
Требования:
• Кодирование: внутрикадровое.
• Субдискретизация: RGB 4:4:4.
• Квантование: 12–14 бит или более на отсчет компонента (10 бит при логарифмическом представлении).
• Пространственное разрешение: 1920×1080 или выше.
• Целевая скорость потока: не менее 300 Мбит/с при записи в память.
Съемка и доставка программных материалов
Видеоданные со съемки могут сжиматься для упрощения записи, хранения и передачи. Это сжатие первого поколения.
Требования:
• Кодирование: внутрикадровое.
• Субдискретизация: YCrCb 4:2:2.
• Квантование: 8 или 10 бит на отсчет компонента.
• Пространственное разрешение: 1280×720p, 1024×1080i или 1920×1080p.
• Целевая скорость потока: 100–300 Мбит/с.
Электронный сбор новостей
Качество изображения должно соответствовать требованиям новостных программ. Поскольку процесс компоновки упрощен, многократное перекодирование не требуется. Более высокая степень сжатия достигается за счет межкадрового кодирования и сокращенного цветового пространства, что снижает стоимость оборудования. Это сжатие первого поколения.
Требования:
• Кодирование: межкадровое.
• Субдискретизация: YCrCb 4:2:0.
• Квантование: 8 бит на отсчет компонента.
• Пространственное разрешение: 1280×720p, 1440×1080i, 1920×1080i.
• Целевая скорость потока: 25–50 Мбит/с для стандартной четкости и 35–100 Мбит/с для высокой четкости.
Компоновка программ
При монтаже и компоновке необходимо сохранить качество исходных материалов, поэтому допустимо лишь небольшое сжатие для эффективного доступа и передачи. Использование одного типа сжатия во всем процессе приводит к дополнительным потерям при перекодировании. Лучше поддерживать временную шкалу в исходных форматах и ссылки на оригиналы для многослойных операций, ограничивая перекодирования двумя. Входные данные — сжатие первого поколения, выходные — третьего. Финальное кодирование соответствует формату распределения.
Требования:
• Кодирование: внутрикадровое или межкадровое.
• Субдискретизация: YCrCb 4:2:2 или 4:2:0.
• Квантование: 8 или 10 бит на отсчет компонента.
• Пространственное разрешение: 1280×720p, 1440×1080i, 1920×1080i.
• Целевая скорость потока: 25–150 Мбит/с.
Распределение и архивирование
Каналы и сети распределения имеют ограниченную пропускную способность, поэтому используются системы с межкадровым кодированием при средних скоростях потока. Должна обеспечиваться возможность ограниченных операций с данными (вставка логотипа, коммутация) без заметных искажений. Это сжатие второго или третьего поколения.
Требования:
• Кодирование: межкадровое.
• Субдискретизация: YCrCb 4:2:2 или 4:2:0.
• Квантование: 8 бит на отсчет компонента.
• Пространственное разрешение: 1280×720p, 1440×1080i, 1920×1080i.
• Целевая скорость потока: 25–50 Мбит/с.
Вещательная передача
Передача полного разрешения по узкополосным каналам требует высокоэффективного сжатия с межкадровым кодированием. Это сжатие четвертого поколения.
Требования:
• Кодирование: межкадровое.
• Субдискретизация: YCrCb 4:2:0.
• Квантование: 8 бит на отсчет компонента.
• Пространственное разрешение: 1280×720p, 1920×1080i.
• Целевая скорость потока: не выше 20 Мбит/с.
Запись фильмов и программ на диски
Запись полного разрешения требует эффективного сжатия с межкадровым кодированием из-за ограниченной емкости диска. Это сжатие четвертого поколения.
Требования:
• Кодирование: межкадровое.
• Субдискретизация: YCrCb 4:2:0.
• Квантование: 8 бит на отсчет компонента.
• Пространственное разрешение: 1280×720p, 1920×1080i.
• Целевая скорость потока: не выше 8–25 Мбит/с.
IPTV и загрузка контента через Интернет
Сохранение качества полного разрешения при передаче по сетям TCP/IP достижимо, но требует решения сложных задач. Материалы могут воспроизводиться на телевизорах с подключением к интернету (например, через YouTube). Системы сжатия должны поддерживать программную реализацию и максимальную эффективность — сжатие пятого поколения.
Требования:
• Кодирование: межкадровое.
• Субдискретизация: YCrCb 4:2:0.
• Квантование: 8 бит на отсчет компонента.
• Пространственное разрешение: 1280×720p, 1440×1080i, 1920×1080i.
• Целевая скорость потока: 1–14 Мбит/с.
Мобильное телевидение
Устройства (телефоны, карманные компьютеры) имеют экраны малого разрешения (например, QCIF, QVGA). Системы сжатия должны быть высокоэффективными, работать при низких скоростях и поддерживать масштабирование. Декодеры простые и низкоразрешающие. Это сжатие пятого поколения.
Требования:
• Кодирование: межкадровое.
• Субдискретизация: YCrCb 4:2:0.
• Квантование: 8 бит на отсчет компонента.
• Сокращенное пространственное разрешение.
• Целевая скорость потока: менее 1 Мбит/с.
Данные о поддержке различных форматов изображений и типов кодирования в кодеках систем видеокомпрессии (DV, MPEG-2, MPEG-4 ASP, AVC, H.264, AVS, VC-1, JPEG2000) приведены в табл. 1. Сопоставляя параметры систем с требованиями процессов, можно определить области применения кодеков (табл. 2). Как видно, все системы подходят для нескольких процессов. Нет универсальной системы для всего цифрового телевидения и кинематографа, но кодеки H.264/AVC имеют наиболее широкий спектр применения.

Развитие систем видеокомпрессии
За последние два десятилетия разработано и стандартизовано множество систем видеосжатия, основные из которых рассматривались в этом цикле статей. Ни одна из них не отвечает требованиям всех приложений, поэтому неудивительно, что периодически появляются сообщения о новых фирменных кодеках, обещающих значительное повышение эффективности. Однако лишь немногие достигают международного признания и стандартизации. Многие неудачи объясняются тем, что устройства, хорошо работающие в лаборатории, оказываются непригодными для студийных и полевых условий. Одной из причин является недооценка сложности аппаратной или программной реализации кодеков в реальном времени — это ключевой фактор при разработке систем сжатия для практического применения. Например, почти все реализации кодеков MPEG и DV используют 8-разрядное кодирование, поскольку большинство процессоров эффективнее работают с 8-разрядными данными.
Эффективность и требования к ресурсам
Новые кодеки обычно обеспечивают более высокую эффективность сжатия. Однако это достигается за счет ужесточения требований к производительности процессоров. Новые кодеки почти всегда требуют больших вычислительных мощностей, что повышает стоимость аппаратно-программных средств кодирования и декодирования. Например, эффективность сжатия AVC в два раза выше, чем у MPEG-2, но аппаратный кодер AVC требует примерно в 16 раз больше вычислительных ресурсов, а декодер — в 4 раза больше вентилей. Эффективность JPEG2000 на 20–40% выше, чем у JPEG, но аппаратная реализация JPEG2000 сложнее в 6–10 раз. Вероятно, достигнута точка, где дальнейшее усложнение алгоритмов и увеличение мощности не приводят к пропорциональному росту эффективности. В связи с этим интересна разработка эффективного кодека на основе трехмерного дискретного косинусного преобразования, требующего меньших ресурсов, чем MPEG-2 и MPEG-4 AVC.
Переход к программным реализациям
Времена кодеков сжатия, имеющих только аппаратную реализацию, уходят в прошлое. Любая система сжатия будущего должна быть стандартизована и реализуема программно в реальном времени. Это позволит использовать накопленные аудиовизуальные материалы в будущем. Программный кодек можно сохранить в виде файла вместе с архивными материалами. Программная реализация обеспечивается универсальными компьютерами.
Основной элемент компьютера — микропроцессор. Разработчики совершенствуют их, добавляя возможности эффективной работы с мультимедиа. Эти улучшения сильно влияют на характеристики кодеков для профессионального и вещательного рынков. Появление кодеков реального времени без специализированного оборудования способствует развитию бытовой электроники. Алгоритмы, ранее требующие дорогих аппаратных средств, теперь выполняются на универсальных компьютерах. Эта тенденция сохранится и ускорится.
Важность стандартизации
Любая система становится движущей силой цифрового телевидения только после международной стандартизации. Только открытые и стандартизованные системы видеокомпрессии найдут применение в будущем. Сегодня усилия сосредоточены на реализации и внедрении кодеков на основе стандартизованных систем.
Тестирование и совместимость
Системы видеокомпрессии очень сложны, поэтому важна проверка кодеков на соответствие стандарту. Оборудование должно проходить тестирование на совместимость — взаимодействие устройств и ПО разных производителей. Заслуживает внимания инициатива MPEG Industry Forum (MPEGIF), которая предлагает программу Logo Qualification Program. Она основана на самотестировании и проверке с использованием стандартизированных тестовых потоков. Результаты подтверждают соответствие стандарту и функционирование в рамках профилей и уровней. Изделия, прошедшие тестирование, получают знак совместимости. Такие программы сыграют ключевую роль в развитии систем видеокомпрессии.

