Современное состояние и перспективы развития систем видеокомпрессии (Часть 3)

Основные стандарты видеокомпрессии MPEG-1



Реальной движущей силой цифрового телевидения видеокомпрессия стала только после ее международной стандартизации. Первым результатом работы по международной стандартизации систем видеокомпрессии для ТВ был стандарт ISO/IEC 11172 "Information Technology - Coding of Moving Pictures and Associated Audio for Digital Storage media at up to about 1,5 Mbit/s" ("Кодирование изображения и звука при скоростях цифрового потока компрессированных данных до 1,5Мбит/с"). Этот стандарт, опубликованный в 1993 году получил название MPEG-1.
Кодер MPEG-1 устраняет пространственную, временную и психофизическую избыточность изображений. Ключевые компоненты системы сокращения пространственной избыточности: дискретное косинусное преобразование, квантование, энтропийное кодирование с переменной длиной слова. Сокращение временной избыточности выполняется с использованием дифференциальной импульсно-кодовой модуляции, дополненной оценкой вектора движения и компенсацией движения при предсказании. Кодеки MPEG-1 предназначены для компрессии потока видеоданных в системах мультимедиа. В типичном варианте они используют построчно разлагаемые изображения формата CIF и осуществляют компрессию видеоданных до 1,2 Мбит/с при сохранении качества на уровне домашнего видео (VHS). Роль этого стандарта была велика, он сделал возможным интерактивное видео на компакт- дисках.


MPEG-2



Стандарт ISO/IEC 13818 - "Information Technology — Generic coding of Moving Pictures and Associated Audio Information" ("Обобщенное кодирование изображения и звука") приобрел мировую известность под названием MPEG-2 [2]. В нем используются те же способы сокращения избыточности, что и в стандарте MPEG-1. Наиболее значительное усовершенствование стандарта MPEG-2 — это обеспечение работы с чересстрочными изображениями, расширение возможностей оценки вектора движения и режимов предсказания. Кодирование MPEG-2 (Video) является обобщенным, или типовым, в том смысле, что предусматривается работа в широком диапазоне скоростей потоков кодированных данных. Сфера применения MPEG-2 охватывает производство телевизионных программ и их распределение с использованием наземных и спутниковых линий передачи, а также системы мультимедиа.
Обобщение требований типичных и наиболее важных приложений и определило синтаксис и семантику потока видеоданных. Для наиболее эффективного применения на практике и обеспечения высокой степени эксплуатационной совместимости устройств, работающих в соответствии со стандартом MPEG-2, но разработанных и изготовленных различными производителями, в рамках синтаксиса MPEG-2 выделено несколько подмножеств, называемых профилями. Но и в пределах синтаксических границ каждого профиля может быть огромное количество комбинаций параметров цифрового потока. Поэтому в каждом профиле выделено несколько уровней, определяемых совокупностью ограничений, наложенных на параметры цифрового потока в границах синтаксиса профиля. Другими словами, про - филь — это подмножество стандарта для специализированного применения, задающее алгоритмы и средства компрессии. Уровни внутри каждого профиля связаны главным образом с параметрами компрессируемого изображения.
Основные профили MPEG-2:
•    Simple — простой профиль. Он использует только I- и Р-изображения, в нем возможно только однонаправленное предсказание;
•    Main — основной профиль. Он поддерживает изображения I, Р и В;
•    High — высокий профиль. Коэффициент компрессии минимален, качество изображения наивысшее;
•    422 — студийный профиль. Он обеспечивает полное разрешение, соответствующее рекомендации ITU-R 601.
Кодек MPEG-2 поддерживает также два масштабируемых профиля, предполагающих разделение цифрового потока на слои при кодировании. Базовый слой может декодироваться сам по себе, независимо от высших слоев. Декодирование базового слоя обеспечивает приемлемое качество изображения. Декодирование всех слоев позволяет уменьшить шумы квантования и улучшить пространственное разрешение. Масштабируемые профили удобны при передаче видеоданных в пакетной форме по сетям передачи данных.
Уровни MPEG-2:
•    Low — низкий уровень;
•    Main — основной уровень. Поддерживает изображения разрешением 7207576;
•    High-1440 — высокий уровень 1440. Поддерживает телевизионные изображения высокой четкости разрешением до 1440х1152;
•    High — высокий уровень. Поддерживает телевизионные изображения высокой четкости широкого формата разрешением до 1920х1152.
Изображения могут быть чересстрочными и построчными. Число элементов в кадре может меняться от 176х144 (144 активных строк по 176 элементов в каждой строке) для низкого уровня основного про - филя (MP@LL) до 1920х1152 для высокого уровня высокого профиля (HP@HL). Максимальная скорость потока компрессированных данных может находиться в диапазоне от 4 Мбит/с (MP@LL) до 100 Мбит/с (HP@HL). Часть из возможных сочетаний профилей и уровней достаточно разработана и принята в качестве стандарта.


MPEG-4



Стандарт ISO/IEC 14496 - "Information Technology — Generic Coding of Audio-visual Objects" ("Информационные технологии — обобщенное кодирование аудиовизуальных объектов") известен под наименованием MPEG-4 [3]. Основное отличие MPEG-4 от всех других стандартов — объектно-ориентированное представление аудиовизуальных сцен, которые образуются с использованием отдельных объектов, рас - положенных определенным образом в пространстве и времени. Кодированное представление видеообъектов определяет часть 2 стандарта (Part 2: Visual). В рамках части 2 стандарта разработан 21 профиль. Наиболее широко распространенными являются Advanced Simple Profile (усовершенствованный простой профиль) и Simple Profile (простой профиль), который представляет собой подмножество усовершенствованного простого профиля. Документ MPEG-4 Part 2 изначально создавался для мультимедийных приложений, рассчитанных на малые скорости цифрового потока компрессированных видеоданных, но впоследствии был распространен на область телевизионного вещания. Стандарт MPEG-4 в целом ознаменовал собой начало нового подхода, основанного на кодировании аудиовизуальных объектов. Раздельное кодирование объектов позволяет добиться более эффективной компрессии, но применительно к естественным ТВ-изображениям стандартной четкости выигрыш в сравнении с MPEG-2 оказался не слишком большим (под сравнительной эффективностью пони мается различие в скоростях потоков компрессированных видеоданных двух систем при одинаковых уровнях качества изображения).
Усовершенствованная система видеокомпрессии была стандартизована в виде стандарта ISO/IEC 14496 Part 10 (часть 10 стандарта MPEG-4) под названием Advanced Video Coding (AVC), а также в виде Рекомендации Н.264 (ITU-T Recommendation Н.264), что дает основание называть эту систему видеокомпрессии AVC/H.264. В системе AVC сохранилась общая схема, основанная на базе ДКП и ДИКМ, но каждый этап был значительно усовершенствован. На этапе ДНКМ улучшена точность предсказания. В AVC предсказание формируется на основе анализа пяти кадров изображения (в MPEG-2 — только двух кадров). Более широко используется пространственное предсказание. За счет этих факторов достигнут выигрыш в эффективности кодирования в 5 .10%. Увеличена точность оценки вектора движения до 1/4 пиксела (в MPEG-2 вектор движения оценивается с точностью до 1 /2 пиксела). Это позволяет увеличить эффективность еще примерно на 20%. Преобразование в частотную область выполняется над блоками разных размеров. Минимальный размер блока меньше, чем в MPEG-2. Это дает возможность делить изображение на блоки, размеры которых адаптируются к содержанию изображения. Вместо ДКП используется близкое по свойствам целочисленное преобразование, благодаря чему удалось избежать ошибок округления при вычислениях коэффициентов преобразования в кодере и отсчетов изображения при декодировании в приемнике. Используются усовершенствованные матрицы квантования, в большей степени отвечающие особенностям зрительного восприятия шумов квантования. Результатом стало увеличение эффективности кодирования еще на 15.. 20%. Используются более сложные, но и более эффективные алгоритмы энтропийного кодирования, что дает прибавку к эффективности кодирования на 10... 15%. Для снижения визуальной заметности
наиболее неприятного из артефактов видеокомпрессии — блочности изображения используется адаптивный фильтр, сглаживающий блочную структуру, но не влияющий на передачу мелких деталей изображения внутри блоков. Это позволяет увеличить эффективность кодирования еще на 5... 10%.
Нет какого-то одного элемента схем AVC, который бы сам по себе обеспечил высокую эффективность кодирования, было много сравнительно небольших улучшений, которые привели к значительному выигрышу (примерно в два раза) в сравнении с MPEG-2.
Множество средств и инструментов AVC разбито на подмножества — профили:
•    Baseline Profile (базовый профиль) — для приложений, требующих малой сквозной задержки, например для видеоконференций;
•    Extended Profile (расширенный профиль) — для мобильных приложений;
•    Main Profile (основной про - филь) — для вещательных приложений стандартной четкости;
•    High Profile (высокий профиль) — изначально был рассчитан на применение в системах HD- DVD в соответствии со спецификацией DVD-форума, BD- ROM в соответствии со спецификацией Blu-Ray Disc Association, а также в системах вещания DVB. Для расширения сферы применения стандарта и обеспечения возможности применения в области студийного монтажа, компоновки программ, было разработано семейство из четырех высоких профилей:
•    High Profile (высокий профиль) — поддерживает кодирование видеоданных при структуре дискретизации 4:2:0 и глубине квантования 8 бит/отсчет;
•    High 10 Profile (Hi10Р) - поддерживает кодирование видео-данных при структуре дискретизации 4:2:0 и глубине квантования 10 бит/отсчет;
•    High 4:2:2 Profile (Н422Р) - поддерживает кодирование видеоданных при структуре дискретизации 4:2:2 и глубине квантования 10 бит/отсчет;
• High 4:4:4 Profile (H444P) - поддерживает кодирование видеоданных при структуре дискретизации 4:4:4 и глубине квантовании 12 бит/отсчет, а также кодирование в пространстве RGB.
Параметры системы устанавливаются в соответствии с шестнадцатью уровнями: 1; 1Ь; 1,1; 1,2; 1,3; 2; 2,1; 2,2; 3; 3,1; 3,2; 4; 4,1; 4,2; 5; 5,1. Уровни определяют верхние границы ряда параметров системы, например размеры изображения, максимальную частоту кадров, размеры буферов данных, скорость потока компрессированных данных и т.д. AVC поддерживает широчайший ряд форматов ТВ-изображения, среди которых: SQCIF (128х96), QCIF (176х144), GIF (352х288), VGA (640х480), 525SD (720х480), 625SD (720х576),    720HD    (1280х720), 1080HD    (1920х1088), 4Кх2К
(4096х2048), 4096х2304 (4096х2304). Количество отсчетов сигнала яркости в кадре находится в диапазоне от 122888 (SQCIF) до 9437184 (4096х2 304). Максимальная частота дискретизации может находиться в диапазоне от 380160 Гц (для профиля Baseline и уровня 1) до 251658240 Гц (для профиля Н444Р и уровня 5.1). Максимальная скорость цифрового потока кодированных видеоданных лежит в пределах от 64 кбит/с (для профиля Baseline и уровня 1) до 960 Мбит/с (для профиля Н444Р и уровня 5.1). Максимальная частота кадров может принимать значения 7,6; 12,5; 15; 25; 30; 60; 172 Гц.


VC-1


VC-1 — сокращенное наименование кодека видеокомпрессии системы Microsoft Windows Media Video 9 (WMV9), которая была представлена к стандартизации и стандартизована как "SMPTE Standard for Television: VC- 1 Compressed Video Bitstream Format and Decoding Process" ("Стандарт SMPTE для телевидения: Формат потокового кодирования видео VC-1 и процесс декодирования") [4]. В системе VC-1 используется общая схема, основанная на базе ДКП и ДИКМ. Предшественником VC-1 можно считать MPEG-2.
Форматы видео, поддерживаемые VC-1, включают построчное и чересстрочное изображения. Видеоданные представлены в компонентной форме (яркостный и два цветоразностных сигнала) при структуре дискретизации 4:2:0 и глубине квантования 8 бит/отсчет. Транспорт в системе VC-1 не регламентируется. Компрессированные данные могут переноситься с использованием программного и транспортного потоков MPEG-2 и с помощью протокола Интернета реального времени RTP.
В множестве средств кодирования VC-1 выделены отдельные подмножества — профили. Как и в других стандартах, профиль — это подмножество стандарта, определяющее набор используемых средств кодирования, алгоритмов и синтаксических элементов. VC-1 имеет 3 профиля:
•    Simple Profile (простой про - филь) — ориентирован на передачу потоков компрессированных видеоданных со сравнительно невысокой скоростью в интернет-приложениях невысокого уровня сложности, таких, как мобильные коммуникации, вое - произведение потокового или записанного видео с использованием карманных компьютеров. Этот профиль имеет два уровня: Low (низкий) и Medium (средний);
•    Main Profile (основной профиль) — разработан для применения в высокоскоростных интернет-приложениях, например для IP-телевидения, услуги "видео по запросу" и т.д. В профиле определены три уровня: Low (низкий), Medium (средний) и High (высокий);
•    Advanced Profile (усовершенствованный профиль) — это расширение основного профиля, предусматривающее работу с широким диапазоном устройств воспроизведения. Единственный профиль VC-1, поддерживающий чересстрочные изображения. Он содержит синтаксические элементы, позволяющие передавать потоки компрессированных данных с использованием транспортного и программного потоков MPEG-2. Имеет пять уровней: L0/1/2/3/4.
Параметры устанавливаются в очень широком диапазоне. В длинном ряду можно отметить несколько значений: 176х44 с кадровой частотой 15 Гц (QCIF) на SP@LL при 96 кбит/с; 720х480 с кадровой частотой 30 Гц (NTSC-SD) и 720х576 с кадровой частотой 25 Гц (PAL-SD) на AP@L1 при 10 Мбит/с; 1920х1080 с кадровой частотой 60 Гц (1080р) и 2048х1536 с кадровой частотой 24 Гц на AP@L4 при 135 Мбит/с.


AVS


Кодек AVS (Audio Video Coding) — это национальный стандарт, разработанный в Китае. Его предшественником можно считать MPEG-2, сейчас он конкурирует с AVC и VC-1. Система компрессии AVS достигает показателей AVC, но при меньших требованиях к вычислительной мощности устройств обработки данных в кодеках.
Часть 2 стандарта регламентирует кодирование видео в рамках двух профилей:
•    Jizhun Profile — описывает средства доставки материалов и программ наземного, спутникового и кабельного телевизионного вещания;
•    Zengqiang Profile — описывает запись аудиовизуальных материалов на диски DVD, HD-DVD, Blu- ray disc.
Часть 7 регламентирует кодирование видео для мобильного вещания с пониженной четкостью в рамках профиля Jiben Profile.


DV


Видеокомпрессия, или сжатие потока видеоданных, — важнейший и самый сложный компонент системы об- работки сигналов, определяемый стандартом видеозаписи DV (IEC 61834 — "Helical-scan digital video cassette recording system using 6,5 mm magnetic tape for consumer use" — "Системы цифровой наклоннострочной записи на видеокассеты с магнитной лентой шириной 6,5 мм для бытового применения") [5]. Она устраняет пространственную избыточность, свойственную кадру типичного телевизионного изображения, доводя скорость компрессированного потока видеоданных до 25 Мбит/с. Основные элементы видеокомпрессии DV: дискретное косинусное преобразование ДКП, квантование коэффициентов ДКП, энтропийное кодирование последовательности квантованных коэффициентов ДКП. Видеокомпрессия DV выполняется путем внутрикадрового кодирования, однако она представляет собой адаптивную систему, приспосабливающуюся к движению изображаемых объектов. Поэтому в составе схемы компрессии есть устройство, осуществляющее оценку движения, на основе которой принимается решение о режиме дискретного косинусного преобразования и уточняются особенности квантования коэффициентов DCT.
Объектом основных операций видеокомпрессии является малая часть кадра телевизионного изображения, называемая видеосегментом. Объем пространства данных, занимаемый компрессированным видеосегментом, определен стандартом и не может быть превышен. Особенностью схемы компрессии DV является отсутствие обратной связи в виде информации о степени заполнения пространства, отведенного для компрессированного видеосегмента. Управление квантованием коэффициентов DCT выполняется на основе оценки энтропии входных данных.
Из заголовка стандарта IEC 61834 следует, что формат DV регламентирует систему видеозаписи бытового назначения. Однако потенциальные возможности формата оказались настолько значительными, что аппаратура формата DV нашла применение не только в бы - ту, но и в сферах прикладного и вещательного телевидения. Алгоритм обработки и компрессии записываемых данных, определяемый форматом DV, весьма эффективен. Он послужил основой для создания целого ряда новых форматов видеозаписи, ориентированных на прикладные и вещательные приложения.


JPEG2000


Усовершенствованная версия системы компрессии JPEG, известная под названием стандарта ISO/IEC 15444 - "Information technology — JPEG2OOO image coding system" ("Информационные технологии — система кодирования изображения JPEG2OOO"), не предусматривает дискретного косинусного преобразования. Вместо ДКП в качестве средства декорреляции массива отсчетов изображения используется Wavelet-преобразование, описанное в предыдущих частях. JPEG2OOO поддерживает как компрессию без потерь, так и компрессию с потерями. Используется квантование с глубиной 8, 10 и 12 бит/отсчет. Одна из основных сфер применения — цифровой промежуточный процесс для цифрового кино, телевизионные приложения высшего уровня качества. Применение декомпозиции изображения по субполосам позволяет простым способом реализовать масштабируемость. Используется только внутрикадровое кодирование, что не позволяет значительно увеличить эффективность компрессии. Она лишь на 20...40% выше, чем в системе JPEG.

  • Современное состояние и перспективы развития систем видеокомпрессии (Часть 3)