Стоик Љнижный сканер CZUR ET16 SI-1359RUS3
Разделы продукции
    Камеры для презентаций и сканирования     Устройства хранения данных
  • Документ-камеры для презентаций/обучения
  • Документ-камеры для сканирования
  • Книжные сканеры
  • Бюджетные устройства хранения
  • Профессиональные системы хранения
  • Специальные предложения, аксессуары


  • MPEG2 и нелинейный монтаж - просто о сложном
    Версия для печати
    Версия для печати


    Автор: "Андрей Ряхин, ""Стоик-М"""
    "Журнал ""Цифровое Видео"" #1/2000"

    Среди профессионалов из мира видео все чаще можно слышать разговоры об MPEG2 кодировании. Интерес к нему сегодня растет, чуть ли не быстрее реального расширения областей его практического применения. Действительно, интересуемся ли мы эффективным алгоритмом компрессии в задачах нелинейного монтажа и видеопроизводства, задумываемся ли о создании собственных DVD фильмов или цифровых видеоархивов, анализируем ли принципы записи Betacam SX или стандартов хранения данных на видеосерверах, наконец, обсуждаем ли особенности цифровой передачи программ в кабельном и спутниковом телевидении, везде мы сталкиваемся с упоминанием об MPEG2. Из вышеприведенного перечисления ясно, что этот алгоритм многолик и многогранен, так что специалисты разных областей, говоря об MPEG, порой думают о разном. Но, на самом деле, не столь он сложен, чтобы не понять его основные принципы. Так давайте разберемся.

    Основные понятия

    Вынужден начать с набившего оскомину повторения, что MPEG это аббревиатура от Moving Pictures Experts Group. Так называется комитет по стандартизации методов цифровой компрессии потоков видеоданных международной организации ISO/IEC (International Standards Organization/International Electrotechnical Commission). Первоначальная задача этого комитета была в разработке формата хранения и проигрывания аудио-видео данных с компакт дисков CD-ROM. Так появился первый стандарт MPEG-1, ориентированный на низкоскоростные каналы передачи информации около 1Mbps (здесь и далее Kbps – Kilobit per second, Mbps – Megabit per second, MBps – MegaByte per second) и ограниченный разрешением кадра в 352x288 (для PAL сигнала). Затем по мере расширения задач передачи видео, повышения пропускной способности каналов и роста требований к визуальному качеству получаемых изображений появились MPEG-2, MPEG-4 и даже MPEG-7, оптимизированные под особые заданные условия. Так, например, MPEG-4 в основном предназначен для цифровой передачи видеоданных по телефонным линиям (Интернет, видеоконференции) в условиях жестко ограниченной пропускной способности (типично – 28.8 Kbps), а потому уменьшает разрешение еще в 4 раза – до 176x144, но использует самую продвинутую схему кодирования с разделением изображения на такие независимые объекты, как фон, текст, 2D/3D графика, “разговаривающие” человеческие лица, двигающиеся тела и т.д. Но в силу очевидной сложности этот стандарт пока не получил практической реализации.

    Что касается MPEG-2, то изначально он был нацелен на решение задачи передачи телевизионных изображений. Каждый из нас по собственному опыту знает, что качество наблюдаемой на телевизоре картинки бывает очень разным. Одно дело смотреть фильм, воспроизводимый на домашнем видеомагнитофоне или передаваемый по местному кабельному телевидению, и совсем другое – наслаждаться видео с DVD или спутникового канала. Соответственно MPEG-2, как определено в документе ISO/IEC 13818-2, объединяет семейство взаимосогласованных и совместимых сверху вниз цифровых стандартов сжатия телевизионных сигналов. Точнее, он допускает 4 уровня (Levels) разрешения кадра и 5 базовых профилей (Profiles) кодирования сигналов яркости и цветности.

    Уровни: низкий LL (Low Level) с разрешением кадра 352х288 (соответствует MPEG1), основной ML (Main Level) 720х576, высокий HL-1440 (High Level) 1440х1152 и высокий HL-1920 1920х1152. Отметим, что если в соответствии с рекомендацией ITU-R BT.601 (International Telecommunications Union – Recommendation) основной уровень определяет разрешение стандартного телевизионного кадра, то высокие уровни ориентированы на телевидение высокой четкости.

    Профили: простой SP (Simple Profile), основной MP (Main Profile), 2 масштабируемых – по отношению сигнал-шум SNR Scalable Profile и по разрешению Spatially Scalable Profile и, наконец, высокий HP (High Profile). Важное место также занимает не определенный стандартом, но активно используемый в практике так называемый основной профессиональный или, по-другому, MPEG 422 профиль. Его обозначают как 422Р. Если с уровнями все понятно, то объяснение различий профилей требует некоторой подготовки.

    Немного теории

    Эффективное сжатие видео информации зиждется на двух основных идеях: подавление несущественных для визуального восприятия мелких деталей пространственного распределения отдельных кадров и устранение временной избыточности в последовательности этих кадров. Соответственно говорят о пространственной и временной компрессии.

    В первой из них используется экспериментально установленная малая чувствительность человеческого восприятия к искажениям мелких деталей изображения. Глаз быстрее замечает неоднородность равномерного фона, чем искривление тонкой границы или изменение яркости и цвета малого участка. Из математики известно два эквивалентных представления изображения: привычное нам пространственное распределение яркости и цвета и так называемое частотное распределение, связанное с пространственным Дискретным Косинусным Преобразованием (ДКП). В теории они равнозначны и обратимы, но сохраняют информацию о структуре изображения совершенно по-разному: передачу плавных изменений фона обеспечивают низкочастотные (центральные) значения частотного распределения, а за мелкие детали пространственного распределения отвечают высокочастотные коэффициенты. Это позволяет использовать следующий алгоритм сжатия. Кадр разбивается на блоки размером 16х16 (размеру 720х576 соответствует 45х36 блоков), каждый из которых ДКП переводится в частотную область. Затем соответствующие частотные коэффициенты подвергаются квантованию (округлению значений с задаваемым интервалом). Если само по себе ДКП не приводит к потере данных, но квантование коэффициентов, очевидно, вызывает огрубление изображения. Операция квантования выполняется с переменным интервалом – наиболее точно передается низкочастотная информация, в то время как многие высокочастотные коэффициенты принимают нулевые значения. Это обеспечивает значительное сжатие потока данных, но приводит к снижению эффективного разрешения и возможному появлению незначительных ложных деталей (в частности, на границе блоков). Очевидно, что чем более грубое квантование используется, тем больше степень сжатия, но и тем ниже качество результирующего сигнала.

    Для внимательных читателей повторимся, что этот алгоритм пришел из цифровой фотографии, где под именем JPEG был разработан для эффективного сжатия отдельных кадров (JPEG – это аббревиатура от названия утвердившего его международного объединения Joint Photographic Experts Group). Затем он был успешно применен для видеопоследовательностей кадров (при этом каждый из них обрабатывается совершенно независимо) и получил новое наименование MJPEG (Motion-JPEG). Необходимо также отметить, что DV-кодировка цифровых стандартов DV/DVCAM/DVCPRO принципиально основана на том же алгоритме, но использует более гибкую схему с адаптивным подбором таблиц квантования. Коэффициент компрессии для различных блоков, в отличие от MJPEG, меняется по изображению: для малоинформативных блоков (например, на краях изображения) он увеличивается, а для блоков с большим количеством мелких деталей уменьшается относительно среднего по изображению уровня. В результате при том же качестве достигается сокращение объема данных примерно на 15% (или наоборот – при том же потоке выше качество выходного сигнала).

    Временная MPEG-компрессия использует высокую избыточность информации в изображениях, разделенных малым интервалом. Действительно, между смежными изображениями обычно меняется только малая часть сцены – например, происходит плавное смещение небольшого объекта на фоне фиксированного заднего плана. В этом случае полную информацию о сцене нужно сохранять только выборочно - для опорных изображений. Для остальных достаточно передавать только разностную информацию: о положении объекта, направлении и величине его смещения, о новых элементах фона (открывающихся за объектом по мере его движения). Причем эти разности можно формировать не только по сравнению с предыдущими изображениями, но и с последующими (поскольку именно в них по мере движения объекта открывается часть фона, ранее скрытая за объектом). Отметим, что математически наиболее сложным элементом является поиск смещающихся, но мало изменяющихся по структуре блоков (16х16) и определение соответствующих векторов их смещения. Однако это элемент наиболее существенен, так как позволяет существенно уменьшить объем требуемой информации. Именно эффективностью выполнения этого "интеллектуального" элемента в реальном времени и отличаются различные MPEG-кодеры.

    Таким образом, в MPEG кодировке принципиально формируются три типа кадров: I (Intra), выполняющие роль опорных и сохраняющие полный объем информации о структуре изображения; P (Predictive), несущие информацию об изменениях в структуре изображения по сравнению с предыдущим кадром (типов I или P); B (Bi-directional), сохраняющие только самую существенную часть информацию об отличиях от предыдущего и последующего изображений (только I или P). Принципиальная схема последующей компрессии I-кадров, также как и разностных P- и B-кадров, аналогична MJPEG, но, как и у DV, с адаптивной подстройкой таблиц квантования. В частности, это позволяет охарактеризовать DV-сигнал как частный случай MPEG последовательности из I-кадров с заданным фиксированным потоком (коэффициентом компрессии). Последовательности I-, P-, B-кадров объединяются в фиксированные по длине и структуре группы кадров - GOP (Group of Pictures). Каждая GOP обязательно начинается с I и с определенной периодичностью содержит P кадры. Ее структуру описывают как M/N, где M – общее число кадров в группе, а N – интервал между P-кадрами. Так, типичная для Video-CD и DVD IPB группа 15/3 имеет следующий вид: IBBPBBPBBPBBPBB. Здесь каждый B кадр восстанавливается по окружающим его P кадрам (в начале и конце группы - по I и Р), а в свою очередь каждый Р кадр – по предыдущему Р (или I) кадру. В то же время I кадры самодостаточны и могут быть восстановлены независимо от других, но являются опорными для всех P и тем более B кадров группы. Соответственно у I и P наименьшая степень компрессии, у В – наибольшая. Установлено, что по размеру типичный Р кадр составляет 1/3 от I, а B – 1/8 часть.

    В результате MPEG последовательность IPPP (GOP 4/1) обеспечивает 2-кратное уменьшение требуемого потока данных (при том же качестве) по сравнению с последовательностью только из I кадров, а использование GOP 15/3 позволяет достичь 4-кратного сжатия.

    Профили MPEG-2

    Теперь мы вправе вернуться к описанию различные профили. В простом профиле SP осуществляется только компенсация движения и предсказание по одному направлению (P кадры). В основном профиле MP предсказание выполняется по двум направлениям, т.е. допускаются B-кадры. В масштабируемых профилях осуществляется разделение исходного цифрового потока видеоданных на несколько частей по различным критериям. В масштабируемом по отношению сигнал-шум SNR Scalable Profile поток разделяют на 2 части. Первая из них – основной сигнал, несет информацию с пониженным отношением сигнал-шум (более грубая дискретизация). Но эта часть защищается более устойчивым к помехам передачи алгоритмом (и соответственно, требующим больше бит), принимается в сильных шумах и позволяет даже при неблагоприятных условиях восстановить ТВ-изображение (хотя и с пониженным отношением сигнал-шум). Менее защищенная вторая часть – так называемый дополнительный сигнал – при неустойчивом приеме просто отбрасывается. При устойчивом приеме он позволяет дополнить основной сигнал и повысить отношение сигнал-шум до исходного значения.

    Пятый профиль HP, высший, включает в себя все функции предыдущих, но использует YUV- представление не 4:2:0, а 4:2:2, т.е. передает цветоразностные сигналы в два раза чаще (в каждой строке, в каждом элементе строки). Здесь опять требуется отступление. Известно, что телевизионный сигнал представляет собой совокупность сигнала яркости Y и двух цветоразностных сигналов U и V. Вариации их значений допускают 256 градаций (от 0 до 255 для Y, и от –128 до 127 для U/V), что в двоичном исчислении соответствует 8 битам или 1 байту. Теоретически каждый элемент кадра имеет собственные значения YUV, т.е. требует 3 байт. Такое представление, когда как яркость, так и сигналы цветности имеют равное число независимых значений, обычно обозначают как 4:4:4. Но зрительная система человека менее чувствительна к цветовым пространственным изменениям, чем к яркостным. И без видимой потери качества число цветовых отсчетов в каждой строке можно уменьшить вдвое. Именно такое представление, обозначаемое как 4:2:2, было принято в вещательном телевидении. При этом для передачи полного значения телевизионного сигнала в каждом отсчете кадра достаточно 2 байт (чередуя через отсчет независимые значения U и V). Более того, для целей потребительского видео признано допустимым уменьшение вдвое и вертикального цветового разрешение, т.е. перейти к представлению 4:2:0. Это уменьшает приведенное число байт на отсчет до 1,5. Отметим, что именно такое представление было заложено в DV-формат цифровых камер, а также формат DVD-видео. Однако, в профессиональных задачах цифрового редактирования и монтажа видео, когда возможно многократное и многослойное использование фрагментов отснятого материала и включение в него компьютерной графики, во избежание результирующего накапливания ошибок изначально требуется более высокое качество цифрового видео. Поэтому здесь считается обязательным представление 4:2:2. Именно этим отличается профиль 422P от основного. Нижеследующая таблица суммирует различия всех описанных профилей.

    Профиль Простой (SP) Основной (MP) 422P Масштабируемый (SNR) Пространственно масштабируемый Высокий (HP)
    Функции
    I-кадры + + + + + +
    P-кадры + + + + + +
    B-кадры - + + + + +
    Разделение по SNR - - - + + +
    Разделение по разрешению - - - - + +
    YUV-представление 4:2:0 4:2:0 4:2:2 4:2:0 4:2:0 4:2:2

    Компрессия звука

    До сих пор речь шла только о компрессии изображений. Но полноценное видео подразумевает и звуковую составляющую. Считается, что звук CD качества требует оцифровки с частотой 44,1 Кгц при глубине 16 bit на канал, что соответствует потоку в 706 Kbps на канал (1,4 Mbps для стерео). DAT качество сигнала определяет частоту оцифровки в 48 Кгц (полоса частот 4-24000 Гц) и увеличивает поток до 768 Kbps на канал. Подход к сжатию информации тот же – отбрасывание части, не очень существенной для восприятия человеческим ухом. MPEG стандарт разрешает 3 уровня (Layer) компрессии аудио. Layer 1 использует наиболее простой алгоритм с минимальной компрессией, что предполагает 192 Kbps на канал. Алгоритм Layer 2 более сложный, зато и степень компрессии больше, всего 128 Kbps на канал. Мощный алгоритм сжатия цифрового звука CD-качества (в 11 раз без различаемых человеческим ухом потерь) Layer 3 обеспечивает максимально возможное качество звука при жестких ограничениях потока – не более 64 Kbps на канал. В основном он предназначен для Интернет. Его значение столь велико, что он получил особое сокращенное наименование MP3, что означает MPEG Layer 3. Появилось множество Интернет-сайтов, содержащих сотни тысяч MP3-файлов с популярной музыкой. С помощью специальных программ проигрывания (Real Audio) MP3-музыку можно в реальном времени слушать через Интернет, ее можно неограниченно копировать (предостережем, что типичная песня занимает от 2 до 8 MB) и нелегально распространять. Уже появились портативные MP3-плейеры ценой около 200 долларов (например, Diamond Rio). Музыкальная индустрия, неся ощутимые потери, начала активную борьбу с MP3 сайтами (Recording Industry Association of America нашла и добилась закрытия большей их части). Но джин выпущен, всех не закроешь. Фирма Adaptec предсказывает миллиарды загруженных через Интернет песен в ближайшие годы и заявляет о поддержке MP3 в следующей версии программы EasyCD Creator. Однако, в задачах цифрового редактирования сжатие аудио сигналов не используется, поэтому в расчетах допустимых потоков на звуковую составляющую необходимо отводить до 1,5 Mbps.

    MPEG-2 в задачах нелинейного монтажа

    Термин нелинейный монтаж не соответствует сути процесса, а лишь отражает одну из его характеристик. На самом деле речь идет о монтаже видеофильмов, осуществляемом в цифровом виде на компьютерах. При этом исходные видеофрагменты подвергаются обязательной оцифровке и записи на винчестер в виде соответствующих файлов. В отличие от накопителей на магнитных лентах, доступ к любому из этих файлов-фрагментов не требует утомительной перемотки (а этот процесс линейный), т.е. все кадры видео доступны в произвольном порядке. Это важное свойство и обусловило название цифрового монтажа как нелинейного, хотя, очевидно, возможности цифровой обработки намного шире и богаче.

    Напомним, что согласно рекомендации ITU-R BT.601 телевизионный кадр представляет собой матрицу 720х576. Принимая во внимание телевизионную кадровую частоту в 25 Гц, приходим к выводу, что одна секунда цифрового видео в представлении 4:2:2 требует 25x2x720x576=20736000 байт, т.е. поток данных составляет 21 MBps. Запись подобных потоков технически осуществима, но сложна, дорогостояща и неэффективна с точки зрения последующей обработки. Реальные возможности практики требуют значительного уменьшения потоков. Известно множество алгоритмов, осуществляющих компрессию без потери информации, но даже самые эффективные из них на типичных изображениях не обеспечивают сжатия более 2 раз.

    До недавнего времени в мире систем нелинейного видеомонтажа безраздельно царил M-JPEG. Различные решения отличались степенью компрессии, что соответствовало различным уровням качества результирующего видео. Весьма условно, здесь можно выделить 4 уровня: Стандартное Видео (VHS, C-VHS, Video8), Супер-Видео (SVHS, C-SVHS, Hi8), Цифровое Видео (Betacam SP, DV/DVCAM/DVCPRO, mini-DV, Digital8) и Студийное Видео (Digital-S, DVCPRO50). Для простоты в дальнейшем будем обозначать их как Video, S-Video, DV и Studio-TV. Количественно они обычно характеризуются горизонтальным разрешением (числом различаемых в строке элементов – телевизионных линий). Считается, что Video обеспечивает разрешение до 280 линий и соответствует MJPEG поток около 2 MBps, S-Video – 400 линий и 4 MBps, DV – 500 линий и 3,1 MBps, а Studio-TV обеспечивает разрешение не менее 600 линий при потоках в 7 MBps. Коэффициенты компрессии составляют соответственно 10:1, 5:1, 5:1 и 3:1 (напомним, что DV алгоритм эффективнее MJPEG). Но даже подобное сжатие требует для хранения и обработки видеофайлов значительных объемов дискового пространства. Например, 1 минута MJPEG-видео требует 120 MB для качества Video и около 500 MB для Studio-TV. Но ведь хочется работать с роликами продолжительностью в десятки минут!

    И вот здесь на арену выступает MPEG2. Уже просто переход к I-кадрам позволяет сэкономить 15% объема, а если использовать P-кадры, то можно выиграть еще вдвое (для групп IPPP), а это уже существенно. Правда, существует мнение, что в последнем случае теряется одно из основных преимуществ нелинейного монтажа, а именно его по-кадровая точность. На самом деле, это заблуждение. По разностным P-кадрам исходная структура изображений легко и быстро восстанавливается (для современных процессоров подобная задача не составляет труда и выполняется в реальном времени). Что касается точности восстановления, то в длинных группах и/или при наличии B-кадров она действительно заметно падает. Поэтому, например, DVD-Video (GOP 15/3) не подлежит редактированию. В то же время у коротких групп только из I и P кадров восстановление происходит практически без накопления ошибок. Таким образом, при MPEG2 кодировании 422P@ML для обеспечения студийного качества достаточно потока в 50 Mbps при I-кадрах (I-frame only) и в 25 Mbps при группе IPPP (см. таблицу)

      Video S-Video DV Studio-TV
    MJPEG 16 Mbps 32 Mbps 38 Mbps 56 Mbps
    I-frame 422P@ML 14 Mbps 28 Mbps 33 Mbps 49 Mbps
    I-frame MP@ML 10 Mbps 21 Mbps 25 Mbps 37 Mbps
    IPPP 422P@ML 7 Mbps 14 Mbps 17 Mbps 24 Mbps
    IPPP MP@ML 5 Mbps 10 Mbps 12.5 Mbps 18 Mbps
    IBP 15/3 MP@ML 2.5 Mbps 5 Mbps 6 Mbps 9 Mbps

    Именно в таком направлении и идут современные системы нелинейного монтажа. Пока примеров их не много. Это Fast 601 [six-o-one] и Pinnacle miroVideo DC1000 и Matrox DigiSuite DTV. Но преимущества данного подхода столь очевидны, что в ближайшем будущем обязательно появятся и другие решения.