Рано или поздно счастливый обладатель видеокамеры сталкивается с проблемой сохранения многочисленных отснятых фильмов. Очевидное ее решение – собственно на видеокассетах – безусловно, самое простое, но не всегда самое эффективное. Во-первых, магнитный слой пленки имеет тенденцию со временем осыпаться. И в результате дорогой Вам фильм о первых шагах ребенка может не дожить до свадьбы последнего. Во вторых, стоимость кассет, особенно mini-DV формата, для российского кошелька весьма чувствительна, и их число хотелось бы ограничить потребностями собственно исходной съемки (3-5 штук). В третьих, их габариты не пренебрежительно малы, и хранение большого числа кассет требует значительного пространства.

Наконец, последний аргумент связан с компьютерным монтажом. Дело в том, что мало кто остается удовлетворенным отснятым “сырым” видеоматериалом – обычно требуется его пост-обработка: "обрезка" лишних фрагментов, перестановка и гладкая склейка удачных сюжетов и построение эффектных переходов между ними, наложение титров, включение заставок и т.д. Все эти операции вполне по силам современному домашнему компьютеру. Достаточно установить в него соответствующую плату и программу цифрового видеомонтажа, например, из комплекта miroVideo Studio10 Plus или AverMedia MV-300. При этом собственно процесс обработки предваряет преобразование исходного видео в цифровой сигнал и его запись на жесткий диск компьютера. Ну а коли Ваше видео приобрело компьютерный цифровой вид, то разумно и хранить его в этом же виде. Особенно если в будущем при создании новых фильмов Вы предполагаете еще не раз воспользоваться снятыми материалами. Одним словом, возникает задача архивирования видео в цифровом виде на компактных, долговечных и недорогих носителях.

Существенным моментом данной постановки является требуемое качество видео. Конечно, хотелось бы как можно выше, но это вступает в противоречие с требованием минимизации затрат. Кроме того, само понятие качества и тем более его оценка весьма субъективны. В поиске разумного компромисса будем опираться на классификацию качества видео, обеспечиваемого потребительскими камерами различных форматов записи на магнитную ленту. Весьма условно, здесь можно выделить 3 уровня: Стандартное Видео (VHS, C-VHS, Video8), Супер-Видео (SVHS, C-SVHS, Hi8) и Цифровое Видео (DV, mini-DV, Digital8). Для простоты в дальнейшем будем обозначать их как Video, S-Video и DV. Количественно они обычно характеризуются горизонтальным разрешением (числом различаемых в строке элементов – телевизионных линий). Считается, что Video обеспечивает разрешение до 280 линий, S-Video – до 400 линий, а DV – не менее 500. Важно отметить, что телевизионный кадр (здесь и далее PAL стандарта) содержит 576 активных строк (всего их 625, но часть из них служебные), причем согласно рекомендации ITU-R BT.601международного профессионального телевизионного сообщества (ITU – International Telecommunications Union) каждая строка содержит 720 независимых отсчетов. Таким образом, принципиально телевизионный кадр представляет собой матрицу 720х576, а предельно достижимое разрешение ограничено 700 линиями.

Известно, что телевизионный сигнал представляет собой совокупность сигнала яркости Y и двух цветоразностных сигналов U и V. Вариации их значений допускают 256 градаций (от 0 до 255 для Y, и от –128 до 127 для U/V), что в двоичном исчислении соответствует 8 битам (bit) или 1 байту (Byte). Теоретически каждый элемент кадра имеет собственные значения YUV, т.е. требует 3 байт. Такое представление, когда как яркость, так и сигналы цветности имеют равное число независимых значений, обычно обозначают как 4:4:4. Однако, было установлено, что зрительная система человека менее чувствительна к цветовым пространственным изменениям, чем к яркостным. И без видимой потери качества число цветовых отсчетов в каждой строке можно уменьшить вдвое. Именно такое представление, обозначаемое как 4:2:2, было принято в профессиональном телевидении. При этом U- V-матрицы уменьшаются до 360х576, а для передачи полного значения телевизионного сигнала в каждом отсчете кадра достаточно 2 байт (чередуя через отсчет независимые значения U и V). Но для целей потребительского видео было признано допустимым уменьшить вдвое и вертикальное цветовое разрешение, т.е. перейти к представлению 4:2:0. Это уменьшает цветовые матрицы до 360х288, а приведенное число байт на отсчет – до 1,5 (см. таблицу 1.). Именно такое представление было заложено в DV-формат цифровых камер.

4:4:4
4:2:2
4:2:0
YUV YUV YUV YUV   YU YV YU YV   YU YV YU YV
YUV YUV YUV YUV   YU YV YU YV   Y Y Y Y
YUV YUV YUV YUV   YU YV YU YV   YU YV YU YV
YUV YUV YUV YUV   YU YV YU YV   Y Y Y Y
Таблица 1.Форматы представления YUV данных телевизионного сигнала

Таким образом, принимая во внимание телевизионную кадровую частоту в 25 Гц, приходим к выводу, что одна секунда цифрового видео в представлении 4:2:2 требует 25x2x720x576=20736000 байт, т.е. поток данных составляет 21 MBps (MegaByte Per Second), но 4:2:0 представление уменьшает поток на 25% - до 16 MBps. Запись подобных потоков технически осуществима, но сложна, дорогостояща и неэффективна с точки зрения последующей обработки. Реальные возможности практики требуют значительного уменьшения потоков, т.е. вынуждают применять различные виды компрессии. Известно множество алгоритмов, осуществляющих компрессию без потери информации, но даже самые эффективные из них на типичных изображениях не обеспечивают сжатия более 2 раз.

Среди алгоритмов с потерей данных одним из наиболее известных является MJPEG (Motion-JPEG). Он пришел из цифровой фотографии, где под именем JPEG был разработан для эффективного сжатия отдельных кадров (JPEG – это аббревиатура от названия утвердившего его международного объединения Joint Photographic Experts Group). Приставка Motion всего лишь отражает его приложение для последовательности кадров, хотя при этом каждый из них обрабатывается совершенно независимо. В этом алгоритме кадр разбивается на блоки размером 16х16, каждый из которых Дискретным Косинусным Преобразованием (ДКП) переводится в частотную область. В результате распределение сигналов яркости и цветности (используется представление 4:2:2) переходит в соответствующие частотные коэффициенты, которые затем подвергаются квантованию (округлению значений с задаваемым интервалом). Само по себе ДКП обратимо, т.е. не приводит к потере данных, но вот квантование коэффициентов вызывает огрубление изображения. Операция квантования выполняется с переменным интервалом – наиболее точно передается низкочастотная информация, поскольку соответствующие искажения изображения зрительно наиболее заметны. В то же время многие высокочастотные коэффициенты, ответственные за “тонкие” детали изображения, после нее принимают нулевые значения. Таким образом, JPEG-компрессия приводит к снижению эффективного разрешения и возможному появлению незначительных ложных деталей (в частности, на границе блоков), но обеспечивает значительное сжатие потока данных. Компромисс очевиден – чем больше сжатие, тем ниже качество. Установлено, что уровню Video соответствует MJPEG поток около 2 MBps, S-Video – 4 MBps, а DV – 3.1 MBps.

На первый взгляд, здесь кроется парадокс: S-Video сигнал с меньшим, чем у DV, разрешением, тем не менее, требует большего потока. Объяснение просто – на самом деле DV-кодировка несколько отлична от MJPEG. Так, DV принципиально использует 4:2:0 представление, что по сравнению с 4:2:2 экономит 25%. Ну а главное, алгоритм DV-преобразования, являясь развитием MJPEG, использует более гибкую схему компрессии, основанную на адаптивном подборе таблиц квантования. Коэффициент компрессии для различных блоков, в отличие от MJPEG, меняется по изображению: для малоинформативных блоков (например, на краях изображения) он увеличивается, а для блоков с большим количеством мелких деталей уменьшается относительно среднего по изображению уровня. В результате при том же качестве достигается сокращение объема данных примерно на 15%. В то же время отличительной чертой DV-сигнала является постоянный, заданный стандартом, поток видеоданных – 25 Mbps (Megabit Per Second), т.е. фиксированный коэффициент компрессии - около 5:1.

Дальнейшее снижение объема данных может быть достигнуто переходом к алгоритму MPEG компрессии (MPEG – Motion Pictures Experts Group). Он принципиально ориентирован на обработку последовательностей кадров и использует высокую избыточность информации в изображениях, разделенных малым временным интервалом. Действительно, между смежными изображениями обычно меняется только малая часть сцены – например, происходит плавное смещение небольшого объекта на фоне фиксированного заднего плана. В этом случае полную информацию о сцене нужно сохранять только выборочно - для опорных изображений. Для остальных достаточно передавать только разностную информацию: о положении объекта, направлении и величине смещения, о новых элементах фона (открывающихся за объектом по мере его движения). Причем эти разности можно формировать не только по сравнению с предыдущими изображениями, но и с последующими (поскольку именно в них по мере движения объекта открывается часть фона, ранее скрытая за объектом). Таким образом, в MPEG кодировке принципиально формируются три типа кадров: I (Intra), выполняющие роль опорных и сохраняющие полный объем информации о структуре изображения; P (Predictive), несущие информацию об изменениях в структуре изображения по сравнению с предыдущим кадром (типов I или P); B (Bi-directional), сохраняющие только самую существенную часть информацию об отличиях от предыдущего и последующего изображений (только I или P). Принципиальная схема последующей компрессии I-кадров, также как и разностных P- и B-кадров, аналогична MJPEG, но, как и у DV, с адаптивной подстройкой таблиц квантования. В частности, это позволяет охарактеризовать DV-сигнал как частный случай MPEG последовательности из I-кадров с заданным фиксированным потоком (коэффициентом компрессии).

Последовательности I-, P-, B-кадров объединяются в фиксированные по длине и структуре группы кадров - GOP (Group of Pictures). Каждая GOP обязательно начинается с I и с определенной периодичностью содержит P кадры. Ее структуру описывают как M/N, где M – общее число кадров в группе, а N – интервал между P-кадрами. Так, типичная для Video-CD и DVD IPB группа 15/3 имеет следующий вид: IBBPBBPBBPBBPBB. Здесь каждый B кадр восстанавливается по окружающим его P кадрам (в начале и конце группы - по I и Р), а в свою очередь каждый Р кадр – по предыдущему Р (или I) кадру. В то же время I кадры самодостаточны и могут быть восстановлены независимо от других, но являются опорными для всех P и тем более B кадров группы. Соответственно у I наименьшая степень компрессии, у В – наибольшая. Установлено, что по размеру типичный Р-кадр составляет 1/3 от I, а B – 1/8 часть. В результате MPEG последовательность IPPP (GOP 4/1) обеспечивает 2-кратное уменьшение требуемого потока данных (при том же качестве) по сравнению с последовательностью только из I кадров, а использование GOP 15/3 позволяет достичь 4-кратного сжатия. Резюмируя, приходим к следующей оценочной таблице.

  MJPEG 422, Mbps MJPEG 422, Mbps MPEG 422 I-only, Mbps MPEG 420 I-only, Mbps MPEG 422 IPPP, Mbps MPEG 420 IPB15/3, Mbps
Video 2 16 14 10 7 2.5
S-Video 4 32 28 21 14 5
DV       25   6
Video-CD           1.15
DVD-Video           4.8
Таблица 2. Оценка требуемых потоков данных для различных видов компрессии при сохранении заданного уровня качества видео

Здесь для справки включены значения потоков видеоданных, характеризующих качество фильмов, записанных для Video-CD и DVD-Video диски. Обсуждение этих форматов записи выходит за рамки настоящего материала, но будет рассмотрено позднее (Цифровое Видео.Мультимедиа №5/99). Завершая рассказ о MPEG, необходимо подчеркнуть, что это алгоритм допускает вариацию и многих других параметров кодирования, в частности, пространственного разрешения. С этой точки зрения различают MPEG-1, ограничивающий кадр размером 352х288, и MPEG-2, допускающий различные уровни разрешения (в том числе и 352х288), но в качестве основного использующий 720х576. Строго говоря, MPEG-1 является ограниченной версией MPEG-2. Впрочем, заданное разрешение Video в 280 строк и подразумевает использование данного ограничения. Важно также подчеркнуть, что по мере перехода к более глубоким схемам компрессии: от MJPEG и MPEG I-only 422 к MPEG 420 IPB существенно усложняется процесс редактирования результирующих последовательностей. На сегодняшний день считается, что без дополнительных потерь качества полноценный монтаж c точностью до кадра возможен только до уровня MPEG IPPP 422, а далее допустимы лишь простейшие операции (обрезка-склейка, да и то с точностью до группы).

Из вышеизложенного следует, что для архивирования видео целесообразно использование MPEG компрессии цифровых данных (420 IBP 15/3), причем для записей фильмов уровня VHS/Video8 достаточен MPEG1 с потоком в 2-3 Mbps, а для SVHS/Hi8 и DV необходим MPEG2 c потоком не менее 5 Mbps. С точки зрения практической реализации возможны программная и аппаратная реализации MPEG компрессии. Наиболее известной и условно доступной программой является XingMPEG Encoder. Она позволяет получать MPEG-1 последовательности из AVI-файлов (например, MJPEG потоков, захваченных одной из плат нелинейного монтажа). Но данный процесс в силу сложности алгоритма компрессии требует значительных вычислительных ресурсов. Например, на Pentium II 350 MHz перекодировка каждой минуты видео при заданном потоке в 3 Mbps требует около 15 минут счета. Стоит признать, что при этом обеспечивается высокое качество результирующего видео. Аппаратные кодеры обеспечивают получение MPEG-фильмов в реальном времени: на их вход подается аналоговый видеосигнал, а на жесткий диск записывается готовый MPEG-файл. В настоящее время доступно большое количество различных устройств, обеспечивающих MPEG-1 компрессию. Они могут быть выполнены как внешние блоки, соединяемые с компьютером по LPT порту (AverMedia MPEGWizard, Pinnacle Systems STUDIO MP10, Videonics Python), так и внутренние платы (VITEC Multimedia RT6, Darim MPEGator, Data Translation Broadway). Что касается устройств MPEG-2 компрессии, то их выбор пока весьма ограничен. Из реально доступных стоит отметить miroVideo DC1000 (более подробное описание см. Цифровое Видео.Мультимедиа №3/99). Хотя на этапе исходной оцифровки она ограничена не самым эффективным с точки зрения степени сжатия видом компрессии 422 IP (зато позволяющим сложный монтаж видео с точностью до кадра), но допускает программно-аппаратное преобразование результирующей последовательности до MPEG2 420 IPB 15/3. Последняя, в частности, является основой для подготовки DVD-Video, например, с помощью Minerva DVD Authoring software (дополняет DC1000 до комплекта miroVideo DVD1000). В таблице для справки приведены краткие характеристики некоторых из этих устройств.

Устройство MPEGWizard STUDIO MP10 RT6 miroVideo DC1000
Фирма-производитель AverMedia Pinnacle Systems VITEC Multimedia Pinnacle Systems
Входы Composite/S-Video Composite/S-Video
Stereo mini-jack
Composite/S-Video
Stereo mini-jack
Composite/S-Video
DV- дополнительно
Stereo cinch-jack
Выходы Нет Composite/S-Video
Stereo mini-jack
Composite/S-Video
Stereo mini-jack
Composite/S-Video
DV- дополнительно
Stereo cinch-jack
Компрессия видео MPEG1 420 IPB 15/3, до 3 Mbps MPEG1 420 IPB 2/1-15/3, до 3 Mbps MPEG1 420 I-only & IPB 15/3, до 4 Mbps MPEG2 422 IPPP, до 25 Mbps
Компрессия аудио Через звуковую карту: MPEG1 Layer 1&2
16-48 KHz, 16 bit,
до 384 kbps
MPEG1 Layer 2
32/44.1/48 KHz, 16 bit,
до 384 Kbps
PCM 22-44.1KHz
MPEG1 Layer 1&2
32/44.1/48 KHz, 16 bit,
до 384 Kbps
PCM 12 bit 32 KHz,
16 bit 44.1/48 KHz
Захват отдельных кадров 704х576 704x576 720х576 720х576
Воспроизведение MPEG Нет Да Да Да, 2 потока с эффектами реального времени
Комплект ПО Astounds StudioM, Cinax i-FilmEdit, Duplexx NET TOOB Stream Sonic Desktop SmartSound, Video SpiceRack Lite, Minerva Impression for CD, TitleDeko MPEG TOOLBOX, MGI VideoWave & PhotoSuite SE, ARCHIVIST Adobe Premiere 5.1 RT & Photoshop 4.0 LE, Pixelan Video Spice Rack Effects, TitleDeko, SmartGOP, miroINSTANT Video
Таблица 3. Характеристики аппаратных MPEG кодеров

Пришло время разобраться с тем, на каких компактных носителях размещать цифровой видеоархив. Как следует из табл. 1, один час видео даже при самом эффективном способе сжатия и визуальном качестве Video соответствует объему данных в 1 GB, 2 GB при качестве S-Video и около 3 GB для DV. При таких значениях выбор, собственно говоря, не велик – это один из вариантов записываемых компакт дисков. Точнее, это может быть CD-R емкостью 650MB, DVD-RAM на 2.6GB, DVD-RW на 3.0 GB или DVD-R на 3.9GB. Кроме того, в скором времени ожидается появление DVD-R на 4.7GB, позволяющего писать диски, 100% совместимые с DVD-Video. К сожалению, в данном списке стоимость соответствующих устройств записи растет существенно быстрее доступного объема (почти экспоненциально). Если CD-R сегодня можно приобрести всего за 250-300 долларов (а стоимость чистого диска к нему составляет менее 2 долларов), то цена наиболее перспективного DVD-R превышает шесть тысяч, что явно не для домашнего использования. Справедливости ради стоит подчеркнуть, что в силу общих тенденций развития компьютерных технологий можно ожидать революционного снижения цен уже в ближайшие пару лет. Ведь цена первых CD-R устройств также сначала измерялась тысячами. Нельзя не предупредить о несовместимости различных форматов DVD. Но, к счастью, все они на уровне чтения поддерживают CD-R, а также DVD-ROM и DVD-Video диски.

Таким образом, в настоящих условиях наиболее разумное решение задачи архивирования может быть основано на использовании:

  • MPEG1 кодера и CD-R устройства записи - для сохранения фильмов с качеством Video
  • MPEG2 кодера и CD-R или DVD-RAM - для сохранения фильмов с S-Video качеством
  • MPEG2 кодера и DVD-RAM (в качестве временного решения) с переходом в последующем на DVD-R - для сохранения фильмов с DV качеством.