Программирование мультимедиа-систем
Стандартные носители мультимедиа-информации. Методы записи и воспроизведения статических изображений. Методы представления графической информации. Текстовые данные в мультимедиа. Методы сжатия изображений. Основы записи, синтеза и воспроизведения звука.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | учебное пособие |
Язык | русский |
Дата добавления | 28.06.2009 |
Размер файла | 2,0 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Кафедра Персональные компьютеры и сети
Программирование мультимедиа-систем
Учебное пособие
Баканов В.М.
Москва 2004
ВВЕДЕНИЕ
Слово `мультимедиа' (multimedia, иногда `малтимедиа') представляет собой сочетание двух англоязычных слов - `много' и `посредник, способ, обстановка, контактное воздействие'. Таким образом, термин мультимедиа можно формально перевести как `множество способов воздействия'; фактически же понятие мультимедиа подразумевает множество различных методов хранения и представления информации в форме звука, изображения, тактильных и др. воздействий на органы чувств человека. Т.о. мультимедиа-системы (ММС) суть системы обработки и представления мультимедиа-данных (ММД).
Следует различать информационное наполнение (контент, contents) и программное обеспечение ММС (трудноалгоритмизируемый аспект дизайна ММС вынужденно включен в технологию разработки ПО). Основные виды ММД : текст, графика, анимация, звук, видео, тактильные ощущения; условно можно разделить ММД на справочные, учебные, игровые, управляющие (в большинстве случаев разделы классификации перекрываются).
Мультимедиа является технологией представления сенсорной (доступной через органы чувств) информации в максимально близкой человеку форме и имеет два аспекта - аппаратный и программный (психологические, социальные и т.п. аспекты в данной работе рассматриваются крайне узко).
Аппаратная сторона мультимедиа обеспечивает непосредственный доступ к информации указанного типа и представляется в виде (с начала 90-х годов ставшими обычными для ПЭВМ) стандартными средствами - видеоадаптерами, мониторами, дисководами жестких дисков и приводами CD-ROM, звуковыми картами и специализированным оборудованием (например, ставшими модными в последнее время очками и шлемами виртуальной реальности), причем развитие номенклатуры подобных устройств носит поистине взрывной характер.
Программная сторона мультимедиа разделяется на чисто прикладную (приложения, предоставляющие пользователю информацию в определенном виде), специализированную (программные средства для создания мультимедийных приложений) и системную (компоненты конкретной ОС, специально ориентированные на поддержку мультимедийных возможностей).
Мультимедиа является самой молодой из известных областей применения ЭВМ и до сих находится в близкой к начальной стадии развития. Исторически первоначально ЭВМ разрабатывались для обработки весьма специфически организованной (в числовом и только числовом виде) информации, однако большинство ММД труднопредставимы и труднообрабатываемы в числовом виде (требуют огромных объемов памяти и мощности процессоров для обработки). В результате профессиональное создание и обработка мультимедиа-информации до сегодняшних дней остается дорогостоящей и не всем доступной процедурой. Дальнейшее развитие мультимедиа затруднено сложностями с (необходимым) расширением средств воздействия - например, до сих пор полностью не решен вопрос механизма вкуса и запахов (что исключает возможность включения этих воздействий в арсенал средств мультимедиа), технология тактильных воздействий в данное время также чрезмерно сложна и малоэффективна, идеи о прямом воздействии мультимедиа-информации на мозг человека находятся пока в области, близкой фантастике (хотя и научной).
Традиционные ОС разрабатывались исходя из условия эффективности при обработке числовой информации и обычно малоэффективны при обработке мультимедиа-данных. По-видимому, реально приближение времени специализированных (например, ориентированных на обработку мультимедиа-информации) ОС (например, NeхtStep и BeOS, см. www.beincorporated.com); сказанное, естественно, относится и к архитектуре ЭВМ, которая уже сейчас претерпевает существенные изменения в связи с развитием мультимедиа.
Целью работы является дать начальные теоретические и практические понятия и сведения о программном и аппаратном обеспечении систем мультимедиа, сведения о представлении (в том числе принципах компрессии) и обработке информации. Так как мультимедиа развивается лавинообразно, часть приведенных материалов уже через несколько месяцев окажется устаревшей, однако общие направления развития ММС обычно стабильны в течении десятилетия.
При ознакомлении с пособием весьма желательна работа с указанными литературными источниками и InterNet-ссылками, а также практика на ЭВМ; данная основа и постоянная практика позволят программисту стать профессионалом.
В качестве основной операционной системы выбрана OC Windows фирмы Microsoft Corp. (MS) как наиболее часто применяющаяся на ПЭВМ; при необходимости приводятся сведения об особенностях мультимедиа-программирования в среде иных ОС.
Далее в тексте названия ПО и аппаратных средств выделены `жирным' начертанием, курсивом отмечены названия фирм-производителей (рекомендуется использовать их в качестве ключевых слов при поиске информации в сети InterNet).
1. СТАНДАРТНЫЕ НОСИТЕЛИ МУЛЬТИМЕДИА-ИНФОРМАЦИИ
Особенностью информации мультимедиа является в первую очередь ее значительные объемы - обычным является работа с файлами объемом в несколько гигабайт (здесь существенно ограничение ОС Windows'9x на максимальный объем файла в 2 Гбайта). Вторая особенность заключается в необходимости обеспечения высокой скорости записи и воспроизведения данных - нередки требования в обмене информацией при скорости 10-50 Mбайт/сек.
Традиционно первыми носителями ММ-информации явились магнитные ленты. В современных видеокамерах и видеомагнитофонах непрофессионального класса (`home video') обычно используется рассчитанная на 3060 мин записи магнитная лента. Современные модели видеокамер оснащены разъемами для вывода аудиовидеоинформации на видеомагнитофон и/или ПЭВМ; применяют аналоговые разъемы типа RCA (`колокольчики', `тюльпаны') и S-Video (Separate Video), цифровые модели используют интерфейс USB (www.usb.org) и IEEE 1394 (FireWire, i.Link, Digital Link), профессиональным (студийным) интерфейсом является YUV (professional video). Для копирования относительно небольших объемов информации используют карты памяти Memory Stick (объемом нескольких Мбайт).
Только после оцифровки аналогового сигнала появляется возможность оценить его объем в байтах. Современные накопители на твердых дисках (`винчестерах') обладают объемом запоминаемых данных 120250 Гбайт при стоимости менее 1 US$ за гигабайт при времени произвольного доступа порядка 10-2 сек; на таком диске может храниться многочасовое видео.
CD (compact disk) представляют собой рассчитанные на считывание и запись информации лучом маломощного твердотельного лазера многослойные стеклопластиковые носители диаметром 120 и толщиной 1,2 мм и разделяются на однократно записываемые на заводе-изготовителе CD-ROM, поставляемые без записи и могущие быть однократно записанными пользователем CR-R и имеющие возможность многократной перезаписи CD-RW.
Информация на CD представлена в виде питов (каждый пит несет 1 бит информации) - участков с измененной отражающей способностью размером порядка (0,53)10-3 мм, последовательно размещенных вдоль единственной идущей от наружной к внутренней частей диска дорожки, запись осуществляется посредством прожига более мощным твердотельным лазером расположенного внутри тела диска отражающего слоя (серебро или золото для CD-R).
CD-ROM используют специальную файловую систему, описанную международным стандартом ISO 9660 (International Standart Organization, который совпадает с основными положениями стандарта HSG - High Sierra Group), большинство приводов CD-ROM отвечают спецификации MPC (Multimedua PC). Для преобразования содержимого каталогов данного формата в стандартный формат MS DOS служит драйвер MSCDEX.EXE (вызов описывается в AUTOEXEC.BAT), MSCDEX.EXE применяется совместно с драйвером производителя данной модели привода CD-ROM (загрузка из CONFIG.SYS).
CD-ROM или CD-R диск имеют объем 640700 Mбайт, соответствующая длительность звучания 7480 мин определена фирмой Sony на основе длительности популярной в Японии 9-й симфонии Бетховена - 72,73 мин, единичная скорость считывания информации составляет 150 Кбайт/сек (известны устройства считывания c 52-х кратной скоростью), принципы хранения и доступа к информации определяются т.н. `Красной'-, `Желтой'-, `Зеленой'-, `Оранжевой книгами' и др. стандартами. За счет определенных технологических ухищрений объем DVD-дисков достигает 4,717 Гбайт.
Цвет поверхности однократно записываемых (CD-R) лазерных дисков определяется технологией и может быть Цианин (Cianine, при золотом отражающем слое цвет рабочей поверхности темно-зеленый, при серебряном - светло-голубой), Фталоцианин (Phtalocianine, часто золотой отражающий слой, желто-зеленый оттенок рабочей поверхности) или Азо (AZO, серебряный отражающий слой, насыщенно синий цвет рабочей поверхности); каждая технология имеет свои достоинства и недостатки.
Твердотельные носители (CompactFlash, SmartMedia Card, MultiMedia Card, Sequre Digital, Miniature Card и т.п.) применяются для целей хранения аудиовидеоинформации в цифровых фотокамерах и диктофонах, MP3-плеерах; вследствие быстрого роста их емкости (до 1 Гбайт и выше) наблюдается приближение функциональности цифровых фотокамер к видеокамерам.
2.МЕТОДЫ ЗАПИСИ И ВОСПРОИЗВЕДЕНИЯ СТАТИЧЕСКИХ ИЗОБРАЖЕНИЙ
2.1 Способы кодирования цвета при записи и воспроизведении изображений
Способы представления цвета имеют свою теоретическую и практическую историю. Согласно современным понятиям свет является электромагнитным излучением, причем человеческий глаз воспринимаем лучи с длиной волны приблизительно от 40010-6 мм (фиолетовый) до 70010-6 мм (красный). Данная шкала является непрерывной, а понятие `цвета' относится всего лишь к определенной части этой шкалы (от синего к красному согласно повышению длины волны).
Человеческий глаз различает сотни цветовых оттенков (известное `зрение художника', якобы могущее воспринимать многие тысячи цветов, скорее всего является следствием чрезмерной эмоциональности в суждениях). Открытый И.Ньютоном способ разложения цвета на 7 составляющих оказался чрезмерно сложным для практической реализации. Согласно трехкомпонентной теории цветового зрения (не единственной из существующих) цвет представляется в виде суперпозиции трех основных цветов - красного (R), зеленого (G) и синего (B). В 1931г. решением Международной Комиссии по Освещению (CIE, Commision International de l'Eclairage) были стандартизированы монохроматические цвета цветового излучения с длинами волн соответственно : красный цвет - 70010-6, синий - 546,110-6 и красный - 435,810-6 мм. На рис.3.1 схематично показаны схемы основных современных моделей цвета - RGB, CMYK и Lab.
Модель RGB (Red, Green, Blue) является, пожалуй, наиболее простой и естественной из существующих. Здесь цвет представляется суммой интенсивностей трех составляющих цвета, при этом смешение трех цветов в одинаковой пропорции дает белый (при максимальной интенсивности составляющих) или серый (при меньшей, но равной, интенсивности составляющих; при нулевой интенсивности составляющих имеем черный цвет). Эта модель именуется аддитивной (основанной на сложении трех составляющих цвета) и напрямую реализуется в современных сканерах и электроннолучевых трубках мониторов. В Windows модель RGB поддерживается широко - известны системные функции получения полного цвета по его составляющим RGB(Red,Green,Blue) и выделения интенсивности N-ной компоненты (N[R,G,B]) цвета GetNValue(RGB_Value); при этом интенсивность каждого из цветов Red, Green, Blue кодируется целым числом от 0 до 255.
Модель RGB имеет и недостатки - цвета на экране монитора могут отличаться от полученных цветоделением, существует взаимозависимость цветовых каналов (при увеличении яркости одного канала в других каналах яркость уменьшается). Развитием RGB-модели является RGBA (Red, Green, Blue, Alpha), позволяющая учитывать прозрачность элементов изображения (канал Alpha).
Модель RGB совершенно неприменима при цветной печати, когда цвета фактически не суммируются, а вычитаются из белого цвета бумаги (при печати суммирование трех красок равной интенсивности дает не белый, а наоборот - близкий к черному - цвет). При этом в модели CMYK используются дополнительные к RGB цвета - голубой (Cyan), пурпурный (Magenta) и желтый (Yellow), модель получила название субтрактивной. Для получения серых оттенков приходится давать избыток голубой составляющей, интенсивность Cyan на 1020% больше, чем пурпурной и желтой. В реальных цветных принтерах используется дополнительная емкость с черной краской, так как смешение CMY при их полной интенсивности все же не позволяет получить истинно черный цвет (отсюда символ K, см. рис.2.1).
Недостатки цветовой модели CMYK - узкий цветовой диапазон, неточное отображение цветов CMYK на мониторе и больший (по сравнению с RGB) расход памяти при реализации.
Самым широким охватом обладает и наиболее точно описывает параметры цвета модель Lab. Ее достоинством является полное разделение информации о цвете и яркости, модель часто используется в качестве внутренней во многих программных продуктах для пересчета при переводе цветов из одной модели в другую. Современные пакеты работы с изображениями обязательно позволяет учитывать качество реальных устройств воспроизведения и корректировать цветопередачу (при этом используется понятие цветовой температуры - величины, тесно связанной с амплитудно-частотной характеристикой данного устройства в диапазоне видимого цвета).
В некоторых случаях профессионалы предпочитают работать с системой HSV, название которой является аббревиатурой терминов оттенок(Hue) - насыщенность(Saturation) - яркость(Value).
Множественность моделей говорит о сложности попыток представления цвета; несмотря на явные достижения и практическое использование работа в этом направлении продолжается в связи с постоянным повышением требований к качеству воспроизведения изображений при экранной демонстрации и получении печатной продукции.
2.2 Основные форматы файлов изображений
К настоящему времени число форматов (в случае Window формат обычно определяется расширением имени файла) представления изображений определяется десятками и практически не растет далее (чего нельзя сказать о методах компрессии данных). Формат в большинстве случае определяется расширением имени файла (для MS Windows), однако в некоторых случаях информация в файле с одним и тем же расширением может оказаться сжатой различными методами.
Наипростейшим случаем сохранения растрового (см. подраздел 2.2.1 данной работы) изображения является последовательное кодирование триад цвета в каждой точке изображения; при этом объем файла изображения будет не менее XY3N байт (X,Y - ширина и высота изображения в точках, N - число байт кодирования интенсивности каждого цвета). При размерах изображения 640480 и `глубине' цвета в 2 байта (216=65536 градаций) размер файла не менее 640480322 Mбайт ! Учитывая, что в настоящее время обычно применяется глубина цвета в 3 или 4 байта (224=16'777'216 или 232=4'294'967'296 градаций интенсивности цвета) и значительно большие размеры изображения, хранение полноцветных изображения без компрессии практически невозможно (о методах компрессии см. подраздел 2.3).
Одним из (исторически) первых форматов сохранения изображений явился точечный рисунок Windows (расширение имени файла .BMP, .RLE или .DIB; именно с BMP-форматом работает Windows-штатный графический редактор MS Paint. Близким к BMP является формат ICO, до сих пор применяемый для сохранения изображений в виде маленьких `иконок'.
Файлы формата PCX (PC Paintbrush) использовались в основном в MS DOS и Windows'3x, поддерживается сжатие (компрессия) по методу ZSoft.
Графические файлы формата TIF (Tagged File Format) поддерживают все глубины цветности и используют сжатие.
Формат GIF (Graphics Interchange Format) поддерживает только 256-цветные изображения и (в современных версиях GIF87/GIF89) последовательность изображений (анимация); для использования на страницах HTML (HiperText Markup Language) важно свойство `прозрачности' (transparent) GIF-файлов. Для создания и редактирования анимированных GIF-файлов имеется большое количество ПО (например, Ulead GIFAnimator, www.ulead.com).
JPG-файлы (JPEG File Interchange Format) являются сильно компрессованными (возможно выбирать уровень компрессии в ущерб качеству изображения) и практически монополизировали InterNet (кроме небольших анимированных `ярлычков', где применяется GIF).
Формат DXF активно применяется фирмой AutoDESC (www.autodesc.com) в пакете AutoCAD и является стандартом обмена векторной графикой; DXF-файл является текстовым, поддерживает определения сложных объектов, вложенность блоков и др. Текстовый формат этих файлов способствовал их широкому распространению, т.к. (относительно) несложно разрабатывать пользовательские программы для считывания, анализа и создания DXF-файлов. Специально для применения в сети InterNet фирма AutoDESC разработала формат DWF (Drawing WEB File).
Продвигаемый MS формат WMF (Windows Metafiles Format) поддерживает векторную графику (и поэтому изображения легко масштабируются) и позиционируется как средство поддержания объектов галлереи кадров (Microsoft Clip Gallery).
Проблема авторизации изображений решен путем внедрения в файл изображения т.н. цифровой метки (компания DigimarcCorp., www.digimarc.com). Эффективность методики настолько высока, что единожды внедренная метка обнаруживается даже после сложных манипуляций с изображением и сканирования картинки, технология принята штатной в продуктах фирм Adobe (www.adobe.com) и Corel (www.corel.com).
Формат PDF (Portable Document Format) той же фирмы является форматов электронных документов и может включать текст, графику (как растровую, так и векторную) и иные данные.
Большое количество других форматов изображений используется не столь часто и здесь не рассматривается; некоторые из вышерассмотренных форматов изображений используются и при создании видеофильмов (см. ниже). Практически все форматы изображений пригодны для использования в качестве объектов для предложенной MS технологии внедрения или связывания объектов (OLE); причем `внутри' конкретного приложения изображения сохраняются (в случае внедрения) в специфичном формате, для перекодирования применяются (автоматически применяемые) т.н. `графические фильтры'.
2.2.1 Методы представления графической информации
Традиционно используются два метода представления графической информации - растровый и векторный.
При представлении графической информации в растровом виде используется технология хранения информации о каждом пикселе (pixel - picture element); пиксел является неделимой единицей - точкой изображения, данные обычно хранятся последовательно в формате одномерного массива, а ширина и высота изображения в пикселах описываются в заголовке файла), сохраняются данные о цвете (в единицах 21=2 цвета, 28=256 цветов и т.д.; также сохраняется информация о палитре - текущей таблице соответствий представляемого цвета и его кода). При моделировании объемных (трехмерных) объектов используется воксел (voxel - volume picture element), см. раздел 6.
Историческим аналогом данного метода явилась, вероятно, давно отработанная технология передачи и приема телевизионных изображений (такая же технология применяется при сканировании изображений). Типичным представителем этой методики является входящий в штатное cистемное ПО фирмы MS пакет Microsoft Paint; в настоящее время практически все графические редакторы поддерживают растровую графику. Практически все современные системы сохранения движущихся изображений (movie) используют растровый способ представления графической информации.
Вторым методом представления графических изображений является векторный способ. При этом неделимой единицей является вектор - определяемая начальной и конечной координатами прямая линия; аттрибутами являтся цвет (включая палитру), толщина, тип (сплошная, штрих-пунктирная и т.д.) линии. Вырождением линии (вектора) является точка (фактически растровый способ представления графической информации). На основе векторов строятся и более сложные графические примитивы - дуги, овалы, гладкие линии произвольной формы и т.д.
Данный метод является естественным для представления информации в виде чертежей, типичным представителем является пакет создания чертежной документации AutoCAD (соответствующие файлы формата DXF являются текстовыми и содержат описания графических примитивов в векторном виде); другим представителем пакетов векторной графики является CorelDraw (www.corel.com). Размеры файлов при векторном способе обычно значительно меньше, скорость же отрисовки изображений на устройствах вывода практически не отличается. Это объясняется почти 100% применением растровых дисплеев (применение векторных дисплеев в настоящее время ограничено), при этом изображение любых векторных примитивов сводится к (программной) конвертации в растровый формат; используется линейная или круговая интерполяция путем `засвечивания' ближайших к вектору точек растра по методу Брезенхама (Bresenham, [1]). Заметим, что векторные графопостроители в настоящее время широко распространены и хорошо согласуются (по форматам передаваемых данных) с технологией векторной графики.
Конвертация между двумя указанными видами представления графической информации тривиальна лишь при переходе от векторной к растровой графике (метод Брезенхама), обратный переход требует значительных ухищрений (известны, например, конверторы сканированных растровых изображений в векторный формат AutoCAD'а; при этом особенная сложность заключается в распознавании участков растра в районе `стыковки' векторов, что обычно требует вмешательства оператора).
Существенно различаются для векторной и растровой графики процедуры линейного масштабирования. Если объекты векторной графики масштабируются элементарно, масштабирование растровой графики существенно сложнее (примитивное масштабирование в этом случае приводит лишь к превращению пикселов в прямоугольные образования) - применяются специальные алгоритмы заполнения и сглаживания [1]. Однако эти и более сложные (нелинейные преобразования) легко реализуются вычислительными возможностямиерррре ПЭВМ. Более сложные функции класса повышения резкости, оконтуривания, выделения градиентов и областей с заданными свойствами и др. определены лишь для растровой графики; большой набор предопределенных фильтров для подобных преобразований доступен в пакете AdobePhotoshop (www.adobe.com), задаваемые пользователем фильтры удобноприменимы в пакете PaintShopPro (фирма Jasc, Inc., www.jasc.com).
Одна из простых операций такого рода - локальная цифровая фильтрация, осуществляемая путем взвешенного суммирования яркостей пикселов, находящихся в некоторой окрестности текущего пиксела [1].
2.2.2 Текстовые данные в мультимедиа
Текстовые данные (независимо от типа письма - иероглифического, алфавитного, смешанного) фактически являются частью представления информации в виде статических изображений (графики) и в целом описываются, обрабатываются и представляются теми же методами. Особенностью текста является его вторичность (по отношению к первичности речи, кодовым выражением которой текст формально и является), вследствие чего появляются дополнительные функции ММС: распознавания речи и обратная - речевого воспроизведения текста; эти функции становятся штатными даже для ОС (в частности, небызызвестного проекта Merlin фирмы IBM). К сходным проблемам относится и вопрос распознавания символов (технология OCR - Optical Character Recognition), в настоящее время удовлетворительно решенный даже в `карманных' ПЭВМ и машинного перевода (в том числе перевода `на лету' в сети InterNet - например, приложение PromtWebView, см. www.promt.ru/rus/products/webview) - www.promt.ru, www.translate.ru, www.star.spb.ru. Фирма MS на сайте www.microsoft.com/downloads предлагает специализированную библиотеку разработчика систем распознавания речи Microsoft Speech API, системы распознавания и преобразования текста в речь Microsoft Speech Recognition и Microsoft Text-to-Speech; функциями речевого управления должен обладать пакет MSOffice10.
Символы внутримашинно представлены численным кодом (обычно 8-ю двоичными разрядами, перспективная кодировка UNICODE использует 16 бит и позволяет единообразно представить символы 216= 65536 языков мира); наличие оставшихся от первых лет компьютерной эпохи нескольких таблиц кодировок (`кодовых страниц' - например, Windows-1251, Koi8-R и др.) создает трудности при работе. Наиболее распространенным в среде Windows текстовым (с элементами графики) редактором (текстовым процессором) является MS Word (www.microsoft.com/rus), из популярных настольных издательских систем следует упомянуть AdobePageMaker (www.adobe.com), XeroxVenturaPublisher (www.xerox.com) и QuarkXPress (Quark, Inc., www.quark.com).
Действие OCR-систем заключается в сопоставлении печатным символам (обычно представляемым в виде сканированного изображения) кодовому набору алфавита, `понимаемому' конкретным ПО обработки текстов (изображению символа ставится в соответствие его числовой код). Одной из распространенных OCR-систем является FineReader фирмы ABBYY Software (www.abbyy.ru). Последние версии продуктов этой фирмы (ABBYY FineReader Рукопись) позволяют распознавать формы (технология Document Capture - `захват документа'), например, бланки налоговых деклараций (с занесением информации из определенных полей бланка в поля базы данных).
Комплекс CognitiveForms принадлежит к классу OCR/ICR/OMR (Optical Character Recognition/Intelligent Character Recognition/Optical Mark Recognition - оптическое распознавание печатных символов/распознание рукописных символов/оптическое распознание меток) и реализует трехуровневую технологию распознания.
Для представления текстовой информации в приятной человеку форме используются шрифты. Шрифт (гарнитура) - набор символов, схожих по графическим особенностям. Начертание описывает характерные особенности шрифта (bold - жирный, italic - курсивный, normal - прямой). Кегль, или размер шрифта (size) определяется высотой прописной буквы, измеренной в пунктах (points); один пункт равен 1/72 дюйма (0,353 мм), в шрифте размером 12 пунктов прописные буквы имеют высоту 1/6 дюйма. Эффекты предоставляют возможность применить к выбранному шрифту различные способы оформления - подчеркивание, зачеркивание, оконтуривание, капитель, закрашивание в различные цвета и т.п.
Растровые шрифты имеют фиксированные форму и размеры (например, шрифт MS Sans Serif), причем при масштабировании (только целочисленном) форма символов искажается (возникает `ступенька'). Векторные (масштабируемые, контурные) шрифты (например, Modern) строятся `точка за точкой' при помощи специального штатного для OC Windows ПО (GDI - Graphic Device Interface) и допускают масштабирование в любое число раз без искажений, однако для их отрисовки требуются значительные ресурсы. Именуемая TrueType разновидность векторных шрифтов (например, Arial) пригодна для вывода как на экран так и на принтер и допускает масштабирование на размер от 1 до 999 пунктов. Близкими к TrueType являются шрифты в формате PostScript (предложенный Adobe и ставший всеобщим стандартом язык описания макета страницы, PostScript обеспечивает высококачественный вывод изображений, графики и текста, поддерживая при этом повороты, увеличение и уменьшение символов, для вывода изображений используется интерпретатор PostScript в принтере или в ПЭВМ); для принтеров Hewlett-Packard LaserJet, DeskJet возможно использование технологии PCL (Printer Control Language), позволяющей осуществлять форматирование распечатываемой страницы в самом принтере.
Шрифты типа TrueType при отрисовке строятся на основе реперных точек, соединенных плавными кривыми (используются квадратичные B- сплайны); ОС Windows имеет штатный набор функций для работы с этими кривыми. Современное ПО создания новых шрифтов (Fontographer фирмы Macromedia,Inc., www.macromedia.com; FontLab фирмы Adobe, www.adobe.com и др.) позволяет разрабатывать формы символов в графическом диалоге с пользователем, задавая базовые точки и соединяя их кривыми. Деятельность разработчиков шрифтов координирует ежегодная конференция ATypI (Association Typographique Internationale, www.atypi.org).
Чисто технической сложностью является работа пользователя с текстовыми данными на фоне (растровой или векторной графики). В примитивных графических редакторах класса MS Paint после ввода текста его редактирование невозможно, так как он преобразуется в растр. В более мощных редакторах текст сохраняется как отдельный объект (с указанием аттрибутов - фонта, размера, цвета и др.) и при этом отображается в растровом или векторном виде; редактирование объекта позволяет легко изменять текст (и его аттрибуты).
2.3 Методы сжатия файлов изображений
Сжатие информации в современных ПЭВМ реализуется программно, причем в большинстве случаев пользователю-непрофессионалу нет необходимости знать, какой метод компрессии используется - ОС самостоятельно применяет нужный кодек, анализируя заголовок медиафайла (в случае отсутствия необходимого кодека выдается соответствующее сообщение). В случае небольшого количества цветов для сжатия используется метод группового кодирования (run-length encoding), при этом последовательность одинаковых точек заменяется специальными кодами, несущими информацию о цвете и числе повторов пиксела (т.н. Group 3 метод сжатия, разработанный впервые для факс-аппаратов). Метод предсказания позволяет предсказать цвет следующего пиксела, на этом основана технология сжатия JBIG. Разработано множество несложных, но эффективных приемов кодирования (например, учет т.н. вертикальной избыточности изображения и др.).
К другой группе относятся т.н. методы сжатия с потерями (lossy compression), наиболее известным из которых является JPEG (назван согласно аббревиатуре утвердившего его международного объединения Joint Photographic Experts Group). Метод основан на том, что человеческий глаз более чувствителен к изменению яркости, а не цвета, и к градациям цвета, а не резкому его изменению. JPEG в основном оперирует информацией о яркости, опуская некоторые данные о цвете, и вместо резкого изменения цвета поддерживает плавные переходы. В результате формат JPEG весьма эффективен при сжатии фотографических изображений, но вызывает заметные искажения четких очертаний контурных рисунков (в которых важна именно резкая смена цвета); мелкие детали изображения могут быть потеряны.
Наиболее распространенными (предлагались еще в пакете Video for Windows для Windows'3x, подробнее см. подраздел 4.4.1) штатными для Windows кодеками (codec, системный драйвер для потокового кодирования медиаинформации) являются MS Video 1, Microsoft RLE (Run Length Encoded), Indeo (IntelVideo, особенно эффективен при работе с 24-битовой глубиной цвета), Cinepack; некоторые пригодны и для работы с потоковым видео.
2.4 Программное обеспечение создания и обработки изображений
Наиболее известным ПО для работы с видеоизображениями в настоящее время является известный любому пользователю ПЭВМ PC пакет MS Paint. Пакет позволяет работать с файлами формата BMP, GIF, TIFF, ICO, PNG, JPG, является типичным пакетом растровой графики, позволяет выполнять простейшие функции рисования (создание точек, прямых, эллипсов и др. простых геометрических фигур) и редактирования (масштабирование, перенос части изображения, замену палитры и др.). Достоинством пакета является его (чрезмерная) простота, именно поэтому он рекомендуется начинающим.
Одним из наиболее широкообъемлющих по возможностям является пакет растровой графики PhotoShop фирмы Abobe (www.adobe.com). В пакет включено большое количество модулей геометрического и цветового (линейного и нелинейного) преобразования изображений, возможен учет цветовой настройки устройств вывода (дисплея и принтера). Photoshop (особенно последних версий) 'тяжел' (требует больших ресурсов памяти и производительности процессора) для использования на ПЭВМ. Простым, но обладающим широкими возможностями, пакетом векторной графики является PaintShopPro).
Типичным ПО для работы с векторной графикой является CorelDraw (www.corel.com), возможна отрисовка большого количества графпримитивов (к тому же могущих располагаться в различных слоях и соответственно компоноваться); при сохранении изображений поддерживается большое количество форматов.
Нет возможности (и необходимости) перечислять сотни существующих на данный момент пакетов обработки изображений; важным свойством каждого является возможность конвертации (в том числе групповой) форматов графических файлов.
3.ОСНОВЫ ЗАПИСИ, СИНТЕЗА И ВОСПРОИЗВЕДЕНИЯ ЗВУКА
3.1 Методы преобразования информации при записи, синтезе и воспроизведении звука
Звук представляет собой колебания физической среды (обычно воздуха) частотой приблизительно 2020000 Гц, все современные системы обработки звука основаны на преобразовании этих колебаний в электрический сигнал, последующей его (аналоговой или цифровой) обработки и вывода вновь в виде колебаний физической среды. Эффект стереофонии достигается временной разницей колебаний, легко улавливаемой благодаря наличию приблизительно 20-сантиметровой базы между приемниками аудиоинформации - ушами (разница порядка 710-4 сек).
В самом начале своей истории компьютер фирмы IBM был оснащен примитивным динамиком, позволявшем (посредством драйвера SPEAKER.DRV) воспроизводить звуки (одновременно) одного тона без регулировки уровня звука; именно в это время были разработаны основные принципы преобразования звука для бытовых компьютеров.
Первый шаг к более серьезной работе со звуком был сделан в 1987 г., когда фирма CreativeLabs (www.creative.ru) разработала Creative Music System (C/MS), представлявший собой 12-голосный стереомузыкальный синтезатор, начавший распространяться в 1989 г. под маркой Game Blaster. Огромный коммерческий успех этой карты привел в скором времени к появлению других подобных карт, наиболее известной из которых является карта AdLib; в основе их функционирования лежит методё известный как нижеописанный `синтез путем частотной модуляции' (FM Syntesis, см. ниже).
Запись произвольного звука осуществляется путем прямой оцифровки аналогового сигнала, представляющего собой электрическую копию звукового давления (преобразователем является датчик звукового давления - микрофон). Частота оцифровки (частота преобразования) называется частотой выборки сигнала и по известной теореме Котельникова-Найквиста должна быть не ниже удвоенного значения максимальной частоты преобразуемого сигнала (например, если спецификация MPC Level1 определяет частоту преобразования 11kГц, то верхний предел записываемой частоты составляет около 5kГц).
Преобразование аналогового сигнала в цифровую форму выполняет аналого-цифровой преобразователь (АЦП), служащий для дискретизации сигнала по времени (частота оцифровки) и квантования по уровню (собственно цифровое представление сигнала). Обычно в АЦП применяется технология преобразования с импульсно-кодовой модуляцией (PCM, Pulse Code Modulation). Временные промежутки между моментами преобразования сигнала называют интервалами выборки (Sampling Interval); эта величина обратно пропорциональна частоте выборки, или сэмплингом (Sampling Rate). Амплитуда аналогового сигнала (Sample Value) при каждом преобразовании делится (квантуется) по уровню и кодируется в соответствующий параллельный цифровой код (Digital Sample), время преобразования аналогового сигнала в цифровой код именуется временем выборки (Sampling Time), рис.3.1.
Разрешающей способностью АЦП называется наименьшее значение аналогового сигнала, которое приводит к изменению цифрового кода. Например, если АЦП выдает 8-разрядный код, разрешающая способность равна 1/(28)=1/256 от максимальной амплитуды аналогового сигнала (около 0,4% в относительных единицах), 16-разрядный АЦП имеет точность представления сигнала не хуже 1/(216)=1/65536 (0,0015%).
Рис.3.1.Характеристики процесса преобразования между аналоговым и цифровым сигналами
С увеличением разрядности АЦП растет его динамический диапазон (каждый дополнительный бит соответствует увеличению приблизительно на 6 дБ). 8-разрядное преобразование обеспечивает динамический диапазон 48 дБ (качество кассетного магнитофона), 12-разрядное - 72дБ (качественный катушечный магнитофон), 16-разрядное - 96дБ (качество аудио компакт-диска).
Полученный с АЦП параллельный код разрядностью 816 последовательно (побитно) записывается с частотой сэмплинга в аудиофайл (при необходимости используется буфферизация), при этом поток несжатых цифровых аудиоданных велик (см. таблицу ниже); ниже будут приведены методы снижения потока данных и размеров аудиофайлов.
Частота (kГц) |
Разре-шение (бит) |
Режим |
Качество звучания |
Скорость передачи данных (kb/s) |
Размер файламинутной записи (Мбайт) |
|
11,025 |
8 |
моно |
телефонная линия |
10 |
0,66 |
|
11,025 |
8 |
стерео |
21 |
1,3 |
||
11,025 |
16 |
моно |
1,3 |
|||
11,025 |
16 |
стерео |
2,6 |
|||
22,05 |
8 |
моно |
радио- трансляция |
21 |
1,3 |
|
22,05 |
8 |
стерео |
43 |
2,6 |
||
22,05 |
16 |
моно |
2,6 |
|||
22,05 |
16 |
стерео |
5,3 |
|||
44,1 |
8 |
моно |
2,6 |
|||
44,1 |
8 |
стерео |
5,3 |
|||
44,1 |
16 |
моно |
86 |
5,3 |
||
44,1 |
16 |
стерео |
запись на CD |
172 |
10,5 |
В студийной работе происходит переход на стандарт 96 kГц/24 бита, который по теоретически достижимому качеству пока заметно перекрывает возможности существующих звуковых систем.
Заметим, что АЦП (также как и ЦАП - цифро-аналоговые преобразователи) выполняют свои функции аппаратно, не загружая ЦП (центральный процессор); последний управляет только режимами работы АЦП и ЦАП. Обобщенные схемы записи и воспроизведения звука приведены на рис.3.2 и 3.3; именно так создаются и воспроизводятся широкоизвестные WAV-файлы (вопросы сжатия и распаковки `на лету' аудиоданных обсуждаются ниже).
Рис.3.2.Аналого-цифровое преобразование при записи звука
Рис.3.3.Цифро-аналоговое преобразование при воспроизведении звука
ЦАП выполняет обратное (цифро-аналоговое) преобразование, в результате работы ЦАП получается ступенчатый сигнал, представляющий собой исходный аналоговый сигнал плюс обусловленная сэмплингом высокочастотная составляющая (лежащая выше верхнего предела слышимых частот и поэтому легко фильтруемая), рис.3.4.
Рис.3.4.Сглаживание ступенчатого сигнала после ЦАП при воспроизведении звука
Сказанное относится к записи и воспроизведению произвольного звука, во многих случаях возможно значительно сократить объем хранимых данных путем синтеза (создания) звука. При этом мы лишаемся возможности работы с произвольным звуком, остается лишь возможность обработки некоторого (моделируемого) подмножества звучаний. Достаточно широко применяются звуковые карты, оснащенные DSP (Digital Signal Processor), обладающие многими дополнительными возможностями обработки звука (распознавание речи, реверберация, спецэффекты типа 3-х мерного звучания и др.).
Наиболее часто применяют цифровой FM-синтез звука, основы которого заложены в конце 70-х годов студентом Стенфордского университета Джоном Чоунингом (John Chowning). Несколько десятилетий ранее Роберт Муг (Robert Moog) реализовал в серии своих всемирно известных синтезаторов аналоговый вариант FM-синтеза путем использования генераторов огибающей, управляющих амплитудой отдельных VOC-генераторов (Voltage-Controlled Oscillator).
В цифровом FM-синтезе каждый из описанных управляемых генераторов называется оператором. В операторе выявляются два базовых элемента: фазовый модулятор и генератор огибающей. Фазовый модулятор задает частоту (высоту) звука, а генератор огибающей - его амплитуду (громкость); см. общую схему рис. 3.5.
В большинстве случаев для синтеза одного инструмента достаточно двух операторов - оператора несущей (основной тон) и оператора модулирующей частоты (обертон). Например, для струнных инструментов (фортепиано, гитара и др.) можно выделить общие моменты - при нажатии произвольной клавиши (возбуждении колебаний струны) амплитуда сначала быстро возрастает до максимума, затем несколько спадает, после чего следует относительно продолжительный участок медленного падения амплитуды и, наконец, участок быстрого затухания. Описанные стадии сигнала носят названия Attack, Decay, Sustain и Release соответственно, поэтому сам генератор огибающей именуется ADSR-генератором (по первым буквам фаз сигнала, см. рис.3.6).
Рис. 3.5.Генерация сигналов с заданной огибающей при получении звука посредством FM-синтеза
Обычно пара операторов определяет голос; современные наборы микросхем для FM-синтеза звука содержат до 3640 голосов, осуществляя различные режимы (алгоритмы) FM-синтеза (в том числе и самые сложные, предполагающие использовать 18 и более операторов для синтеза речи). В звуковых картах обычно присутствует специальный генератор шума, обрабатываемый одним оператором (оператором огибающей).
Кроме FM-синтеза, в высококачественных звуковых картах используется табличный или WT-синтез (Wave Table synthesis); такие устройства именуют также синтезаторами выборок или сэмплерами (Samples). Идея применения WT-синтеза состоит в использовании специальных алгоритмов, позволяющих по одному лишь характерному тону (выборке) музыкального инструмента воспроизвести все остальные тона (фактически восстановить его полное звучание).
Рис.3.6.Синтез звука при использовании генератора огибающей (ASDR-генератор)
Выборки сигналов (таблицы) сохраняются в ROM (Read Only Memory) или программно загружаются в RAM (Random Access Memory) звуковой карты, после чего специализированный WT-процессор выполняет операции над выборками сигнала, изменяя их амплитуду и частоту (рис. 4.7). При этом генерируемое WT-методом звучание ближе к звуку реальных инструментов, нежели при FM-технологии. Дополнительную гибкость WT-методу дает возможность простого изменения таблиц выборок; многие карты поддерживают как FM- так и WT-синтез.
Файлы для генерации звука посредством FM-технологии имеют расширение MID (от MIDI - Musical Digital Interface, совместимым форматом является RMI) и содержат ссылки на ноты (кодируемые числами), их длительность и тип музыкального инструмента (до 200 инструментов в современных картах). MID-файлы естественным образом могут быть воспроизведены и на поддерживающих WT-синтез звуковых картах.
3.2 Методы сжатия информации при работе со звуком
Чем более объем памяти WT-карты, тем реалистичнее звучание (ибо в памяти хранится больше образцов, записанных с более высоким разрешением). Стандарт General MIDI описывает более 200 инструментов, для хранения образцов их звучания (таблиц) требуется не менее 8 Мбайт памяти (минимум 20 Кбайт для каждого образца).
Известен WF-метод (Wave Form) генерации звучания, основанный на преобразовании звуков в сложные математические формулы и дальнейшем применения этих формул для управления мощным процессором с целью воспроизведения звука; от WF-синтеза ожидают еще лучшей (относительно FM и WT-технологий) реальности звучания музыкальных инструментов при ограниченных объемах звуковых файлов .
Типовая схема подключения внешних устройств к IBM PC-ориентированной звуковой плате (карте) приведена на рис.4.8.
Для сокращения потока данных используются иные (отличные от PCM) методы кодирования аналогового сигнала. Например, известна существенно сокращающая объем хранимых данных техника кодирования, основанная на известных характеристиках аналогового сигнала; при т.н. -кодировании аналоговый сигнал преобразуется в цифровой код, определяемый логарифмом величины сигнала (а не его линейным преобразованием). Недостаток метода - необходимость иметь априорную информацию о характеристиках исходного сигнала.
Известны методы преобразования, не требующие априорной информации об исходном сигнале. При дифференциальной импульсно-кодовой модуляции (DPCM, Differential Pulse Code Modulation) сохраняется только разность между текущим и предшествующим уровнями сигнала (разница требует для цифрового представления меньшего количества бит, чем полная величина амплитуды). При дельта-модуляции (DM, Delta Modulation) каждая выборка состоит всего из одного бита, определяющего знак изменения исходного сигнала (увеличение или уменьшение); дельта-модуляция требует повышенной частоты сэмплинга. Технологии дифференциальной импульсно-кодовой модуляции связаны с накапливающейся со временем ошибкой, поэтому применяются специальные меры периодической калибровки АЦП.
Наибольшее распространение при записи звука получила адаптивная импульсно-кодовая модуляция (ADPCM, Adaptive Pulse Code Modulation), использующая 8- или 4-разрядное кодирование для разности сигналов. Технология впервые была применена фирмой Creative Labs и обеспечивает сжатие данных до 4:1.
Однако часто применяются иные (программные) методы сжатия/распаковки аудиоинформации; среди них в последнее время наиболее популярен формат MP3, разработанный институтом Fraunhofer IIS (Fraunhofer Institutе Integrierte Schaltungen, www.iis.fhg.de) и фирмой THOMSON (полная спецификация формата MP3 опубликованы на сайте www.mp3tech.org). Полное название стандарта MP3 звучит MPEG-Audio Layer-3 (где MPEG суть Moving Picture Expert Group, не путать с предназначенным для использовании в телевидении высокой четкости стандартом MPEG-3).
MP3-кодирование данных происходит посредством выделения независимых отдельных блоков данных - фреймов. Для этого исходный сигнал при кодировании разбивается на равные по продолжительности участки, именуемые фреймами и кодируемые отдельно (для дополнительного снижения объема данных применяется сжатие с применением алгоритма Хеффмена); при декодировании сигнал формируется из последовательности декодированных фреймов. Процесс кодирования требует ощутимого времени, декодирование (при воспроизведении) осуществляется `на лету'.
Подобные документы
Области применения мультимедиа. Основные носители и категории мультимедиа-продуктов. Звуковые карты, CD-ROM, видеокарты. Программные средства мультимедиа. Порядок разработки, функционирования и применения средств обработки информации разных типов.
контрольная работа [528,8 K], добавлен 14.01.2015Использование профессиональных графических примеров. Применение продуктов мультимедиа. Линейное и структурное представление информации. Мультимедиа ресурсы сети Интернет. Программное обеспечение мультимедиа-компьютера. Создание и обработка изображения.
курсовая работа [1,1 M], добавлен 04.03.2013Создание информационной мультимедиа системы (медиа-плеера) для презентации аудио-видео информации о факультете КТАС, представленной в специально отснятых и смонтированных avi-файлах. Разработка модуля пользовательского интерфейса, выходные данные.
курсовая работа [41,5 K], добавлен 21.11.2014Мультимедиа презентация - это уникальный и самый современный на сегодняшний день способ представления информации. Важнейшей особенностью мультимедиа технологии является интерактивность – способность пользователя влиять на работу информационного средства.
курсовая работа [106,5 K], добавлен 28.06.2008Мультимедиа – это современная компьютерная информационная технология, позволяющая объединить в компьютерной системе текст, звук, видеоизображение, графическое изображение и анимацию. Описание, основные носители и возможности мультимедиа технологий.
реферат [37,1 K], добавлен 19.10.2010Характерные особенности мультимедиа-технологий и их возможности. Применение мультимедиа-технологий в обучении. Объединение многокомпонентной информационной среды в однородном цифровом представлении, долговечное хранение и простота переработки информации.
курсовая работа [77,8 K], добавлен 15.07.2012Стандартное устройство вывода графической информации в компьютере IBM - система из монитора и видеокарты. Основные компоненты видеокарты. Графическое и цветовое разрешение экрана. Виды мониторов и видеокарт. Мультимедиа-проекторы, плазменные панели.
контрольная работа [38,7 K], добавлен 09.06.2010Исследование видов программного обеспечения для мультимедиа и средств редактирования. Описания редакторов векторной и растровой графики. Анализ методов преобразования изображений. Технологии баз данных, требуемые для графики. Преобразование текста в речь.
презентация [154,7 K], добавлен 11.10.2013Различные виды определения термина "мультимедиа". Мультимедиа-технологии как одно из наиболее перспективных и популярных направлений информатики. Мультимедиа в сети Internet. Компьютерная графика и звуки. Различные области применения мультимедиа.
курсовая работа [43,5 K], добавлен 19.04.2012Потоковое мультимедиа - мультимедиа, которое непрерывно получается пользователем от провайдера потокового вещания. Попытки отображения мультимедиа информации на компьютерах. Разработка сетевых протоколов потокового вещания и развитие интернет технологий.
курсовая работа [386,3 K], добавлен 21.12.2010