Процессоры микроархитектуры К-10
Структурная и функциональная организация микропроцессора К-10. Архитектура системы команд: выборка инструкций, предсказание переходов, декодирование, оптимизатор боковой полосы стека. Архитектура обрабатывающего блока. Кэш, контроллер памяти, предвыборка.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 14.10.2012 |
Размер файла | 2,7 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Введение
K10 -- поколение архитектуры микропроцессоров x86 компании AMD. Процессоры этой архитектуры появились в продаже в конце 2007 года.
Оригинальное ядро K10 имеет кодовое имя Barcelona (AMD), для сопроцессоров, предназначенных для серверов. Позже были выпущены процессоры для настольных компьютеров, там ядро K10 получило название Agena.
Первое упоминание о микроархитектуре следующего поколения появилось в 2003 году, на форуме Microprocessor Forum 2003. На форуме отмечалось, что в новую микроархитектуру будет положено многоядерность процессоров, которые будут работать на тактовых частотах до 10 ГГц. Позднее тактовые частоты были в несколько раз занижены. Первые официальные упоминания AMD о разработке четырёхъядерных процессорах появились в мае 2006-го в роадмапе, опубликованном на срок до 2009 года. Правда, тогда новая микроархитектура значилась под кодовым наименованием AMD K8L, и только в феврале 2007 года было утверждено окончательное наименование AMD K10. Процессоры, основанные на улучшенной архитектуре AMD K8, должны были стать первыми четырёхъядерными процессорами AMD, а также первыми процессорами на рынке, в котором все 4 ядра расположены на одном кристалле (ранее ходили слухи о появлении четырёхъядерного процессора AMD, представляющего собой два двухъядерных кристалла Opteron).
Технические характеристики:
§ Техпроцесс: 65 нм SOI
§ Площадь ядра: 283 кв.мм
§ Количество транзисторов: 463 млн
§ Напряжение питания:1.05V-1.38V
§ Разъём: AM2+(940 pin)/F(1207 pin)
§ Частота: в среднем 3 ГГц (до 6 ГГц в режиме разгона)
§ Типы задач:
Ш Марка Phenom\Phenom II: повседневное использование в настольных компьютерах с решением задач мультимедийной обработки, вычисление общих задач
Ш Марка Opteron: использование в серверных системах, задачи класса многопоточной обработки данных
1. Структурная и функциональная организация
Особенности микроархитектуры К-10 можно видеть на данной схеме.
Рисунок 1 - Особенности микроархитектуры К-10
Большую часть рисунка занимает одно из вычислительных ядер процессора. В левом нижнем углу находится блок, в котором объединены общая кэш-память процессора третьего уровня и внешний интерфейс, также общий для всех ядер.
Как известно внешние модули памяти к процессорам AMD подключаются через встроенный в CPU контроллер памяти (в этой микроархитектуре двухканальный). Видеокарта и остальные внешние устройства доступны через шину Hyper Transport. Системные запросы от ядер поступают через коммутатор (XBAR). Весь внешний поток данных дублируется в обширной (до 8 Мбайт) кэш-памяти L3. Повторно используемые команды и данные могут оттуда выборочно извлекаться. Другое предназначение кэш L3 - буфер для ускоренного обмена между ядрами.
Данные перед попаданием на обработку в ядре проходят через индивидуальную кэш-память ядра (уровень L2), гораздо менее емкую в сравнении с L3, но зато более быструю. Из этой кэш-памяти данные поступают на общую внутриядерную шину разрядностью 256 бит. Из шины команды (инструкции) извлекаются в раздельную кэш-память уровня L1 для команд или данных, имеющие на входе буферы TLB. Команды далее проходят предварительную выборку и декодирование, а с выхода блока формирования команд управляющие сигналы поступают на планировщики команд, в том числе команд дополнительного набора (SSE) для ускоренной обработки мультимедийных данных. Планировщики в свою очередь управляют блоками обработки данных: ALU, AGU и SSE.
На другие входы блоков обработки из кэш-памяти L1 поступают данные, пройдя предварительно очередь загрузки/хранения. Обработанные данные возвращаются в кэш L1 и далее через внутриядерную шину и кэш второго и третьего уровня поступают на коммутатор. Коммутатор нужен для распределения потоков данных. Одни поступают для оперативного хранения в модули памяти, другие через шину Hyper Transport и чипсет могут быть отправлены на внешние устройства хранения, видеокарту и другие внешние устройства.
2. Архитектура системы команд
2.1 Выборка инструкций
Исполнение кода процессором начинается с выборки инструкций из кэша команд L1I и их декодирования. Инструкции x86 имеют переменную длину, что затрудняет определение их границ перед декодированием. Для того, чтобы определение длины инструкций не влияло на темп декодирования, процессоры K8/K10 выполняют предекодирование команд во время загрузки строк в кэш команд L1I. Информация о разметке команд хранится в кэше L1I в специальных полях (3 бита информации предекодирования на каждый байт инструкции). Предекодирование при загрузке в кэш позволяет вынести накладные расходы на определение границ инструкций за пределы каналов декодирования и поддерживать постоянный темп декодирования вне зависимости от длины и структуры команд. Процессоры загружают команды из кэша блоками, из которых выделяются инструкции, направляемые на декодирование. Процессор архитектуры К10 производит выборку инструкций из кэша команд L1I выровненными 32-байтными блоками, в отличие от процессоров K8 и Intel Core 2, которые производят выборку 16-байтными блоками. Темп выборки, составляющий 16 байт за такт, позволяет K8 и Core 2 отправлять на декодирование в каждом такте по пять инструкций средней длиной до 5 байт. Однако длина x86-инструкций может достигать 16 байт, и в некоторых алгоритмах длина нескольких смежных команд в цепочке может превышать 5 байт, что делает невозможным декодирование по три команды за такт в таких случаях (рис. 2).
Рисунок 2 - Несколько смежных длинных команд ограничивают темп декодирования при выборке 16-байтными блоками
В частности, длина SSE2 - простой инструкции с операндами типа регистр-регистр (например, movapd xmm0, xmm1) - составляет 4 байта. Однако при применении в команде адресных операций обращения к памяти с использованием базового регистра и смещения (например, movapd xmm0, [eax+16]) длина команды увеличивается до 6-9 байт в зависимости от смещения. В 64-битном режиме при использовании дополнительных регистров к коду команды добавляется ещё один однобайтный REX-префикс. Таким образом, в 64-битном режиме длина SSE2-команд может достигать 7-10 байт. Длина SSE1-команды на 1 байт меньше, если это команда векторная (то есть над четырьмя 32-битными значениями), но скалярные (над одним операндом) SSE1-команды также могут достигать длины в 7-10 байт при тех же условиях. Выборка 16 байт за такт не является ограничением в подобной ситуации для процессора K8, так как он всё равно не может декодировать векторные SSE-команды в темпе выше 3 команд за 2 такта, однако для архитектуры K10 16-байтная выборка могла бы стать ограничением, поэтому расширение ширины выборки до 32 байт за такт является обоснованным решением.
2.2 Предсказание переходов
Когда в потоке команд встречаются ветвления, процессор, чтобы не прерывать декодирование, должен попытаться угадать дальнейшее поведение программы и продолжить декодирование с наиболее вероятной ветви. В таких случаях выборка очередного блока инструкций производится с использованием механизма предсказания переходов. Предсказание переходов в процессорах K8 производится по адаптивному двухуровневому алгоритму, который учитывает историю переходов не только текущей инструкции, но и 8 предыдущих инструкций. Основным недостатком механизма предсказания переходов в K8 было отсутствие предсказания косвенных переходов с динамически чередующимися адресами. Косвенными называются переходы, которые производятся по указателю, динамически вычисляемому при выполнении кода программы. Обычно косвенные переходы вставляются компиляторами в конструкции switch-case, а также используются при вызовах функций по адресу и в вызовах виртуальных функций в объектно-ориентированном программировании. Процессор K8 всегда пытается произвести выборку кода по последнему адресу перехода. Если адрес изменился, происходит сброс конвейера. В случае, если адрес перехода периодически чередуется, процессор будет постоянно ошибаться. Механизм предсказания динамически изменяющихся адресов косвенных переходов впервые появился в процессоре Pentium M. Отсутствие такого механизма в K8 снижает его эффективность на объектно-ориентированном коде.
Как и ожидалось, предсказание условных переходов в K10 было усовершенствовано:
Появился механизм предсказания динамически изменяющихся адресов косвенных переходов, которые предсказываются по таблице размером 512 элементов.
Размещено на http://www.allbest.ru/
С 8 до 12 бит увеличен размер глобального регистра истории, который используется для определения истории последовательности предыдущих команд переходов.
С 12 до 24 элементов увеличена глубина стека возврата, который используется для быстрого определения адреса возврата из функции, чтобы продолжить выборку, не дожидаясь, пока команда ret получит адрес возврата из стека.
Благодаря этим усовершенствованиям K10 должен получить ощутимую прибавку в скорости исполнения программ, написанных на объектно-ориентированных языках высокого уровня. К сожалению, объективно оценить эффективность блока предсказания переходов K10 довольно трудно, но по некоторым данным она может в некоторых случаях быть ниже, чем в процессорах Intel.
2.3 Декодирование
Полученные из кэша команд блоки копируются в буфер предекодирования (Predecode/Pick Buffer), где происходит выделение инструкций из блоков, определение их типов и отсылка в соответствующие каналы декодера. Простые инструкции, которые декодируются в одну (Single) или две (Double) макрооперации, отсылаются в "простой" декодер, называемыйDirectPath. Сложные инструкции, которые декодируются в 3 или более макрооперации, отсылаются в микропрограммный декодер, называемый VectorPath.
Рисунок 3 - Декодер
Каждый такт из каналов декодеров могут выходить по 3 макрооперации (МОП). DirectPath-декодером за такт может быть декодировано 3 простых 1-МОПовых инструкции, либо одна 2-МОПовая и одна 1-МОПовая, либо полторы 2-МОПовых инструкции (три 2-МОПовых инструкции за два такта). Сложные инструкции могут декодироваться более чем в 3 МОПа, поэтому декодирование таких инструкций может продолжаться в течение нескольких тактов. Чтобы не создавать конфликтов на выходе из каналов декодера, простые и сложные инструкции в K8 и K10 не могут быть отправлены на декодирование одновременно. МОПы состоят из пары микроопераций (micro-ops): одной микрооперации целочисленной или вещественной арифметики и одной адресной микрооперации обращения к памяти. Выделение микроопераций из МОПов производится планировщиком, который отправляет их на исполнение независимо друг от друга. Выходящие каждый такт из декодера МОПы объединяются в группы по 3. Из-за чередования DirectPath и VectorPath команд или различных задержек в выборке инструкции для декодирования на выходе декодера может сформироваться группа, содержащая 2 или даже всего 1 МОП. Такая группа заполняется до трёх пустыми МОПами и в таком виде отправляется на исполнение. Векторные SSE, SSE2 и SSE3-команды в процессоре K8 разбиваются на пары МОПов, раздельно обрабатывающие старшую и младшую 64-битные половины 128-разрядного SSE-регистра на 64-битных устройствах. Это в два раза снижает темп декодирования команд и в два раза уменьшает количество инструкций, попадающих в очередь планировщика. Благодаря тому, что в процессоре К10 блоки FPU расширены до 128 бит, отпала необходимость дробления векторных SSE-команд на два МОПа. Большинство SSE-инструкций, которые декодировались в K8 как DirectPath Double, в K10 стали декодироваться в 1 МОП как DirectPath Single. Кроме того, часть SSE-инструкций, которые в K8 декодировались через микропрограммный VectorPath-декодер, в K10 стали декодироваться через простой DirectPath-декодер с уменьшением числа генерируемых МОПов до 1 или 2-х МОПов (в зависимости от операции). Также упростилось декодирование целочисленных инструкций работы со стеком. Большинство форм инструкций работы со стеком, которые обычно используются при вызовах функций CALL-RET и PUSH-POP, теперь тоже декодируются простым декодером в один МОП. Кроме того, эти команды теперь при помощи специальной схемы Sideband Stack Optimizerпреобразуются в независимую цепочку макроопераций, которые могут исполняться параллельно.
2.4 Sideband Stack Optimizer (оптимизатор боковой полосы стека)
В K10 к схемам декодера был добавлен специальный блок, называемый Sideband Stack Optimizer. Принцип его действия аналогичен новому блоку Stack Pointer Tracker, применяемому в процессорах Core. Зачем он нужен? В системе команд x86 для вызова функции, выхода из неё, передачи в неё параметров и сохранения содержимого регистров используются команды CALL, RET, PUSH и POP. Все эти команды в неявной форме используют регистр ESP, указывающий на текущее положение стека. Проследить, как исполняются эти команды при вызове функции в K8, можно, представив их декодирование как последовательность эквивалентных элементарных операций изменения регистра стека и загрузки/сохранения:
Как видно из этого примера, при вызове функции команды последовательно меняют регистр ESP, поэтому каждая команда неявно зависит от результата предыдущей. Команды в этой цепочке не могут быть переупорядочены, поэтому тело функции, начиная с команды mov eax, [esp+16], не может начать выполняться до выполнения последней команды PUSH. Блок Sideband Stack Optimizer отслеживает изменение стека и преобразует цепочку в независимую, настраивая смещение каждой команды относительно стека и вставляя операции синхронизации вершины стека (sync-MOP) перед командами, явно использующими регистр стека. Тем самым снимается ограничение на переупорядочивание команд, использующих стек.
Команда mov eax, [esp+16], с которой начинаются вычисления в теле функции в данном примере, зависит только от операции синхронизации вершины стека. Эти операции теперь свободно могут быть выполнены параллельно с другими командами перед ними. Таким образом, скорость передачи параметров и сохранения регистров увеличивается, и при этом тело функции может начать загружать параметры и производить операции с ними ещё до того, как будут завершены передача всех параметров и сохранение регистров. Таким образом, повышение темпа декодирования команд работы со стеком, применение блока Sideband Stack Optimizer, увеличение глубины стека возврата и предсказание чередующихся косвенных переходов в K10 приводят к ощутимому увеличению скорости выполнения кодов, богатых вызовами функций. Декодер процессора K10 не сможет декодировать по 4 команды за такт, как это может делать в благоприятных условиях декодер Core 2, но это не будет являться ограничивающим фактором при исполнении программ. Средний темп исполнения команд практически никогда не достигает 3 команд за такт, поэтому декодер K10 будет достаточно эффективен, чтобы вычислительные блоки не простаивали от нехватки операций в очередях.
2.5 Новые команды
Процессор K10 теперь поддерживает несколько новых команд, расширяющих его возможности.
1. Команды расширенных битовых операций над регистрами общего назначения:
LZCNT - Count Leading Zeros - подсчитывает количество старших нулевых битов в операнде;
Размещено на http://www.allbest.ru/
POPCNT - Bit Population Count - подсчитывает количество единичных битов в операнде.
Размещено на http://www.allbest.ru/
2. Команды обработки SSE-регистров, называемые SSE4a:
EXTRQ - извлекает заданное количество битов из заданной позиции в младшей 64-битной части SSE-регистра;
Размещено на http://www.allbest.ru/
INSERTQ - вставляет заданное количество битов в заданную позицию в младшей 64-битной части SSE-регистра;
MOVNTSS, MOVNTSD - команды потокового (без использования кэш-памяти) сохранения скалярных вещественных значений.
Размещено на http://www.allbest.ru/
Расширение системы команд, называемое SSE4a - самостоятельное, оно никак не пересекается с новыми расширениями Intel, называемыми SSE4.1 и SSE4.2.
3. Архитектура обрабатывающего блока
3.1 Блок управления командами
Декодированные тройки МОПов поступают в блок управления командами (instruction control unit - ICU), который заносит МОПы в буфер переупорядочивания (reorder buffer - ROB). Буфер переупорядочивания состоит из 24 линий по три МОПа. Каждая тройка МОПов записывается в свою линию. Таким образом, ROB позволяет блоку управления отслеживать состояние 72 МОПов вплоть до их отставки. Из буфера переупорядочивания МОПы отсылаются в очереди планировщиков целочисленных и вещественных исполнительных устройств в том порядке, в котором они вышли из декодера. Тройки МОПов продолжают храниться в буфере переупорядочивания до тех пор, пока не будут выполнены и отставлены все более старые операции. Во время отставки производится запись окончательных значений в архитектурные регистры и память. Отставка операций, удаление информации о них из ROB и запись окончательных значений производится в программном порядке, в котором операции поступили в буфер переупорядочивания. Это необходимо для того, чтобы в случае исключения или прерывания отменить результаты всех последующих операций, выполненных во внеочередном порядке.
3.2 Исполнение целочисленных команд
В процессорах K8 и K10 блок целочисленных операций (Integer Execution Unit) состоит из трёх симметричных целочисленных каналов. Каждый из вычислительных каналов имеет свой планировщик с очередью на 8 МОПов, одинаковый набор целочисленных арифметико-логических устройств (ALU), адресных устройств (AGU) и блок условных переходов. Кроме этого, к вычислительному каналу 0 подключён блок умножения, а к вычислительному каналу 2 - блок выполнения новых операций LZCNT и POPCNT (о них ниже).
Рисунок 4 - Блок исполнения целочисленных операций
Выбор очереди для каждого МОПа определяется статическим положением команды в тройке, сформированной на выходе из декодера. Каждая макрооперация из тройки отсылается из буфера переупорядочивания на исполнение в свою очередь, что, с одной стороны, упрощает управление командами, а с другой - может привести к несбалансированной загрузке очередей при неблагоприятном расположении цепочки зависимых операций в коде программы (что, однако, на практике почти не встречается и потому слабо влияет на производительность). Операции умножения и расширенные битовые операции размещаются декодером в нужных слотах троек, чтобы обеспечить их попадание в заданный канал. В очередях планировщиков вычислительных каналов МОПы, как было сказано выше, разбиваются на целочисленные микрооперации и адресные микрооперации обращения к памяти. По мере готовности данных планировщик может запускать на исполнение из каждой очереди одну целочисленную операцию в устройство ALU и одну адресную операцию в устройство AGU. Количество одновременных обращений к памяти ограничено двумя. Таким образом, за каждый такт может запускаться на исполнение 3 целочисленных операции и 2 операции с памятью (64-битного чтения/записи в любой комбинации). Микрооперации из различных арифметических МОПов отправляются на исполнение из очередей по мере готовности данных для них во внеочередном порядке. После того как арифметическая и адресная микрооперации из МОПа выполнены, МОП удаляется из очереди планировщика, освобождая место для следующих операций. В процессоре K8 адресные микрооперации обращения к памяти выбираются в программном порядке. Более поздние по порядку в программе операции обращения к памяти не могут запускаться перед более ранними. Это приводит к тому, что невозможность вычислить адрес для более ранней адресной операции блокирует все последующие адресные операции, даже если все операнды для последующих операций уже готовы. Например: add ebx, ecx mov eax, [ebx+10h] - быстрое вычисление адреса mov ecx, [eax+ebx] - адрес зависит от результата предыдущей команды mov edx, [ebx+24h] - эта команда не будет запущена до тех пор, пока не будут вычислены адреса всех предыдущих команд. Это может приводить к потере производительности и является одним из ограничивающих факторов в процессоре K8, из-за которого на некоторых кодах K8, несмотря на возможность запуска двух команд чтения за такт, исполняет команды обращения к памяти менее эффективно, чем процессор Core 2, запускающий одну команду чтения за такт, но при этом обладающий механизмом спекулятивного внеочередного исполнения команд чтения в обход предшествующих команд чтения и записи. В процессорах архитектуры K10 это узкое место ликвидировано. Процессоры K10 теперь способны не только запускать вне очереди команды чтения, но и запускать команды записи раньше команд чтения в тех случаях, когда процессору известно, что адреса записи и чтения не конфликтуют. Запуск записи в обход чтения позволяет ощутимо ускорить выполнение некоторых видов кодов, например, циклов, начинающихся с команды чтения очередной порции данных из памяти и заканчивающихся сохранением вычисленного результата в память.
3.3 Исполнение вещественных команд
В процессорах K8 и K10 планировщик блока операций с плавающей точкой (FPU) отделён от планировщика целочисленных команд и устроен несколько иначе. Буфер планировщика вмещает до 12 групп по 3 МОПа (36 вещественных операций теоретически). В отличие от блока исполнения целочисленных команд с симметричными вычислительными каналами блок плавающей арифметики содержит три различных устройства: FADD для вещественного сложения, FMUL для вещественного умножения и FMISC (он же FSTORE) для команд сохранения в памяти и вспомогательных операций преобразования, поэтому в буфере планировщика нет привязки положения МОПа в группе команд к конкретному вычислительному устройству (рис. 5).
Рисунок 5 - Блок исполнения операций с плавающей точкой
Каждый такт K8 и K10 могут запускать на исполнение по одной операции в каждое из устройств вещественной арифметики. В процессоре K8 устройства вычислений с плавающей точкой являются 80-битными. Векторные 128-битные SSE-команды разбиваются на этапе декодирования на два МОПа, которые производят операции над 64-битными половинами 128-битного операнда и запускаются на исполнение последовательно в разных тактах. Это не только ограничивает темп выполнения векторных команд, но и практически в два раза уменьшает эффективный объём буфера FPU-планировщика и, следовательно, глубину внеочередного выполнения команд.
В процессоре K10 ширина FPU-устройств увеличилась до 128 бит. K10 обрабатывает векторные 128-битные операнды целиком одной операцией, что увеличивает теоретический темп выполнения векторных SSE-команд в два раза по сравнению с K8. Кроме того, за счёт сокращения вдвое количества МОПов увеличивается эффективная длина очереди планировщика, что позволяет делать более глубокое внеочередное исполнение. В процессоре K8 SSE-команды загрузки выполняются с использованием устройства FSTORE, что, с одной стороны, не позволяет выполнять одновременно другие команды, претендующие на это устройство, а с другой - ограничивает количество одновременно запускаемых команд загрузки до одной. Два параллельных чтения из памяти в K8 может быть выполнено только в том случае, если одна из команд - это инструкция, совмещающая обращение к памяти и операцию с данными (так называемая Load-Execute-команда), например, ADDPS xmm1, [esi]. В процессоре K10 произошло несколько важных усовершенствований механизма исполнения SSE-команд загрузки.
Во-первых, команды загрузки данных больше не используют ресурсы FPU-блока, таким образом, теперь освобождается порт FSTORE для запуска других команд, а команды загрузки могут запускаться по 2 за такт. Во-вторых, в тех случаях, когда данные в памяти выровнены по 16-байтной границе, команды невыровненной загрузки данных MOVU** работают теперь так же эффективно, как и команды выровненной загрузки MOVA**. Таким образом, для процессоров K10 использование команд MOVA** больше не даёт никаких преимуществ. В-третьих, в процессорах K10 применение невыровненных загрузок также теперь разрешено и для Load-Execute-команд, совмещающих загрузку с операцией над данными. Обычно, если нет уверенности в том, что данные в памяти выровнены, компилятор (или программист) использует команды MOVU** для чтения данных в регистры с последующими операциями над регистрами. Использование невыровненных загрузок непосредственно с командами Load-Execute может значительно сократить количество отдельных команд загрузки в коде программы и тем самым увеличить производительность. Поддержка этой возможности должна быть встроена в компиляторы. Вообще говоря, по спецификации SSE, разработанной компанией Intel, обращение Load-Execute-команды по адресу, не выровненному по границе 16 байт, должно приводить к исключению. Для сохранения совместимости со спецификацией разрешение невыровненных загрузок в Load-Execute-командах должно включаться установкой специального флага программным обеспечением, спроектированным и скомпилированным с учётом новых возможностей процессоров.
В-четвёртых, две шины чтения данных из кэша первого уровня в процессоре K10 расширены до 128 бит. Это позволяет процессору выполнять по два чтения 128-битной порции данных каждый такт. Это очень важная особенность архитектуры, так как для параллельного выполнения двух команд нужно 4 операнда (по 2 на команду), а в ряде алгоритмов поточной обработки данных два из четырёх операндов, как правило, считываются из оперативной памяти. Напротив, две шины записи в процессоре K10 по-прежнему остались 64-битными, а 128-битный результат при записи в память разбивается на два 64-битных пакета. Таким образом, процессор может выполнять каждый такт только одну 128-битную запись, или два 128-битных чтения, или одно 128-битное чтение и один 64-битный пакет записи. Однако с учётом того факта, что количество чтений обычно не менее чем в два раза превосходит количество записей, ограничение записи не должно заметно сказываться на эффективности процессора при обработке 128-битных данных. В-пятых, команды копирования 128-битных данных MOV*** регистр-регистр теперь могут исполняться на любом из трёх FPU-устройств, а не только на FADD и FMUL, что также освобождает блоки FADD и FMUL для целевых операций. Как мы видим, FPU-блок процессора K10 стал значительно более гибким. Появились такие уникальные возможности, пока отсутствующие у процессоров Intel, как эффективная невыровненная загрузка, в том числе для Load-Execute-команд, и два 128-битных чтения за такт. В отличие от Core 2, планировщики вещественных и целочисленных операций используют раздельные очереди, что помогает избегать конфликтов операций из-за одних и тех же портов запуска. Однако K10 по-прежнему разделяет устройство FMISC (FSTORE) для операций SSE-сохранения с некоторыми командами преобразования данных, что может в отдельных случаях сказаться на темпе их исполнения. В целом FPU-блок в K10 обещает быть весьма эффективным, по ряду параметров (например, возможности двух 128-битных чтений за такт и эффективной невыровненной загрузке) превосходящим FPU-блок Core 2.
4. Архитектура внутренней памяти
4.1 Устройство загрузки/сохранения
микропроцессор архитектура команда кэш
В процессоре K8 после вычисления на AGU адресов обращения к памяти операции загрузки и сохранения направляются в LSU (Load/Store Unit) - устройство загрузки/сохранения. В LSU находятся две очереди LS1 и LS2. Сначала операции загрузки и сохранения попадают в очередь LS1 глубиной 12 элементов. Из очереди LS1 в программном порядке по две операции за такт производятся обращения к кэш-памяти первого уровня. В случае кэш-промаха операции перемещаются во вторую очередь LS2 глубиной 32 элемента, откуда выполняются обращения к кэш-памяти второго уровня и оперативной памяти. В процессоре K10 в LSU были внесены изменения. Теперь в очередь LS1 попадают только операции загрузки, а операции сохранения направляются в очередь LS2. Операции загрузки из LS1 теперь могут исполняться во внеочередном порядке с учётом адресов операций сохранения в очереди LS2. 128-битные операции сохранения, как было сказано выше, обрабатываются в процессоре K10 как две 64-битные, поэтому в очереди LS2 они занимают по две позиции.
4.2 Кэш первого уровня
Кэш первого уровня в процессорах K8 и K10 раздельный, по 64 КБ для команд (L1I) и для данных (L1D). Ассоциативность кэшей равна двум, размер линии - 64 байта. Низкая ассоциативность может приводить к частым конфликтам строк, претендующих на один набор, что может увеличивать количество кэш-промахов и негативно сказываться на производительности. Низкая ассоциативность частично компенсируется достаточно большим объёмом кэша L1. Большим преимуществом кэша L1D является его двухпортовость - он может обслуживать по две команды чтения и/или записи за такт в любой комбинации. В процессоре K10 размер и ассоциативность кэша первого уровня, к сожалению, остались неизменными. Единственным заметным усовершенствованием кэша первого уровня в K10 стало увеличение разрядности шины данных на чтение. Теперь процессор, как было сказано в предыдущей главе, может производить по два 128-битных чтения каждый такт, что значительно повышает его эффективность при обработке SSE-данных в локальной памяти.
4.3 Кэш второго уровня
В двух- и четырёхъядерных процессорах архитектур K8 и K10 каждое из ядер имеет индивидуальный кэш второго уровня L2. Размер кэша второго уровня в K10 остался равным 512 КБ на каждом из ядер, ассоциативность равна 16. У раздельных кэшей второго уровня есть свои достоинства и свои недостатки по сравнению с общим кэшем второго уровня в процессорах Core 2. К достоинствам можно отнести отсутствие конфликтов и конкуренции за кэш при одновременной интенсивной нагрузке нескольких ядер. К недостаткам - меньший объём кэша, приходящийся на одно ядро при интенсивной работе одной задачи. Кэш L2 имеет эксклюзивную организацию хранения данных: данные в кэше первого и второго уровня не дублируются. Кэши первого и второго уровней обмениваются данными по двум однонаправленным шинам - одной на получение данных, другой на отправку. В процессоре архитектуры K8 ширина каждой шины 64 бита (8 байт) (рис. 5а.). Из-за такой организации процессор получает данные, запрошенные в L2, с невысоким темпом в 8 байт за такт. То есть передача 64-байтной строки занимает 8 тактов, что существенно увеличивает задержку получения данных ядром, особенно при одновременном доступе к двум или более строкам кэша второго уровня. По окончательно не подтверждённой пока информации, в процессоре K10 разрядность шин приёма и передачи увеличилась в 2 раза, то есть до 128 бит каждая (рис. 5б). Это значительно сократит латентность доступа к кэшу при одновременном запросе двух или более строк.
4.4 Кэш третьего уровня
Для компенсации недостаточного объёма индивидуальных кэшей второго уровня в процессоре K10 появился общий для всех ядер кэш третьего уровня L3 объёмом 2 МБ, с ассоциативностью, равной 32. Кэш L3 имеет адаптивную эксклюзивную организацию: в нём хранятся как данные, вытесненные из кэшей L2 всех ядер, так и общие данные, используемые несколькими ядрами. При получении запроса от ядра на чтение строки производится проверка: если строка используется только одним ядром, то она удаляется из L3, освобождая место для строки, вытесняемой из кэша L2 запрашивающего ядра. Если же строка используется и другим ядром, то она останется в кэше; при этом, чтобы освободить место для строки, вытесняемой из кэша L2, из кэша L3 будет удалена другая, более старая строка. Кэш L3 также должен помочь увеличить скорость обмена данными между ядрами. Как мы выяснили ранее, обмен данными между ядрами в современных процессорах Athlon 64 происходит через шину памяти. Это значительно снижает скорость доступа к совместно используемым модифицируемым данным. Согласно материалам AMD, в четырёхъядерных процессорах архитектуры K10 обмен данными между ядрами может происходить через кэш L3. При получении запроса от другого ядра, ядро, хранящее модифицированные данные, копирует их в L3, откуда они будут прочитаны запрашивающим ядром. Скорость доступа к изменённым данным в кэше чужого ядра должна существенно возрасти.
Рисунок 7 - Передача данных между ядрами в процессоре K10
Латентность кэша L3, очевидно, будет выше, чем латентность кэша L2, однако в материалах AMD говорится, что она будет меняться адаптивно в зависимости от нагрузки - при отсутствии большой нагрузки будет лучше латентность, при высокой нагрузке будет увеличиваться темп.
4.5 TLB
Кроме кэш-памяти для команд и данных, в процессорах существует ещё одна разновидность кэш-памяти - буфера трансляции виртуальных адресов в физические (translation-lookaside buffer - TLB). Они используются для хранения соответствия между виртуальными и физическими адресами страниц, полученных по таблицам трансляции страниц. Количество буферов трансляции определяет, как много страниц памяти может быть одновременно использовано без дополнительных дорогостоящих преобразований по таблицам. Это особенно критично для приложений, которые обрабатывают данные памяти в случайном порядке, когда постоянно происходят обращения к данным в разных страницах. В процессоре K10 было существенно увеличено количество буферов трансляции. Для удобства восприятия они сведены в таблицу.
Таблица 1 - Объём TLB процессоров K8 и K10
Как видно из таблицы, существенно увеличено количество буферов, используемых для трансляции адресов 2-МБ страниц, а так же появилась поддержка больших 1-ГБ страниц, которые будут полезны для серверов, обрабатывающих большие объёмы данных. При поддержке со стороны операционной системы приложения, использующие большие 2-МБ и 1-ГБ страницы, смогут получить прирост производительности.
4.6 Контроллер памяти
В тех случаях, когда запрашиваемые данные не были обнаружены в кэшах всех уровней, происходит обращение к контроллеру памяти, интегрированному на кристалл процессора. Интеграция контроллера на кристалле процессора значительно снижает задержки при обращении к памяти и вместе с тем привязывает процессор к конкретному типу памяти, а также увеличивает площадь ядра и добавляет проблем с отбраковкой кристаллов. Контроллер памяти был одной из сильных сторон процессоров K8, однако в некоторых случаях его эффективность была недостаточной. В процессоре K10 контроллер памяти был значительно усовершенствован. Во-первых, он теперь может работать в режиме передачи данных не только по одному 128-битному каналу, но и по двум независимым 64-битным каналам, что делает одновременное обращение к памяти со стороны нескольких ядер более эффективным. Во-вторых, в контроллере был оптимизирован алгоритм планирования и переупорядочивания операций. Контроллер памяти группирует операции чтения и записи таким образом, чтобы наиболее эффективно использовать шину памяти. Операции чтения имеют преимущество перед операциями записи. Данные, предназначенные для записи, откладываются в буфере, объём которого в настоящее время точно не известен, но, по различным данным, лежит в диапазоне от 16 до 30 64-байтных строк. Выгрузка группы из нескольких отложенных строк позволяет значительно сократить расходы на переключение шины памяти с режима чтения на запись и обратно. Это особенно повышает производительность в случае потока чередующихся запросов чтения и записи. В-третьих, контроллер памяти умеет анализировать последовательности запросов и делать предвыборку.
4.7 Предвыборка
Предвыборка не является сильным местом процессоров K8. Интегрированный контроллер памяти с низкой латентностью долгое время позволял процессорам AMD показывать хорошую производительность при работе с памятью. Однако при работе с новой памятью DDR2 процессоры K8 не показали высокую эффективность, в отличие от процессоров Core 2, обладающих мощной системой предвыборки. В процессорах K8 два блока предвыборки - один для кода, другой для данных. Блок предвыборки для данных производит предвыборку в кэш второго уровня по упрощённым последовательностям. В K10 предвыборка была усовершенствована. Во-первых, предвыборка в K10 осуществляется непосредственно в кэш первого уровня, что позволяет скрывать латентность кэша второго уровня при обращении к данным. Хотя это и увеличивает вероятность засорения кэша L1 ненужными данными, особенно учитывая низкую ассоциативность кэша, однако, по утверждению AMD, себя оправдывает и повышает производительность. Во-вторых, был реализован механизм адаптивной предвыборки, который динамически изменяет дистанцию предвыборки таким образом, чтобы обеспечить своевременность прибытия данных и не засорять кэш данными, в которых пока нет необходимости. Гибкость блока предвыборки была увеличена: теперь он может обучаться на запросах к памяти по любым адресам, а не только по адресам, попадающим в смежные строки. Кроме этого, блок предвыборки теперь учитывает программные команды предвыборки. В-третьих, отдельный блок предвыборки был добавлен непосредственно в контроллер памяти. Контроллер памяти анализирует последовательности запросов от ядер и подгружает данные в буфер записи, оптимально используя шину памяти. Хранение строк предвыборки в буфере записи позволяет не засорять кэш-память и при этом значительно сокращать латентность обращения к данным. В итоге мы видим, что подсистема памяти в процессорах K10 претерпела изменения в лучшую сторону. Но всё же надо отметить, что по ряду характеристик она потенциально уступает подсистеме памяти в процессорах Intel. Это отсутствие спекулятивной загрузки в обход записи по ещё неизвестному адресу, более низкая ассоциативность кэша L1D, более узкая (по темпу передачи данных) шина между кэшами L1 и L2, меньший объём L2 и более простая предвыборка. Несмотря на усовершенствования, предвыборка в Core 2 потенциально более мощная, чем у K10: у последнего, например, отсутствует предвыборка по адресам инструкций, позволяющая отслеживать поведение отдельных инструкций, а также предвыборка из L2 в L1, позволяющая эффективно маскировать латентность L2. Эти факторы по-разному могут влиять на разные приложения, но в ряде случаев могут обеспечивать более высокую производительность процессоров Intel.
4.8 Виртуализация
AMD продолжила совершенствовать свою технологию виртуализации, используемую для запуска нескольких операционных систем на одном компьютере. Одним из самых значимых улучшений виртуализации стало использование вложенных таблиц страниц (Nested Paging). В этом режиме таблицы страниц виртуальных машин вложены в глобальную таблицу страниц гипервизора. При отсутствии ссылки на страницу в TLB операции табличного преобразования производятся процессором автоматически, в отличие от "теневого" управления страницами (Shadow Paging), которое требует большого количества ресурсов для управления табличными преобразованиями виртуальных машин.
По некоторым данным, благодаря использованию вложенных таблиц страниц скорость работы приложений в виртуальной машине возрастает до 40 % по сравнению со скоростью исполнения этих приложений при использовании "теневых" таблиц страниц.
5. Масштабируемость
В архитектуре К10 компании AMD наращивание производительности возможно за счёт увеличения количества ядер в процессоре вместе с уменьшением технологического процесса. Однако, к существенному приросту производительности такие действия не приведут в силу предельности возможностей других компонентов архитектуры. Совершенствование этих компонентов предусмотрено в следующем поколении микроархитектуры процессоров компании AMD Fusion, суть которой заключается в объединении центрального многозадачного универсального процессора с графическим параллельным многоядерным процессором в одном кристалле.
Выводы
В большом спектре приложений процессор микроархитектуры К10 способен бороться на равных с одночастотными процессорами Intel и побеждать их. Дополнительный прирост производительности могут получить приложения, написанные с учётом новых уникальных возможностей процессора, таких как эффективная невыровненная загрузка и поддержка больших 1 Гб страниц. Однако в процессоре есть и слабые, по сравнению с процессорами Intel, стороны - это подсистемы кэширования и предвыборки, которые могут оказать отрицательное влияние на производительность в ряде приложений. Но самым главным недостатком в борьбе за высочайшую производительность на стартовом этапе скорее всего станет недостаточно высокая частота.
Библиографический список
1. Микроархитектура K10. URL: http://www.fcenter.ru/online.shtml?articles/hardware/processors/22080
2. AMD K10: Архитектура, маркировка и другие особенности грядущей революции. URL: http://www.mobi.ru/Articles/2580/AMD_K10_arhitektura_markirovka_i_drugie_osobennosti_gryadushei_revolyucii.htm
3. K10. Википедия. URL: http://ru.wikipedia.org/wiki/K10
Размещено на Allbest.ru
Подобные документы
Организация современного микропроцессора. Кэш инструкций в традиционных процессорах. Предсказание адреса и направления переходов. Выборка и декодирование инструкций. Intel Pentium III, Pentium M и Core Duo, AMD Athlon 64/Opteron (K8), IBM PowerPC 97027.
контрольная работа [235,5 K], добавлен 11.01.2012Классификация параллельных ВС. Системы с общей и распределенной памятью. Конвейеры операций. Производительность идеального конвейера. Суперскалярные архитектуры. VLIW-архитектура. Предсказание переходов. Матричные процессоры. Законы Амдала и Густафсона.
курсовая работа [810,9 K], добавлен 03.10.2008Внутренняя архитектура микропроцессора Intel 486. Формат данных и команд. Регистры общего назначения. Программная модель устройства FPU, регистр флагов. Разработка структуры и микропрограммы микропроцессора, управляющего автомата с жесткой логикой.
курсовая работа [1,6 M], добавлен 27.05.2013Функциональная схема микропроцессора Intel 8086 (i8086). Формирование физического адреса памяти, выборка команд из памяти и запись их в очередь команд. Система команд процессора. Суть защищенного режима, переход из защищенного режима в реальный режим.
практическая работа [93,3 K], добавлен 24.03.2013Виды информации и формы ее представления. Системы счисления, используемые в ЭВМ. Типы операционных элементов. Понятие архитектуры ЭВМ. Организация системы памяти. Принцип программного управления. Синхронный конвейер команд, оценка его производительности.
шпаргалка [1,7 M], добавлен 04.06.2013Магистрально-модульный принцип построения архитектуры современных персональных компьютеров. Рассмотрение основных микросхем чипсета: контроллер-концентратор памяти и ввода-вывода. Рассмотрение пропускной способности и разрядности системной шины памяти.
презентация [2,3 M], добавлен 13.10.2015Архитектура современного персонального компьютера. Виды и характеристики центральных и внешних устройств ЭВМ. Структурная и функциональная схемы персонального компьютера. Устройства для ввода информации в системный блок и для отображения информации.
курсовая работа [592,5 K], добавлен 18.01.2012Средства поддержки сегментации памяти. Сегментно-страничный механизм. Средства вызова подпрограмм и задач. Новая архитектура Pentium 4. Как работают современные процессоры. Конвейерная архитектура: плюсы и минусы, проблемы и решения.
реферат [221,0 K], добавлен 06.04.2003Разработка структурной схемы процессора; синтез микропрограммного и управляющего автомата с жесткой логикой. Функциональная организация процессора: программные модели, форматы данных и команд. Организация оперативной памяти. Проектирование блока операций.
учебное пособие [1,1 M], добавлен 09.04.2013Отличительные особенности микроконтроллеров AVR семейства Mega. Характеристики процессора, подсистемы ввода-вывода. Архитектура ядра и организация памяти. Регистры общего назначения. Алгоритмы моделирования команд. Реализация модели внешнего устройства.
курсовая работа [3,7 M], добавлен 24.06.2013