Официальный сайт студ.городка НГТУ
Статьи и новости » [Наука и Техника] Платформа AMD Dragon: дебют процессоров Phenom II X4 

#1  11.01.09 13:45

[Наука и Техника] Платформа AMD Dragon: дебют процессоров Phenom II X4

Платформа AMD Dragon: дебют процессоров Phenom II X4
Авторы:Владимир Романченко, Дмитрий Софронов

11.01.2009 l http://www.3dnews.ru/cpu/phenom_two/

http://hostel.nstu.ru/uploaded/gallery/17847_1231654526.jpg



Только что в рамках выставки CES 2009 в Лас-Вегасе компания AMD официально анонсировала новую программно-аппаратную платформу для настольных ПК - AMD Dragon, и вместе с этим были представлены первые процессоры для настольных ПК нового поколения - AMD Phenom II X4.

Сегодня мы представляем вниманию наших читателей полный обзор платформенной технологии Dragon и процессоров AMD Phenom II X4. Обзор состоит из двух основных частей. В первой части мы ознакомим вас с особенностями новой платформы, архитектурными усовершенствованиями новых процессоров AMD Phenom II X4, сравним сегодняшние инновации с предыдущим поколением технологий AMD и приведём спецификации новинок.

Во второй части мы представим вашему вниманию подробные исследования новой платформы, сравнения её возможностей с флагманом предыдущего поколения AMD и с современными платформами Intel.

Платформа AMD Dragon

http://hostel.nstu.ru/uploaded/gallery/17847_1231654781.jpg



Представленная сегодня платформа AMD Dragon приходит на смену анонсированной в ноябре 2007 года платформе AMD Spider, подробно описанной в нашей статье AMD Spider: процессоры Phenom, чипсеты 7-Series и не только. Именно тогда впервые был озвучен новый процессорный бренд AMD Phenom, именно тогда мы узнали об актуальной доселе линейке наборов логики Series 7, куда, в том числе, входит флагманский чипсет AMD 790FX.

http://hostel.nstu.ru/uploaded/gallery/17847_1231654887.jpg



Первым делом стоит подчеркнуть, что в полной аналогии с платформенной технологией AMD Spider, новая платформа AMD Dragon для настольных ПК также позиционируется как система для энтузиастов. Отныне Dragon – это наиболее производительная платформа на компонентах AMD. Чуть позже – во второй половине 2009, бизнес-системы AMD переберутся на новую DDR3/AM3 платформу Kodiak; для бытовых ПК будут предлагаться DDR3/AM3 платформы AMD Maui и AMD Pisces (впрочем и Dragon к тому времени будет заменён на DDR3/AM3 платформу Leo).

http://hostel.nstu.ru/uploaded/gallery/17847_1231654990.jpg



За время своего существования платформенная технология AMD Spider отнюдь не пребывала в законсервированном виде. Так, последовательно появлялись новые 65-нм многоядерные процессоры AMD Phenom, включая 4-ядерные, под процессорный разъём Socket AM2+; графические чипы семейства ATI Radeon HD 3800 постепенно эволюционировали до современной серии Radeon HD 4800; и только чипсеты семейства AMD 7 Series остаются актуальными до сих пор. Платформа Spider изначально поддерживала такие технологии как CrossFireX, AMD OverDrive, Microsoft DirectX 10.1, ATI PowerPlay, Cool’n’Quiet 2.0, HyperTransport 3.0 и PCI Express 2.0, полноценное HD видео.

Платформенная технология AMD Dragon состоит из трёх ключевых элементов – процессоров, наборов логики и графических карт. Ключевым обновлением, разумеется, выступает новое поколение 4-ядерных процессоров AMD Phenom II X4, выполненных с соблюдением норм 45-нм технологического процесса. По этой причине архитектурные особенности этих процессоров будут рассмотрены подробнее в этой статье несколько ниже.

Наборы логики - чипсеты семейства AMD 7 Series, полностью унаследованы от платформы Spider. Более того, именно эти чипсеты скорее всего будут фигурировать и в более поздних платформах, когда будут представлены процессоры под разъём AM3 с поддержкой памяти DDR3.

Платформа AMD Dragon унаследовала ключевые характеристики предыдущего поколения платформенной технологии Spider в улучшенном виде и обзавелась рядом новых функций.

http://hostel.nstu.ru/uploaded/gallery/17847_1231655113.jpg



Наконец, современная графика семейства Radeon HD 4800 также в какой-то мере унаследована от платформы Spider и некоторое время будет оставаться наиболее производительным графическим предложением AMD для настольных ПК.

Совокупность возможностей всех компонентов платформы позволяет говорить о следующих новшествах, реализованных в AMD Dragon:

    * Оптимизация системы с помощью ПО AMD OverDrive 3.0
    * Архитектурные усовершенствования процессоров AMD Phenom II X4 и 45-нм техпроцесс позволяют гибко настраивать производительность системы
    * The Ultimate Visual Experience для HD развлечений и игр – благодаря поддержке последних графических решений AMD включая Radeon HD 4870 X2 с 1600 потоковыми процессорами, 2 Гб памяти GDDR5 и производительностью до 2,4 teraFLOPS, появляется возможность высококачественного воспроизведения Blu-Ray контента и HD видеоигр
    * Улучшенный антиалиазинг и анизотропная фильтрация - до 24x CFAA (Custom Filter AA)
    * Поддержка DirectX 10.1
    * Технология ATI CrossFireX
    * Технология ATI Avivo HD
    * Технология PCI Express 2.0

Однако для выяснения ключевых архитектурных особенностей новой платформы AMD Dragon нам будет достаточно подробным образом ознакомиться с характеристиками процессоров семейства AMD Phenom II X4 и их отличиями от предыдущей процессорной архитектуры.

Процессоры AMD Phenom II X4

http://hostel.nstu.ru/uploaded/gallery/17847_1231655367.jpg



В отличие от предыдущего поколения 65-нм процессоров AMD Phenom (K10) под кодовым названием Agena, реализованного на базе общей микропроцессорной архитектуры Barcelona, новые процессоры AMD Phenom II X4 (Deneb) базируются на новом поколении микропроцессорной архитектуры Shanghai с расширениями STARS.

Сегодня – на момент анонса новой платформы AMD Dragon, представлены два новых процессора AMD Phenom II X4 для настольных систем – с индексами 940 и 920.

http://hostel.nstu.ru/uploaded/gallery/17847_1231655517.jpg



Техпроцесс с применением 45-нм норм и технологии "кремний-на-изоляторе" (Silicon on Insulator, SOI). В сравнении с предыдущим поколением процессоров AMD, выполненным с соблюдением норм 65-нм техпроцесса с SOI, новые процессоры изготавливаются с применением 45-нм техпроцесса с SOI, с использованием иммерсионной (с погружением в жидкость) литографии. Благодаря применению более прецизионного техпроцесса и ряда схемотехнических инноваций удалось снизить термопакет процессоров при более высоких тактовых частотах, снизить энергопотребление процессора в ждущем режиме примерно на 35%.

Благодаря применению нового 45-нм техпроцесса также удалось улучшить геометрические показатели процессоров. Так, теперь 758 млн. транзисторов, из которых состоят процессоры семейства AMD Phenom II X4, размещаются на площади кристалла всего 258 мм .

http://hostel.nstu.ru/uploaded/gallery/17847_1231655882.jpg



Увеличение кэша L3 до 6 Мб (Предыдущее поколение - 2 Мб). В новых процессорах кэш L2 составляет 512 Кб х 4 для 4-ядерных и 512 Кб х 3 для 3-ядерных процессоров; кэш L1 (данные + инструкции) - 64 Кб + 64 Кб на каждое ядро. Таким образом, получается комбинация кэшей L1/L2 с увеличенной втрое распределённой кэш-памятью L3. Такая организация кэш-памяти позволяет значительно уменьшить латентность при доступе к кэш-памяти L2 при сохранении быстрого доступа к кэшу L3. Нововведение должно сказаться на общем росте производительности процессора за счёт заметном улучшенной работы с многопоточными и многозадачными приложениями, поскольку каждое ядро имеет собственный кэш L2 и может обращаться к большому распределённому кэшу L3.

Встроенный двухканальный контроллер памяти DDR2 с пропускной способностью до 17,1 Гб/с поддерживает модули памяти: PC2 8500 (DDR2-1066), PC2 6400 (DDR2-800), PC2 5300 (DDR2-667), PC2 4200 (DDR2-533), PC2 3200 (DDR2-400) unbuffered.

"Разлоченный" множитель процессора AMD Phenom II X4 940 Black Edition при работе совместно с соответствующими системными платами позволяет изменять множитель и экспериментировать со скоростными и нагрузочными характеристиками системы в широких пределах.

Технология Cool'n'Quiet 3.0 в сочетании с энергоэффективным 45-нм дизайном процессоров AMD Phenom II X4 предоставляет значительные возможности экономии расхода энергии. Согласно официальным заявлениям AMD, новая версия технологии энергосбережения на 50% эффективнее нежели предыдущая версия Cool'n'Quiet 2.0.

Совместимость. Процессоры AMD Phenom II X4 используют ту же инфраструктуру, что и предыдущее поколение процессоров AMD Phenom X4, тот же 940-контактный процессорный разъём micro Pin Grid Array (microPGA) Socket AM2+. Это позволяет легко произвести апгрейд уже имеющийся системы: для работы с чипами AMD Phenom II X4 скорее всего придётся всего лишь скачать новую прошивку BIOS для имеющейся системной платы и сверится, поддерживает ли эта плата процессоры с TDP 125 Вт.

http://hostel.nstu.ru/uploaded/gallery/17847_1231656123.jpg



Технология Smart Fetch за счёт интеллектуальной регулировки объёма загрузки кэшей позволяет в некоторых режимах снизить суммарное энергопотребление кэшей L1/L2/L3 до 21%.

Технология HyperTransport 3.0, знакомая нам по предыдущей архитектуре, также трудится в новых процессорах AMD Phenom II X4. Также в этой архитектуре реализована хорошо известная по прежним дизайнам Архитектура AMD64 with Direct Connect.

http://hostel.nstu.ru/uploaded/gallery/17847_1231656288.jpg



С точки зрения внутренней схемотехники новой микроархитектуры, следует отметить, что 4-ядрные процессоры Phenom II X4 полностью и почти без изменений (без радикальных изменений) унаследовали весь список архитектурных улучшений STARS, впервые реализованных в архитектуре Barcelona (Agena). Это относится к 128-битному контроллеру памяти с поддержкой до DDR2-1066 с возможностью работы в 2-канальном 64-битном режиме для независимого выполнения операций записи и чтения памяти; физическое адресное пространство при этом увеличилось до 48 бит, а поддержка памяти до 256 Тб.

Это относится к планировщику задач с плавающей запятой Wide Floating Point Accelerator, поддерживающему 36 новых 128-битных операций, и к поддержке 128-битных операций SSE в дополнение к возможностям прежней 64-битной архитектуры. Процессоры также способны обрабатывать до двух операций SSE и одного SSE переноса за такт.

Буфер модуля выборки инструкций у процессоров Phenom II X4 имеет 32-байтную структуру, а модуль предсказания ветвлений обладает 512-ходовым предсказанием непрямых ветвлений. Производительность кэша данных увеличена с одной 64-битной загрузки за такт до одной 128-битной загрузки за такт, а производительность кэша данных L2 - контроллера памяти увеличена до 128-битной загрузки за такт.

Также в новых процессорах реализована поддержка технологии AMD Virtualization Technology с функцией быстрой индексации Rapid Page Indexing, и поддержка системы динамического управления тактовой частотой по каждому ядру.

В заключение, переходя к сугубо прикладным аспектам сегодняшнего анонса, то есть, к тестированию реальной системы на базе процессора Phenom II X4, хотелось бы упомянуть о политике позиционирования компанией AMD новой платформы Dragon.

http://hostel.nstu.ru/uploaded/gallery/17847_1231656418.jpg



Как и в предыдущем случае Spider, компания AMD делает акцент на доступность своей платформы. К примеру, в официальных документах упоминается оптовая цена процессора Phenom II X4 940 на уровне $275, и этот фактор вкупе с доступной стоимостью остальных компонентов платформы подаётся как значительное преимущество перед конкурентами. Говоря иными словами, даже если в каких-то приложениях процессору процессора Phenom II X4 не хватит производительности для чемпионских лавров, AMD "намекает" на сравнение ценников чипов схожей производительности.

http://hostel.nstu.ru/uploaded/gallery/17847_1231656589.jpg



Что ж, при подведении итогов мы обязательно учтём эти тактичные намёки.

Как и что мы тестировали

В процессе тестирования мы сравнивали четыре различных платформы – две на процессорах AMD, включая систему на AMD Phenom II X4 940, и две на процессорах Intel. Именно такие системы показались нам наиболее показательными для оценки типичных возможностей современных конфигураций настольных ПК производительного класса.

[img]Результаты тестирования[/img]

Для начала познакомимся с результатами утилиты CPU-Z, определяющей спецификации и основные рабочие характеристики процессора, системной платы и системной памяти.

http://hostel.nstu.ru/uploaded/gallery/17847_1231657243.gif



http://hostel.nstu.ru/uploaded/gallery/17847_1231657259.gif



Утилита CPU-Z версии 1.49 (декабрь 2008) абсолютно корректно определяет все параметры процессора AMD Phenom II X4 940, включая рабочее название серии и разъём. Несколько странно выглядит ревизия степпинга процессора - RB-C2. Пожалуй, наиболее достоверным будет предположение о том, что литерами RB (Re-Build?) отметили редизайн ядра Agena, перенос его на нормы 45-нм техпроцесса, в результате чего и получился Deneb.

http://hostel.nstu.ru/uploaded/gallery/17847_1231657397.gif



http://hostel.nstu.ru/uploaded/gallery/17847_1231657415.gif



http://hostel.nstu.ru/uploaded/gallery/17847_1231657437.gif



Улучшения тех.процесса весьма положительно сказалось на разгонном потенциале новых процессоров AMD, чем они не могли похвастаться в последнее время, с трудом преодолевая планку частоты в 3 ГГц. Как вы уже видели в наших новостях, процессоры Phenom II способны разгоняться выше частоты 4 ГГц, при соответствующем охлаждении. Экземпляр, попавший к нам в лабораторию, к сожалению, на частоте 4 ГГц вел себя несколько нестабильно, поэтому для оценки масштабируемости производительности Phenom II по частоте мы решили остановиться на отметке 3,6 ГГц, на которой процессор вел себя абсолютно стабильно. Что касается увеличения напряжения на ядре, то процессор спокойно выдерживал поднятие VCore до уровня 1,7 В (со штатных 1,35 В). Впрочем, тонкости разгона нам еще предстоит изучить и, вполне возможно, потенциал разгона нашего экземпляра процессра окажется выше.

Тестируем испытуемую и контрольные системы традиционным комплексом бенчмарков Everest.

http://hostel.nstu.ru/uploaded/gallery/17847_1231657675.png



В этом тесте результаты процессоров Phenom и Intel Core 2 Quad практически одинаковы, их разница не превышает 3%. Безусловным лидером является Intel Core i7 965 Extreme, эффективность контроллера памяти которого вне конкуренции.

http://hostel.nstu.ru/uploaded/gallery/17847_1231657811.png



При записи в память новый Phenom показывает значительную прибавку в скорости по сравнению с предшественником – порядка 20%. Однако это все же не позволяет ему значительно приблизиться к результатам Intel Core 2 Quad, не говоря уже о вдвое лукчших результатах Intel Core i7 965 Extreme.

http://hostel.nstu.ru/uploaded/gallery/17847_1231657913.png



Первенство Intel Core i7 965 Extreme по-прежнему неоспоримо, ну а во втором дивизионе победа остается за AMD Phenom. Что интересно, здесь разогнанный Phenom показал несколько меньшие результаты, чем при работе в штатном режиме. Intel Core 2 Quad тут выглядит явным аутсайдером. Впрочем, к самому тесту можно предъявить претензии - если скорости чтения и записи не превышают 8000 Мб/с, как скорость копирования может быть выше 9000 МБ/с? Вероятно, данный синтетический тест не учитывает наличие в процессорах кэш-памяти третьего уровня и работает несколько некорректно.

http://hostel.nstu.ru/uploaded/gallery/17847_1231658025.png



Результаты теста латентности оперативной памяти вполне предсказуемы. Благодаря невероятной эффективности встроенного контроллера памяти, в лидерах находится Intel Core i7 965 Extreme. За ним плотной группой разместились результаты процессоров AMD Phenom, ну а замыкает «забег» процессор Intel Core 2 Quad, вынужденный общаться с оперативной памятью через чипсет.

http://hostel.nstu.ru/uploaded/gallery/17847_1231658128.png



В данном тесте мы не видим значительных преимуществ блока ALU процессора Phenom II по сравнению с предшественником. Разгон до частоты 3,6 ГГц показывает неплохую масштабируемость результатов Phenom II, но даже в этом случае его результаты лишь сравниваются с результатами Intel Core 2 Quad, работающего на частоте 3,0 ГГц. Ну а впереди планеты всей, как обычно - Intel Core i7 965 Extreme.

http://hostel.nstu.ru/uploaded/gallery/17847_1231658251.png



В тесте Everest PhotoWorxx новый Phenom наконец-то празднует победу. Почти полуторакратное преимущество по сравнению с предшественником, скорее всего, обусловлено значительно возросшим объемом кэш-памяти третьего уровня. Видимо, по этой же причине (а вернее - из-за отсутствия L3 кэш-памяти) Intel Core 2 Quad значительно отстает от всех остальных участников тестирования. Ну а впереди снова Intel Core i7 965 Extreme, у которого и контроллер памяти трехканальный с низкой латентностью, и кэш-памяти L3 в избытке.

http://hostel.nstu.ru/uploaded/gallery/17847_1231658370.png



В тесте Everest Z-lib ситуация напоминает предыдущую, разве что разрыв в результатах выражен не столь сильно.

http://hostel.nstu.ru/uploaded/gallery/ … 658467.png

В данном тесте хорошо заметно преимущество нового Phenom по сравнению со «старым» вариантом, однако результаты новинки все же чуть не дотягиваются до результатов Intel Core 2 Quad 9300, работающего на той же частоте.

http://hostel.nstu.ru/uploaded/gallery/17847_1231658566.png



А вот в тесте Everest FPU Julia ситуация кардинально меняется. Процессоры Phenom ничего не могут противопоставить мощным блокам FPU процессоров Intel, и даже разгон не спасает их от поражения.

http://hostel.nstu.ru/uploaded/gallery/17847_1231658691.png



В тесте Everest FPU Mandel процессоры Phenom опять показывают близкие результаты и несколько отстают от Core 2 Quad 9300, работающего на той же частоте. Впрочем, благодаря неплохой масштабируемости при разгоне, ситуацию можно поправить.

http://hostel.nstu.ru/uploaded/gallery/17847_1231658775.png



В тесте Everest FPU SinJulia ситуация аналогична предыдущей.

Теперь переходим к тестированию синтетическим пакетом 3DMark Vantage.

http://hostel.nstu.ru/uploaded/gallery/17847_1231658991.png



http://hostel.nstu.ru/uploaded/gallery/17847_1231659135.png



http://hostel.nstu.ru/uploaded/gallery/17847_1231659059.png



В CPU-тестах 3DMark Vantage лидерство захватывают процессоры Intel. Что касается процессоров AMD, то некоторое улучшения результатов Phenom нового поколения определенно присутствует. Посмотрим на данные тесты более подробно.

http://hostel.nstu.ru/uploaded/gallery/17847_1231659285.png



Данный тест представляет собой набор различный операций по преобразованию изображений в графическом пакете Paint.Net. Оценивается общее время выполнения теста, соотвественно, чем оно меньше, тем результат лучше. Как видите, и здесь процессорам AMD тяжело соперничать с процессорами Intel, хотя второе поколение Phenom и показывает несколько лучшие результаты по сравнению с первым.

http://hostel.nstu.ru/uploaded/gallery/17847_1231659380.png



Во встроенном тесте производительности WinRar процессоры AMD, напротив, показывают вполне замечательные результаты и уверенно обгоняют Core 2 Quad 9300 при равной тактовой частоте. По всей видимости, сказывается встроенный контроллер памяти и наличие большого объема кэш-памяти третьего уровня. В силу этих же причин результаты процессора Intel Core i7 965 Extreme улетают в заоблачные выси.

http://hostel.nstu.ru/uploaded/gallery/17847_1231659504.png



Однако в CPU-тестах Cinebench, которые заключаются в рендеринге изображения силами центрального процессора, большее значение имеет производительность блоков FPU. По этой причине процессоры Intel снова оказываются вне досягаемости.

Ну и, наконец, CPU-тесты в игре Crysis. Тестирование проводилось при разрешении экрана 1024х768 точек без полноэкранного сглаживания и анизотропной фильтрации, чтобы влияние видеокарты по возможности было минимальным. Тем не менее, мы прогнали тесты во всех четырех основных режимах качества графики – Low, Medium, High и VeryHigh, поскольку увеличение «тяжести» графического режима включает «разрушаемость» объектов в игре и, тем самым, приводит к увеличению нагрузки на CPU в части расчета «физики».

http://hostel.nstu.ru/uploaded/gallery/17847_1231659597.png



Как видно из диаграммы, при настройках качества графики «Low» впереди оказываются результаты процессоров Intel. В более «тяжелых» графических режимах разница в результатах резко уменьшается. Однако можно отметить, что Phenom II чувствует себя более уверенно, по сравнению с предшественником, работающим на той же частоте. И даже более того – в состоянии обогнать Core 2 Quad 9300 при равных частотах.

Итоги

Итак, дебют новых процессоров Phenom II X4 можно назвать удачным, а массовый переход процессорной технологии компании AMD на нормы нового 45-нм техпроцесса состоявшимся. В этом плане блин отнюдь не оказался комом.

В большинстве тестовых дисциплин новый "десктопный" флагман Phenom II X4 940 относительно предыдущего поколения процессоров AMD показывает достойные результаты даже без дополнительного "разгона". В целом новую платформу AMD Dragon можно назвать состоявшимся и вполне конкурентоспособным решением.

И всё же новое поколение процессоров Phenom II X4 пока отстаёт от конкурентов семейства Intel Core i7. Анализируя выше привёденные результаты тестирования, особенно в части производительности подсистемы памяти, напрашиваются выводы о том, что несмотря на всю привлекательность использования модели интегрированного контроллера памяти, одним этим уже не добиться первенства. Конкурент также перешёл к использованию интегрированного контроллера памяти, однако совместил это с переходом на более масштабируемую память DDR3.

С учётом того, что во втором полугодии 2009 процессоры с ядром Deneb планируют обзавестись поддержкой DDR3, мы имеем шансы увидеть определённый дополнительный прогресс производительности процессоров AMD. К тому же стоит учитывать, что к этому времени ядро Deneb успеет сменить несколько степпингов, которые, скорее всего, будут содержать в себе элемент "тюнинга" схемотехники чипов, или, если угодно, "работы над ошибками". Тем более что задел, взятый сегодня процессором Phenom II X4 940, можно назвать достойным, а тактику увеличения объёма кэш-памяти 3 уровня – правильной.

Какая маркетинговая тактика компании AMD с новой платформой Dragon и новыми процессорами Phenom II X4 в частности была бы разумной? Да, именно разумная ценовая политика может принести достойные плоды. Изначально продвигая процессоры Phenom II X4 по цене ниже $300 (Phenom II X4 940 - $275; Phenom II X4 920 - $235), да ещё и ориентируясь на очень доступную нынче память DDR2, компания AMD может рассчитывать на определённо высокие объёмы продаж, особенно во времена когда деньги очень любят счёт. Тем более что нынешняя платформа в целом получилась достаточно удачной, а для перехода на эту платформу для увеличения производительности достаточно всего лишь на всего купить процессор Phenom II X4, а не менять всю платформу целиком, как в случае с Intel Core i7.

P.S.

Не получилось вставить таблицу с конфигурацией тестовых машин :(. А так довольно не плохая и производительная система за небольшие деньги.

Offline

#2  11.01.09 16:04

Re: [Наука и Техника] Платформа AMD Dragon: дебют процессоров Phenom II X4

ну вообщем-то довольно предсказуемые результаты. амд перевела К10 на новый техпроцесс, исправила ошибки, докрутила частот и L3 и получился Phenom II. прибавка к производительности обусловлена этим экстенсивным путем. первенство интел обусловлено новой архитектурой, 3хканальной ддр3 и некоторыми другими фишками в микроархитектуре.
зы. на последнем слайде производительность систем уперлась в HD4870. с другой картой итог был бы другой

Offline

#3  11.01.09 19:31

Re: [Наука и Техника] Платформа AMD Dragon: дебют процессоров Phenom II X4

Laks написал(а):

зы. на последнем слайде производительность систем уперлась в HD4870. с другой картой итог был бы другой

ага - немного притянуто, учитывая возможные заточки радеонов и амд - теперь одна контора. есть мнение, что наивысшее качество на радеонах слегонца попроще, чем на жифорсах

Offline

#4  11.01.09 19:35

Re: [Наука и Техника] Платформа AMD Dragon: дебют процессоров Phenom II X4

Там один Radeon HD 4870X2, если бы была связка из 2-х и более (CrossFire X), то тогда бы можно было проверить, не упирается ли в процессор...

Offline

#5  11.01.09 19:51

Re: [Наука и Техника] Платформа AMD Dragon: дебют процессоров Phenom II X4

более 2х 4870х2 нельзя включить, даже если есть слоты, тк дрова еще не поддерживают такие конфигурации

Offline

#6  12.01.09 20:22

Re: [Наука и Техника] Платформа AMD Dragon: дебют процессоров Phenom II X4

Как они это делают? Как вообще можно сделать ПРОЦЕССОР? о_0

Offline

#7  12.01.09 20:39

Re: [Наука и Техника] Платформа AMD Dragon: дебют процессоров Phenom II X4

Как создаются процессоры Intel
12.01.2009 l http://www.aura.ru/techinfo/techlab/techlab26.html

Кремний - основа всех микропроцессоров Intel

Микропроцессор - это интегральная схема, сформированная на маленьком кристалле кремния. Кремний применяется в микросхемах в силу того, что он обладает полупроводниковыми свойствами: его электрическая проводимость больше, чем у диэлектриков, но меньше, чем у металлов. Кремний можно сделать как изолятором, препятствующим движению электрических зарядов, так и проводником - тогда электрические заряды будут свободно проходить через него. Проводимостью полупроводника можно управлять путем введения примесей.
Микропроцессор содержит миллионы транзисторов, соединенных между собой тончайшими проводниками из алюминия или меди и используемых для обработки данных. В результате микропроцессор выполняет множество функций.

Производство микропроцессоров: триста операций от старта до финиша

Изготовление микропроцессора - это сложнейший процесс, включающий более 300 этапов. Микропроцессоры формируются на поверхности тонких круговых пластин кремния - подложках, в результате определенной последовательности различных процессов обработки с использованием химических препаратов, газов и ультрафиолетового излучения.
Подложки обычно имеют диаметр 200 миллиметров, или 8 дюймов. Однако корпорация Intel планирует переход на пластины диаметром 300 мм, или 12 дюймов. Пластины изготавливают из кремния - основного компонента, например, обычного песка на пляже, - который очищают, плавят и выращивают из него длинные цилиндрические кристаллы. Затем кристаллы разрезают на тонкие пластины и полируют их до тех пор, пока их поверхности не станут зеркально гладкими и свободными от дефектов.
В процессе изготовления микросхем на пластины-заготовки наносят в виде тщательно рассчитанных рисунков тончайшие слои материалов. На одной пластине помещается до нескольких сотен микропроцессоров, для изготовления которых требуется совершить более 300 операций. Весь процесс производства процессоров можно разделить на несколько этапов: выращивание диоксида ремния и создание проводящих областей, тестирование, изготовление корпуса и доставка.

Выращивание диоксида кремния и создание проводящих областей

Процесс производства микропроцессора начинается с "выращивания" на поверхности отполированной пластины изоляционного слоя диоксида кремния. Осуществляется этот этап в электрической печи при очень высокой температуре. Толщина оксидного слоя зависит от температуры и времени, которое пластина проводит в печи.
Затем следует фотолитография - процесс, в ходе которого на поверхности пластины формируется рисунок-схема. Сначала на пластину наносят временный слой светочувствительного материала - фотослой, на который с помощью ультрафиолетового излучения проецируют изображение прозрачных участков шаблона, или фотомаски. Маски изготавливают при проектировании процессора и используют для формирования рисунков схем в каждом слое процессора. Под воздействием излучения засвеченные участки фотослоя становятся растворимыми, и их удаляют с помощью растворителя, открывая находящийся под ними диоксид кремния.
Открытый диоксид кремния удаляют с помощью процесса, который называется "травлением". Затем убирают оставшийся фотослой, в результате чего на полупроводниковой пластине остается рисунок из диоксида кремния. В результате ряда дополнительных операций фотолитографии и травления на пластину наносят также поликристаллический кремний, обладающий свойствами проводника. В ходе следующей операции, называемой "легированием", открытые участки кремниевой пластины бомбардируют ионами различных химических элементов, которые формируют в кремнии отрицательные и положительные заряды, изменяющие электрическую проводимость этих участков.
Наложение новых слоев с последующим травлением схемы осуществляется несколько раз, при этом для межслойных соединений в слоях оставляются "окна", которые заполняют металлом, формируя электрические соединения между слоями. В своем 0.13-микронном технологическом процессе - самом современном на сегодняшний день - корпорация Intel применила медные проводники. В 0.18-микронном производственном процессе и процессах предыдущих поколений Intel применяла алюминий. И медь, и алюминий - отличные проводники электричества.
Каждый слой процессора имеет свой собственный рисунок, в совокупности все эти слои образуют трехмерную электронную схему. Нанесение слоев повторяют 20 - 25 раз в течение нескольких недель. В результате на поверхности пластины образуются "небоскребы" из нанесенных слоев.

Тестирование

Чтобы выдержать воздействия, которым подвергаются подложки в процессе нанесения слоев, кремниевые пластины изначально должны быть достаточно толстыми. Поэтому прежде чем разрезать пластину на отдельные микропроцессоры, ее толщину с помощью специальных процессов уменьшают на 33% и удаляют загрязнения с обратной стороны. Затем на обратную сторону "похудевшей" пластины наносят слой специального материала, который улучшает последующее крепление кристалла к корпусу. Кроме того, этот слой обеспечивает электрический контакт между задней поверхностью интегральной схемы и корпусом после сборки.
После этого пластины тестируют, чтобы проверить качество выполнения всех операций обработки. Чтобы определить, правильно ли работают процессоры, проверяют их отдельные компоненты. Если обнаруживаются неисправности, данные о них анализируют, чтобы понять, на каком этапе обработки возник сбой.
Затем к каждому процессору подключают электрические зонды и подают питание. Процессоры тестируются компьютером, который определяет, удовлетворяют ли характеристики изготовленных процессоров заданным требованиям.

Изготовление корпуса

После тестирования пластины отправляются в сборочное производство Intel, где их разрезают на маленькие прямоугольники, каждый из которых содержит интегральную схему. Для разделения пластины используют специальную прецизионную пилу. Неработающие кристаллы отбраковываются.
Затем каждый кристалл помещают в индивидуальный корпус. Корпус защищает кристалл от внешних воздействий и обеспечивает его электрическое соединение с платой, на которую он будет впоследствии установлен. Крошечные шарики припоя, расположенные в определенных точках кристалла, припаивают к электрическим выводам корпуса. Теперь электрические сигналы могут поступать с платы на кристалл и обратно.
После установки кристалла в корпус процессор снова тестируют, чтобы определить, работоспособен ли он. Неисправные процессоры отбраковывают, а исправные подвергают нагрузочным испытаниям: воздействию различных температурных и влажностных режимов, а также электростатических разрядов. После каждого нагрузочного испытания процессор тестируют для определения его функционального состояния. Затем процессоры сортируют в зависимости от их поведения при различных тактовых частотах и напряжениях питания.

Доставка

Процессоры, прошедшие тестирование, поступают на выходной контроль, задача которого - подтвердить, что результаты всех предыдущих тестов были корректными, а параметры интегральной схемы соответствуют установленным стандартам или даже превосходят их. Все процессоры, прошедшие выходной контроль, маркируют и упаковывают для доставки заказчикам.

P.S.
У AMD тоже самое, в общих чертах технология изготовления одна и та же:)

Offline

#8  12.01.09 20:54

Re: [Наука и Техника] Платформа AMD Dragon: дебют процессоров Phenom II X4

iPhoeniX, я не ждал ответа) Доходчиво написано. Оказывается, процессор - это по сути типовая болванка..

Offline

#9  12.01.09 21:09

Re: [Наука и Техника] Платформа AMD Dragon: дебют процессоров Phenom II X4

Siron_, я стараюсь отвечать на все вопросы по своим темам, если человек спрашивает, значит ему интересно.:)

Offline

#10  12.01.09 21:48

Re: [Наука и Техника] Платформа AMD Dragon: дебют процессоров Phenom II X4

жесть) никогда не задумывался как процессоры делают

Offline

#11  13.01.09 12:25

Re: [Наука и Техника] Платформа AMD Dragon: дебют процессоров Phenom II X4

небольшое уточнение. сейчас и интел и амд выпускают новые процессоры по 45нм техпроцессу на 300мм подложках. в 2009-2010 году интел должна представить процессоры по 32 нм технологии-Westmere, приемник Nehalem, и Sandy Bridge-новую архитектуру(до 8 ядер на кристалле, новый набор инструкций AVX (Advanced Vector Extensions))

Offline

#12  13.01.09 13:48

Re: [Наука и Техника] Платформа AMD Dragon: дебют процессоров Phenom II X4

Laks, я знаю, что статья об изготовлении старовата, :) но общий принцип изготовления мало в чём изменился.

Offline

#13  13.01.09 14:03

Re: [Наука и Техника] Платформа AMD Dragon: дебют процессоров Phenom II X4

iPhoeniX, было бы интересно почитать о различии архитектур C2D и Nehalem? ;)

Offline

#14  13.01.09 14:09

Re: [Наука и Техника] Платформа AMD Dragon: дебют процессоров Phenom II X4

Ладно,посмотрю, что в инете есть, а пока почитай это :)

Offline

#15  13.01.09 15:57

Re: [Наука и Техника] Платформа AMD Dragon: дебют процессоров Phenom II X4

«Новая старая» архитектура Core i7: чего больше — сходства или различий?

Выхода процессора Core i7, также известного под кодовым именем «Nehalem» ждали все. Ждали его и мы. Однако после того, как долгое ожидание закончилось, многие оказались, не побоимся этого слова, обескураженными: ведь ждали-то «простого и понятного» — что выпустит Intel первый свой процессор со встроенным контроллером памяти, а мы ей слегка попеняем за то, что она так долго не шла по давно проторенной AMD дорожке, но поглядим на результаты тестов производительности, умилимся, возрадуемся, и благодушно её простим. И вот, Intel выпустила Core i7. Однако оказалось, что это вовсе не «Core 2 со встроенным контроллером памяти», а нечто совсем-совсем другое. И как к этому относиться — совершенно непонятно. В этой, первой части статьи, посвящённой новой архитектуре Intel, мы попытаемся не прибегая к тестам понять, чего можно было ждать от нового процессора исключительно на основании описаний его характеристик. Ну а вторую часть, которая выйдет чуть позже, посвятим проверке сделанных нами предположений на практике.

Немного истории

Основной причиной для разработки ядра Nehalem послужило, разумеется, вовсе не желание Intel интегрировать в процессор контроллер памяти. Сам по себе встроенный контроллер памяти имело бы смысл использовать исключительно как средство повышения быстродействия — а повышать быстродействие своих процессоров ещё больше, Intel сейчас никаких резонов нет: основной конкурент и так отстал настолько безнадёжно, что вряд ли догонит в ближайшую пару лет. Таким образом, очевидно, что рассматривать Nehalem просто как «Core 2 со встроенным контроллером памяти» было бы серьёзной ошибкой, и это неправильное предположение, будучи сделанным в самом начале рассуждений, могло бы привести нас к совершенно неправильным выводам. В чём же на самом деле состоит смысл разработки нового ядра? Для этого нам придётся более пристально (и желательно «свежим», незамыленным взглядом) посмотреть на его предшественника — Core 2. Причём для полноты картины желательно не только с технической точки зрения, но и с исторической.

Какова была ситуация в Intel перед выходом Core 2? Или нет, давайте начнём даже раньше: какова была ситуация в Intel, когда Core 2 начали разрабатывать? Ситуация была, прямо скажем, напряжённая. Это, конечно, лишь предположение (однако вполне логичное), но о том, что архитектура NetBurst зашла в тупик, в Intel скорее всего знали задолго до того, как об этом узнали рядовые потребители или даже независимые тестовые лаборатории. Разумеется, отделы маркетинга и PR ещё могли некоторое время спасать ситуацию, однако всем было понятно, что время это вполне конечно. Поэтому, опять-таки, вполне логично будет предположить, что разрабатывалось ядро Conroe второпях*.
* — Даже первый образец Intel Pentium M (ядро Banias) разрабатывался, в общем-то, достаточно быстро. Но он разрабатывался как мобильный процессор. А вот когда израильское отделение Intel поставили перед задачей сделать из мобильного процессора настоящего десктопный процессор будущего, причём за очень сжатые сроки — вот тут-то началось настоящее веселье...

С другой стороны, учитывая количество времени, необходимое на разработку принципиально нового ядра (которое даже по идеологии сильно отличается от старого), и сравнивая по времени анонсы первых Pentium D и Athlon 64 X2 с анонсом первого процессора на архитектуре Core 2, мы можем сделать второе значимое предположение: вполне вероятно, на самом начальном этапе разработки, ядро Conroe вовсе не обязательно рассматривалось как база для создания на его основе многоядерных процессоров. Скорее всего, изначально разработчики приняли следующую стратегическую линию: «давайте сделаем хорошее одиночное исполнительное ядро, ну а если понадобиться сделать двухъядерник — что ж, слепим их вместе». В принципе, конструкция Conroe вполне подтверждает это предположение, и даже концепция разделяемого L2-кэша на него ложится, если хорошенько задуматься (забегая немного вперёд: обратите внимание — из Nehalem это промежуточное решение убрали, сделав разделяемым только L3). Более того: некоторые детали (например, работа технологии macrofusion) позволяют сделать крамольное предположение о том, что Conroe на начальном этапе разработки даже не был 64-битным! Но об этом позже…

Таким образом, мы наблюдаем в результате достаточно забавный технический парадокс: лучшие по производительности на данный момент времени двухъядерные и четырёхъядерные процессоры Intel Core 2 Duo / Core 2 Quad — по количеству «рудиментов» в архитектуре являются в некотором смысле намного более старыми, чем даже достаточно пожилой AMD Athlon 64 X2, и уж тем более Phenom X3/X4. Фактически, AMD и Intel подошли к решению задачи создания современного x86-64 CPU с разными акцентами: Intel как традиционалист сосредоточилась на разработке быстрого исполнительного ядра, а AMD как новатор привнесла даже в одноядерный Athlon 64 достаточно большое количество новинок, к которым так и просилась многоядерность (ну или хотя бы многопроцессорность). В этот раз чутьё Intel не подвело: лучшими многоядерными процессорами переходного периода оказались те, которые умеют быть хорошими одноядерными (так, например, анализ результатов некоторых тестов наводит на мысль о том, что едва ли не самая реально полезная «фишка» разделяемого L2-кэша Core 2 состоит в том, что при работе в «одноядерном режиме» почти весь L2-кэш отдаётся в распоряжение единственного занятого работой ядра). Впрочем, если задуматься о сути переходного периода — было бы странно, если бы случилось по-другому: ведь это именно то время, когда о поддержке многоядерности все производители ПО охотно говорят, но отнюдь не все торопятся что-то делать.

Однако переходный период подходит к концу, и перед инженерами R&D-отдела Intel встал вопрос: что делать дальше? Архитектура Core 2 — это очень сильное (по факту самое сильное из x86) исполнительное ядро, достаточно неплохо сбалансированные двухъядерники, уже намного более проблемные с архитектурной точки зрения четырёхъядерники, и… что дальше? А если аппетиты индустрии повысятся, и она будет готова с удовольствием «проглотить» и 8-ядерный процессор? Понятно, что у AMD есть определённые проблемы, и не в последнюю очередь технологические, поэтому вряд ли можно ожидать, что она успеет с 8-ядерным процессором раньше. Однако, с другой стороны, чисто архитектурно нынешний Phenom вполне готов к тому чтобы стать хоть 8-, хоть даже 16-ядерным. Core 2 оказался не совсем готов. Именно поэтому Intel нужно было новое ядро, или даже, скорее, новая архитектура — идеально масштабируемая, модульная, изначально созданная для конструирования на её основе многоядерных систем с достаточно большим количеством ядер (Intel употребляет термин «design-scalable microarchitecture»). Первым воплощением этой архитектуры стало ядро с кодовым наименованием Nehalem.

Основные черты новой архитектуры

Как уже было сказано выше, основной чертой новой архитектуры стала модульность. Главный модуль, если рассуждать с точки зрения не таких уж давних времён, представляет собой классический одноядерный x86-процессор: он состоит из исполнительного ядра, кэша 1-го уровня размером 64 КБ, поделенного на 2 равные части для данных и инструкций и кэша 2-го уровня размером 256 КБ. Уполовинить L1 — и чистой воды Pentium III Coppermine получится, вы не находите? :)

http://hostel.nstu.ru/uploaded/gallery/14037_1231839982.jpg



Прочие блоки могут быть следующими:
разделяемый кэш 3-го уровня;
контроллер памяти;
контроллер шины QPI (QuickPath Interconnect);
контроллер шины PCI Express (пока не реализовано);
контроллер энергопотребления (PCU) и генератор частот;
контроллер интегрированной графики (по некоторым данным, будет располагаться в одном корпусе с процессором, но на отдельном кристалле).

Впрочем, не думаем, что это строго фиксированный список, и ни одного пункта больше архитектура Core i7 включить не позволяет. Скорее данный набор базовых элементов является демонстрацией ближайших намерений Intel по дальнейшему усовершенствованию архитектуры — недаром в него вошёл контроллер интегрированной графики, на данный момент ни в одном процессоре Core i7 ещё не присутствующий. Всё это вместе может комбинироваться произвольным образом, причём допускается как наличие или отсутствие определённых модулей, так и различное их количество внутри процессора. Та модель, статья о тестировании которой выйдет чуть позже — Core i7 920 — выглядит, например, вот так:

http://hostel.nstu.ru/uploaded/gallery/14037_1231840017.jpg



Как легко заметить, она включает в себя четыре процессорных ядра, один трёхканальный контроллер памяти DDR3, один контроллер шины QPI для общения с чипсетом, и модуль отвечающий за генерацию необходимых процессору для работы частот и управление энергопотреблением. С другой стороны, это лишь один из возможных вариантов, реализованный в данной конкретной модели. Например, если на базе новой архитектуры создавать серверный процессор — то не лишним будет увеличить количество не только ядер, но и контроллеров QPI, если же, наоборот, мы разрабатываем мобильный CPU — можно сократить количество ядер, чтобы уменьшить энергопотребление и заменить контроллер чересчур быстрой QPI на обычную PCI Express. Чисто теоретически, никто, наверное, не мешает убрать и L3, оставив всего по минимуму: одно исполнительное ядро, контроллер памяти, PCI-E (Celeron?..) Таким образом, главная цель Intel, похоже, достигнута: у неё есть модульная архитектура с достаточно небольшим количеством основных модулей, из которых, комбинируя их произвольным путём, можно достаточно легко «слепить» как скромный low-end процессор для какого-нибудь неттопа, так и многоядерного серверного монстра. И всё это — из одних и тех же модулей, вот в чём основная прелесть! Однако, разумеется, не только в модульности дело, есть и другие важные изменения. Давайте рассмотрим их подробнее.

Встроенный контроллер памяти

Разумеется, наиболее «очевидной» причиной для того, чтобы контроллер памяти в Nehalem был аж трёхканальным, многие назовут якобы нежелание Intel откровенно перенимать наработки AMD — дескать, нельзя же просто взять и сделать как у конкурента. Однако проанализировав внимательно мытарства самой AMD с её встроенным контроллером, начинаешь понимать, что в случае с Intel имели место отнюдь не эмоции или борьба за честь мундира, а наоборот — трезвый расчёт. Вспомните: AMD уже один раз пришлось переделывать контроллер памяти с DDR400 на DDR2-800 т.к. потребности некоторых приложений начали уже вплотную подходить к предельной ПСП. И это, разумеется, привело к переходу на другой сокет, другие системные платы, и прочим пертурбациям, весьма нервно воспринимаемым пользователями (особенно теми из них, кто рассчитывал на апгрейд). Заложив в конструкцию контроллера памяти Nehalem сразу три канала с поддержкой DDR3-1333 (серверные версии под кодовым наименованием Nehalem-EP) или DDR3-1066 (десктопные Nehalem), Intel скорее всего рассчитывает избавиться от необходимости кардинально переделывать данный узел хотя бы в ближайшие годы, или, по крайней мере, переделывать крайне незначительно. Например, добавление будущим CPU поддержки более высокочастотной DDR3 при желании можно реализовать таким образом, чтобы ради их установки не пришлось менять системную плату (ах, мечты, мечты…)

Что же касается самого контроллера, то нам, разумеется, обещают невиданную скорость прокачки данных (значение которой — 32 GBps — легко получить путём простого умножения максимальной ПС DDR3-1333 на количество каналов, поэтому сразу ясно, что речь идёт не о реальности, а о теоретическом максимуме), низкую латентность (почему бы и нет — контроллеры памяти в чипсетах Intel традиционно отличались низкой латентностью) и ещё некий «Aggressive Request Reordering». Судя по названию — самая, пожалуй, интересная деталь в новом контроллере, однако никаких существенных подробностей о работе данного механизма пока не раскрывается.

Технология Hyper-Threading (Simultaneous Multi-Threading)

По сути, мы вновь встречаем забытую было после закрытия ветки NetBurst-процессоров технологию Hyper-Threading, то есть эмуляцию нескольких логических ядер на базе одного физического. Даже иллюстрирующая суть процесса картинка как будто перескочила из старой презентации в новую (видимо, решили, что старую уже никто не помнит).

http://hostel.nstu.ru/uploaded/gallery/14037_1231840037.jpg



Как и в Pentium 4, остались у новой реинкарнации Hyper-Threading и некоторые «родовые болячки» старой, в частности, жёсткое разделение load/store/reorder буферов между двумя виртуальными ядрами пополам. Поэтому, в частности, вполне возможна ситуация, когда включение поддержки HT приведёт к снижению производительности (хотя справедливости ради стоит заметить, что на практике такое случается крайне редко). C другой стороны, по идее HT на Nehalem должна работать получше чем на Pentium 4 — не за счёт каких-то кардинальных улучшений в самой технологии, а просто потому, что у Nehalem некоторые ключевые для успешной работы данной технологии функциональные блоки существенно «шире», чем у Pentium 4 (об этом мы поговорим в следующих разделах).

Также время от времени встречается в сети информация, что Intel в Nehalem каким-то образом «разделила физические ядра и логические» и «сделала их неполноправными» с целью предоставить программистам возможность более тонко подстраиваться под особенности многопоточного программирования на процессорах с HT. Нам, честно говоря, трудно себе представить, как в принципе возможно осуществить такое разделение — ведь после включения HT все ядра становятся виртуальными, и первое эмулируемое на базе физического виртуальное ядро не может быть «более виртуально» или «менее виртуально», чем второе — иначе проблемы начнутся уже у любого программного обеспечения, которое ведёт себя «честно». Видимо, речь идёт просто о возможности каким-то способом определить (через фиксированно назначаемые номера CPU?..), исполняются ли некие нити (threads) процесса на виртуальных ядрах, относящихся к одному и тому же физическому процессору, или на виртуальных ядрах, относящихся к разным физическим (понятно, что вторая ситуация в общем случае более предпочтительна с точки зрения обеспечения максимального быстродействия конкретного процесса).

В целом же, поддержку Hyper-Threading на десктопных четырёхъядерниках сейчас следует воспринимать скорее как идеологический шаг, чем как заботу о большей эффективности использования ресурсов процессора: способностью эффективно использовать 8 (!) ядер из десктопного ПО обладает дай бог чтобы полпроцента, да и то это ПО настолько специфическое, что большинство рядовых пользователей запросто могут ни разу не столкнуться с ним на протяжении всей жизни.

Исполнительное ядро

Мы намеренно избегаем употребления термина «вычислительное ядро» т.к. «исполнительное» нам кажется более соответствующим фактическому положению вещей: в данном блоке происходят не только собственно вычисления, но и декодирование инструкций, да и в самом x86-коде отнюдь не все команды можно назвать термином «вычисления».

http://hostel.nstu.ru/uploaded/gallery/14037_1231840067.jpg



Большую часть изменений, внесенных в исполнительное ядро Core i7 по сравнению с Core 2, вкратце можно описать очень просто: «кое-где чуть-чуть добавили, кое-где чуть-чуть расширили». Подобного рода улучшения, как правило, и объясняются очень просто: новый технологический процесс позволил не экономить на транзисторах там, где раньше экономить приходилось. Далее мы вкратце опишем наиболее важные из внесенных изменений.

Декодер

Основные изменения в декодере связаны с дальнейшим усовершенствованием технологии macrofusion: раньше она работала только в 32-битном режиме, теперь же поддерживается во всех режимах работы процессора, в т.ч. в 64-битных, также увеличилось количество пар команд, декодируемых с помощью данной технологии за один такт. Теоретически, это должно привести к тому, что декодер Core i7 будет несколько чаще работать с полной отдачей (5 инструкций за такт), чем это происходило у Core 2.

Обработка циклов

Специальный блок под названием Loop Stream Detector, предназначенный для сохранения коротеньких циклов с тем чтобы не загружать их заново из L1/L2, впервые появился в процессорах архитектуры Core 2. В Nehalem этот блок разместили после декодера, таким образом, он содержит уже декодированные команды. Идея явно взята из Pentium 4, там подобным образом был устроен весь кэш инструкций (Trace Cache).

http://hostel.nstu.ru/uploaded/gallery/14037_1231840087.jpg



Предсказание переходов

Блок предсказания переходов попросту удвоили: теперь он делится на две части, одна из которых работает над «быстрым» предсказанием переходов (эта часть, видимо, копирует соответствующий функциональный блок Core 2), вторая же работает медленнее, но за счёт более глубокого анализа и вместительного буфера позволяет предсказывать те переходы, на которых «быстрый» блок не срабатывает.

Также Intel обещает, что Return Stack Buffer (это блок, отвечающий за адреса возврата из функций) еще в Penryn был расширен функционально до Renamed RSB, и если ранее он иногда ошибался в случае использования сложных алгоритмов, то теперь в большинстве случаев ошибаться перестанет.

Исполнение инструкций

Блоки, отвечающие за исполнение инструкций, в Nehalem оставлены практически без изменений. Из чего, к слову, следует один простой, но не для всех очевидный вывод: в тех ситуациях, когда Core 2 и так успешно справляется с предвыборкой инструкций и данных, декодированием и предсказанием ветвлений — практически никакого преимущества все вышеперечисленные «навороты» Core i7 не дадут, и производительность его при равной с Core 2 частоте будет примерно такая же.

http://hostel.nstu.ru/uploaded/gallery/14037_1231840113.jpg



Однако некоторые изменения всё же были внесены, и связано это как раз с введением поддержки Hyper-Threading. Изменения, разумеется, самые что ни на есть очевидные: Reorder Buffer расширен до 128 микроопераций, Reservation Station — до 36 инструкций (было 32). Ну и буферы для данных, соответственно: Load с 32 до 48, Store — с 20 до 32. Для чего это нужно, также очевидно: чтобы увеличить количество команд и данных в очереди на исполнение, тем самым повысив вероятность того, что какие-то из них можно будет выполнить параллельно.

Новые инструкции (набор SSE4.2)

Поскольку мы уже выяснили выше, что в Nehalem Intel не предлагает нам никаких глобальных нововведений в исполняющих блоках, достаточно логичным выглядит и относительно скромное добавление к набору исполняемых инструкций: по отношению к анонсированному в Penryn набору SSE4.1, SSE4.2 содержит всего 7 новых инструкций, причём 2 из них метко названы самой Intel «Application Targeted Accelerators», т.е. инструкциями, ориентированными на ускорение не столько алгоритмов, сколько конкретных приложений. Одна из них — это инструкция для подсчёта 32-битной контрольной суммы (CRC32), призванная ускорить работу протокола iSCSI. Вторая инструкция подсчитывает количество ненулевых бит в операнде, и предназначена для программ генетической инженерии и распознавания голоса. Оставшиеся 5 инструкций имеют общее предназначение: все они призваны ускорить работу алгоритмов синтаксического анализа XML-файлов. Как видите, всё очень мирно и буднично, никаких сенсаций…

Подсистема кэширования

Тема удвоения при конструировании Nehalem была, видимо, очень актуальна: удвоили не только механизм предсказания ветвлений, но и TLB (Translation-Lookaside Buffer). Причём аналогичным предсказателю способом: оставив наследие Core 2 почти без изменений (лишь чуть увеличив размер), сверху над старым TLB водрузили новый, второго уровня — ещё большей вместимости (512 записей) и с расширенной функциональностью (TLB второго уровня может транслировать адреса страниц произвольного размера). Поддержка страниц произвольного размера десктопному процессору пригодится вряд ли, это специфика «тяжёлых», преимущественно серверных приложений, а вот большой TLB — это явно ещё один реверанс в сторону SMT.

Однако наибольшие изменения, естественно, коснулись «основной» подсистемы кэширования, а именно — взаимодействия между кэшами L1 и L2, а также появившимся у Nehalem L3. Во-первых, теперь снова L2 является «персональной собственностью» конкретного ядра, и оно ни с кем его не делит — разделяемым и общим для всех является кэш следующего уровня — L3. Во-вторых, Intel немного «переиграла» значения латентности для L1 и L2 — у L1 латентность стала на 1 такт больше, чем в Core 2, а у L2 она наоборот стала в полтора раза ниже.

Но основной интерес, конечно же, вызывает кэш 3-го уровня. Он, как и L2 в Core 2, является динамически разделяемым. Более того, он наконец-то является не «не-эксклюзивным», а именно инклюзивным: данные, находящиеся в L1/L2 — обязаны присутствовать в L3. Intel даже объясняет причину подобного решения (далее на рисунках левый соответствует эксклюзивному кэшу, а правый — инклюзивному).

http://hostel.nstu.ru/uploaded/gallery/14037_1231840159.jpg



Рассмотрим первую ситуацию: ядро 0 запрашивает данные из L3-кэша, и они там не обнаруживаются.

http://hostel.nstu.ru/uploaded/gallery/14037_1231840179.jpg



В случае с эксклюзивным кэшем (слева) это ещё ничего не значит: данные могут находится в L1/L2-кэшах других ядер. Инклюзивный кэш такую ситуацию исключает, поэтому никаких дополнительных проверок не требуется.

http://hostel.nstu.ru/uploaded/gallery/14037_1231840194.jpg



Рассмотрим другую ситуацию: ядро 0 запрашивает данные из L3-кэша, и они там обнаружены. В случае с эксклюзивным кэшем, проблем, наоборот, нет никаких: если данные обнаружены в L3 — то больше их нигде нет. В случае с инклюзивным кэшем могла бы возникнуть проблема: данные, наоборот, наверняка есть в L1/L2 одного из ядер. Которого?..

http://hostel.nstu.ru/uploaded/gallery/14037_1231840209.jpg



Для Nehalem эта проблема проблемой не является: каждая строка L3-кэша содержит биты core valid (по количеству физических ядер), которые указывают, копией содержимого L1/L2 какого ядра является данная строчка. Поэтому нет никакой необходимости опрашивать на предмет нахождения данных каждое ядро.

В общем, Intel придерживается достаточно последовательных взглядов в вопросе об оптимальной архитектуре кэша: лучше проиграть в объёме, чем в скорости. Быть может, это связано с тем, что у неё и так хорошо получается делать большие кэши? :) Некоторое разочарование вызывает тот факт, что L3 у Core i7 будет работать не на частоте процессора, а на некой фиксированной для целого ряда моделей частоте. Впрочем, эту ложку дёгтя насколько компенсируют два факта: во-первых, у AMD Phenom L3 тоже работает на фиксированной частоте, а во-вторых — у Core i7 эта частота выше (2,66 ГГц).

QPI как замена QPB

Мы, конечно, извиняемся за несколько неудобочитаемое название главы, но, право слово, очень уж напрашивался этот невинный каламбур: сокращённое наименование новой процессорной шины Intel (QuickPath Interconnect) ровно на одну букву отличается от сокращённого наименования старой (Quad Pumped Bus). Итак, что же представляет собой QPI? Технически, это двунаправленная 20-битная шина с топологией соединения «точка-точка», при этом 16 бит в каждую сторону несут полезную информацию, и ещё 4 бита служат для коррекции ошибок и прочих служебных целей. Работая со скоростью 6,4 миллиарда транзакций в секунду, QPI обеспечивает скорость передачи данных 12,8 ГБ/с в каждую сторону, и, соответственно, 25,6 ГБ/с в сумме, что позволяет ей претендовать на звание самой быстрой процессорной шины (1600 МГц QPB обеспечивает суммарную ПС 12,8 ГБ/с, AMD HyperTransport 3.0 — 24 ГБ/с). Впрочем, самым скоростным вариантом QPI пока планируется оснащать только Core i7 Extreme Edition, а на обычных Core i7 будет устанавливаться слегка замедленный вариант с пропускной способностью 4,8 миллиарда транзакций в секунду.

http://hostel.nstu.ru/uploaded/gallery/14037_1231840229.jpg



Разумеется, для десктопного процессора такая пропускная способность в подавляющем большинстве случаев избыточна, особенно учитывая тот факт, что QPI будет использоваться исключительно для связи с чипсетом — контроллер памяти уже встроен в процессор. (Актуальность данное решение имеет только для ситуации, когда чипсет обеспечивает большое количество линий PCI Express 2.0, как это реализовано в нынешнем чипсете для платформы Nehalem — Intel X58.) Поэтому совершенно очевидно, что разрабатывалась QPI для совершенно других применений, что вы и можете видеть на картинке выше. Процессоры на базе новой архитектуры, предназначенные для использования в серверном сегменте, будут содержать несколько контроллеров QPI, что позволит им быть связанными между собой напрямую «каждый с каждым» для оптимальной реализации архитектуры памяти Non-Uniform Memory Access (NUMA), которая, заметим, уже вовсю используется на серверных платформах ближайшего конкурента.

Таким образом, серверные варианты Core i7 и системы на их основе «топологически» станут очень похожими на AMD Opteron и системы на его основе — что, в целом, не может не радовать т.к. разработчики серверного ПО наконец-таки получат однозначный ответ на вопрос о том, под какую архитектуру памяти им оптимизировать свои приложения. Однако это всё, опять-таки, серверный сегмент, а на десктопе прелести QPI мало кто сможет почувствовать.

Управление энергопотреблением

Управлению энергопотреблением в Nehalem уделено такое количество внимания, что даже начинаешь всерьёз раздумывать, а не знала ли Intel загодя о всемирном экономическом кризисе. Причём подход был использован традиционно для новой архитектуры основательный и концептуальный: вся система управления энергопотреблением выделена в отдельный блок под названием PCU (Power Control Unit), который представляет собой фактически «процессор в процессоре», пусть и достаточно примитивный.

http://hostel.nstu.ru/uploaded/gallery/14037_1231840248.jpg



Этот управляемый собственной прошивкой микроконтроллер реализует намного более сложную схему управления питанием, чем в более старых процессорах Intel: частота и напряжение питания для каждого ядра регулируются отдельно на основании данных о его температуре и силе потребляемого тока. Таким образом, каждое ядро может быть переведено в состояние пониженного энергопотребления отдельно от других, а контроллеры памяти и шины QPI переводятся в состояние пониженного энергопотребления в случае когда все ядра находятся в незагруженном работой состоянии. По сути, примерно то же самое реализовала AMD в технологии Cool'n'Quiet 2.0 (Phenom), за одним только исключением: в C'n'Q 2.0 предусмотрена схема взаимодействия процессора с конвертором питания на системной плате, а управление энергопотреблением у Nehalem реализовано полностью внутри процессора и никаких дополнительных устройств не требует (и не предусматривает).

Технология Turbo Boost

http://hostel.nstu.ru/uploaded/gallery/14037_1231840263.jpg



Intel шла к идее оверклокинга медленно, но верно: сначала оверклокерские функции появились в её платах, теперь вот — прямо в процессорах. :) Ну а если серьёзно, то именно наличие в составе Nehalem PCU, позволило реализовать ещё одну интересную особенность данного процессора: он может повышать частоту работы одного или нескольких ядер в том случае, если остальные простаивают. При этом, насколько нам удалось понять, доступны два варианта «турбирования» ядер: повышение частоты нескольких ядер на одну ступень (+133 МГц) и повышение частоты работы одного ядра на две ступени (+266 МГц). При этом подчёркивается, что совершенно не обязательно, чтобы остальные ядра были полностью разгружены: Turbo Mode включается в тех случаях, когда уровень загрузки ядер позволяет повысить частоту некоторых из них, не выходя за пределы максимального TDP. Дополнительным бонусом является то, что технология Turbo Boost, как и работа PCU — совершенно не связана ни с какой внешней поддержкой т.е. функционирует внутри процессора полностью самостоятельно и не требует задействования каких-либо дополнительных программных или аппаратных средств.

Заключение

Возвращаясь к сказанному в самом начале статьи, и продолжая прозвучавшие там мысли, можно подытожить наш беглый анализ новой архитектуры Intel следующими словами: если во времена стагнации NetBurst, Intel нужна была «архитектура-герой», которая вернула бы всему миру веру в то, что эта компания по-прежнему умеет делать хорошие и быстрые процессоры — то сейчас времена нужды в героизме давно уже пройдены, соответствующим образом изменились и приоритеты: теперь компания позвала на службу «архитектуру-бухгалтера» — предсказуемую, рачительную, склонную к систематизации и оптимизации всего и вся. Являясь по многим ключевым признакам преемницей предыдущей, новая выглядит намного более «отёсанной», приглаженной и отшлифованной. Всё-то тут правильно, логично и систематизировано, всё лежит на своих полочках, и сами полочки ширины и высоты ровно такой, какой нужно — и ни на миллиметр больше. Пожалуй, основная положительная черта новой архитектуры состоит в том, что такие процессоры будет очень легко разрабатывать и производить — она, можно сказать «производственно-ориентированная». К слову: как и всякий рачительный бухгалтер, у которого каждая копеечка на счету, новая архитектура бережно «подобрала» некоторые полезные находки вроде бы как признанных неперспективными предшественников — Hyper-Threading и Trace Cache из Pentium 4 / NetBurst. А чего зря валяются? В работу их, в работу!

И если смотреть на Nehalem именно с этой точки зрения — то сразу же отпадают вопросы о том, насколько он окажется быстрее Core 2. Да, наверное, на сколько-то окажется. Не медленнее же ему быть. Но суть-то вовсе не в этом. Суть в том, что мы наблюдаем Intel в самом начале пути, в конце которого в очередной раз находится весьма амбициозная цель: поставить на конвейер уже не только производство, но и самую разработку процессоров. А всё ведь очень просто: разбиваем процессор на «кубики», смотрим, в каком кубике по состоянию на сегодняшний день наблюдается наибольший «затык» — им и занимаемся. Устранили затык, вставили в старую конструкцию обновлённый кубик — вот вам и новый процессор, дорогие потребители, ещё краше предыдущего (в котором другой кубик совершенствовали). И так до бесконечности. Можно, в конце концов, даже набор инструкций сменить, если припрёт — ведь теперь им занимается всего лишь один из стандартных кубиков. Почему-то нам кажется, что в этот раз Intel всё удастся. Хотя, собственно, отчего «почему-то»? Известно, почему: потому что подобный вариант развития событий в долгосрочной перспективе всех устраивает: и саму Intel, и сборщиков, и конечных потребителей. Скучновато, конечно, будет — ну да ничего, потерпим…

Итак, чего же всё-таки больше между Core 2 и Core i7 — сходства или различий? Мы бы сказали, что сходства и различия лежат несколько в разных плоскостях. Nehalem унаследовал от Conroe/Penryn важную часть микроархитектуры (собственно — исполнительное ядро), но по архитектуре он отличается от Core 2 разительно: сразу видно, что этот процессор разрабатывался для решения совсем других задач и для достижения намного более далёких горизонтов, чем просто выигрыш в гонке производительности. Пусть это прозвучит даже несколько дерзко по отношению к очень неплохой линейке процессоров Core 2 — но, тем не менее, мы осмелимся предположить, что её стратегическая задача как раз в том и состояла, чтобы Intel получила возможность не отвлекаться на всякие мелочи вроде соперничества за первое место по скорости, а тихо и спокойно доработать новую долгоиграющую концепцию развития своих процессоров, первым практическим воплощением которой стала линейка процессоров Core i7.

http://www.ixbt.com/cpu/intel-ci7-theory.shtml

Исправлено Laks (13.01.09 16:03)

Offline

Статьи и новости » [Наука и Техника] Платформа AMD Dragon: дебют процессоров Phenom II X4 

ФутЕр:)

© Hostel Web Group, 2002-2025.   Сообщить об ошибке

Сгенерировано за 0.569 сек.
Выполнено 11 запросов.