arquitecturas multinucleo modernas

transcript

8/18/2019 arquitecturas multinucleo modernas

1/32

HyperThreading

El Hyper-threading(oficialmente Hyper-Threading Technology o HT Technology, abreviado como HTT o

HT) es una tecnología desarrollada por Intel que implementa ultithreading !imult"neo# $ermitiendo

que %ltiples hilos se e&ecuten en cada n%cleo del procesador, tratando de me&orar el rendimiento de los

programas que puedan dividir el procesamiento en diferentes hilos o threads#

'"sicamente, para cada n%cleo de procesador físicamente presente, el sistema operativo direcciona dos

procesadores virtuales y comparte la carga de traba&o entre ellos cuando es posible#

Historia

El Hyper-Threading fue una tecnología integrada por Intel en el y que implement* en algunos

n%cleos de sus $entium + (orthood, $rescott, .edar ill, $restonia, /allatin, etc), denominados $+

HT para el gran p%blico#

Es una instrucci*n del procesador, por la cual 0 n%cleo tiene hilos de operaci*n paralelos (en un

sistema operativo que lo soporte)# Hacer creer al sistema que tenemos procesadores en ve1 de 0 y

agili1ar las operaciones#

En teoría la idea era buena, ya que que se reducían los ciclos de relo& vacíos (sin e&ecutar ninguna

operaci*n) y se ganaba rendimiento al mantener el procesador m"s operativo# 2a realidad fue bien

distinta, ya que el aumento de rendimiento era peque3o, en torno al 45 en la mayoría de aplicaciones,

en alguna hasta un 5 y en otras hasta se perdía rendimiento#

6etalles

Tecnología Hyper-Threading es una t7cnica que permite a una sola .$8 para actuar como m%ltiples

.$89s# 8na .$8 se compone de muchos peque3os componentes# En cualquier momento dado, uno de

estos componentes puede ser ocupada, mientras que el resto de los componentes est"n a la espera de

ser utili1ados# Hyper-Threading permite a las diferentes partes de la .$8 para traba&ar en diferentes

tareas simult"neamente# 6e esta manera, un .$8 con Hyper-Threading parece ser m"s de una .$8#

8na .$8 con Hyper-Threading tiene dos con&untos de los circuitos que reali1ar un seguimiento del

estado de la .$8# Esto incluye la mayoría de los registros y el puntero de instrucciones# Estos circuitos

no reali1ar el traba&o de la .$8, que son las instalaciones de almacenamiento temporal que la .$8

sigue la pista de lo que est" actualmente traba&ando# 2a gran mayoría de la .$8 se mantiene sin

cambios# 2as porciones de la .$8 que hacer el traba&o de c"lculo no son replicados, ni son el bordo 20

y cach7 2# Hyper-Threading duplica apro:imadamente 45 de los circuitos de la .$8# 6ependiendo de

las aplicaciones de softare en uso, Hyper-Threading puede da lugar a un aumento de rendimiento de

http://wiki.inf.utfsm.cl/index.php?title=Multithreading&action=edit&redlink=1http://wiki.inf.utfsm.cl/index.php?title=Multithreading&action=edit&redlink=1http://wiki.inf.utfsm.cl/index.php?title=Hilos&action=edit&redlink=1http://wiki.inf.utfsm.cl/index.php?title=Hilos&action=edit&redlink=1http://wiki.inf.utfsm.cl/index.php?title=Hilos&action=edit&redlink=1http://wiki.inf.utfsm.cl/index.php?title=Multithreading&action=edit&redlink=1


2/32

hasta seis veces esa cantidad# Hyper-Threading es la marca de Intel para lo que es m"s com%nmente

conocido en la industria como simult"nea de m%ltiples Threading (!T)#

;enta&a

El HT me&ora la utili1aci*n de los recursos integrados, de forma que un segundo hilo se puede procesar

en el mismo procesador# HT Technology proporciona dos procesadores l*gicos en un %nico procesador#

e&or rendimiento general del sistema

$uede soportar el incremento de n%mero de usuarios de una plataforma

e&ora el rendimiento, ya que las tareas se e&ecutan en hilos separados

e&ora de la reacci*n y el tiempo de respuesta


3/32

Intel .ore i (=,4,C en todas sus generaciones)

Intel Deon

Intel =?

Intel Nehalem

http://wiki.inf.utfsm.cl/index.php?title=SMP&action=edit&redlink=1http://www.tomshardware.com/http://wiki.inf.utfsm.cl/index.php?title=HyperThreading#cite_note-1http://wiki.inf.utfsm.cl/index.php?title=HyperThreading#cite_note-2http://wiki.inf.utfsm.cl/index.php?title=SMP&action=edit&redlink=1http://www.tomshardware.com/http://wiki.inf.utfsm.cl/index.php?title=HyperThreading#cite_note-1http://wiki.inf.utfsm.cl/index.php?title=HyperThreading#cite_note-2


4/32

Nehalem, parte de la primera generación, es el nombre en clave utili1ado para designar ala microarquitectura de procesadores Intel, sucesora de la microarquitectura Intel .ore# Elprimer procesador lan1ado con la arquitectura ehalem ha sido el procesador desobremesa Intel .ore iC, lan1ado el día 04 de noviembre de G en ToFio y el 0C denoviembre de G en los Estados 8nidos# El primer ordenador en usarprocesadores Deon basados en ehalem ha sido la estaci*n de traba&o ac $ro en el día = de

mar1o del # 2os procesadores Deon ED basados en ehalem que son para grandesservidores est"n previstos para el cuarto trimestre de # 2os procesadores para losport"tiles basados en ehalem se empe1aron a ver a partir de 0#

2os iniciales procesadores basados en ehalem usan los mismos m7todos de fabricaci*n de+4 nm como $enryn# En el Intel 6eveloper Jorum Jall C, se present* un sistema con dosprocesadores basados en ehalem, y un buen n%mero de ordenadores basados enprocesadores ehalem se mostraron en el .ompute: del &unio de G#

Tecnología>editar ?

icroarquitectura de la implementaci*n de cuatro n%cleos#

;arias fuentes han listado las especificaciones de los procesadores de la familia ehalemK

• $rocesadores de dos, cuatro, seis u ocho n%cleos

• C=0 millones de transistores para la variante de cuatro n%cleos y 00C millones de

transistores para la variante de seis n%cleos (.ore iC GDE)

• $roceso de fabricaci*n a +4 nm o = nm

• .ontrolador de memoria integrado que soporta * = canales de memoria de 66@=

!6@


5/32

• 2as siguientes capacidades de la memoria cach7K = Mi' L1 de instrucci*n y =Mi' L1 de cache para datos por n%cleoN 4 Mi' L2 cache por n%cleo, i' L3cache por n%cleo#

Mejora del rendimiento y del consumo energético>editar ?

!e ha reportado de que los procesadores ehalem tienen una me&ora en rendimiento,que se ve incrementada por aumentar el tama3o de los n%cleos# .omparado con$enryn, los procesadores ehalem van a tener una me&ora deK

• 0,0: a 0,4: con un %nico hilo de rendimiento o 0,: a : de me&ora con m%ltiples

hilos al mismo consumo energ7tico#

• =5 menos de consumo usado al mismo rendimiento#

•


6/32


7/32

La principal novedad de lamicroarquitectura Sandy Bridge es la integración

entre la CPU y la GPU, que ya se inició conWestmere, pero que tiene lugar de

forma real ahora, cuando el procesador gráfico comparte silicio con los cores. No

obstante, no se trata solo de una mera integración de silicio en plan «fuerza

bruta», sino que es un esfuerzo importante para dotar deinteligencia y

organización al conjunto CPU + GPU.

La estrategia Tick-Tock ha funcionado hasta la fecha con una evolución constante

de la tecnología y la arquitectura de los procesadores Intel.

Principales novedades de Sandy Bridge1. Integración real entre la CPU y la GPU, dotando al conjunto de inteligencia y

organización

2. Mejora de la unidad de predicción (Branch Predictor) y de la gestión de lasinstrucciones descodificadas o uops

3. Ampliación de las instrucciones extendidas frente a la arquitectura x86

4. Mejoras para la codificación y descodificación de contenidos multimedia

5. Gestión de la energía unificada entre la CPU y la GPU

6. Compartición de la memoria caché LLC con los gráficos


8/32

7. CPU, GPU y el Agente del Sistema pueden modificar voltajes y frecuencias

dinámicamente

8. Mejora de Turbo Boost

9. Aplicación tanto para procesadores de sobremesa como portátiles

Repaso a los núcleosEn el apartado de los núcleos o cores,Sandy Bridge no supone una revolución

comparado conNehalem, pues la parte de los núcleos propiamente dicha no ha

sufrido aparentemente modificaciones revolucionarias. Eso sí, se ha dado un

repaso de arriba a abajo a la microarquitectura para hacerla más eficiente. Es

decir, elrendimiento máximo teórico de una arquitectura pasa por que las

unidades de ejecución se aprovechen al máximo y la pipeline esté ocupada en

todo momento. Para llenarla, se necesita predecir en la línea de ejecución de un

programa qué instrucciones se van a ejecutar en el futuro. En la práctica, no

siempre hay instrucciones ejecutándose o la pipeline se llena con algunas que

luego se «descubre» que no son las que hay que procesar.

La solución propuesta en Sandy Bridge es la demejorar la unidad de

predicción (Branch Predictor), así como la gestión de las instrucciones

descodificadas omicro ops (uops). La unidad de predicción es un clásico de las

optimizaciones en cada generación de microarquitectura, porque mejorarla

suponeaumentar el rendimiento del procesador sin hacer lo propio con la

frecuencia. Si se sabe qué instrucciones vendrán después, la CPU puede estar

trabajando al máximo de su rendimiento.

En cuanto a lagestión de las uops (instrucciones descodificadas para que sean

«procesables» por la electrónica y la lógica en el procesador), Sandy Bridge

trabaja con una caché de uops, de modo que las instrucciones descodificadas

estarán accesibles sin volver a descodificarlas. Si una uop se localiza en la caché,

no hace falta usar toda la lógica dedicada a la descodificación, que además se

«apaga» para ahorrar energía.


9/32

Instrucciones AVX

Otra de las innovaciones enSandy Bridge es la ampliación de las instrucciones

extendidas más allá de la arquitectura x86. Lasinstrucciones SSE han sido un

clásico dentro de los procesadores de Intel. En Sandy Bridge, se alcanza un ancho

de 256 bits para las operaciones de coma flotante usando las extensionesAVX( Advanced Vector Extensions). Estas son de especial interés para

procesamiento de datos en aplicaciones como laencriptación, donde se trabaja

con cadenas de bits de 128, 256 o más bits. Si se puede trabajar con 256 bits se

evita tener que invertir ciclos de reloj en partir las cadenas para procesarlas en

bloques. Así, una operación que tardaría varios ciclos en procesarse se asume en

uno. O mejor, si se trabaja con cadenas de 64 bits, se pueden procesar cuatro en

un único ciclo de reloj; o dos si se trata de 128 bits.


10/32

Las nuevas instrucciones AVX de 256 bits obligan a Intel a rediseñar la parte de

la gestión de la memoria internamente dentro de los núcleos para incrementar el

ancho de banda.

En cualquier caso, la introducción de AVX ha obligado arediseñar la parte de la

microarquitectura relacionada con lacoma flotante, sobre todo a nivel del anchode banda de memoria interno en la CPU. Mover el doble de bits no es sencillo y

precisa modificar la forma de acceder a los datos en la caché.

Gráficos de impacto

El apartado gráfico se ha tocado de forma notable implementandomejoras para

la codificación y descodificación de contenidos multimedia. Además, la

integración del silicio de la GPU en el mismo espacio que los núcleos, la caché o

la lógica de control permite que lagestión de la energía sea unificada entre la

CPU y la GPU. Con ello, si una aplicación exige potencia de cálculo por parte de

los núcleos, se puede «robar» desde la GPU haciendo que funcione a una

velocidad de reloj o un voltaje menores. Y al revés.

Existen dos versiones de gráficos integrados, una con seisunidades de

ejecución (Execution Units) y otra con doce. Las primeras se encargan de

proporcionar paralelismo en las tareas relacionadas con los gráficos, ya sea para

juegos o para aplicaciones multimedia. Asimismo, destaca lacompartición de la

memoria caché LLC con los gráficos. Con ello, la GPU tiene libre acceso a la

memoria caché tanto para tareas multimedia como juegos, con una tasa de acierto

de un 50% de media. Así, se minimiza el acceso a la memoria del sistema, que

hace también de memoria compartida.


11/32

Al tener lamemoria compartida entre GPU y CPU, se abren las puertas a usos

avanzados y unificados donde se pueda aprovechar el paralelismo de los gráficos para

tareas que precisen de él y la serialización de los núcleos en el caso de aplicaciones

«convencionales». De momento, en Sandy Bridge, se mantienen los roles tradicionales

para gráficos y CPU, pero la tendencia escombinar ambos tipos deprocesamiento para obtener el máximo rendimiento en cada aplicación.

Gestión de la energía

La filosofía de Intel es clara: todo aquello dentro del silicio que no esté haciendo

algo útil puede apagarse. EnSandy Bridge esta filosofía se ha llevado al extremo.

Tanto los núcleos CPU como la GPU y el Agente del Sistema puedenmodificar

voltajes y frecuencias dinámicamente, de modo que se aprovecha cualquier

oportunidad para aumentar el rendimiento.

Uno de los efectos colaterales que se derivan de esta optimización es lamejora

de Turbo Boost. Antes, el incremento de la velocidad de procesamiento era

marginal en algunos casos, ahora, este es mucho mayor en condiciones óptimas.


12/32

Turbo Boost aprovecha mejor las propiedades térmicas del procesador para

aumentar el rendimiento de forma dinámica.

La estrategia es aprovechar que el procesador no alcanza los límites máximo de

temperatura y limitaciones termales hasta que no ha pasado un tiempo desde que

se le exige el máximo rendimiento. De esta forma, se puedeforzar durante unos

milisegundos hasta que se alcanza el nivel máximo de disipación especificado

por su TDP. En ese momento, se va regulando dinámicamente la velocidad del

procesador para mantener el funcionamiento dentro de los límites de las

especificaciones. Los gráficos también pueden aumentar su rendimiento mediante

el mismo principio.

HyperTransport

HyperTransport es una serie de autobuses local / paralelo más rápido que el bus PCI

y utiliza el mismo número de pines. HyperTransport es una tecnología de laboratorios


13/32

digitales. Tras la desaparición de la digital, el desarrollo se hizo cargo de AMD, IBM y

nVidia que adquirió una licencia.

• El 1.x HyperTransport ofrece un ancho de banda teórico de 12,8 GB / s. Los

intercambios son de hasta 800 MHz.

• HyperTransport 2.0 ofrece un ancho de banda teórico de 22,4 GB / s. Los

intercambios son de hasta 1,6 GHz.





Uso

Tecnología HyperTransport se utiliza actualmente principalmente como ciertas

arquitecturas de bus de memoria, tales como PowerPC K8 o algunos como IBM

PowerPC 970 utilizado en el Power Mac G5.

A diferencia de las máquinas de bus de memoria Intel tradicionales que se conectan al

bus de entrada-salida en un punto, el bus HyperTransport ha cambiado a una laarquitectura como una red en la que múltiples chips pueden conectar el bus de

entrada -sorties. Por ejemplo, las placas convencionales máquina Dual Opteron a

menudo tienen un bus PCI conectado al bus HyperTransport por puente AMD8131

mientras que un bus PCI Express está conectado a otro lugar por el chipset nVidia

nForce. Por lo tanto, un procesador puede acceder a los dispositivos ocultos detrás de

uno de los autobuses de dos de entrada y salida sin interferir el acceso otro

procesador a otro autobús.

Desde entonces, Intel ha seguido el ejemplo los que tienen una tecnología AMD

equivalente.

Dependiendo del número de procesadores y la presencia de puerto de expansión

HTX, topología de bus HyperTransport puede variar de un enlace único a formas

extrañas, como un cuadrado con una cosas diagonales, o indecibles para las placas

base 8 procesadores.


14/32

Modo

El puerto HyperTransport opera como una red de punto a punto, cada nodo está

conectado a 1 o 2 nudos. En este caso se puede pasar a través de los intercambios

no sólo para recibir o transmitir. Distinguimos también el chip Host Puente es lagestión de la red.

Arquitectura Hardware

En realidad la arquitectura del puerto HyperTransport es muy flexible y puede añadir

componentes específicos con más de dos entradas en el bus que permite ampliar

fácilmente la arquitectura del bus. Además HyperTransport permite DMA, es decir, la

memoria del ordenador puede ser conectado al puente de acogida para ser accesible

por cualquier nodo de bus.

Modo de transmisión

El puerto HyperTransport se hace, el punto de vista material, enlaces unidireccionales

que están alineados al comercio de emisión y recepción. Con una anchura de 2 a 32

bits cada uno, que proporcionan conexiones entre 300 y 800 MHz para la versión 1.1.

En estas filas de datos se agregan: una línea de control, una línea de reloj de 8 líneas

de datos y otras líneas de señales utilizadas para la inicialización.

El funcionamiento del bus estrictamente a través de la estructura del paquete. Hay dostipos: los paquetes de control y los paquetes de datos. La distinción entre estos dos

tipos de paquetes se hace de una manera extremadamente simple, si la línea de CTL

está en alto nivel, mientras que la transmisión se refiere a un paquete de control, de lo

contrario, es un paquete de datos.

Enrutamiento

Los dispositivos conectados al bus no se comunican directamente entre sí, que emiten

los paquetes serán enviados por un módulo de puente HOST. Aunque ambosdispositivos están lado a lado en el autobús, paquetes de comunicación pasan a

través de un módulo PUENTE HOST; Esta extensión algún tiempo en el aire, pero lo

más importante para tener una gestión centralizada del autobús, y por lo tanto más

fácil para evitar conflictos.


15/32

Canal virtual

Distinguimos muchos modos de transmisión en el bus HyperTransport de acuerdo con

el tipo de paquete de control. Demultiplexación de estos paquetes se realiza en

canales virtuales que permiten que los dispositivos lógicos internos para distinguir lanaturaleza de la información o las órdenes que reciben.

x86-64 o AMD 64


16/32

2a especificaci*n :G-+ es diferente de la arquitectura del Intel Itanium (antiguamente QIocultar ?

• 0;isi*n general

o 0#06escripci*n de la arquitectura

o 0#odos de funcionamiento

0##0E:plicaci*n del modo de funcionamiento

0##0#0odo 2argo

0##0#odo de Herencia

o 0#=


17/32

El con&unto de instrucciones del


18/32

"odo de

(ncionamiento

)e'(eri

do por

elSistem

a

Operati

vo

%s

necesariala

recompila

ción de la

aplicación

&amao por deecto del

direccionami

ento

&amao

por deecto

de los

operan

dos

%xtensiones del

registro

&ama

o

tpico

del)egistr

o de

Propós

ito

enera

l

odo

largo

odo +

bits

!B

nuevos

de +

bits

sí +

=

sí +

odo de

compatibili

dad

no

=

no

=

0 0 0

odo

de

Heren

cia

odo

protegido!B de

= bit

heredad

os

no

= =

no

=

0 0

odo

GG

virtual

0 0 0

odo real

!B de

0 bit

heredad

os


19/32

Explicación del modo de funcionamiento[ editar ]

Hay dos modos primarios de operaci*n para esta arquitecturaK

odo 2argo5editar

Es el utili1ado por algunos '!6s, /8S2inu: (:GO+), !olaris 0, y por las ediciones de +

bits de indos D$ $rofessional, indos ;ista, indos C y indos G#

6ado que el con&unto de instrucciones es el mismo, no hay una penali1aci*n importante en la

e&ecuci*n del c*digo :G# Esto no sucede en la arquitectura de Intel I


20/32

facilitando a las herramientas del :G, como los compiladores pueden ser modificados a la

arquitectura


21/32

Historia[ editar ]

6urante mucho tiempo de la historia,


22/32

• .eleron serie 4::

https://es.wikipedia.org/w/index.php?title=Celeron_M_serie_5xx&action=edit&redlink=1https://es.wikipedia.org/w/index.php?title=Celeron_M_serie_5xx&action=edit&redlink=1


23/32


24/32


25/32


26/32


27/32


28/32


29/32


30/32


31/32


32/32

arquitecturas multinucleo modernas

Documents