Post on 07-Jul-2018
transcript
8/18/2019 arquitecturas multinucleo modernas
1/32
HyperThreading
El Hyper-threading(oficialmente Hyper-Threading Technology o HT Technology, abreviado como HTT o
HT) es una tecnología desarrollada por Intel que implementa ultithreading !imult"neo# $ermitiendo
que %ltiples hilos se e&ecuten en cada n%cleo del procesador, tratando de me&orar el rendimiento de los
programas que puedan dividir el procesamiento en diferentes hilos o threads#
'"sicamente, para cada n%cleo de procesador físicamente presente, el sistema operativo direcciona dos
procesadores virtuales y comparte la carga de traba&o entre ellos cuando es posible#
Historia
El Hyper-Threading fue una tecnología integrada por Intel en el y que implement* en algunos
n%cleos de sus $entium + (orthood, $rescott, .edar ill, $restonia, /allatin, etc), denominados $+
HT para el gran p%blico#
Es una instrucci*n del procesador, por la cual 0 n%cleo tiene hilos de operaci*n paralelos (en un
sistema operativo que lo soporte)# Hacer creer al sistema que tenemos procesadores en ve1 de 0 y
agili1ar las operaciones#
En teoría la idea era buena, ya que que se reducían los ciclos de relo& vacíos (sin e&ecutar ninguna
operaci*n) y se ganaba rendimiento al mantener el procesador m"s operativo# 2a realidad fue bien
distinta, ya que el aumento de rendimiento era peque3o, en torno al 45 en la mayoría de aplicaciones,
en alguna hasta un 5 y en otras hasta se perdía rendimiento#
6etalles
Tecnología Hyper-Threading es una t7cnica que permite a una sola .$8 para actuar como m%ltiples
.$89s# 8na .$8 se compone de muchos peque3os componentes# En cualquier momento dado, uno de
estos componentes puede ser ocupada, mientras que el resto de los componentes est"n a la espera de
ser utili1ados# Hyper-Threading permite a las diferentes partes de la .$8 para traba&ar en diferentes
tareas simult"neamente# 6e esta manera, un .$8 con Hyper-Threading parece ser m"s de una .$8#
8na .$8 con Hyper-Threading tiene dos con&untos de los circuitos que reali1ar un seguimiento del
estado de la .$8# Esto incluye la mayoría de los registros y el puntero de instrucciones# Estos circuitos
no reali1ar el traba&o de la .$8, que son las instalaciones de almacenamiento temporal que la .$8
sigue la pista de lo que est" actualmente traba&ando# 2a gran mayoría de la .$8 se mantiene sin
cambios# 2as porciones de la .$8 que hacer el traba&o de c"lculo no son replicados, ni son el bordo 20
y cach7 2# Hyper-Threading duplica apro:imadamente 45 de los circuitos de la .$8# 6ependiendo de
las aplicaciones de softare en uso, Hyper-Threading puede da lugar a un aumento de rendimiento de
http://wiki.inf.utfsm.cl/index.php?title=Multithreading&action=edit&redlink=1http://wiki.inf.utfsm.cl/index.php?title=Multithreading&action=edit&redlink=1http://wiki.inf.utfsm.cl/index.php?title=Hilos&action=edit&redlink=1http://wiki.inf.utfsm.cl/index.php?title=Hilos&action=edit&redlink=1http://wiki.inf.utfsm.cl/index.php?title=Hilos&action=edit&redlink=1http://wiki.inf.utfsm.cl/index.php?title=Multithreading&action=edit&redlink=1
8/18/2019 arquitecturas multinucleo modernas
2/32
hasta seis veces esa cantidad# Hyper-Threading es la marca de Intel para lo que es m"s com%nmente
conocido en la industria como simult"nea de m%ltiples Threading (!T)#
;enta&a
El HT me&ora la utili1aci*n de los recursos integrados, de forma que un segundo hilo se puede procesar
en el mismo procesador# HT Technology proporciona dos procesadores l*gicos en un %nico procesador#
e&or rendimiento general del sistema
$uede soportar el incremento de n%mero de usuarios de una plataforma
e&ora el rendimiento, ya que las tareas se e&ecutan en hilos separados
e&ora de la reacci*n y el tiempo de respuesta
8/18/2019 arquitecturas multinucleo modernas
3/32
Intel .ore i (=,4,C en todas sus generaciones)
Intel Deon
Intel =?
Intel Nehalem
http://wiki.inf.utfsm.cl/index.php?title=SMP&action=edit&redlink=1http://www.tomshardware.com/http://wiki.inf.utfsm.cl/index.php?title=HyperThreading#cite_note-1http://wiki.inf.utfsm.cl/index.php?title=HyperThreading#cite_note-2http://wiki.inf.utfsm.cl/index.php?title=SMP&action=edit&redlink=1http://www.tomshardware.com/http://wiki.inf.utfsm.cl/index.php?title=HyperThreading#cite_note-1http://wiki.inf.utfsm.cl/index.php?title=HyperThreading#cite_note-2
8/18/2019 arquitecturas multinucleo modernas
4/32
Nehalem, parte de la primera generación, es el nombre en clave utili1ado para designar ala microarquitectura de procesadores Intel, sucesora de la microarquitectura Intel .ore# Elprimer procesador lan1ado con la arquitectura ehalem ha sido el procesador desobremesa Intel .ore iC, lan1ado el día 04 de noviembre de G en ToFio y el 0C denoviembre de G en los Estados 8nidos# El primer ordenador en usarprocesadores Deon basados en ehalem ha sido la estaci*n de traba&o ac $ro en el día = de
mar1o del # 2os procesadores Deon ED basados en ehalem que son para grandesservidores est"n previstos para el cuarto trimestre de # 2os procesadores para losport"tiles basados en ehalem se empe1aron a ver a partir de 0#
2os iniciales procesadores basados en ehalem usan los mismos m7todos de fabricaci*n de+4 nm como $enryn# En el Intel 6eveloper Jorum Jall C, se present* un sistema con dosprocesadores basados en ehalem, y un buen n%mero de ordenadores basados enprocesadores ehalem se mostraron en el .ompute: del &unio de G#
Tecnología>editar ?
icroarquitectura de la implementaci*n de cuatro n%cleos#
;arias fuentes han listado las especificaciones de los procesadores de la familia ehalemK
• $rocesadores de dos, cuatro, seis u ocho n%cleos
• C=0 millones de transistores para la variante de cuatro n%cleos y 00C millones de
transistores para la variante de seis n%cleos (.ore iC GDE)
• $roceso de fabricaci*n a +4 nm o = nm
• .ontrolador de memoria integrado que soporta * = canales de memoria de 66@=
!6@
8/18/2019 arquitecturas multinucleo modernas
5/32
• 2as siguientes capacidades de la memoria cach7K = Mi' L1 de instrucci*n y =Mi' L1 de cache para datos por n%cleoN 4 Mi' L2 cache por n%cleo, i' L3cache por n%cleo#
Mejora del rendimiento y del consumo energético>editar ?
!e ha reportado de que los procesadores ehalem tienen una me&ora en rendimiento,que se ve incrementada por aumentar el tama3o de los n%cleos# .omparado con$enryn, los procesadores ehalem van a tener una me&ora deK
• 0,0: a 0,4: con un %nico hilo de rendimiento o 0,: a : de me&ora con m%ltiples
hilos al mismo consumo energ7tico#
• =5 menos de consumo usado al mismo rendimiento#
•
8/18/2019 arquitecturas multinucleo modernas
6/32
8/18/2019 arquitecturas multinucleo modernas
7/32
La principal novedad de lamicroarquitectura Sandy Bridge es la integración
entre la CPU y la GPU, que ya se inició conWestmere, pero que tiene lugar de
forma real ahora, cuando el procesador gráfico comparte silicio con los cores. No
obstante, no se trata solo de una mera integración de silicio en plan «fuerza
bruta», sino que es un esfuerzo importante para dotar deinteligencia y
organización al conjunto CPU + GPU.
La estrategia Tick-Tock ha funcionado hasta la fecha con una evolución constante
de la tecnología y la arquitectura de los procesadores Intel.
Principales novedades de Sandy Bridge1. Integración real entre la CPU y la GPU, dotando al conjunto de inteligencia y
organización
2. Mejora de la unidad de predicción (Branch Predictor) y de la gestión de lasinstrucciones descodificadas o uops
3. Ampliación de las instrucciones extendidas frente a la arquitectura x86
4. Mejoras para la codificación y descodificación de contenidos multimedia
5. Gestión de la energía unificada entre la CPU y la GPU
6. Compartición de la memoria caché LLC con los gráficos
8/18/2019 arquitecturas multinucleo modernas
8/32
7. CPU, GPU y el Agente del Sistema pueden modificar voltajes y frecuencias
dinámicamente
8. Mejora de Turbo Boost
9. Aplicación tanto para procesadores de sobremesa como portátiles
Repaso a los núcleosEn el apartado de los núcleos o cores,Sandy Bridge no supone una revolución
comparado conNehalem, pues la parte de los núcleos propiamente dicha no ha
sufrido aparentemente modificaciones revolucionarias. Eso sí, se ha dado un
repaso de arriba a abajo a la microarquitectura para hacerla más eficiente. Es
decir, elrendimiento máximo teórico de una arquitectura pasa por que las
unidades de ejecución se aprovechen al máximo y la pipeline esté ocupada en
todo momento. Para llenarla, se necesita predecir en la línea de ejecución de un
programa qué instrucciones se van a ejecutar en el futuro. En la práctica, no
siempre hay instrucciones ejecutándose o la pipeline se llena con algunas que
luego se «descubre» que no son las que hay que procesar.
La solución propuesta en Sandy Bridge es la demejorar la unidad de
predicción (Branch Predictor), así como la gestión de las instrucciones
descodificadas omicro ops (uops). La unidad de predicción es un clásico de las
optimizaciones en cada generación de microarquitectura, porque mejorarla
suponeaumentar el rendimiento del procesador sin hacer lo propio con la
frecuencia. Si se sabe qué instrucciones vendrán después, la CPU puede estar
trabajando al máximo de su rendimiento.
En cuanto a lagestión de las uops (instrucciones descodificadas para que sean
«procesables» por la electrónica y la lógica en el procesador), Sandy Bridge
trabaja con una caché de uops, de modo que las instrucciones descodificadas
estarán accesibles sin volver a descodificarlas. Si una uop se localiza en la caché,
no hace falta usar toda la lógica dedicada a la descodificación, que además se
«apaga» para ahorrar energía.
8/18/2019 arquitecturas multinucleo modernas
9/32
Instrucciones AVX
Otra de las innovaciones enSandy Bridge es la ampliación de las instrucciones
extendidas más allá de la arquitectura x86. Lasinstrucciones SSE han sido un
clásico dentro de los procesadores de Intel. En Sandy Bridge, se alcanza un ancho
de 256 bits para las operaciones de coma flotante usando las extensionesAVX( Advanced Vector Extensions). Estas son de especial interés para
procesamiento de datos en aplicaciones como laencriptación, donde se trabaja
con cadenas de bits de 128, 256 o más bits. Si se puede trabajar con 256 bits se
evita tener que invertir ciclos de reloj en partir las cadenas para procesarlas en
bloques. Así, una operación que tardaría varios ciclos en procesarse se asume en
uno. O mejor, si se trabaja con cadenas de 64 bits, se pueden procesar cuatro en
un único ciclo de reloj; o dos si se trata de 128 bits.
8/18/2019 arquitecturas multinucleo modernas
10/32
Las nuevas instrucciones AVX de 256 bits obligan a Intel a rediseñar la parte de
la gestión de la memoria internamente dentro de los núcleos para incrementar el
ancho de banda.
En cualquier caso, la introducción de AVX ha obligado arediseñar la parte de la
microarquitectura relacionada con lacoma flotante, sobre todo a nivel del anchode banda de memoria interno en la CPU. Mover el doble de bits no es sencillo y
precisa modificar la forma de acceder a los datos en la caché.
Gráficos de impacto
El apartado gráfico se ha tocado de forma notable implementandomejoras para
la codificación y descodificación de contenidos multimedia. Además, la
integración del silicio de la GPU en el mismo espacio que los núcleos, la caché o
la lógica de control permite que lagestión de la energía sea unificada entre la
CPU y la GPU. Con ello, si una aplicación exige potencia de cálculo por parte de
los núcleos, se puede «robar» desde la GPU haciendo que funcione a una
velocidad de reloj o un voltaje menores. Y al revés.
Existen dos versiones de gráficos integrados, una con seisunidades de
ejecución (Execution Units) y otra con doce. Las primeras se encargan de
proporcionar paralelismo en las tareas relacionadas con los gráficos, ya sea para
juegos o para aplicaciones multimedia. Asimismo, destaca lacompartición de la
memoria caché LLC con los gráficos. Con ello, la GPU tiene libre acceso a la
memoria caché tanto para tareas multimedia como juegos, con una tasa de acierto
de un 50% de media. Así, se minimiza el acceso a la memoria del sistema, que
hace también de memoria compartida.
8/18/2019 arquitecturas multinucleo modernas
11/32
Al tener lamemoria compartida entre GPU y CPU, se abren las puertas a usos
avanzados y unificados donde se pueda aprovechar el paralelismo de los gráficos para
tareas que precisen de él y la serialización de los núcleos en el caso de aplicaciones
«convencionales». De momento, en Sandy Bridge, se mantienen los roles tradicionales
para gráficos y CPU, pero la tendencia escombinar ambos tipos deprocesamiento para obtener el máximo rendimiento en cada aplicación.
Gestión de la energía
La filosofía de Intel es clara: todo aquello dentro del silicio que no esté haciendo
algo útil puede apagarse. EnSandy Bridge esta filosofía se ha llevado al extremo.
Tanto los núcleos CPU como la GPU y el Agente del Sistema puedenmodificar
voltajes y frecuencias dinámicamente, de modo que se aprovecha cualquier
oportunidad para aumentar el rendimiento.
Uno de los efectos colaterales que se derivan de esta optimización es lamejora
de Turbo Boost. Antes, el incremento de la velocidad de procesamiento era
marginal en algunos casos, ahora, este es mucho mayor en condiciones óptimas.
8/18/2019 arquitecturas multinucleo modernas
12/32
Turbo Boost aprovecha mejor las propiedades térmicas del procesador para
aumentar el rendimiento de forma dinámica.
La estrategia es aprovechar que el procesador no alcanza los límites máximo de
temperatura y limitaciones termales hasta que no ha pasado un tiempo desde que
se le exige el máximo rendimiento. De esta forma, se puedeforzar durante unos
milisegundos hasta que se alcanza el nivel máximo de disipación especificado
por su TDP. En ese momento, se va regulando dinámicamente la velocidad del
procesador para mantener el funcionamiento dentro de los límites de las
especificaciones. Los gráficos también pueden aumentar su rendimiento mediante
el mismo principio.
HyperTransport
HyperTransport es una serie de autobuses local / paralelo más rápido que el bus PCI
y utiliza el mismo número de pines. HyperTransport es una tecnología de laboratorios
8/18/2019 arquitecturas multinucleo modernas
13/32
digitales. Tras la desaparición de la digital, el desarrollo se hizo cargo de AMD, IBM y
nVidia que adquirió una licencia.
• El 1.x HyperTransport ofrece un ancho de banda teórico de 12,8 GB / s. Los
intercambios son de hasta 800 MHz.
• HyperTransport 2.0 ofrece un ancho de banda teórico de 22,4 GB / s. Los
intercambios son de hasta 1,6 GHz.
• HyperTransport 3.0 ofrece un ancho de banda teórico de 41,6 GB / s. Los
intercambios son de hasta 2,6 GHz.
• HyperTransport 3.1 ofrece un ancho de banda teórico de 51,2 GB / s. Los
intercambios son de hasta 3,2 GHz.
Uso
Tecnología HyperTransport se utiliza actualmente principalmente como ciertas
arquitecturas de bus de memoria, tales como PowerPC K8 o algunos como IBM
PowerPC 970 utilizado en el Power Mac G5.
A diferencia de las máquinas de bus de memoria Intel tradicionales que se conectan al
bus de entrada-salida en un punto, el bus HyperTransport ha cambiado a una laarquitectura como una red en la que múltiples chips pueden conectar el bus de
entrada -sorties. Por ejemplo, las placas convencionales máquina Dual Opteron a
menudo tienen un bus PCI conectado al bus HyperTransport por puente AMD8131
mientras que un bus PCI Express está conectado a otro lugar por el chipset nVidia
nForce. Por lo tanto, un procesador puede acceder a los dispositivos ocultos detrás de
uno de los autobuses de dos de entrada y salida sin interferir el acceso otro
procesador a otro autobús.
Desde entonces, Intel ha seguido el ejemplo los que tienen una tecnología AMD
equivalente.
Dependiendo del número de procesadores y la presencia de puerto de expansión
HTX, topología de bus HyperTransport puede variar de un enlace único a formas
extrañas, como un cuadrado con una cosas diagonales, o indecibles para las placas
base 8 procesadores.
8/18/2019 arquitecturas multinucleo modernas
14/32
Modo
El puerto HyperTransport opera como una red de punto a punto, cada nodo está
conectado a 1 o 2 nudos. En este caso se puede pasar a través de los intercambios
no sólo para recibir o transmitir. Distinguimos también el chip Host Puente es lagestión de la red.
Arquitectura Hardware
En realidad la arquitectura del puerto HyperTransport es muy flexible y puede añadir
componentes específicos con más de dos entradas en el bus que permite ampliar
fácilmente la arquitectura del bus. Además HyperTransport permite DMA, es decir, la
memoria del ordenador puede ser conectado al puente de acogida para ser accesible
por cualquier nodo de bus.
Modo de transmisión
El puerto HyperTransport se hace, el punto de vista material, enlaces unidireccionales
que están alineados al comercio de emisión y recepción. Con una anchura de 2 a 32
bits cada uno, que proporcionan conexiones entre 300 y 800 MHz para la versión 1.1.
En estas filas de datos se agregan: una línea de control, una línea de reloj de 8 líneas
de datos y otras líneas de señales utilizadas para la inicialización.
El funcionamiento del bus estrictamente a través de la estructura del paquete. Hay dostipos: los paquetes de control y los paquetes de datos. La distinción entre estos dos
tipos de paquetes se hace de una manera extremadamente simple, si la línea de CTL
está en alto nivel, mientras que la transmisión se refiere a un paquete de control, de lo
contrario, es un paquete de datos.
Enrutamiento
Los dispositivos conectados al bus no se comunican directamente entre sí, que emiten
los paquetes serán enviados por un módulo de puente HOST. Aunque ambosdispositivos están lado a lado en el autobús, paquetes de comunicación pasan a
través de un módulo PUENTE HOST; Esta extensión algún tiempo en el aire, pero lo
más importante para tener una gestión centralizada del autobús, y por lo tanto más
fácil para evitar conflictos.
8/18/2019 arquitecturas multinucleo modernas
15/32
Canal virtual
Distinguimos muchos modos de transmisión en el bus HyperTransport de acuerdo con
el tipo de paquete de control. Demultiplexación de estos paquetes se realiza en
canales virtuales que permiten que los dispositivos lógicos internos para distinguir lanaturaleza de la información o las órdenes que reciben.
x86-64 o AMD 64
8/18/2019 arquitecturas multinucleo modernas
16/32
2a especificaci*n :G-+ es diferente de la arquitectura del Intel Itanium (antiguamente QIocultar ?
• 0;isi*n general
o 0#06escripci*n de la arquitectura
o 0#odos de funcionamiento
0##0E:plicaci*n del modo de funcionamiento
0##0#0odo 2argo
0##0#odo de Herencia
o 0#=
8/18/2019 arquitecturas multinucleo modernas
17/32
El con&unto de instrucciones del
8/18/2019 arquitecturas multinucleo modernas
18/32
"odo de
(ncionamiento
)e'(eri
do por
elSistem
a
Operati
vo
%s
necesariala
recompila
ción de la
aplicación
&amao por deecto del
direccionami
ento
&amao
por deecto
de los
operan
dos
%xtensiones del
registro
&ama
o
tpico
del)egistr
o de
Propós
ito
enera
l
odo
largo
odo +
bits
!B
nuevos
de +
bits
sí +
=
sí +
odo de
compatibili
dad
no
=
no
=
0 0 0
odo
de
Heren
cia
odo
protegido!B de
= bit
heredad
os
no
= =
no
=
0 0
odo
GG
virtual
0 0 0
odo real
!B de
0 bit
heredad
os
8/18/2019 arquitecturas multinucleo modernas
19/32
Explicación del modo de funcionamiento[ editar ]
Hay dos modos primarios de operaci*n para esta arquitecturaK
odo 2argo5editar
Es el utili1ado por algunos '!6s, /8S2inu: (:GO+), !olaris 0, y por las ediciones de +
bits de indos D$ $rofessional, indos ;ista, indos C y indos G#
6ado que el con&unto de instrucciones es el mismo, no hay una penali1aci*n importante en la
e&ecuci*n del c*digo :G# Esto no sucede en la arquitectura de Intel I
8/18/2019 arquitecturas multinucleo modernas
20/32
facilitando a las herramientas del :G, como los compiladores pueden ser modificados a la
arquitectura
8/18/2019 arquitecturas multinucleo modernas
21/32
Historia[ editar ]
6urante mucho tiempo de la historia,
8/18/2019 arquitecturas multinucleo modernas
22/32
• .eleron serie 4::
https://es.wikipedia.org/w/index.php?title=Celeron_M_serie_5xx&action=edit&redlink=1https://es.wikipedia.org/w/index.php?title=Celeron_M_serie_5xx&action=edit&redlink=1
8/18/2019 arquitecturas multinucleo modernas
23/32
8/18/2019 arquitecturas multinucleo modernas
24/32
8/18/2019 arquitecturas multinucleo modernas
25/32
8/18/2019 arquitecturas multinucleo modernas
26/32
8/18/2019 arquitecturas multinucleo modernas
27/32
8/18/2019 arquitecturas multinucleo modernas
28/32
8/18/2019 arquitecturas multinucleo modernas
29/32
8/18/2019 arquitecturas multinucleo modernas
30/32
8/18/2019 arquitecturas multinucleo modernas
31/32
8/18/2019 arquitecturas multinucleo modernas
32/32