Arquitecturas Modernas de CPU

Presenter Notes

Resumen:

Arquitectura del Conjunto de Instruciones (ISA).
Ejecución de la ISA.
Jerarquía de Memoria.

Nicolás Wolovick 20150315

Presenter Notes

ISA `x86_64`

Presenter Notes

¿Qué ejecuta el µP?

1 void store(double *a, double *b, double *c) {
2     *c = *a + *b;
3 }

gcc -S store.c

 1 store:
 2 .LFB0:
 3     .cfi_startproc
 4     pushq   %rbp
 5     .cfi_def_cfa_offset 16
 6     .cfi_offset 6, -16
 7     movq    %rsp, %rbp
 8     .cfi_def_cfa_register 6
 9     movq    %rdi, -8(%rbp)
10     movq    %rsi, -16(%rbp)
11     movq    %rdx, -24(%rbp)
12     movq    -8(%rbp), %rax
13     movsd   (%rax), %xmm1
14     movq    -16(%rbp), %rax
15     movsd   (%rax), %xmm0
16     addsd   %xmm1, %xmm0
17     movq    -24(%rbp), %rax
18     movsd   %xmm0, (%rax)
19     popq    %rbp
20     .cfi_def_cfa 7, 8
21     ret
22     .cfi_endproc

Notar como pone y saca las cosas del stack

Presenter Notes

Acá van notas de presentación.

Un poco más simple

gcc -S -O2 store.c

1 store:
2 .LFB0:
3     .cfi_startproc
4     movsd   (%rdi), %xmm0
5     addsd   (%rsi), %xmm0
6     movsd   %xmm0, (%rdx)
7     ret
8     .cfi_endproc

Presenter Notes

Tipos y sufijos de `C` a `GAS`

tipos de C y sufijos de GAS en x86_64

(Bryant, O’Hallaron, x86-64 Machine-Level Programming)

Presenter Notes

Registros

Registros en x86_64

(Bryant, O’Hallaron, x86-64 Machine-Level Programming)

Presenter Notes

Todos los registros + SSE3

Todos los registros en x86_64

Presenter Notes

Ejemplo

 1 #include <math.h>
 2 
 3 struct point {
 4     double x;
 5     double y;
 6 };
 7 
 8 double
 9 max_dist(struct point const *a, const unsigned int size) {
10     double result = 0.0;
11     unsigned int i = 0;
12     for(i=0; i<size; ++a, ++i) {
13         double dst = 0.0;
14         dst = sqrt((a->x * a->x) + (a->y * a->y));
15         if (dst>result)
16             result = dst;
17     }
18     return result;
19 }

Presenter Notes

Ejemplo

clang-3.7 -S -O1 -fno-math-errno ¿Porqué -fno-math-errno?

 1 max_dist:                               # @max_dist
 2     .cfi_startproc
 3 # BB#0:
 4     xorpd   %xmm1, %xmm1
 5     testl   %esi, %esi
 6     je  .LBB0_1
 7     .align  16, 0x90
 8 .LBB0_2:                                # %.lr.ph
 9                                         # =>This Inner Loop Header: Depth=1
10     movsd   (%rdi), %xmm0           # xmm0 = mem[0],zero
11     movsd   8(%rdi), %xmm2          # xmm2 = mem[0],zero
12     mulsd   %xmm0, %xmm0
13     mulsd   %xmm2, %xmm2
14     addsd   %xmm0, %xmm2
15     xorps   %xmm0, %xmm0
16     sqrtsd  %xmm2, %xmm0
17     maxsd   %xmm1, %xmm0
18     addq    $16, %rdi
19     decl    %esi
20     movapd  %xmm0, %xmm1
21     jne .LBB0_2
22 # BB#3:                                 # %._crit_edge
23     retq
24 .LBB0_1:
25     xorps   %xmm0, %xmm0
26     retq

compilar esto con clang-3.7 -O2 y gcc y ver que hace.

Presenter Notes

Entender `x86_64`

Hacer pequeños programitas, compilar con -S y mirar el .s.
Bryant, O’Hallaron, x86-64 Machine-Level Programming.
Intel Corp., Intel® 64 and IA-32 Architectures Software Developer's Manual, Instruction Set Reference.

Presenter Notes

Ejecución de ISA `x86_64`

Presenter Notes

Procesamiento de una instrucción

1 while (1) {
2     Fetch(PC); Decode;
3     Read Inputs; Execute; Write Output;
4     Next PC;
5 }

Simple CPU Core

(Penn CIS565)

Presenter Notes

Ciclos simples vs. Multiciclos

CPI: Cycles Per Instruction IPC: 1/CPI: Instructions Per Cycle.

CPI = 1, pero ciclos lentos.

Alternativa: Ejecución Multiciclo.

Simple CPU Core

(Penn CIS501)

(-) Aumenta CPI.
(+) Puedo bajar el ciclo del reloj.
(+) Las instrucciones pueden tener una cantidad diferente de ciclos.

Procesadores de los 70's y 80's: 8080, Z80, 68000.

Presenter Notes

Pipelining

Simple CPU Core

Pipelined CPU Core

(Penn CIS501)

Presenter Notes

Instruction Level Paralelism

Pipelining implementa la primera forma de ILP.

Supone que insn1; insn2; insn3; ... son independientes.

Procesadores avanzados de fines de 80's: Cray XMP, NEC SX, 80486.

Ejemplo sencillo:

Pasaje por el pipeline

(Penn CIS501)

Presenter Notes

Dependencias

Paralelismo entre las fases de la línea de montaje.

¿Y si hay dependencia secuencial?: data hazard

1 a = b+c;
2 d = a*a;

Problema de corrección

La instrucción 2 tiene que esperar que la 1 termine de operar.

Dependencia de datos.
Dependencia de control (saltos = asignaciones al PC).

Stalls

Inyecta burbujas en el pipeline para mantener la ilusión de secuencialidad.

+ Hazards

Structural Hazards (más operaciones que el hardware disponible).
Control Hazards.

Presenter Notes

Data Hazards

Sin dependencia (dirección de asignación `<-`)

1 LD   *R1*, 45(R2)
2 DADD R5, R6, R7
3 DSUB R8, R6, R7
4 OR   R9, R6, R7

Requiere un stall

1 LD   *R1*, 45(R2)
2 DADD R5, *R1*, R7
3 DSUB R8, R6, R7
4 OR   R9, R6, R7

Se soluciona con un forwarding

1 LD   *R1*, 45(R2)
2 DADD R5, R6, R7
3 DSUB R8, *R1*, R7
4 OR   R9, R6, R7

Dependencia con acceso ordenado

1 LD   *R1*, 45(R2)
2 DADD R5, R6, R7
3 DSUB R8, R6, R7
4 OR   R9, *R1*, R7

(Hennessy, Patterson, Computer Architecture ...)

Presenter Notes

Detectar Dependencias

Dependencia: clausura transitiva de la relación binaria depende-de.

Es una propiedad del programa.

La implementación del pipeline determina cuantos stalls se producen.

Detección

Entre registros: directa.
Entre celdas de memoria: no trivial.

Tipos de Dependencias

RAW: read after write.
WAW: write after write.
WAR: write after read.

Presenter Notes

Dependencia en un loop

Loop típico

1 for (int i=0; i<N; ++i) {
2     a[i] = a[i] * 17;
3 }

Lo extiendo un poco, el for es un azúcar sintáctico.

1 int i = 0;
2 while (i<N) {
3     a[i] = a[i] * 17;
4     ++i;
5 }

La línea 3 depende de la 4 cuando da la vuelta.

Fuerza secuencialidad

Presenter Notes

Aumento de la independencia: unrolling

1 for (int i=0; i<N; i+=2) { // supongo N%2==0
2     a[i] = a[i] * 17;
3     a[i+1] = a[i+1] * 17;
4 }

Compilado

 1 .L5:
 2     movss   (%rdi,%rax), %xmm1
 3     mulss   %xmm0, %xmm1
 4     movss   %xmm1, (%rdi,%rax)
 5     movss   4(%rdi,%rax), %xmm1
 6     mulss   %xmm0, %xmm1
 7     movss   %xmm1, 4(%rdi,%rax)
 8     addq    $8, %rax
 9     cmpq    $8192, %rax
10     jne     .L5

Dependencia falsa WAW en xmm1.
El µP hace register renaming interno y ambas sumas van en paralelo.
Se podría haber hecho también en tiempo de compilación.
Probar la versión no-desenrollada con -funroll-loops.

Presenter Notes

Ejecución Fuera de Orden (OoO)

Planificación dinámica de las operaciones.
Evitar RAW mediante planificación: ejecución fuera de órden.
Evitar WAW y WAR mediante renombre de registros.
- Algoritmo de scoreboarding, 1964, CDC 6600.
- Algoritmo de Tomasulo, 1967, IBM 360/91.
(+) Se acerca al IPC ideal.
(-) Incrementa el área.
(-) Incrementa la potencia.

CPUs

En orden: Intel Atom, ARM Cortex-A8 (Apple A4, TI OMAP 3).
Fuera de orden: ≥Pentium Pro, ARM Cortex A9 (Apple A5, NV Tegra 2/3, TI OMAP 4).

Presenter Notes

Control Hazards

No puedo mover el salto ni para arriba ni para abajo. (asignación <-)

1     DADDU R2, R3, R4
2     BEQZ  R2, L1
3     LW    R1, 0(R2)
4 L1: ...

Y por más de que no dependa arriba, tampoco puedo moverlo!

1     DADDU R1, R2, R3
2     BEQZ  R4, L
3     DSUBU R1, R5, R6
4 L:  ...
5     OR    R7, R1, R8

Es muy complicado reordenar un branch.

Opciones:

Stall hasta saber el resultado de la comparación.
... o seguir como si nada hubiera pasado.

Presenter Notes

Ejecución Especulativa

Postura optimista:

Especula que el branch no se va a tomar.
Si hay miss-prediction: deshacer cambios.

En pipelines profundos el undo penaliza mucho.

Predicción de saltos

Pequeño análisis estadístico en runtime.
Predictores modernos >90% de exactitud.

Presenter Notes

Uso de Predicados

Saber que rama tomará es no-computable.

Lo mejor que podemos acertar es ... ¿50%?, meh.

1 int max(int x, int y)
2 {
3     return (x < y) ? y : x;
4 }

Una aiuda a `gcc`

 1 #define likely(x)       __builtin_expect((x),1)
 2 #define unlikely(x)     __builtin_expect((x),0)
 3 .
 4 .
 5 .
 6 if (unlikely(fd < 0))
 7 {
 8     /* Do something */
 9 }
10 .
11 .
12 .

Presenter Notes

Instrucciones Predicadas en `x86`

Copia condicional

1 cmpl    %esi, %edi
2 cmovll  %esi, %edi
3 movl    %edi, %eax
4 ret

(+) Evita el predictor de saltos.
(-) Mete un nop innecesario si el salto era predecible.

Filigrana computacional

Stephen Dolan, mov is Turing-complete.
Chris Domas, movfuscator, the single instruction C compiler.

Presenter Notes

Instrucciones predicadas

Es algo estandar en

ARM32 (¿ARM64?)
GPUs

Todas las instrucciones tienen un bitfield de 4 banderas: Z, C, O, P.
Si se dan las condiciones, ejecuta.
Si no, skip o nop.

Presenter Notes

Profundidad de los pipelines

486: 5 fases.
Pentium: 7 fases.
Pentium II/III: 12 fases.
Pentium 4: 22 fases (super-pipelined).
Core 1/2: 14 fases.

Incrementar la profundidad

(+) Se puede incrementar la frecuencia del clock (pero no paga tanto).
(-) El IPC decrece:
- Data Hazards que no se pueden resolver penalizan mucho.
- Saltos mal predichos penalizan mucho.

Presenter Notes

Procesadores superescalares

Estamos limitados a 1≤CPI.

Superescalar

Aumenta el ancho del pipeline.

Superescalar CPU Core

(Penn CIS565)

El IPC pico es N para un N-way superscalar µP.

Presenter Notes

¿Cuánto paralelismo puedo extraer?

Es increible como todavía le pueden sacar jugo a la secuencialidad.

(Intel five generation IPC test: Broadwell, Haswell, Ivy Bridge, Sandy Bridge and Nehalem)

Presenter Notes

Superescalar en Nehalem

Nehalem Execution Engine

((Anand Lal Shimpi)[http://en.wikipedia.org/wiki/Anand_Lal_Shimpi], Haswell's Wide Execution Engine)

Presenter Notes

Superescalar en Sandy Bridge

Sandy Bridge Execution Engine

((Anand Lal Shimpi)[http://en.wikipedia.org/wiki/Anand_Lal_Shimpi], Haswell's Wide Execution Engine)

Presenter Notes

Superescalar en Haswell

Haswell Execution Engine

((Anand Lal Shimpi)[http://en.wikipedia.org/wiki/Anand_Lal_Shimpi], Haswell's Wide Execution Engine)

Presenter Notes

Discusión: the free lunch is over

Mucha área del µP destinada a descubrir paralelismo.

¡Ya no paga más! Law of diminishing returns.

Solución

Pasarle la pelota al programador/compilador.

Explicitar el paralelismo.

Simultaneous Multithreading -- SMT (Hyperthreading™).
- Utilizar unidades funcionales ociosas con otro hilo.
- Más libertad al planificador OoO.
- Necesita de un juego alternativo de registros para hacer el cambio.
Multicore.

Presenter Notes

Xeon Ivy Bridge

Ivy Bridge floor plan

(Xeon E5-2680)

8 copias de lo mismo, 8 cores.

Presenter Notes

Xeon Ivy Bridge, un core

Xeon E5 core

Gran porcentaje de la superficie para extraer paralelismo y mitigar el memory wall.

Presenter Notes

SMT, aka Hyperthreading™

Symmetric Multithreading

Four threads using superscalar in different ways, COaD5 Figure 6.5

Presenter Notes

SMT, ¿Vale la pena?

Speedup and energy efficiency of using one core with SMT on Core i7, COaD5 Figure 6.6

En promedio

Desempeño: 1.31x
Eficiencia energética: 1.07x

Presenter Notes

Nuevas instrucciones

Growth of x86 instruction set over time. COaD5

Modelo tick-tock de Intel

Tock: die shrink.
Tick: new microarchitecture.

Gran crecimiento de instrucciones en el tock.
Pero también el en tick:
- Instrucción nueva para RNG RDRAND en Ivy Bridge.

Presenter Notes

Tick-tock model

Presenter Notes

Tick-tock-d'oh!

(Intel: Tick-Tock To Tick-Tock-Toe )

Presenter Notes

Nuevas instrucciones

New haswell instructions

Presenter Notes

Resumen: Trucos para una CPU rápida

Paralelismo de instrucciones: ILP
- Pipelining.
- Branch prediction.
- Superscalar.
- Out-of-Order (OoO) Execution.
Nuevas instrucciones.
Jerarquía de Memoria.
Paralelismo de Datos: DLP
- Operaciones Vectoriales.
Paralelismo de Hilos: TLP
- SMT.
- Multicore.

Presenter Notes

Los tres niveles de paralelismo

Instrucciones: ILP
Datos: DLP
Hilos: TLP

Por ahora solo uno.

Presenter Notes

Bibliografía

Presenter Notes

Bibliografía

Bryant, O’Hallaron, x86-64 Machine-Level Programming, 2008.
Intel Corp., Intel® 64 and IA-32 Architectures Software Developer's Manual, Instruction Set Reference.
Hennessy, Patterson, Computer Architecture: A Quantitative Approach, Fourth Edition, Morgan Kaufmann, 2011.
Herb Sutter, The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software, Dr. Dobb's Journal, 30(3), Marzo 2005.
Penn CIS565.
Penn CIS501.

Presenter Notes

La clase que viene

Memory wall.

Table of Contents	t
Exposé	ESC
Full screen slides	e
Presenter View	p
Source Files	s
Slide Numbers	n
Toggle screen blanking	b
Show/hide slide context	c
Notes	2
Help	h

Problema de corrección

Stalls

+ Hazards

Sin dependencia (dirección de asignación <-)

Requiere un stall

Se soluciona con un forwarding

Dependencia con acceso ordenado

Detección

Tipos de Dependencias

CPUs

Predicción de saltos

Una aiuda a gcc

Copia condicional

Filigrana computacional

Incrementar la profundidad

Superescalar

Solución

En promedio

Modelo tick-tock de Intel

Table of Contents

Help

Sin dependencia (dirección de asignación `<-`)

Una aiuda a `gcc`