¿Ha sido Nvidia elegida por la memoria HBM2?

El primero producto con memoria HBM2, el Tesla P100, ya existe y se puede adquirir aunque es para computación de alto rendimiento:

nvidia_tesla_p100_gpu_front4-100654530-largeObviamente este mastodonte no lo vais a ver en una consola de videojuegos por el hecho que el chip principal mide la friolera de 600mm^2, aproximadamente, pero la solución de AMD con dicho tipo de memoria aún se la espera:

amdroadmap

Obviamente el Tesla P100 no lo vamos a ver en ninguna consola de videojuegos y es normal porque es una GPU pensada para la computación de alto rendimiento que añade una serie de elementos que no son utiles para los videojuegos, en especial las unidades FP64 en sus SMs en el caso del GP100 (Tesla).

gp100_SM_diagram-624x452

Dichas unidades ocupan espacio lo que hace que si el salto lógico con la memoria HBM2 desde el GP104 (GeForce 1080) serían los 8 GPCs en el caso del Tesla P100 la cosa se quede solo en los 6 GPCs en vez de los 8.

gp100_block_diagram-1

pascal-gp104-arch-08

La cantidad de GPCs aumenta con el ancho de banda, si tomamos como referencia al GP104 de la GeForce 1080
Captura de pantalla 2016-05-14 a las 10.24.48 Unos 320 GB/Seg para la GeForce 1080… ¿Y que hay del mastodonte del Tesla P100? Pues su ancho de banda es de 720 GB/seg lo que significa que Nvidia podría realizar una versión del GP104 montado en un sustrato con dos chips HBM2 o incluso una versión más potente con 8 GPCs y cuatro chips  y fijaos en algo curioso, tenemos cuatro controladores de memoria en el GP100, dos por chip HBM2, tomad este dato porque será interesante más adelante y porque nos sirve para hacer la siguiente tabla de GPUs teóricas de Nvidia con memoria HBM2 y potenciales SoCs.

GPU Número de GPCs Número de SMs por GPC Total de núcleos CUDA  Interfaz HBM2  Controladores de de memoria
GP102-400 (teórica) 8 10 5120 4096 bits  8
GP104-400 (1080) 4 10 2560 2048 bits 4
GP106-400 (Supuesta 1060) 2 10 1280 1024 bits 2
GP107-400 (?¿??¿?) 1 10 640 512 bits
1

Hay que tener en cuenta que cada chip de memoria HBM2 puede tener hasta 8 canales de memoria en total,

hbm_pseudo_575px

 

 

Cada canal es de 128 bits por lo que hay dos canales por chip de la pila HBM2 (configuración 4-Hi) en la configuación de 1024 bits por chip aunque es posible colocar 8 chips en la pila y asignar un canal a cada uno de ellos es la forma de memoria más costosa y por lo general se utiliza la forma de memoria en la que existe una pila de cuatro chips y no de ocho, de tal manera que tenemos unos dos canales por chip de la pila y cada uno de ellos con 8 bancos distintos.

HBM21

¿Y que ocurre en el caso de un pila de 8? La siguiente diapositiva es lo suficientemente explicita:

HBM22

 

Al final la configuración quedaría de la siguiente manera:

HBM23

¿Pero como aplicamos esto a una consola de Nintendo? De la siguiente manera:

  • CPU: 8 núcleos ARM Cortex-A57/A72.
  • RAM (MEM2): 64 bits LPDDR4 (25.6 GB/Seg).
  • eDRAM (MEM1): 512 bits HBM2 (64/102.4/128 GB/Seg).
  • GPU: Pascal con 1 GPC: 640 núcleos CUDA, 10 SMs, 40 TMUS, 16 ROPS.

Al contrario de lo que ocurre en Wii U la MEM1 no solo serviría para los búfers de imagen sino que sería memoria para la GPU, en total unos 2GB de memoria para la GPU por lo que sería como tener una GPU con dicha configuración en el sistema. En cuanto a la memoria LPDDR4 esta se puede encontrar de manera externa o en el mismo empaquetado del chip principal como ocurre en móviles y tablets, reduciendo así las interfaces externas.

LPDDR4

Lo que se acaba teniendo con esto es una consola muy compacta y de consumo reducido tanto por el uso de la memoria HBM2  como del uso de los 16nm FinFet+. Algo que entra en la forma en la que Nintendo diseña sus consolas, en realidad no estoy haciendo otra cosa que la lógica que aplique sobre el uso de la memoria HBM2 en las entradas sobre AMD en NX pero en este caso con Nvidia. En todo caso esto es una especulación más pero dado el historial de Nintendo en sistemas compactos y de poco consumo la memoria HBM2 va como anillo al dedo y la que ha demostrado un producto con dicha memoria en el mercado es Nvidia con el Tesla P100 y su tecnología como se puede ver es escalable hacía abajo.

 

Anuncios