PowerVR en NX, MCM y demás cosas

Comentario original:

Es mas, ipad mueve esas resoluciones de 3 megapixeles desde hace varios años usando solo ram unificada de bajo consumo movil… Usando hipoteticamente los 32 mb de edram para retro con wii u eso le pegaria un boost importante ademas de que la gpu tendria ram con la que trabajar mientras la cpu accede al otro pool de memoria, la ram unificada. La cual en caso de ser sobremesa no sería LPDDR2 de bajo consumo (lo que tenia ipad 3 en 2012 renderizando 3 mpx) sino ddr3 que en one da casi 70 gbps

La mayoría de la gente tiene un televisor que soporta 1080P60 en estos momentos, no tiene sentido una consola 4K por el momento. Por otro lado si utilizas un Tile Renderer eliminas la necesidad de los 32MB de memoria embebida por un hecho muy simple, el buffer trasero reduce tanto su tamaño al generarse por bloques que no se necesita una densidad tan grandes. Es decir, colocar los 32MB de eDRAM con una GPU que sea un Tile Renderer para el mismo propósito es contraproducente porque deja de tener sentido ya que su necesidad queda inutilizada.

En cuanto al tema de la memoria, he aquí otro de los mitos del marketing que tengo que romper que es el hecho de que los Tile Renderers no necesitan de ancho de banda, es parcialmente cierto pero una media verdad es una mentira y la media verdad se debe a que la otra parte de la ecuación, la lectura en memoria para las texturas requiere también de ancho de banda y este no es salvable por un Tile Renderer porque en la parte de lectura a memoria funciona exactamente igual que un Direct Renderer.

Si aumento la cantidad de procesadores de caudal aumento la cantidad de unidades de texturas texturas y con ello el ancho de banda de lectura aumenta… ¿la consecuencia de ello? El número de pines de interconexión de E/S aumenta y por tanto el chip resultante acaba aumentando en área como consecuencia:

die1

Si el ancho de banda aumenta entonces tengo que aumentar el número de chips y con ello el número de interconexiones que están en el chip. El caso es que Nintendo en el diseño de sus consolas habitualmente ha buscado reducir el número de chips, es por ello que un servidor basa toda la especulación de la futura NX en dos escenarios bajo un mismo propósito, el primero es el de la memoria HBM que permite reducir el número de chips en placa, el consumo y el área ocupada pero ese no es el escenario que nos ocupa.

El segundo escenario es el uso de un Tile Renderer, pero un Tile Renderer se encuentra en la situación que antes hemos comentado… ¿En que escenario se puede utilizar un Tile Renderer y que se pueda ahorrar memoria? Pues utilizando memoria embebida pero no para almacenar el búfer de imagen trasero sino como atlas de texturas, es decir, una memoria en el chip donde se encuentren volcadas las texturas necesarias en cada escena y al que la GPU acceda para obtener las texturas de la escena. En realidad este mecanismo no es nuevo, otras consolas del pasado lo habían utilizado y entre ellas las de Nintendo con tal de disminuir la complejidad de la interfaz de memoria y reducir con ello la cantidad de chips en placa.

El problema del segundo escenario es la memoria embebida y el tamaño que esta ocupa en el chip, es decir, disminuyes la cantidad de IO pins en el chip pero no disminuyes su tamaño por lo que aumentas el coste y al añadir memoria embebida lo aumentas aún más. En realidad la opción HBM es mejor pero dado el nivel de madurez de la HBM la segunda opción parece mejor.

Comentario #2:

Lo que me da que pensar es la cpu.

¿Actualmente una ARM a 2,2 ghz de movil supera a un jaguar octocore retocado de ps4 y one?

Y si en vez de hacer un SOC para ahorrar pasta separan la cpu y la gpu por ser de moviles, bajo consumo, para refrigerarlas por separado y que no se calienten mutuamente, y para ponerlas a nivel sobremesa se dedican a subir frecuencias? En vez de poner chips mas grandes

Has hecho la descripción de un MCM o módulo multichip, la idea es la de varios chips sobre sustrato/interposer de diferente tipo donde el sustrato/interposer hace de enrutador. ¿Ejemplos? Hay varios en el mercado:

intel-haswell-gt3-01

Intel coloca la memoria embebida en sus chips de gama alta fuera del chip pero sobre un sustrato/interposer que hace de enrutador entre los dos chips y se encarga de la comunicación, este es el mismo mecanismo que utilizaba la GPU de la Xbox 360.

360elite 048

Otro ejemplo en el que vemos memoria y procesador encima de un sustrato/interposer son las GPU con memoria HBM, tenemos dos ejemplos visibles.. el AMD Fiji y el Nvidia Pascal.

lisa_su_fiji_04

PascalBoard-1

Pero no solo de combinaciones de procesador+memoria vive el hombre, también tenemos combinación de procesador+procesador, un ejemplo esta en Wii U donde CPU y GPU van montadas sobre sustrato/interposer:

MCM_WiiU

No obstante este modelo tiene un problema en el caso de separar procesadores, si yo a un procesador lo saco de dentro del SoC entonces tengo que añadir en el SoC incompleto una serie de pines io para la interconexión con ese elemento, esto se ve muy bien en la litografía del Latte de Wii U donde hay una serie de pins de salida que van a la CPU que es la parte donde pone GP I/O.

wiiudie_blocks

¿Que significa esto? Pues que estas quitando pines de conexiones que podrían a una interfaz de memoria adicional a cambio de colocar una pieza fuera. Es por ello que los SoC completos son tan valorados porque el hecho de sacar una pieza del SoC muchas veces no te ahorra el área ocupada del mismo y con ello el coste.  Sinceramente no le veo sentido a dejar la CPU fuera del SoC, la experiencia con Wii U me hace pensar que Nintendo hará todo lo posible para rehuir de CPU+GPU sobre sustrato/interposer para ir directamente al uso de un SoC.

Ya que estan pensados para moviles y tablets sin disipador ni ventiladores, al tenerlos en caso de consola de sobremesa, pueden duplicar o triplicar la frecuencia

¿En que espacio de consumo se suele mover Nintendo en sus consolas de sobremesa? Wii U no llega a los 35W y aún así es una diferencia sustancial respecto a los consumos en móviles y en tablets. Obviamente cuando hablamos de arquitecturas de móvil nos referimos a estas arquitecturas en el punto en que:

  • Por tamaño ya no son viables en móvil.
  • Por ancho de banda necesario ya no son viables en móvil.
  • Por consumo ya no son viables en móvil.

Esto se consigue rompiendo el limite de consumo de los… ¿5W? Es una nueva categoría de dispositivo por el tipo de consumo, cabe aclarar que no hablamos de coger un chip de movil y transplantarlo tal cual.

Me imagino una cpu ARM que doble la de ps4, y una power vr de 2,5 tflops como pedia epic para UE4, con raytracing, vulkan, 32 mb de edram, 4k…

Ojala que la consola sea potente pero soy bastante escéptico en este caso y creo que es más bien wishful thinking.

 

Anuncios