PDA

View Full Version : Al sinds 2010 blijft de snelheid van een processor hangen op 3GHz


Nr.10
3 juni 2017, 23:46
Kijk. De snelheidslimiet van de processor lijkt bereikt.
3GHz
Voor 2010 was er verbetering op een logaritmische schaal.
BRON (http://5gnews.org/critique-pure-speed/)
27 mei 2017

kelt
4 juni 2017, 05:15
Het is al lang de vraag waarom de kloksnelheid van microprocessoren nog zou moeten verhogen.Voor het verhogen van de verwerkingssnelheid is het verhogen van de kloksnelheid al sedert de eerste pentiums 20 jaar geleden niet meer de voornaamste factor.

Veel belangrijker bleek het "multi-core" concept (algemeen geworden,tot in de processors in uw smart-phoontje toe),en de gesofistikeerde threading en multitasking concepten die in het "silicon" gebakken worden.


Het verbruik,veel belangrijker in het licht van de achterophollende batterijtechnologie, is wel direct gerelateerd aan de gebruikte spanningen en kloksnelheden.....De overgrote meerderheid van microprocessoren dient nu voor mobiele toepassingen en dat dikteert dus de markt....Niet de "brute verwerkingseenheden" voor gamers en supercomputers....

De fabrikanten zijn dus eerder aan het "balanceren" van mogelijkheden dan aan het "opdrijven" van prestaties.


Zelfs in zeer gesofistikeerde wapensystemen zijn de prestaties van de microprocessoren ongetwijfeld al meer dan een decennium niet het voornaamste probleem.Eerder gaat het er om al die gesofistikeerde hardware aaneen te breien met goedgeschreven software en dit voldoende TRAAG te laten werken opdat Homo Sapiens nog overweg kan met zijn eigen creaturen.....

Dadeemelee
4 juni 2017, 07:30
Zoals Kelt zei, voor de rest is de snelheid van de processoren voor een pc voor huis tuin en keukengebruik allang goed genoeg.

Micele
4 juni 2017, 10:50
De vooruitgang even in beeld: (voor autonome autos bvb, beelden per sec)

http://cdn.wccftech.com/wp-content/uploads/2016/01/NVIDIA-Drive-PX-2-Specifications-1030x579.jpg

http://wccftech.com/nvidia-pascal-gpu-drive-px-2/

Meer specs:
https://vrworld.com/2016/04/13/nvidia-showed-pascal-based-drive-px-2/

Drosamadaris
4 juni 2017, 11:09
Nog maar eens een Nr 10 topic in wetenschap & technologie, vol posts van zichzelf met ettelijke links die hij zelf niet begrijpt...

Processors @ 4GHz & 5GHz zijn zelfs domweg te koop. Tot zover de "limiet"...

Micele
4 juni 2017, 15:57
Nog maar eens een Nr 10 topic in wetenschap & technologie, vol posts van zichzelf met ettelijke links die hij zelf niet begrijpt...

Processors @ 4GHz & 5GHz zijn zelfs domweg te koop. Tot zover de "limiet"...
Grappig dat hij een bron van mei 2014 citeert, en er dan maar 2017 van maakt, mss was het schrift wat klein...
ook de grafiek loopt maar tot ergens 2013?

http://5gnews.org/critique-pure-speed/
Posted on May 27, 2014

Kijk. De snelheidslimiet van de processor lijkt bereikt.
3GHz
Voor 2010 was er verbetering op een logaritmische schaal.
BRON (http://5gnews.org/critique-pure-speed/)
27 mei 2017

ff ggl recente bron:
http://www.techradar.com/news/computing-components/processors/kaby-lake-intel-core-processor-7th-gen-cpu-news-rumors-and-release-date-1325782
Kaby Lake Intel Core processor: 7th-gen CPU news, features and release date
By Andrew Williams 9 days ago

The i7-7700K is a quad-core, hyper-threaded CPU, which garners a fruitful 4.2GHz/4.5GHz core/boost clock. Although contained by extreme cooling conditions, early overclock results with the 7700K proved to be quite impressive, pulling off speeds of over 7GHz in some instances.

DewareJakob
4 juni 2017, 16:05
Een paar jaar geleden 'ergens' 'iets' gelezen (kan in EOS zijn geweest, maar ik weet het niet meer zeker) over een revolutie in processortechnologie, dataopslag en de verwerking die de snelheid factor 10 of meer zou verhogen. Gebruik van organisch materiaal of zo iets. Helaas daarna nooit meer iets van gehoord.

Nr.10
5 juni 2017, 23:17
Processors @ 4GHz & 5GHz zijn zelfs domweg te koop. Tot zover de "limiet" ...
Op zeven jaar tijd van 3GHz naar 4 GHz is ver van de wet van Moore, nietwaar.

Nr.10
5 juni 2017, 23:24
http://5gnews.org/critique-pure-speed/
Posted on May 27, 2014
Alvast nog een interessant gegeven uit dit artikel:
Researchers tell us that the human eyes receive about 20 Mbps of data through the optic nerves. If we generously add another 192 kbps for perceptual audio coding, we can justify 20.2 Mbps for streaming data applications. We could support 50 immersive video experiences with a single 1 Gbps 5G terminal. This hardly seems reasonable or useful.
Het menselijke oog streamt data aan 20 Mbps.
De audio die door het oor passeert streamt aan 192 kbps.

==> een verbinding van 20,2 Mbps is voldoende
om het menselijke oog en oor na te bootsen
met een videocamera.

Micele
6 juni 2017, 10:07
Op zeven jaar tijd van 3GHz naar 4 GHz is ver van de wet van Moore, nietwaar.
tot meer dan 7 GHz overclock.

The i7-7700K is a quad-core, hyper-threaded CPU, which garners a fruitful 4.2GHz/4.5GHz core/boost clock. Although contained by extreme cooling conditions, early overclock results with the 7700K proved to be quite impressive, pulling off speeds of over 7GHz in some instances.

Al sinds 2010 blijft de snelheid van een processor hangen op 3GHz
de core frequency is bijlange niet alleen bepalend voor de snelheid=rekenkracht van een processor weer te geven.
Neem eens de grafiek van FLOPS tussen 2010-2016...

Drosamadaris
6 juni 2017, 10:33
Op zeven jaar tijd van 3GHz naar 4 GHz is ver van de wet van Moore, nietwaar.

Moore zegt dan ook niks over snelheden, wel over transistor-sizing...

Tavek
7 juni 2017, 00:22
Als je een CPU of GPU koopt enkel op basis van clock snelheid ga je berooid thuiskomen.

Een titan X draait rond de 1 Ghz, maar is twee keer zo snel als een AMD fury X 1 ghz....

De architectuur zegt meer als de clocksnelheid in vele gevallen.

Wapper
7 juni 2017, 20:37
Op zeven jaar tijd van 3GHz naar 4 GHz is ver van de wet van Moore, nietwaar.

De "wet" van Moore is dan ook een verkeerde omschrijving.
Geen enkel fysisch principe of wetmatigheid vormt de grondslag ervan.
Het is een observatie van Moore uit de jaren '60.

Nr.10
7 juni 2017, 22:11
Moore zegt dan ook niks over snelheden, wel over transistor-sizing...
De oorspronkelijke wet van Moore zegt inderdaad niets over de snelheid.
Geschiedenis
De oorspronkelijke voorspelling ging over de dichtheid van de transistors, maar later is zij op dit punt bijgesteld.

Snelheid
Soms wordt de wet geldend geacht voor de kloksnelheden, maar dat is een misverstand. Miniaturisering geeft weliswaar kleinere transitietijden, maar niet in de mate van deze wet. Anno 2006 lijkt de groei van de kloksnelheid van de chips te stagneren en anno 2014 ligt de hoogste kloksnelheid bij 5 GHz (AMD FX-9590 op turbofrequentie). Als oplossing daarvoor plaatsen de chipfabrikanten meerdere processoren (ook wel cores genoemd) op een chip. Dual cores worden in grote mate in computers gebruikt, en er zijn zelfs chips met 80 floating-pointcores. Deze parallellisatie kan echter alleen goed benut worden als de software hierop is aangepast met technieken als multithreading, SOA.

Toekomst
Alternatieven zoals nanotechnologie zouden de elektronica kunnen vervangen maar Moore ziet een aantal bezwaren. De Amerikaanse econoom Robert Gordon gaat nog een stap verder in zijn kritiek. Omdat het technologisch onmogelijk is om computerchips te verbeteren in hetzelfde tempo als de laatste decennia is de Wet van Moore volgens hem op sterven na dood. Gordon baseert zich hiervoor op een artikel van The Economist van april 2015 en de bevindingen van steeds meer informatici en ICT-bedrijven.

Naast verdere miniaturisering van de transistoren is de toename van de functionaliteit van IC's een belangrijke ontwikkeling binnen de micro-elektronica. Naast digitale functies (rekenkracht, gegevensopslag) worden ook analoge functies (sensors en actuatoren, antennes voor draadloze communicatie, batterijen, enz.) in de chip ingebouwd. Deze trend, die in feite een uitbreiding vormt van de Wet van Moore, staat bekend als 'More than Moore'.

BRON (https://nl.wikipedia.org/wiki/Wet_van_Moore)

Nr.10
8 juni 2017, 00:38
Als je een CPU of GPU koopt enkel op basis van clock snelheid ga je berooid thuiskomen.

Een titan X draait rond de 1 Ghz, maar is twee keer zo snel als een AMD fury X 1 ghz....

De architectuur zegt meer als de clocksnelheid in vele gevallen.
In verband met "de architectuur":
Nodes, Sockets, Cores and FLOPS (http://en.community.dell.com/techcenter/high-performance-computing/w/wiki/2329)
nov 2011
In the past, a chassis contained a single node.
This chassis was a desktop computer or a tower version
or a deskside unit or a rack-mounted pizza box server, etc.
Within that thing you bought was a single node.
A single node contained a single processor.
A processor contained a single (CPU) core
and fit into a single socket. But times change...
Laat ons een paar termen definiëren meldt de auteur:

A "chassis" houses one or more nodes.
A node contains one or more sockets.
A socket holds one processor.
A processor contains one or more (CPU) cores.
The cores perform FLOPS.

Nr.10
8 juni 2017, 00:44
tot meer dan 7 GHz overclock.
de core frequency is bijlange niet alleen bepalend voor de snelheid=rekenkracht van een processor weer te geven.
Neem eens de grafiek van FLOPS tussen 2010-2016...
FLOPs of FLOPS ? Er blijkt een verschil. Zie het artikel in bovengaande post.

FLOP = FLoating-point OPeration
FLOPs = FLoating-point OPerations
FLOPS = FLoating point OPerations per second

maddox
8 juni 2017, 06:30
Ik ken een ingenieur die de machines ontwerpt die nieuwe chips moeten etsen. Er is een limiet bereikt. Diep UV kan niet fijner meer etsen.
Voor de volgende grote stap zou men naar Röntgen moeten gaan. Maar dan loopt men aan tegen het feit dat de breedte van het geëtste spoor ongeveer even breed is dan 1 "transistormolecule".

Moore kon deze graad van "fijnheid" niet voorspellen in de jaren 70.
Zie maar hoe de meeste voorspellingen in de loop der jaren gewoon mis bleken.

Drosamadaris
8 juni 2017, 07:23
Ik ken een ingenieur die de machines ontwerpt die nieuwe chips moeten etsen. Er is een limiet bereikt. Diep UV kan niet fijner meer etsen.
Voor de volgende grote stap zou men naar Röntgen moeten gaan. Maar dan loopt men aan tegen het feit dat de breedte van het geëtste spoor ongeveer even breed is dan 1 "transistormolecule".

Moore kon deze graad van "fijnheid" niet voorspellen in de jaren 70.
Zie maar hoe de meeste voorspellingen in de loop der jaren gewoon mis bleken.

Uiteraard; dat Moore niet blijvend geldig zou zijn, dat kregen we 10 jaar geleden al onderwezen :)

And as for processor frequency: zoals eerder ook al gezegd zijn de grote chips-bakkers al enkele jaren geleden afgestapt van het principe dat ze telkens hogere kloksnelheden moesten krijgen. AMD heeft dat besef weliswaar wat later gehad, maar ook zij zijn uiteindelijk tot dezelfde conclusie gekomen :-D.
Issue voor hogere kloksnelheden is trouwens niet de verderzetting van Moore, wel de power-consumption die daarmee gepaard gaat.

Nr.10
8 juni 2017, 23:18
FLOP = FLoating-point OPeration
FLOPs = FLoating-point OPerations
FLOPS = FLoating point OPerations per second

GFLOPS = #chassis * #nodes/chassis * #sockets/node * #cores/socket * GHz/core * FLOPs/cycle
In general, a core can do a certain number of FLOPs or FLoating-point OPerations every time its internal clock ticks. These clock ticks are called cycles and measured in Hertz (Hz). Most microprocessors today can do four (4) FLOPs per clock cycle, that is, 4 FLOPs per Hz. Thus, depending upon the Hz frequency of the processor’s internal clock, the floating point operations per second or FLOPS can be calculated. The internal clock speed of the core is known. It’s that GHz rating typical of today’s processor. For example, a 2.5-GHz processor ticks 2.5 billion times per second (Giga ~ billion). Therefore, a 2.5-GHz processor ticking 2.5 billion times per second and capable of performing 4 FLOPs each tick is rated with a theoretical performance of 10 billion FLOPs per second or 10 GFLOPS.
The internal clock speed of the core is known. It’s that GHz rating typical of today’s processor.

kFLOPS = kilo = 10 tot de 3de macht
MFLPS = mega = 10 ^ 6
GFLOPS = giga = 10 ^ 9
TFLOPS = tera = 10 ^ 12
PFLOPS = peta = 10 ^ 15
EFLOPS = exa = 10 ^ 18

Bijvoorbeeld: een desktop met

1 socket
1 core
een interne kloksnelheid van 2,5 Ghz
4 FLOPs per klok-cyclus

==> levert een capaciteit van 10 GFLOPS = 10 miljard FLOPs per seconde

Nr.10
8 juni 2017, 23:30
De snelheid van zogenaamde supercomputers (https://nl.wikipedia.org/wiki/Supercomputer) wordt uitgedrukt in FLOPS.
Hoe de architectuur van dergelijke supercomputers eruit ziet?
De snelste supercomputer ter wereld staat momenteel in China, heeft een score
van 93 PFLOPS, en heeft een totaal van 10.649.600 cores over het hele systeem.
Op het systeem kan code geparallelliseerd uitgevoerd worden.
BRON (https://nl.wikipedia.org/wiki/Sunway_TaihuLight)

Nr.10
8 juni 2017, 23:45
The internal clock speed of the core is known. It’s that GHz rating typical of today’s processor.
De kloksnelheid = de kloksnelheid van de core.
Met meerdere cores op één processor mogelijk.
Bijvoorbeeld:

een Single core CPU = 1 core
een Dual core CPU = 2 cores
een Quad core CPU = 4 cores

Iets kleiners dan een processor is niet te koop.
Fabrikanten van microprocessoren verkopen processoren.
Met bijhorende adjectieven. Door meerdere cores te combineren
verhoogt de FLOPS score, maar niet de kloksnelheid.

(fig.)

Nr.10
9 juni 2017, 00:00
Nog enkele vragen.
Waarom de FLOPS van de CPU verhogen door meerdere cores te installeren?
En wat met de software als er meerdere cores zijn?

(fig.: Quad-core CPU)

kelt
9 juni 2017, 09:36
Nog enkele vragen.
Waarom de FLOPS van de CPU verhogen door meerdere cores te installeren?
En wat met de software als er meerdere cores zijn?

(fig.: Quad-core CPU)

U omschrijft met deze vraag het grote enigma van de industrie.

Als je (tegenwoordig enorme-) brokken "kode" kunt verdelen over meerdere processor-kernen,hoe ver kun je daarin gaan zonder dat de software die in de microprocessor zelf "ingebakken" is,en die de planning moet doen, zelf te ingewikkeld moet worden omdat,uiteraard,brokken software van het gebruikersprogramma die apart op verschillende cores draaien riskeren gegevens van elkaar nodig te hebben en dan maar allemaal staan wachten op elkaar.(ik stel het vereenvoudigd voor omdat mijn begrip van de materie ook niet diep is,ben al blij wat met een arduinootje te kunnen spelen :roll: )

Ik vrees dat het al meer voorkomt dan we weten,immense verwerkingssnelheid die verloren gaat omdat laag na laag software volautomatisch eventjes "in wacht" staat op andere stukken kode die op een andere core bezig zijn....

Micele
9 juni 2017, 09:49
Nog enkele vragen.
Waarom de FLOPS van de CPU verhogen door meerdere cores te installeren?
En wat met de software als er meerdere cores zijn?

(fig.: Quad-core CPU)

Omdat... :roll::roll:

https://nl.wikipedia.org/wiki/FLOPS

FLOPS is een eenheid die wordt gebruikt om de rekenkracht van CPU's aan te duiden. Deze aanduiding is een aanvulling op de MIPS-eenheid, een andere snelheidsmeting van CPU's die voornamelijk de snelheid van instructieverwerking aangeeft.

Over het algemeen halen huidige CPU's tussen de 20 en 100 Gflops, huidige GPU's halen op enkele-precisie-berekeningen meer dan 800 Gflops, maar vallen terug naar een kwart van deze snelheid bij dubbele-precisie-berekeningen.
Enkele voorbeelden van grafische kaarten met bijbehorende prestaties zijn:
De GTX 690 van nVidia met 5.621 Gflops.
De AMD Radeon HD 7990 van AMD met 6.963 Gflops.
De GTX 295 van nVidia met 1.788 Gflops.
Bovenstaande beschrijvingen zijn echter theoretische gevallen die alleen onder de meest ideale omstandigheden worden gehaald, berekend met SGEMM-benchmark of LINPACK.
Bij mainframes en supercomputers ligt het aantal FLOPS aanzienlijk hoger; de Cray XT5 Jaguar haalt 1,759 petaflops, de Japanse 'K Computer' 10,51 petaflops (november 2011) en de Sequoia[1] (juni 2012), met 16,32 petaflops. Als er een cluster gebouwd zou worden met per server een Intel Core i7 en 2 ATI Radeon HD4870 X2-kaarten, zouden er minimaal 361 servers nodig zijn om de snelheid van de Jaguar te behalen (theoretisch, in een perfecte omgeving). Dat is een stuk minder dan de duizenden die nodig zijn als er alleen CPU's gebruikt worden, maar dan alleen in enkele precisie.
Sinds juni 2013 voert de Chinese supercomputer Tianhe-2 [2] (Melkweg 2) de lijst aan met 33,86 petaflops.
Voorbeeld van Gflops-scores van enige bekende CPU's:[3] (......)

Natuurlijk is daar een beperking wegens software enz voordelen en nadelen... blabla

Hier te vinden

Voordelen

Het plaatsen van meerdere kernen op een processor heeft als voordeel dat relatief veel snelheid gewonnen kan worden met een geringe investering; een computer met een dubbelkernprocessor is slechts een beetje trager dan een computer met twee losse processors, terwijl de dubbelkernprocessor geen speciale en vaak dure hardware zoals een moederbord met twee voetjes nodig heeft. Hoewel de aanschafprijs nu nog relatief hoog is door het productieproces (de twee cores worden tegelijk gemaakt: is er één kern kapot, dan is de tweede kern ook onbruikbaar), in de toekomst zullen ze goedkoper worden en doordat de moederborden met één processorvoet goedkoper zijn, zal er een aanzienlijke kostenbesparing mogelijk zijn.
Ook wordt gebruikers een gemakkelijke manier geboden om extra snelheid in hun systeem te krijgen, de gebruiker kan eenvoudig zijn oude processor vervangen door een nieuwe met meer kernen en daardoor de snelheid van zijn machine voor een geringe investering flink doen toenemen.

Nadelen

Het grote nadeel van multikernprocessors is dat software veelal niet automatisch gebruikmaakt van meerdere kernen; de software moet ofwel uit meerdere processen bestaan, ofwel specifiek van multithreading gebruikmaken. Klassieke applicaties met slechts een enkele thread profiteren nauwelijks van multikernprocessors.
Het productieproces van de processors vereist dat beide processorkernen tegelijk succesvol gefabriceerd worden. Indien een kern defect is, is de andere ook niet meer bruikbaar. Vanuit fabricageoogpunt zijn multikernprocessors dan ook niet makkelijk hanteerbaar.
Ook betekent een verdubbeling van het aantal kernen vrijwel een verdubbeling van het energieverbruik van de processor. Dit levert warmteproblemen op en om dit te compenseren dient in veel gevallen de kloksnelheid van de processor verlaagd te worden. Applicaties die slechts één kern (van meer) kunnen gebruiken, zullen daardoor trager werken dan in een enkelkernsysteem waar een hoger geklokte processor in zit. Intel heeft dit probleem min of meer verholpen met de introductie van Turbo Boost bij de Nehalem (Core i7) architectuur. Wanneer er slechts één kern belast wordt, worden de overige kernen uitgeschakeld. De kloksnelheid van de belaste kern vermeerderde aanzienlijk. Als de belasting wegvalt, worden alle kernen weer ingeschakeld en de kloksnelheid teruggebracht.

Toekomst

De op dit moment verkrijgbare processors beschikken over een, twee, drie, vier, zes, acht of 12 kernen. In de toekomst zullen dubbelkernprocessors niet meer voldoen. Bij andere architecturen is dat al het geval: Suns Niagaraprocessor heeft 8 kernen die elk 4 threads kunnen verwerken, waardoor er in totaal 32 threads tegelijk kunnen worden uitgevoerd. Ook Intels Core i7 heeft 4 kernen die elk 2 threads kunnen verwerken. Alle i7's op de Core i7-980 X na. Deze heeft 6 kernen met elk 2 threads (12 threads kunnen zo simultaan worden verwerkt).

Intel ziet de toekomst voor multicoreprocessors rooskleurig in. Naast de bovengenoemde Core i7 had Intel tegen september 2006 al een prototype ontwikkeld van een 80-coreprocessor. Deze processor is in staat om een terabyte per seconde te verwerken en het kan meer dan een teraflop leveren. Het is echter nog niet bekend wanneer deze op de markt komt. Het prototype beschikt over 80 floatingpoint eenheden, die elk op 3,16 GHz geklokt zijn. Het bedrijf liet hiermee zien dat 45 nm-productietechnologie stroomlekkage met factor vijf verminderde en wist ook de prestaties met twintig procent omhoog te schroeven. Dit bericht werd in september 2006 op het Intel Developer Forum geplaatst.

https://nl.wikipedia.org/wiki/Multikernprocessor
Andere wiki-talen kunnen actueler zijn: https://en.wikipedia.org/wiki/Multi-core_processor

Waarom vraag je dat als je het altijd ergens kunt vinden?

Is een forum een vragenspelletje ?

https://eviewer.netmedia-europe.be/cache/server?type=image&origin=pb&source=promobutler_be%2Farticles%2F2016%2F12%2F04% 2F31327%2Fsuprabaz0040n020000059.jpg&storage=2016

Nr.10
9 juni 2017, 20:08
Waarom vraag je dat als je het altijd ergens kunt vinden?

Is een forum een vragenspelletje ?
Wetenschap is een heen een weer bewegen tussen vraag en antwoord. Dit op en neer gaan tussen vraag en antwoord is essentieel, het is fundamenteel en het laat zich niet vangen door de wetten van de commercie.

Micele
9 juni 2017, 20:23
https://www.karlrupp.net/wp-content/uploads/2013/06/flops-per-cycle-sp.png


https://www.hpcwire.com/2016/08/23/2016-important-year-hpc-two-decades/

Why 2016 Is the Most Important Year in HPC in Over Two Decades

By Vincent Natoli, Stone Ridge Technology

August 23, 2016

In 1994, two NASA employees connected 16 commodity workstations together using a standard Ethernet LAN and installed open-source message passing software that allowed their number-crunching scientific application to run on the whole “cluster” of machines as if it were a single entity. Their do-it-yourself, McGyver-like efforts were motivated by a frustration with the pricing, availability and maturity of then existing massively parallel processors, e.g., nCube, Thinking Machines, Convex and Cray. They named their machine Beowulf. Thomas Sterling and Donald Becker may not have known it at the time but their ungainly machine would usher in an era of commodity parallel computing that persists today and 1994 would prove to be a pivotal year in the history of high-performance computing (HPC). I believe that 2016 will be another such pivotal year. This year sees the launch of both NVIDIA’s Pascal P100 GPU, the latest in its Tesla compute line, and Knights Landing, the next manycore chip in the Intel Phi family.

NVIDIA

With its modest introduction in 2007 of the Tesla compute family of GPUs and CUDA, a compiler that made it much easier to do general programming on its products, NVIDIA introduced the HPC community to general purpose GPU computing (GPGPU). Since that time adoption has been brisk with many HPC codes ported in part or whole to GPUs to achieve better performance. When compared on a chip-to-chip basis against CPUs, GPUs have significantly better capability on both speed of calculation (FLOPS) and speed of data movement (bandwidth) (GB/s). Figure 1 tells this story.

https://6lli539m39y3hpkelqsm3c2fg-wpengine.netdna-ssl.com/wp-content/uploads/2016/08/Natoli-CPUvGPU-peak-DP-600x.png


https://6lli539m39y3hpkelqsm3c2fg-wpengine.netdna-ssl.com/wp-content/uploads/2016/08/Natoli-CPUvGPU-peak-mem-bw-600x-300x241.png

Over the last decade GPUs have made significant inroads in many HPC applications important to industry and in the past three years there has been a resurgence of interest in machine intelligence, deep learning and AI that has largely been enabled by the compact, high-performance of NVIDIA GPUs and massive training sets now available on the internet. The challenge for NVIDIA is to change the perception of GPUs from accelerators to full computing platforms. When the community sees GPUs as accelerators it chooses to use them to offload the most time consuming kernels. For complex applications this may only be 50 percent of the total runtime and consequently, limited by Amdahl’s law, they will achieve at most a factor of 2. To make broader advances in HPC with gains proportionate to improvements in hardware specifications users need to develop full complex applications for the platform. The resulting gains can be very impressive. I will use ECHELON, the high performance reservoir simulator that my company, Stone Ridge Technology (SRT), markets to the oil and gas community as an example.

ECHELON is unique in that it is a complex full featured engineering application that runs every computational kernel on GPU; and while reservoir simulation targets a very specific domain it is representative of any engineering application that requires the solution of coupled non-linear partial differential equations on a grid. In that sense it is similar to codes for computational fluid dynamics, structural mechanics, weather modeling and many others. Our experience at SRT with multiple generations of GPU technology is that we are taking full advantage of additional hardware resources provided by NVIDIA. Performance is almost directly proportional to the additional bandwidth/flops available. ECHELON, like most scientific codes, is bandwidth bound; double the bandwidth and runtimes go down by about a factor of two. Why is this exciting? It means that those linear gains we experienced pre-2004, when clock speed scaled up every two years, are once again attainable. ECHELON is back on the Moore’s law curve and any code, similarly constructed, can be as well.

Intel

Intel has not stood still and the success of GPUs in HPC has not escaped its attention. The company has presented a consistent vision of a manycore line of chips that are x86 compatible stretching back to the mid-2000s with the Larrabee project. Larrabee was to be an x86 compatible discrete graphics chip, in other words a chip to compete head-to-head with NVIDIA and ATI (now AMD) in their core business. Product delays and disappointing performance led to the cancellation of Larrabee in May 2010 and its morphing into Knights Ferry, the first of Intel’s manycore HPC chip family, Phi. Perhaps recognizing the early success of NVIDIA in HPC or as part of a strategic vision for x86 capable manycore chips, instead of competing on discrete graphics, Intel was going to compete with NVIDIA for this newly discovered accelerator market.

As the HPC incumbent, Intel had and still has significant advantages, including a huge installed customer base, x86 software compatibility and control of the host system. The Phi line followed Knights Ferry with Knights Corner in 2012 and the latest in the Phi line, released this year at ISC is Knights Landing. The challenge for Intel is to put a product on Figure 1 competitive with GPUs. Knights Landing’s specs indicate peak memory bandwidth of 490 GB/s and 3.46 teraflops peak double-precision FLOPS on the top bin part. Its success will depend largely on how easy it is to achieve that peak performance. The notion that Xeon codes will magically run much faster on the Phi family of chips with little or no modification has proven incorrect. It is a complex chip with a complex cache hierarchy and it will take both time and effort to modify codes to exploit it fully.

While GPUs have gained a strong and dedicated following over the last decade as a next generation HPC platform, many companies, fearing the investment in software development, the scope of the task and limited experience with GPUs have chosen a conservative wait and see posture. As loyal Intel customers, they have waited almost a decade to get a viable manycore computing platform, one optimized for throughput processing of threads. All the while the performance gap between GPU-based codes and their CPU-based equivalents has grown with each processor generation. The Xeon Phi family from Larrabee through Knights Corner has thus far been disappointing. It stands in stark contrast to the near military precision, consistent performance and technical excellence that Intel has exhibited in its main Xeon line since the introduction of the Core 2 architecture in 2004. Knights Landing is Intel’s third try. After almost a decade of waiting and promises, the expectations on Knights Landing are understandably high and a failure to match or exceed the performance of Pascal should trigger heated debate in the cubicles, datacenters and board rooms where HPC matters.

The Battle for HPC

Intel and NVIDIA are battling each other for the massive number crunching and data moving work that is the hallmark of HPC. It’s the kind of work that includes modeling and simulation tasks of everything from airflow over automobiles and aircraft, climate and weather modeling, seismic processing, reservoir simulation and much more. This year that battle is being played out by the matchup between Knights Landing and Pascal. An enormous amount is at stake and the HPC hardware market only scratches the surface. The real cost is in the millions of person-hours that will be invested writing and porting massive, complicated technical codes to one of these two platforms. It’s a huge investment for companies and developers and it will set the HPC course for the next decade. Will Intel’s Knights Landing begin to put the pressure on NVIDIA’s Pascal or will Pascal become Intel’s Knight’s Mare. This year will tell.

About the Author

Vincent Natoli headshot 300x300Dr. Vincent Natoli is the president and founder of Stone Ridge Technology. He is a computational physicist with 20 years experience in the field of high performance computing. Previous positions include Technical Director at High Performance Technologies (HPTi) and Senior Physicist at ExxonMobil Corporation, where Dr. Natoli worked for 10 years in both its Corporate Research Lab in Clinton, New Jersey and the Upstream Research Center in Houston, Texas. Dr. Natoli holds Bachelor’s and Master’s degrees from MIT, a PhD in Physics from the University of Illinois Urbana-Champaign and a Masters in Technology Management from the Wharton School at the University of Pennsylvania. Dr. Natoli has worked on a wide variety of applications including reservoir modeling and seismic data processing for the oil and gas industry, molecular dynamics, quantum chemistry, bioinformatics and financial engineering.

Micele
9 juni 2017, 20:24
-

Wapper
9 juni 2017, 21:27
Ik vrees dat het al meer voorkomt dan we weten,immense verwerkingssnelheid die verloren gaat omdat laag na laag software volautomatisch eventjes "in wacht" staat op andere stukken kode die op een andere core bezig zijn....

Nee hoor, L1/L2 predictive caching lost dat steeds beter en beter op, ook op multi-core processoren. Interessant en zeer recent artikel:

https://www.extremetech.com/extreme/188776-how-l1-and-l2-cpu-caches-work-and-why-theyre-an-essential-part-of-modern-chips

Nr.10
10 juni 2017, 00:50
https://www.hpcwire.com/2016/08/23/2016-important-year-hpc-two-decades/
Het artikel omschrijft 2016 als een pivot-jaar in HPC vanwege de introductie van deze twee systemen:

Intel's Knight Landing = the next manycore chip in the Intel Phi family
Nvidia's Pascal P100 GPU = the latest in its Tesla compute line

Het artikel stelt de zaken op scherp tussen enerzijds de CPUs van Intel en anderzijds de GPUs van Nvidia.

Het vorige pivot-jaar in HPC, volgens de auteur,
was 1994. Het jaar van de bouw van de eerste "cluster" van 16 machines,
verbonden via LAN, die applicaties liet draaien alsof ze op één machine
draaiden. De zogenaamde Beowulf.

Hier (http://www.mcsr.olemiss.edu/bookshelf/articles/how_to_build_a_cluster.html) vind je een handleiding om een Beowulf cluster te bouwen.
What is a Cluster?
A cluster is a group of computers
which work together toward a final goal.

Nr.10
11 juni 2017, 00:43
De snelheid van zogenaamde supercomputers (https://nl.wikipedia.org/wiki/Supercomputer) wordt uitgedrukt in FLOPS.
Hoe de architectuur van dergelijke supercomputers eruit ziet?
De snelste supercomputer ter wereld staat momenteel in China, heeft een score
van 93 PFLOPS, en heeft een totaal van 10.649.600 cores over het hele systeem.
Op het systeem kan code geparallelliseerd uitgevoerd worden.
BRON (https://nl.wikipedia.org/wiki/Sunway_TaihuLight)

Hieronder een zogenaamde TPU pod van Google.
Het apparaat bestaat uit 64 TPUs van de tweede generatie.
180 TFLOPS x 64 = 11,5 PFLOPS

(aanklikken om te vergroten)

Nr.10
11 juni 2017, 00:49
De TPU wordt omschreven als zijnde een ASIC, een applicatie-specifieke geïntegreerde schakeling.

TPU = Tensor Processing Unit
ASIC = Application Specific Integrated Circuit

BRON (https://nl.wikipedia.org/wiki/ASIC)

Nr.10
11 juni 2017, 00:55
Bitcoins werden eerst gedolven met CPUs.
Vervolgens met GPUs.
Sinds 2013 gebeurt dat met ASICs.

Nr.10
11 juni 2017, 01:37
Microsoft noemt z'n extra processor de "HPU".
Movidius bouwt een processor voor VR/AR, de "VPU".
HPU = holographic processing unit
VPU = vision processing unit
BRON (http://www.tomshardware.com/news/movidiud-myriad2-vpu-vision-processing-vr,30850.html)
3 jan 2016
To boil it down, Movidius explained the point of the VPU by noting that it’s no longer sufficient to render a complex scene as a GPU does; the device must understand it. That’s just a different beast. Company representatives told Tom’s Hardware in a briefing that cramming that much performance into a low-power SoC was not previously possible and required offloading complex processing to servers in the cloud. The continuing advance of technology, coupled with specialized processors like the Myriad 2 VPU, are allowing these calculations to be done on device, eliminating network latency and enabling new experiences.
SoC = System on a chip
A system on a chip or system on chip (SoC or SOC) is an integrated circuit (also known as an "IC" or "chip") that integrates all components of a computer or other electronic systems. It may contain digital, analog, mixed-signal, and often radio-frequency functions—all on a single substrate. SoCs are very common in the mobile computing market because of their low power-consumption. BRON (https://en.wikipedia.org/wiki/System_on_a_chip)
Movidius werd in september 2016 ingepalmd door Intel.

Thomas-
13 juni 2017, 12:16
Om nog eens terug te komen op de kloksnelheid, hieronder een grappig artikel uit 2000. Toen zag Intel nog veel heil in hoge kloksnelheden. Enkele jaren later hebben ze dat plan moeten laten varen.

https://www.geek.com/chips/intel-predicts-10ghz-chips-by-2011-564808/

Tot ongeveer 2005 zette men fors in op meer MHz, daarna is de winst uit andere architecturale zaken gekomen.

Nr.10
13 juni 2017, 23:00
Om nog eens terug te komen op de kloksnelheid, hieronder een grappig artikel uit 2000. Toen zag Intel nog veel heil in hoge kloksnelheden. Enkele jaren later hebben ze dat plan moeten laten varen.

https://www.geek.com/chips/intel-predicts-10ghz-chips-by-2011-564808/

Tot ongeveer 2005 zette men fors in op meer MHz, daarna is de winst uit andere architecturale zaken gekomen.
Uit dat artikel:
intel is predicting that its microprocessors will hit 10ghz by the year 2011.
:lol:

Nr.10
24 juli 2017, 01:00
De snelheid van zogenaamde supercomputers (https://nl.wikipedia.org/wiki/Supercomputer) wordt uitgedrukt in FLOPS.
Hoe de architectuur van dergelijke supercomputers eruit ziet?
De snelste supercomputer ter wereld staat momenteel in China, heeft een score
van 93 PFLOPS, en heeft een totaal van 10.649.600 cores over het hele systeem.
Op het systeem kan code geparallelliseerd uitgevoerd worden.
BRON (https://nl.wikipedia.org/wiki/Sunway_TaihuLight)

Hieronder een zogenaamde TPU pod van Google.
Het apparaat bestaat uit 64 TPUs van de tweede generatie.
180 TFLOPS x 64 = 11,5 PFLOPS
Deze actuele systemen zijn binaire systemen.
Dit wil zeggen. Alle code bestaat uit 0 en 1.

Wat van het volgende denken?
Vers van de Zwitserse pers:
Quantum Breakthrough: Researchers Successfully Simulated a 45-Qubit Quantum Circuit (https://edgylabs.com/researchers-simulated-45-qubit-quantum-circuit/)
7 jul 2017
Modern day computers use digital computing which requires all data to be encoded in binary digits (bits). On the other hand, Benioff’s quantum computer or Quantum Turing machine is a theoretical model which requires the use of quantum bits in its computation. Unlike the regular bit which can only be 1 or 0, a quantum bit or qubit can be in superposition. This is a state which allows it to hold more information. A quantum bit can contain a combination of 2 or more bits(1 or 0) by using superdense coding. The superposition state of qubits will allow a quantum computer to work on a million computations at once. A regular desktop computer can only work on one. As a result, modern researchers like Häner and Steiger are pushing the limits of our generation’s most advanced supercomputers to develop future quantum computers. Using the fastest computing machines help these experts discover quantum computing breakthroughs. These will be useful in revolutionizing material science, machine learning, quantum chemistry, and cryptography. (...)
De twee Zwitsers bereikten
een gemiddelde van 0,428 PFLOPS.
Met hun simulatie van een 45 qubit circuit.
Wat bij de auteurs van het artikel de volgende vragen uitlokt:
Is humanity really at the edge of achieving quantum supremacy?
Are we looking at a future world being run by powerful quantum computers?

Nr.10
13 augustus 2017, 23:42
Verwijzend naar post 30 (http://forum.politics.be/showpost.php?p=8466425&postcount=30) uit deze discussie.
In verband met het via deep learning trainen
van NLP systemen voor de Chinese taal.
De enorme rekenkracht die hiervoor nodig is.
Een wetenschapper bij Baidu aan het woord: BRON (https://medium.com/s-c-a-l-e/how-baidu-mastered-mandarin-with-deep-learning-and-lots-of-data-1d94032564a5)
Tientallen exaflops om deep speech te trainen.
“As with other deep neural networks, our system gets more and more accurate as it is trained on larger and larger datasets. [Baidu] researchers have been working hard to find large datasets from which our model can learn all the nuances and complexities of spoken Chinese, which is a very diverse language with many dialects and local accents. As we amass these datasets, we encounter interesting systems problems as we try to scale the training of our system.

“To give some context, training Deep Speech on our full Chinese dataset takes tens of exaflops — that’s more than 10 quintillion (billion billion) multiplications and additions. In order to evaluate whether a new neural network or additional data will improve Deep Speech, we have to wait for this training process to converge, which can take quite some time. Accordingly, the more rapidly we can train Deep Speech, the more ideas we can evaluate, and the more rapidly we make progress.

“This is why we pay special attention to systems issues when training our models. We have noticed that as we improve the efficiency of our training system, accuracy improvements follow rather directly. We parallelize the training of our system across multiple GPUs in order to reduce this training time. Our current system sustains more than 26 teraflops while training a single model on 8 GPUs, which allows us to train Deep Speech on a large dataset in a matter of days. We continue pushing the boundaries of scalability, because we’ve observed that our accuracy continues to improve as we scale our training set.”

kelt
5 januari 2018, 06:43
Toepasselijk heeft men het nu,de eerste week van het jaar 18,over een aanzienlijk probleem met dat "cachen" en "voorspellen" dat reeds in de microcode "ingebakken" zit van moderne processoren.

Dit is eigenlijk geen "ontwerpfout",het is een denkwijze die nog stamt uit de tijd (en dat is eigenlijk nog niet zo lang geleden)dat het overgrote deel van de microprocessors zat in apparatuur die niet-,of slechts af en toe,aan een vorm van netwerk,om nog niet te spreken van het internet ,hingen....

Ik begrijp het probleem niet zo goed,(geen kodeklopper zijnde),maar NU het merendeel van betreffende apparatuur zeer lange tijd aan het net hangt beseft men blijkbaar dat anderen kunnen "snuffelen" en uit dat "voorspellend" gedrag van een processor (waarbij een cache-geheugen reeds wordt geladen met instructies die MOGELIJK zouden kunnen nodig zijn) genoeg informatie halen om de datastroom te gissen.......en daar eventueel iets leuks mee te doen....

Hoe men dat "probleem" met de ingebakken microkode afdoende zou oplossen met een upgrade aan het Operating Systeem is me al helemaal niet duidelijk,mogelijk zullen er implicaties zijn met de snelheid van het toestel.(want dat "cachen" en "voorspellen" en zo was juist om snelheid gedaan).

kelt
6 januari 2018, 08:54
Zoals te verwachten zijn in de VS verschillende "class action suites" aan het opstarten.Advokaten-schorremorrie en "benadeelde" klanten vinden dat Intel geld op tafel moet leggen naar aanleiding van die "bugs".


https://arstechnica.com/gadgets/2018/01/intel-faces-class-action-lawsuits-regarding-meltdown-and-spectre/


Persoonlijk geloof ik niet dat de aanklagers dit gaan winnen gezien er helemaal geen sprake is van een "fout" of zelfs maar een "bug" en zeker niet van kwade wil...

Processors hebben zich de laatste paar decennia ontwikkeld volgens een structuur,een systeem,die vanuit veiligheidsoverwegingen wat verouderd lijken voor de huidige genetwerkte maatschappij.

Veranderingen zijn soms pijnlijk...

Niettemin is gans die zever met rechtszaken (in de VS waarlijk een pest,al is het maar omdat er een immense meute nitwitten van moet leven) dodelijk voor kleinere technologie-bedrijven (die bijna zeker wel ergens een patent-claim aan de broek kunnen krijgen van zodra ze ergens een gat in boren en er een bout en moer aan bevestigen,of zodra ze iets kleurigs op een beeldscherm programmeren),en voor grote bedrijven een aanhoudende en irritante kost.....

Nu weer omdat mogelijk de snelheid van de intel-processoren (waar ze altijd mee aangeprezen werden) wat kan verminderen wegens beveiligingsmaatregelen.....o jeetje....wat een ramp....ik wil onmiddelijk 10 miljoen dollar (waarvan 1 miljoen voor mijn advokaat)

ViveLaBelgique
6 januari 2018, 09:48
Toepasselijk heeft men het nu,de eerste week van het jaar 18,over een aanzienlijk probleem met dat "cachen" en "voorspellen" dat reeds in de microcode "ingebakken" zit van moderne processoren.

Dit is eigenlijk geen "ontwerpfout",het is een denkwijze die nog stamt uit de tijd (en dat is eigenlijk nog niet zo lang geleden)dat het overgrote deel van de microprocessors zat in apparatuur die niet-,of slechts af en toe,aan een vorm van netwerk,om nog niet te spreken van het internet ,hingen....

Ik begrijp het probleem niet zo goed,(geen kodeklopper zijnde),maar NU het merendeel van betreffende apparatuur zeer lange tijd aan het net hangt beseft men blijkbaar dat anderen kunnen "snuffelen" en uit dat "voorspellend" gedrag van een processor (waarbij een cache-geheugen reeds wordt geladen met instructies die MOGELIJK zouden kunnen nodig zijn) genoeg informatie halen om de datastroom te gissen.......en daar eventueel iets leuks mee te doen....

Hoe men dat "probleem" met de ingebakken microkode afdoende zou oplossen met een upgrade aan het Operating Systeem is me al helemaal niet duidelijk,mogelijk zullen er implicaties zijn met de snelheid van het toestel.(want dat "cachen" en "voorspellen" en zo was juist om snelheid gedaan).

Via microcode, uefi of het OS kan men speculative execution niet uitschakelen. Het is die speculative execution die ontwerpfouten bevat. Als men CPU's op de markt zou brengen zonder deze optie zouden deze een pak trager werken.

Er is momenteel geen enkele desktop cpu beschikbaar die de Spectre of de Meltdown kwetsbaarheden ingebakken heeft.

ViveLaBelgique
6 januari 2018, 09:56
Persoonlijk geloof ik niet dat de aanklagers dit gaan winnen gezien er helemaal geen sprake is van een "fout" of zelfs maar een "bug" en zeker niet van kwade wil...

Ik ben van een andere mening toegedaan. De fout is zo eenvoudig zichtbaar in het ontwerp dat ze bewust is ingebakken om meer performantie uit de CPU's te halen. In user-mode kernel-mode geheugen kan uitgelezen worden. De CPU's hebben geen betrouwbare memory protection ( scheiding geheugen tussen user-mode en kernel-mode).

Dit is trouwens het onderscheid bij uitstek tussen de homecomputers van de jaren '80 en '90 en de "professionele besturingssystemen" zoals unix, IBM os'en en 32-bit windows.