Huge leap for AMD compared to the previous generation and beyond, in many areas. I won't focus so much on benchmarks, anyone who wants can look online (see phoronix) and see for themselves how well these processors perform in this generation.
The main reason I decided to switch from the 2990wx to the 3970x (in my opinion, it is the biggest upgrade) is the elimination of the peculiar numa architecture that its predecessor had (4 numa nodes / 2 CCX per node / 4 cores per CCX - 2 nodes with dual channel memory each - 2 nodes with no memory channel at all). The above architecture resulted in inconsistent performance in various workloads (not CPU bound) due to memory latency, and many times I would even see the 1700 performing better! The most obvious example for my case was in Virtualization. While nested virtualization ran without problems on the 1700, with the same VMs on the 2990wx, I noticed high steal time (the vCPU waits for the regular CPU to serve other vCPUs). Even after many hours of optimization at the operating system, VM, or BIOS level (memory interleaving, memory affinity, numactl, CPU pinning, etc.), I couldn't achieve the desired results. In the end, the only way to improve performance was to disable SMT, which was disappointing. The previous issue is not only present in virtualization but also in all types of multicore workloads that are sensitive to memory latency.
In summary, I conclude that the 2990wx is a very powerful processor that only shows its true power in CPU-bound workloads (content creation, video editing, etc.). Those who run such applications and want to upgrade to the 3rd Gen Threadripper theoretically won't see more than a 10-15% improvement in performance (that's the IPC gain between the 2nd and 3rd generation).
However, with the new generation Threadripper, all these peculiarities belong to the past. In addition to the many new features that improve performance in both single and multicore scenarios, all the cores appear to the operating system as a unified group (UMA) with equal distances between them and the memory controllers. With this architecture, consistent performance is achieved across all cores, for every type of workload, and even out of the box without additional parameterization. In simple terms, real power of 32 cores/64 threads without compromises.
Regarding my case, now with the 3970x, besides the fact that steal time is always at 0 in all the virtualized workloads I have run, I also observe a huge improvement in the times of VM deployments, kernel compilation, spark jobs, and gromacs, reaching up to 70%!
Regarding thermal/energy performance, AMD works wonders again. No, the 280W it has as TDP (notably in all core boost) is not a lot, on the contrary. It has the highest performance/watt, watt/core, watt/thread ratio in the market (see anandtech, phoronix). It is 32 cores and if you consider that it is almost 2 times the 3950x with a higher base clock by 200 MHz and 40 additional PCIe4 lanes, the TDP seems small. As for temperatures, I observe 35 idle, 40 average, 69 max under stress test with a 560mm cooler, NFA14 3000 fans, and ek-velocity waterblock. It is important to mention that the temperatures are real and there is no offset like in the old threadripper (27C). The above numbers refer only to stock settings. Anyone who tries to overclock by increasing the power will realize that the performance gain is completely disproportionate to the power consumption and the temperatures that actually skyrocket. Also, overclocking on threadripper processors is not covered by AMD's warranty.
AMD currently claims to have the most powerful desktop processor ever built. The numbers show that they are telling the truth (see guru3d, anandtech, phoronix, techspot, etc.). The only exception where Intel surpasses them is in scientific applications that extensively use AVX-512 for matrix multiplication. It should be noted that this particular processor performs the same or even better than 40,000€ multisocket systems in many multithreaded workloads (see Passmark, openbenchmarking.org, etc.). It is a huge achievement that now anyone can run/try different types of workloads at home, which in the past would require either waiting in research institutions or paying exorbitant amounts to access high-performance computing.
Τεράστιο άλμα για την AMD συγκριτικά με την προηγούμενη γενιά και όχι μόνο, σε πάρα πολλούς τομείς. Δεν θα εστιάσω τόσο σε benchmarks, όποιος θέλει μπορεί να κοιτάξει online (βλ. phoronix) και να διαπιστώσει μόνος του για το πόσο καλά αποδίδουν αυτής της γενιάς οι επεξεργαστές.
Ο κύριος λόγος που πήρα την απόφαση να μεταβώ απο τον 2990wx στον 3970x (κατά τη γνώμη μου είναι και το μεγαλύτερο upgrade), είναι η κατάργηση της ιδιόρρυθμης numa αρχιτεκτονικής που είχε ο προκάτοχός του ( 4 numa nodes / 2 CCX per node / 4cores per CCX – 2 nodes with dual channel memory each – 2 nodes with no memory channel at all). Η παραπάνω αρχιτεκτονική είχε σαν αποτελέσμα να παρατηρώ inconsistent performance σε διάφορα workloads ( οχι cpu bound ) λόγω του memory latency και πολλές φορές να βλέπω ακόμη και τον 1700 να αποδίδει καλύτερα! Το πιο οφθαλμοφανές παράδειγμα για την περιπτωσή μου ηταν στο Virtualization. Ενώ στον 1700 το nested virtualization έτρεχε χωρίς προβλήματα, με τα ίδια vms στον 2990wx παρατηρούσα μεγάλο steal time (η vcpu περιμένει την κανονική cpu να εξυπηρετήσει άλλες vcpus). Ακόμη και μετά από πάρα πολλές ώρες optimization είτε σε επίπεδο λειτουργικού, VM είτε bios ( memory interleaving, memory affinity , numactl, cpu pinning κτλ. ) δεν κατάφερνα να δω τα επιθυμητά αποτελέσματα. Εν τέλει, ο μόνος τρόπος για να βελτιώσω το performance ηταν να απενεργοποιήσω το SMT, που ήταν απογοητευτικό. Το προηγούμενο πρόβλημα δεν εμφανίζεται μονο στο virtualization αλλά και σε όλων των ειδών multicore workloads τα οποία είναι sensitive στο memory latency.
Συνοψίζοντας, καταλήγω στο γεγονός οτι ο 2990wx είναι ένας πάρα πολύ ισχυρός επεξεργαστής που όμως δείχνει την πραγματική του ισχύ μόνο σε cpu bound workloads (content creation, video editing κτλ.). Όσοι τρέχουν τέτοιου είδους εφαρμογές και θέλουν να αναβαθμιστούν σε 3rd Gen Threadripper θεωρητικά δεν πρόκειται να δουν πάνω από 10-15% στην αποδόση (τόσο είναι και το IPC gain μεταξύ 2ης και 3ης γενιας).
Ωστόσο, με την νέα γενιά threadripper όλες αυτές οι ιδιαιτερότητες ανήκουν στο παρελθόν. Εκτός των πολλών νέων χαρακτηριστικών που βελτιώνουν την απόδοση είτε σε single είτε σε multicore, όλοι οι πυρήνες φαίνονται στο λειτουργικό σύστημα, σαν ενα ενοποιήμενο group ( UMA ) ίσων αποστάσεων μεταξύ αυτών και των ελλεκτών μνήμης. Με την αρχιτεκτονική αυτή επιτυγχάνεται consistent performance κατα μήκος όλων των πυρήνων, για κάθε τύπο workload και μάλιστα out of the box χωρίς επιπλέον παραμετροποίηση. Με απλά λόγια, πραγματική ισχύς 32 cores/64 threads χωρίς ψιλά γράμματα.
Όσον αφορά τη περίπτωση μου, πλέον με τον 3970x εκτός του ότι το steal time είναι πάντα στο 0 σε όλα τα virtualized workloads που έχω τρέξει, παρατηρώ επίσης τεράστια βελτίωση στους χρόνους των vm deployments, kernel compilation, spark jobs και gromacs που φτάνει μέχρι και 70%!
Σχετικά με την θερμική/ενεργειακή απόδοση πάλι η AMD κάνει μαγικά. Όχι, τα 280W που έχει σαν TDP (σημειωτέον στο all core boost) δεν είναι πολλά, αντιθέτως. Έχει τον υψηλότερο λόγο performance/watt, watt/core, watt/thread στην αγορά ( βλ. anandtech, phoronix ) . Είναι 32 cores και αν αναλογιστεί κανείς ότι ειναι σχεδόν 2 φορές ο 3950x με μεγαλύτερο base clock κατά 200 MHZ και 40 επιπλέον pcie4 lanes το TDP φαίνεται μικρό. Σχετικά με τις θερμοκρασίες, παρατηρώ 35 idle, 40 average, 69 max under stress test με 560mm Ψυγείο, NFA14 3000 fans, και ek-velocity waterblock. Σημαντικό να αναφερθεί ότι οι θερμοκρασίες είναι πραγματικές και δεν υπάρχει το offset που υπήρχε στους παλιούς threadripper (27C). Τα παραπάνω νούμερα αφορούν μονο stock settings. Όποιος προσπαθήσει να κάνει οverclock ανεβάζοντας το ρεύμα θα συνειδητοποιήσει πως τo performance gain είναι τελείως δυσανάλογο από την κατανάλωση ρεύματος και τις θερμοκρασίες που πραγματικά εκτοξεύονται στα ύψη. Επίσης το overclocking στους threadripper δεν καλύπτεται από την εγγύηση της AMD.
Η AMD αυτή τη στιγμή υποστηρίζει πως έχει τον πιο ισχυρό desktop επεξεργαστή που έχει κατασκευαστεί ποτέ. Τα νούμερα δείχνουν ότι λέει την αλήθεια(βλ. guru3d, anandtech, phoronix, techspot κτλ. ). Μοναδική εξαίρεση που υπερτερεί κατά κράτος η Intel είναι σε επιστημονικές εφαρμογές που κάνουν εκτεταμένη χρηση του AVX-512 για πολλαπλασιασμό μητρώων. Να αναφερώ, οτι ο συγκεκριμένος επεργαστής σε πάρα πολλά multithreaded workloads αποδίδει ίδια ή και καλύτερα από multisocket συστήματα των 40000€ ( βλ. Passmark, openbenchmarking.org κτλ. ). Είναι τεράστιο επίτευγμα το να μπορέι πλέον ο καθένας να τρέχει/δοκιμάζει διαφόρων ειδών workloads στο σπίτι του, που στο παρελθόν για να μπορούσε θα έπρεπε είτε να μπαίνει σε αναμονή σε ερευνητικά ιδρύματα είτε να πληρώνει υπέρογκα ποσά για να έχει πρόσβαση στο high performance computing.