Παρακολουθήσατε τις φήμες και αγνοήσατε τη διαφημιστική εκστρατεία. περίμενα σχόλια και εξέτασε όλες τις μετρήσεις. Τέλος, χτυπήσατε τα δολάρια σας και φύγατε με μια από τις πιο πρόσφατες κάρτες γραφικών από την AMD ή τη Nvidia. Μεταξύ αυτών, ένας μεγάλος επεξεργαστής γραφικών γεμάτος με δισεκατομμύρια τρανζίστορ λειτουργεί με ταχύτητες ρολογιού που ήταν αδιανόητη πριν από μια δεκαετία.

Είστε πραγματικά ευχαριστημένοι με την αγορά σας και τα παιχνίδια δεν φαίνονται καλύτερα και δεν παίζονται καλύτερα. Ωστόσο, μπορεί να αναρωτιέστε τι ακριβώς τροφοδοτεί το νέο σας Radeon. RX 5700 και πόσο διαφορετικό σε ένα τσιπ GeForce RTX.

Καλώς ήρθατε στη σύγκριση αρχιτεκτονικής και χαρακτηριστικών των AMD και Nvidia: Οι τελευταίες GPU της Navi vs Turing.

Σύγχρονη ανατομία GPU

Προτού αρχίσουμε να διαλύουμε κοινές δομές και συστήματα chip, ας ρίξουμε μια ματιά στη βασική μορφή που ακολουθούν όλες οι σύγχρονες GPU. Ως επί το πλείστον, αυτοί οι επεξεργαστές είναι απλώς υπολογιστές κινητής υποδιαστολής (FP). Με άλλα λόγια, εκτελούν μαθηματικές πράξεις με δεκαδικές / κλασματικές τιμές. Έτσι, τουλάχιστον μια GPU πρέπει να έχει μια λογική μονάδα αφιερωμένη σε αυτές τις εργασίες, και αυτές είναι συνήθως FP ALU (αριθμητικές λογικές μονάδες κινητής υποδιαστολής) ή FPU για συντομία. Δεν είναι όλοι οι υπολογισμοί που χρησιμοποιούν οι GPU σε τιμές δεδομένων FP, επομένως θα υπάρχει επίσης ALU για τον ακέραιο (ακέραιος αριθμός) μπορεί να είναι η ίδια μονάδα που χειρίζεται μαθηματικές λειτουργίες ή και τους δύο τύπους δεδομένων.




Τώρα αυτές οι λογικές μονάδες θα χρειαστούν κάτι για να τις οργανώσουν αποκωδικοποιώντας και οργανώνοντάς τις για να τις κρατήσουν απασχολημένες, και αυτό θα έχει τη μορφή τουλάχιστον μιας ειδικής ομάδας μονάδων λογικής. Σε αντίθεση με τις ALU, δεν μπορούν να προγραμματιστούν από τον τελικό χρήστη. Αντ 'αυτού, ο προμηθευτής υλικού θα διασφαλίσει ότι αυτή η διαδικασία διαχειρίζεται πλήρως η GPU και τα προγράμματα οδήγησης.




Πρέπει επίσης να υπάρχει κάποιο είδος δομής μνήμης για την αποθήκευση αυτών των οδηγιών και των δεδομένων που πρέπει να υποβληθούν σε επεξεργασία. Στο απλούστερο επίπεδο, θα έχει δύο μορφές: κρύπτη και ένα σημείο τοπική μνήμη. Το πρώτο θα ενσωματωθεί στο GPU και ΝΤΡΟΠΗ. Αυτός ο τύπος μνήμης είναι γρήγορος, αλλά καταλαμβάνει σχετικά μεγάλο μέρος της διάταξης του επεξεργαστή. Τοπική μνήμη ΔΡΑΜΑΕίναι ελαφρώς πιο αργό από το SRAM και συνήθως δεν τοποθετείται στην GPU. Τοπική μνήμη στις περισσότερες κάρτες γραφικών που βλέπουμε σήμερα GDDR Ενότητες DRAM.

Τέλος, περιλαμβάνει επιπρόσθετες εργασίες ρύθμισης όπως δημιουργία τρισδιάστατων γραφικών, δημιουργία τριγώνων από γωνίες, ραστεροποίηση ενός τρισδιάστατου πλαισίου, δειγματοληψία και ανάμειξη υφών. Όπως και οι μονάδες διδασκαλίας και ελέγχου, αυτές επίσης σταθερή λειτουργία στη φύση. Αυτό που κάνουν και πώς λειτουργούν είναι απολύτως διαφανές για τους χρήστες που προγραμματίζουν και χρησιμοποιούν την GPU.




Ας το συνδυάσουμε και ας κάνουμε μια GPU:




Το πορτοκαλί μπλοκ είναι η μονάδα που επεξεργάζεται υφές χρησιμοποιώντας αυτό που ονομάζεται μονάδες χαρτογράφησης υφής (TMU'lar) - TA αντιμετώπιση υφής τόμος - δημιουργεί θέσεις μνήμης για χρήση προσωρινής μνήμης και τοπικής μνήμης - και TF μην φέρεις υφή συγκεντρώνει τιμές υφής από τη μνήμη και τις συγκεντρώνει. Σήμερα, τα TMU είναι σχεδόν τα ίδια σε όλους τους προμηθευτές, επειδή μπορούν να χειριστούν, να δείξουν και να αναμίξουν πολλές τιμές υφής ανά κύκλο ρολογιού GPU.




Το παρακάτω μπλοκ γράφει τις τιμές χρώματος των εικονοστοιχείων στο πλαίσιο, τα δειγματίζει πίσω (PO) και τα μίγματα (PB). Αυτό το μπλοκ εκτελεί επίσης λειτουργίες που χρησιμοποιούνται κατά την εφαρμογή anti-aliasing. Το όνομα αυτού του μπλοκ: απόδοση μονάδας εξόδου or δημιουργήστε backend (ROP / RB για συντομία). Όπως το TMU, γίνονται πλέον αρκετά στάνταρ, ο καθένας χειρίζεται άνετα μερικά pixel ανά ρολόι.

Ωστόσο, η βασική μας GPU θα ήταν τρομερή ακόμη και από τα πρότυπα πριν από 13 χρόνια. Γιατί;

Υπάρχει μόνο ένα FPU, TMU και ROP. Το 2006, οι επεξεργαστές γραφικών της Nvidia όπως το GeForce 8800 GTX είχαν 128, 32 και 24 αντίστοιχα. Ας αρχίσουμε λοιπόν να κάνουμε κάτι για αυτό ....




Όπως κάθε καλός κατασκευαστής επεξεργαστών, ενημερώσαμε την GPU προσθέτοντας μερικές ακόμη μονάδες. Αυτό σημαίνει ότι το τσιπ μπορεί να επεξεργαστεί περισσότερες οδηγίες ταυτόχρονα. Για να σας βοηθήσουμε, προσθέσαμε μερικές ακόμη κρυφές μνήμες, αλλά αυτή τη φορά ακριβώς δίπλα στις λογικές ενότητες. Όσο πιο κοντά είναι η προσωρινή μνήμη σε μια δομή αριθμομηχανής, τόσο πιο γρήγορα μπορεί να αρχικοποιηθεί στις συναλλαγές που της έχουν ανατεθεί.

Το πρόβλημα με τη νέα μας σχεδίαση είναι ότι μόνο ένας ελεγκτής είναι ακόμα διαθέσιμος για τη διαχείριση των επιπλέον ALUs μας. Θα ήταν καλύτερα αν είχαμε περισσότερα μπλοκ μονάδων, όλα τα διαχειρίζονται από τους δικούς τους ξεχωριστούς ελεγκτές, καθώς αυτό σημαίνει ότι μπορούμε να εκτελέσουμε πολύ διαφορετικές λειτουργίες ταυτόχρονα.

Τώρα αυτό είναι περισσότερο! Ξεχωριστά μπλοκ ALU γεμάτα με δικά τους TMU και ROP και υποστηρίζονται από νόστιμα νόστιμα, γρήγορα φέτες cache. Είναι ακόμα ένα από τα πάντα, αλλά η βασική δομή δεν απέχει ένα εκατομμύριο μίλια από τον επεξεργαστή γραφικών που βλέπουμε σε υπολογιστές και κονσόλες σήμερα.

Navi ve Turing: Godzilla GPU'ları

Τώρα που έχουμε καθορίσει τη βασική διάταξη ενός τσιπ γραφικών, αν και ελαφρώς μεγεθυμένο και επεξεργασμένο για να επισημάνει διάφορες δομές, Navi εναντίον Ας ξεκινήσουμε τη σύγκριση Turing.

Στα αριστερά βρίσκεται ο τελευταίος επεξεργαστής της AMD. Ο γενικός σχεδιασμός chip ονομάζεται Navi (μερικοί ονομάζονται Navi 10) και η αρχιτεκτονική γραφικών ονομάζεται RDNA. Δίπλα του, βρίσκεται ο επεξεργαστής TU102 πλήρους μεγέθους της Nvidia με την τελευταία αρχιτεκτονική Turing. Είναι σημαντικό να σημειωθεί ότι αυτές οι εικόνες δεν έχουν κλίμακα: η περιοχή του καλουπιού Navi είναι 251 mm2, ενώ το TU102 είναι 752 mm2. Ο επεξεργαστής Nvidia είναι μεγάλος, αλλά όχι 8 φορές μεγαλύτερος από την προσφορά AMD!

Και τα δυο κολοσσιαίος ο αριθμός των τρανζίστορ (10,3 έναντι 18,6 δισεκατομμυρίων), αλλά το TU102 έχει κατά μέσο όρο ~ 25 εκατομμύρια τρανζίστορ ανά τετραγωνικό mm σε σύγκριση με τα 41 εκατομμύρια Navi ανά τετραγωνικό mm.

Αυτό συμβαίνει επειδή ενώ και οι δύο μάρκες κατασκευάζονται από την TSMC, παράγονται σε διαφορετικούς κόμβους διεργασίας: Το Nvidia's Turing βρίσκεται στην ώριμη γραμμή παραγωγής 12 nm, ενώ το AMD's Navi παράγεται στον νεότερο κόμβο 7 nm.

Ακριβώς κοιτάζοντας εικόνες των καλουπιών δεν μας λέει πολλά για τις αρχιτεκτονικές, οπότε ας ρίξουμε μια ματιά στα διαγράμματα μπλοκ GPU που παράγονται και από τις δύο εταιρείες.

Τα διαγράμματα δεν είναι 100% ρεαλιστική αναπαράσταση των πραγματικών διατάξεων, αλλά αν τα περιστρέψετε 90 μοίρες, μπορούν να καθοριστούν τα διάφορα μπλοκ και η κεντρική λωρίδα που εμφανίζονται και στα δύο. Καταρχάς, μπορούμε να δούμε ότι οι δύο GPU έχουν μια γενική δομή όπως η δική μας (αν και περισσότερο από οτιδήποτε άλλο!).

Και τα δύο σχέδια ακολουθούν μια πολυεπίπεδη προσέγγιση στο πώς τακτοποιούνται και ομαδοποιούνται τα πάντα - για να ξεκινήσετε να χρησιμοποιείτε το Navi, η GPU αποτελείται από 2 μπλοκ που αναζητά η AMD. Shader Motors (SE), καθένα από αυτά ονομάζεται 2 μπλοκ ασύγχρονη Μηχανές υπολογιστών (ΑΣΣΟΣ). Κάθε ένα από αυτά περιέχει 5 μπλοκ στον τίτλο. Επεξεργαστές ομάδας εργασίας (WGPs), που αποτελείται από 2 Μονάδες επεξεργασίας πληροφοριών (Öze).

Τα ονόματα και οι αριθμοί είναι διαφορετικοί για το σχεδιασμό Turing, αλλά η ιεραρχία είναι πολύ παρόμοια: 6 Συστάδες επεξεργασίας γραφικών (GPC), 6 το καθένα Συστάδες επεξεργασίας υφής (TPC), 2 το καθένα Πολυεπεξεργαστής ροής (SM) μπλοκ.

Εάν δείτε έναν επεξεργαστή γραφικών ως ένα μεγάλο εργοστάσιο όπου διαφορετικά τμήματα παράγουν διαφορετικά προϊόντα χρησιμοποιώντας τις ίδιες πρώτες ύλες, αυτός ο οργανισμός αρχίζει να έχει νόημα. Ο Διευθύνων Σύμβουλος του εργοστασίου στέλνει όλες τις επιχειρησιακές λεπτομέρειες στην επιχείρηση και στη συνέχεια το διαιρεί σε διάφορες εργασίες και φόρτο εργασίας. Έχοντας περισσότερα από ένα, ανεξάρτητος Η παραγωγικότητα του εργατικού δυναμικού αυξήθηκε στο εργοστάσιο. Δεν διαφέρει για τις GPU και εδώ είναι η μαγική λέξη-κλειδί συγχρονισμός.

Μπροστά και κέντρο, Στρατιώτης - Χρόνος και αποστολή

Πώς κοιτάζουμε 3D ασκήσεις δημιουργίας παιχνιδιώνΈχουμε δει ότι ο επεξεργαστής γραφικών δεν είναι τίποτα περισσότερο από μια εξαιρετικά γρήγορη αριθμομηχανή εκτελώντας μια σειρά μαθηματικών λειτουργιών σε εκατομμύρια κομμάτια δεδομένων. Οι Navi και Turing ταξινομούνται ως εξής: Πολλαπλά δεδομένα μιας εντολής (SIMD) επεξεργαστές, αλλά μια καλύτερη εξήγηση Single Way Multi Νήμα (Εννοια).

Ένα σύγχρονο τρισδιάστατο παιχνίδι παράγει εκατοντάδες νήματα, μερικές φορές χιλιάδες, καθώς ο αριθμός κορυφών και εικονοστοιχείων για απόδοση είναι τεράστιος. Για να βεβαιωθείτε ότι όλα γίνονται σε λίγα μικροδευτερόλεπτα, είναι σημαντικό να έχετε όσο το δυνατόν περισσότερες λογικές μονάδες χωρίς να σταματάτε τα πάντα, επειδή τα απαιτούμενα δεδομένα δεν είναι στο σωστό μέρος ή δεν υπάρχει αρκετός χώρος πόρων για να εργαστείτε στο εσωτερικό.

Όταν ρίξαμε μια ματιά στο πώς λειτουργεί η δημιουργία παιχνιδιών 3D, είδαμε ότι ένας επεξεργαστής γραφικών δεν είναι τίποτα περισσότερο από μια πραγματικά γρήγορη αριθμομηχανή και πραγματοποιήσαμε διάφορες μαθηματικές λειτουργίες σε εκατομμύρια δεδομένα. Οι Navi και Turing ταξινομούνται ως επεξεργαστές πολλαπλών δεδομένων μιας εντολής (SIMD), αλλά μια καλύτερη εξήγηση θα ήταν τα πολλαπλά νήματα μεμονωμένων εντολών (SIMT).

Ο Navi και ο Turing λειτουργούν παρόμοια, έτσι μια κεντρική μονάδα παίρνει όλα τα νήματα και στη συνέχεια ξεκινά τον προγραμματισμό και τη μετάδοσή τους. Στο τσιπ AMD, αυτός ο ρόλος Επεξεργαστής εντολών γραφικών; Nvidia'da, GigaThread Motoru. Τα νήματα είναι διατεταγμένα έτσι ώστε εκείνα με τις ίδιες οδηγίες να ομαδοποιούνται σε μια συλλογή 32 ομάδων.

AMD αυτήν τη συλλογή κύμαενώ αυτό το Nvidia καμπυλότητα. Για το Navi, μια Υπολογιστική Μονάδα μπορεί να χειριστεί 2 κύματα (ή ένα κύμα 64 νημάτων, αλλά αυτή η διαδικασία διαρκεί δύο φορές περισσότερο) και στο Turing a Stream Multiprocessor λειτουργεί με 4 στρέβλωση. Και στα δύο σχέδια, το wave / warp είναι ανεξάρτητο, που σημαίνει ότι τα άλλα δεν χρειάζεται να το τελειώσουν πριν ξεκινήσουν.

Μέχρι τότε, δεν διαφέρει πολύ μεταξύ Navi και Turing - και οι δύο σχεδιάστηκαν για να χειρίζονται μεγάλο αριθμό νημάτων για τη δημιουργία και τον υπολογισμό του φόρτου εργασίας. Πρέπει να δούμε ποιοι επεξεργαστές είναι αυτά τα νήματα για να δούμε πού χωρίζουν οι δύο γίγαντες GPU στο σχεδιασμό.

Εκτελεστική διαφορά - RDNA και CUDA

Ενώ το μεγαλύτερο μέρος της χρησιμοποιούμενης ορολογίας φαίνεται το ίδιο, τα AMD και Nvidia ακολουθούν μια μάλλον διαφορετική προσέγγιση στις συνδυασμένες μονάδες shader. Μονάδες εκτέλεσης της Nvidia (ΜΑΡΑΚΛΙΑ σπόροι) ψηφιακό στη φύση - αυτό σημαίνει ότι μια μονάδα εκτελεί μια μαθηματική λειτουργία σε ένα στοιχείο δεδομένων. Σε αντίθεση με τις μονάδες AMD (Επεξεργαστές ροής) εργάζομαι πάνω σε διανύσματα - μια λειτουργία σε πολλά στοιχεία δεδομένων. Υπάρχει μόνο μία συγκεκριμένη μονάδα για βαθμιαίες λειτουργίες.

Πριν ρίξουμε μια πιο προσεκτική ματιά στις μονάδες εκτέλεσης, ας εξετάσουμε τις τροποποιήσεις της AMD. Για 7 χρόνια, οι κάρτες γραφικών Radeon ακολούθησαν μια αρχιτεκτονική που ονομάζεται Graphics Core Next (GCN). Κάθε νέο τσιπ αναθεώρησε διάφορες πτυχές του σχεδιασμού, αλλά ήταν βασικά όλοι οι ίδιοι.

Η AMD παρουσίασε μια σύντομη ιστορία της αρχιτεκτονικής GPU:

Το GCN ήταν μια εξέλιξη του TeraScale, ενός σχεδίου που επιτρέπει την ταυτόχρονη επεξεργασία μεγάλων κυμάτων. Το κύριο πράγμα με το TeraScale ήταν ότι δεν ήταν πολύ εύκολο ενάντια στους προγραμματιστές και χρειάστηκε πολύ συγκεκριμένες ρουτίνες για να πάρει το καλύτερο. Το GCN το έχει επιδιορθώσει και παρέχει μια πολύ πιο προσβάσιμη πλατφόρμα.

Οι CU στο Navi έχουν αναθεωρηθεί σημαντικά από το GCN ως μέρος της διαδικασίας βελτίωσης της AMD. Κάθε CU περιέχει δύο σύνολα:

  • 32 SP (IEE754 FP32 και INT32 φορέα ALUs)
  • 1 SFU
  • 1 κλίμακες INT32 ALU
  • 1 μονάδα χρονισμού και παράδοσης

Εκτός από αυτά, κάθε CU περιέχει 4 μονάδες ιστών. Υπάρχουν άλλες μονάδες για την εκτέλεση λειτουργιών ανάγνωσης / εγγραφής δεδομένων από την προσωρινή μνήμη, αλλά δεν εμφανίζονται στην παρακάτω εικόνα:

Σε σύγκριση με το GCN, η εγκατάσταση ενός RDNA CU μπορεί να μην φαίνεται πολύ διαφορετική, αλλά όλα τα σημαντικά εδώ είναι οργανωμένα και οργανωμένα με αυτόν τον τρόπο. Κατ 'αρχάς, κάθε σύνολο 32 SP έχει τη δική του ειδική μονάδα διδασκαλίας, το GCN είχε μόνο ένα πρόγραμμα για 4 σύνολα 16 SP.

Αυτή είναι μια σημαντική αλλαγή, που σημαίνει ότι ένα κύμα 32 νημάτων ανά κύκλο ρολογιού μπορεί να παραδοθεί σε κάθε σύνολο SP. Η αρχιτεκτονική RDNA επιτρέπει επίσης σε διανυσματικές μονάδες να επεξεργάζονται κύματα 16 νημάτων με διπλάσια ταχύτητα και κύματα 64 νημάτων στο μισό, οπότε υποστηρίζεται ο κώδικας που γράφτηκε για όλες τις προηγούμενες κάρτες γραφικών Radeon.

Αυτές οι αλλαγές θα είναι πολύ δημοφιλείς για προγραμματιστές παιχνιδιών.

Για βαθμιαίες λειτουργίες, υπάρχουν τώρα δύο μονάδες που μπορούν να τις χειριστούν. η μόνη μείωση στον αριθμό των συστατικών είναι με τη μορφή SFUs - αυτά είναι ειδική λειτουργία μονάδεςεκτελεί πολύ συγκεκριμένες μαθηματικές λειτουργίες, π.χ. τριγωνομετρική (ημιτονοειδής, εφαπτομένη), αμοιβαία (1 διαιρεμένη με αριθμό) και τετραγωνικές ρίζες. Το RDNA έχει λιγότερα από αυτά από τα GCN, αλλά τώρα μπορούν να λειτουργήσουν σε δύο φορές μεγαλύτερα σύνολα δεδομένων από πριν.

Αυτές οι αλλαγές θα είναι πολύ δημοφιλείς για προγραμματιστές παιχνιδιών. Υπήρχε πολύ πιθανή απόδοση σε παλαιότερες κάρτες γραφικών Radeon, αλλά ήταν πολύ δύσκολο να γίνει. Τώρα η AMD έχει κάνει ένα μεγάλο βήμα προς τη μείωση του λανθάνοντος χρόνου στις οδηγίες επεξεργασίας και τη διατήρηση λειτουργιών για να εξασφαλίσει συμβατότητα προς τα πίσω για όλα τα προγράμματα που έχουν σχεδιαστεί για την αρχιτεκτονική του GCN.

Τι γίνεται με τα επαγγελματικά γραφικά ή την αγορά υπολογιστών; Είναι ωφέλιμες και αυτές οι αλλαγές;

Η σύντομη απάντηση είναι ναι (πιθανώς). Η τρέχουσα έκδοση του τσιπ Navi που βρίσκεται στο παρόμοιο Radeon RX 5700 XT έχει λιγότερους επεξεργαστές ροής από τον προηγούμενο σχεδιασμό Vega, ενώ αποδώσαμε καλύτερα η προηγούμενη γενιά Radeon RX Vega 56 είναι αρκετά εύκολη:

Μερικά από αυτά τα κέρδη απόδοσης θα προέλθουν από την υψηλότερη ταχύτητα ρολογιού του RX 5700 XT από το RX Vega 56 (έτσι μπορεί να γράψει περισσότερα εικονοστοιχεία ανά δευτερόλεπτο στην τοπική μνήμη), αλλά μειώνεται έως και 15% στην υψηλότερη απόδοση ακέραιου και κυμαινόμενου σημείου. Ωστόσο, διαπιστώσαμε ότι το τσιπ Navi είχε απόδοση 18% καλύτερα από το Vega.

Οι επιστήμονες που εκτελούν προγράμματα επαγγελματικής απόδοσης και σύνθετους αλγόριθμους δεν ξεσπούν με μερικούς γύρους του Battlefield V στη δουλειά τους (δηλαδή θα μπορούσε...) μόνο εάν οι επεμβάσεις scalar, vector και matrix που εκτελούνται σε μια μηχανή παιχνιδιών υποβάλλονται σε ταχύτερη επεξεργασία πλοίο μετατρέψτε το στην αγορά υπολογιστών. Προς το παρόν, δεν γνωρίζουμε ποια είναι τα σχέδια της AMD για την επαγγελματική αγορά - μπορούν να πάνε καλά με την αρχιτεκτονική Vega και να βοηθήσουν στη βελτίωση του σχεδιασμού, της κατασκευής, αλλά δεδομένης της προόδου στο Navi, η εταιρεία μεταφέρει τα πάντα στη νέα αρχιτεκτονική.

Ο σχεδιασμός GPU της Nvidia έχει υποστεί παρόμοια εξέλιξη από το 2006, όταν κυκλοφόρησαν τη σειρά GeForce 8, αν και λιγότερο ριζικές αλλαγές από την AMD. Αυτή η GPU δημιούργησε την πρώτη αρχιτεκτονική Tesla που χρησιμοποίησε μια πρώτη προσέγγιση shader στην αρχιτεκτονική εκτέλεσης. Παρακάτω μπορούμε να δούμε τις αλλαγές στα μπλοκ SM από τον διάδοχο στον Tesla (Fermi) στον προκάτοχο του Turing (Volta):

Όπως αναφέρθηκε προηγουμένως σε αυτό το άρθρο, οι πυρήνες CUDA ψηφιακό. Μπορούν να εκτελέσουν μια εντολή float και μια ακέραια ανά κύκλο ρολογιού σε ένα στοιχείο δεδομένων (σημειώστε, ωστόσο, ότι η ίδια η οδηγία μπορεί να διαρκέσει πολλούς κύκλους ρολογιού για επεξεργασία), αλλά οι μονάδες χρονισμού τις τακτοποιούν σε ομάδες, μπορούν να εκτελέσουν διανυσματικές λειτουργίες σε έναν προγραμματιστή. Η πιο σημαντική αλλαγή με την πάροδο των ετών περιλαμβάνει όχι μόνο την ύπαρξη περισσότερων μονάδων, αλλά τον τρόπο οργάνωσης και κατάτμησης.

Στο σχεδιασμό του Kepler, το πλήρες chip είχε 5 GPC, το καθένα περιέχει τρία μπλοκ SM. Όταν εμφανίστηκε το Pascal, τα GPC χωρίστηκαν σε ξεχωριστά χωρίσματα (TPC) με δύο SM ανά TPC. Όπως και με το σχέδιο Navi. Αυτός ο κατακερματισμός είναι σημαντικός καθώς επιτρέπει στη γενική GPU να χρησιμοποιείται όσο το δυνατόν πληρέστερα. Πολλαπλά ανεξάρτητα σύνολα εντολών μπορούν να υποστούν επεξεργασία παράλληλα, αυξάνοντας την απόδοση σκίασης και υπολογισμού του επεξεργαστή.

Ας ρίξουμε μια ματιά στο Turing ισοδύναμο με το RDNA Computing Unit:

Ένα SM περιέχει 4 μπλοκ συναλλαγών, το καθένα περιέχει:

  • 1 μονάδα προγραμματισμού και αποστολής εντολών
  • 16 IEE754 FP32 κλίμακες ALU
  • 16 κλίμακες INT32 ALU
  • 2 χρώματα τανυστή
  • 4 SFU
  • 4 Load / Storage (εκτέλεση λειτουργιών ανάγνωσης / εγγραφής cache)

Υπάρχουν επίσης 2 μονάδες FP64 ανά SM, αλλά η Nvidia δεν τις εμφανίζει πλέον σε μπλοκ διαγράμματα και κάθε SM έχει 4 μονάδες υφής (περιλαμβάνει συστήματα διευθύνσεων υφής και φιλτραρίσματος υφής) και 1 πυρήνα RT (Ray Tracing).

Τα FP32 και INT32 ALU μπορούν να λειτουργούν ταυτόχρονα και παράλληλα. Αυτό είναι ένα σημαντικό χαρακτηριστικό επειδή οι μηχανές απόδοσης 3D απαιτούν συχνά υπολογισμούς κινητής υποδιαστολής, αλλά υπάρχει ένας εύλογος αριθμός απλών ακέραιων λειτουργιών (π.χ. υπολογισμοί διευθύνσεων δεδομένων) που πρέπει να γίνουν.

Οι Tensor Cores είναι ειδικές ALU που εκτελούν λειτουργίες matrix. Οι πίνακες είναι «τετραγωνικοί» πίνακες δεδομένων και οι πυρήνες Tensor εκτελούνται σε μια μήτρα 4 x 4. Το FP16 έχει σχεδιαστεί για να επεξεργάζεται στοιχεία δεδομένων INT8 ή INT4 έτσι ώστε η λειτουργία πλωτήρα να πραγματοποιείται σε 64 FMA (συντηγμένη πολλαπλή μετά την προσθήκη) σε έναν κύκλο ρολογιού. Αυτός ο τύπος υπολογισμού ονομάζεται νευρωνικά δίκτυα και συμπεράσματα - δεν είναι ακριβώς κοινό σε τρισδιάστατα παιχνίδια, αλλά χρησιμοποιούνται σε μεγάλο βαθμό από τους αρέσει στο Facebook σε αυτοκίνητα με αλγόριθμους ανάλυσης κοινωνικών μέσων ή συστήματα αυτο-οδήγησης Ο Navi μπορεί επίσης να κάνει υπολογισμούς μήτρας, αλλά απαιτεί μεγάλο αριθμό SP για αυτό. Στο σύστημα Turing, οι λειτουργίες της μήτρας μπορούν να εκτελεστούν ενώ οι πυρήνες CUDA κάνουν άλλα μαθηματικά.

Το RT Core είναι μια άλλη ειδική μονάδα μοναδική για την αρχιτεκτονική Turing που εκτελεί πολύ συγκεκριμένους μαθηματικούς αλγόριθμους που χρησιμοποιούνται για το σύστημα ανίχνευσης ακτίνων Nvidia. Μια πλήρης ανάλυση αυτού είναι πέρα ​​από το πεδίο εφαρμογής αυτού του άρθρου, αλλά το RT Core είναι δύο συστήματα που λειτουργούν ξεχωριστά στο υπόλοιπο SM, οπότε ενώ το RT Core είναι απασχολημένο με υπολογισμούς, μπορεί να λειτουργήσει σε shaders αιχμής ή pixel. για ανίχνευση ακτίνων.

Στο βασικό επίπεδο, η Navi και η Turing έχουν μονάδες εκτέλεσης που προσφέρουν ένα αρκετά παρόμοιο σύνολο χαρακτηριστικών (μια απαίτηση που προέρχεται από τη συμμόρφωση με τις απαιτήσεις των Direct3D, OpenGL κ.λπ.).

Στο βασικό επίπεδο, η Navi και η Turing διαθέτουν μονάδες εκτέλεσης που προσφέρουν ένα αρκετά παρόμοιο σύνολο λειτουργιών (μια απαίτηση που προέρχεται από τη συμμόρφωση με τις απαιτήσεις των Direct3D, OpenGL κ.λπ.), αλλά ακολουθούν μια πολύ διαφορετική προσέγγιση ως προς το πώς είναι αυτά τα χαρακτηριστικά. τετελεσμένος. Όταν πρόκειται για ποιο σχέδιο είναι καλύτερο, πρόκειται για τον τρόπο με τον οποίο χρησιμοποιούνται: το FP32 ένα πρόγραμμα που παράγει υπολογισμούς διανυσμάτων και ένας μεγάλος αριθμός νημάτων που έχει μικρή απόδοση θα προτιμούσε το Navi, ενώ ένα πρόγραμμα με μια ποικιλία ακέραιων, κινούμενων σημείων, κλιμακωτών και διανυσματικών υπολογισμών θα δώσει την ευελιξία του Turing. προτιμά, κ.λπ.

Ιεραρχία μνήμης

Οι σύγχρονες GPU έχουν σχεδιαστεί για να εκτελούν μια σειρά λειτουργιών σε επεξεργαστές ροής, δηλαδή σε κάθε στοιχείο σε μια ροή δεδομένων. Αυτό τους καθιστά λιγότερο ευέλικτους από έναν επεξεργαστή γενικού σκοπού και απαιτεί επίσης βελτιστοποίηση της ιεραρχίας μνήμης του τσιπ για τη λήψη δεδομένων και οδηγιών σε ALU όσο το δυνατόν γρηγορότερα και σε όσο το δυνατόν περισσότερες ροές. Αυτό σημαίνει ότι οι GPU θα έχουν λιγότερη προσωρινή μνήμη από την CPU, καθώς το μεγαλύτερο μέρος του τσιπ πρέπει να αφιερωθεί στο ποσό της προσωρινής μνήμης, όχι στην πρόσβαση στην προσωρινή μνήμη.

Τόσο η AMD όσο και η Nvidia καταφεύγουν στη χρήση πολλαπλών cache μέσα σε μάρκες, οπότε ας ρίξουμε μια ματιά σε αυτό που συσκευάζει πρώτα η Navi.

Ξεκινώντας από το χαμηλότερο επίπεδο στην ιεραρχία, δύο μπλοκ επεξεργαστών ροής χρησιμοποιούν ένα σύνολο γενικού σκοπού φορέα 256 λιβρών (συνήθως αρχείο καταγραφής) Ήταν το ίδιο ποσό με το Vega αλλά μεταξύ 4 μπλοκ SP? Η εξάντληση των καταχωρητών κατά την προσπάθεια επεξεργασίας μεγάλου αριθμού νημάτων πραγματικά βλάπτει την απόδοση, οπότε αυτό είναι σίγουρα ένα "καλό πράγμα". Η AMD έχει επίσης αυξήσει σημαντικά το κλιματικό αρχείο εγγραφής. Όταν ήταν μόλις 4 kiB πριν, τώρα είναι 32 κιλά ανά βαθμίδα.

Οι δύο μονάδες Compute μοιράζονται έπειτα μια προσωρινή μνήμη L0 32 £ και μια προσωρινή προσωρινή μνήμη δεδομένων 16 λιβρών, αλλά κάθε CU λαμβάνει τη δική της διανυσματική cache L0 32 £. Η σύνδεση όλης αυτής της μνήμης με ALUs είναι μια Κοινή χρήση τοπικών δεδομένων 128 λιβρών.

Στο Navi, δύο Computing Engines δημιουργούν έναν Workgroup Processor και πέντε από αυτούς αποτελούν τον Asynchronous Computing Engine (ACE). Κάθε ACE έχει πρόσβαση στη δική του προσωρινή μνήμη L1 128 λιβρών και ολόκληρη η GPU υποστηρίζεται περαιτέρω από 4 MiB L2 cache που συνδέονται με L1 cache και άλλα μέρη του επεξεργαστή.

Καθώς το σύστημα χρησιμοποιείται αυστηρά για τη διαχείριση 16 ελεγκτών μνήμης GDDR6, είναι μια μορφή της ιδιόκτητης αρχιτεκτονικής συνδεσιμότητας Infinity Fabric της AMD. Για να μεγιστοποιήσει το εύρος ζώνης μνήμης, η Navi χρησιμοποιεί επίσης συμπίεση χρώματος χωρίς απώλειες μεταξύ L1, L2 και εγγενή μνήμη GDDR6.

Και πάλι, όλα αυτά είναι ιδιαίτερα ευπρόσδεκτα σε σύγκριση με προηγούμενα τσιπ AMD που δεν είχαν αρκετή προσωρινή μνήμη χαμηλού επιπέδου για τον αριθμό των μονάδων σκίασης που περιέχουν. Εν ολίγοις, περισσότερη προσωρινή μνήμη ισούται με περισσότερο εσωτερικό εύρος ζώνης, λιγότερες αργές οδηγίες (επειδή πρέπει να ανακτήσουν περισσότερα δεδομένα από τη μνήμη) κ.λπ. Και αυτό ισοδυναμεί με καλύτερη απόδοση.

Όσον αφορά την ιεραρχία του Turing, πρέπει να ειπωθεί ότι η Nvidia έχει τη ντροπαλή πλευρά όσον αφορά την παροχή σε βάθος γνώσης σε αυτόν τον τομέα. Νωρίτερα σε αυτό το άρθρο, είδαμε κάθε SM να χωρίζεται σε 4 μπλοκ συναλλαγών - το καθένα έχει ένα μικρότερο αρχείο καταγραφής 64 λιβρών από αυτό που βρέθηκε στο Navi, αλλά λάβετε υπόψη ότι οι ALU του Turing είναι scalars, όχι vectors. , μονάδες.

Στη συνέχεια, 96 kb κοινόχρηστης μνήμης για κάθε VM μπορούν να χρησιμοποιηθούν ως 64 kb της προσωρινής μνήμης δεδομένων L1 και 32 kb της προσωρινής μνήμης ιστού ή επιπλέον χώρος εγγραφής. Στην «λειτουργία υπολογισμού», η κοινόχρηστη μνήμη μπορεί να χωριστεί σε διαφορετικά διαμερίσματα, όπως 32 kb κοινόχρηστης μνήμης και 64 kiB L1 cache, αλλά πάντα γίνεται ως 64 + 32 διαιρέσεις.

Η έλλειψη λεπτομερειών που δόθηκε σχετικά με το σύστημα μνήμης Turning μας έκανε να θέλουμε περισσότερα, οπότε στρίψαμε σε μια ερευνητική ομάδα GPU που εργάζεται στο Citadel Enterprise Americas. Πρόσφατα, δημοσίευσαν δύο άρθρα. χρόνος ve Τούρινγκ αρχιτεκτονικές; Η παραπάνω εικόνα είναι ο κατακερματισμός της ιεραρχίας μνήμης στο τσιπ TU104 (πλήρης κρυφή μνήμη TU102 sport 6144 kiB L2).

Η ομάδα επιβεβαίωσε ότι η απόδοση της προσωρινής μνήμης L1 ήταν 64 bit ανά κύκλο και δήλωσε ότι υπό δοκιμή η αποτελεσματικότητα της προσωρινής μνήμης L1 της Turing ήταν η καλύτερη από όλες τις GPU της Nvidia. Αυτό είναι το ίδιο με το Navi, αν και το τσιπ AMD έχει υψηλότερο ρυθμό ανάγνωσης για το Local Data Store, αλλά χαμηλότερο ποσοστό για οδηγίες / σταθερές προσωρινές μνήμες.

Και οι δύο GPU χρησιμοποιούν GDDR6 για τοπική μνήμη - αυτή είναι η τελευταία έκδοση του Graphics DDR SDRAM - και και οι δύο χρησιμοποιούν συνδέσεις 32-bit σε μονάδες μνήμης, έτσι Radeon RX 5700 XT Διαθέτει 256 μάρκες μνήμης και παρέχει μέγιστο εύρος ζώνης 256 GiB / s και 8 GiB χώρου. ένας GeForce RTX 2080 Ti Με το τσιπ TU102, λειτουργεί με 11 τέτοιες μονάδες για εύρος ζώνης 352 GiB / s και αποθήκευση 11 GiB.

Η τεκμηρίωση της AMD μπορεί να φαίνεται περίπλοκη κατά καιρούς: Στο πρώτο διάγραμμα μπλοκ βλέπουμε ότι ο Navi εμφανίζει τέσσερις ελεγκτές μνήμης 64-bit, ενώ μια μεταγενέστερη εικόνα δείχνει 16 ελεγκτές. Θεωρώντας Η Samsung προσφέρει μόνο 32-bit GDDR6 Φαίνεται ότι η δεύτερη εικόνα δείχνει πόσες συνδέσεις υπάρχουν μεταξύ του συστήματος Infinity Fabric και των ελεγκτών μνήμης. Υπάρχουν πιθανώς μόνο 4 ελεγκτές μνήμης και ο καθένας χρησιμοποιεί δύο μονάδες.

Συνολικά, δεν φαίνεται να υπάρχει τεράστια διαφορά μεταξύ Navi και Turing όταν πρόκειται για τις κρυφές μνήμες και την τοπική μνήμη. Υπάρχουν λίγο περισσότερα για το Navi να πλησιάζει στην πλευρά εκτέλεσης των πραγμάτων με τις μεγαλύτερες οδηγίες / σταθερά και L1 cache, αλλά και οι δύο είναι γεμάτες με υλικό, και οι δύο χρησιμοποιούν συμπίεση χρώματος όπου είναι δυνατόν και και οι δύο έχουν πολλά αποκλειστικά μοτίβα GPU στην πρόσβαση στη μνήμη και χρησιμοποιείται για τη μεγιστοποίηση του εύρους ζώνης.

Τρίγωνα, υφές και pixel

Πριν από δεκαπέντε χρόνια, οι κατασκευαστές GPU έκαναν πολλά για πόσα τρίγωνα μπορούν να χειριστούν τα τσιπ τους, τον αριθμό των στοιχείων υφής που μπορούν να φιλτραριστούν ανά κύκλο και την ικανότητα των μονάδων παραγωγής απόδοσης (ROP). Αυτές οι πτυχές εξακολουθούν να είναι σημαντικές σήμερα, αλλά η εστίαση είναι πολύ περισσότερο από την πλευρά της εκτέλεσης, καθώς οι τεχνολογίες απόδοσης 3D απαιτούν περισσότερη απόδοση υπολογιστών από ποτέ.

Ωστόσο, για να επισημάνω ότι δεν υπάρχει άμεσα αισθητή διαφορά μεταξύ Navi και Turing σε αυτές τις περιοχές, οι μονάδες υφής και τα ROPs αξίζουν ακόμη να εξερευνηθούν. Και στις δύο αρχιτεκτονικές, οι μονάδες υφής μπορούν να χειριστούν και να ανακτήσουν 4 στοιχεία υφής, να τα φιλτράρουν άγνωστα σε ένα μόνο στοιχείο και να τα αποθηκεύουν προσωρινά σε έναν κύκλο ρολογιού (αγνοώντας τους πρόσθετους βρόχους ρολογιού που λαμβάνονται για την ανάκτηση δεδομένων από την τοπική μνήμη).

Η διάταξη των ROP / RBs είναι ελαφρώς διαφορετική μεταξύ Navi και Turing, αλλά όχι πάρα πολύ: Το τσιπ AMD έχει 4 RB ανά ACE και το καθένα μπορεί να εξάγει 4 αναμεμειγμένα pixel ανά κύκλο ρολογιού. Στο Turing, κάθε GPC έχει δύο RB, το καθένα δίνει 8 pixel ανά ώρα. Ο αριθμός ROP της GPU είναι πραγματικά ένα μέτρο αυτής της ταχύτητας εξόδου pixel, οπότε ένα πλήρες τσιπ Navi αποδίδει 64 pixel ανά ώρα και πλήρες TU102 96 (αλλά θυμηθείτε ότι αυτό είναι ένα μεγαλύτερο τσιπ).

Υπάρχουν λιγότερες πληροφορίες για το τρίγωνο των πραγμάτων. Αυτό που γνωρίζουμε είναι ότι ο Navi εξακολουθεί να παρέχει έως και 4 πρωτόγονα ανά κύκλο ρολογιού (1 ανά ACE), αλλά δεν υπάρχει πλέον τίποτα για το εάν η AMD έχει διορθώσει το πρόβλημα με αυτό το ζήτημα. Πρωτόγονοι Shaders. Αυτό ήταν ένα χαρακτηριστικό γνώρισμα του Vega και επέτρεψε στους προγραμματιστές να έχουν πολύ μεγαλύτερο έλεγχο στα πρωτόγονα, έτσι ώστε η πρωτόγονη απόδοση να μπορεί να αυξηθεί κατά 4 παράγοντες. η λειτουργικότητα καταργήθηκε από προγράμματα οδήγησης Το προϊόν ήταν αδρανές λίγο μετά την κυκλοφορία του και έκτοτε.

Ενώ ακόμα περιμένουμε περισσότερες πληροφορίες για τον Navi, θα ήταν παράλογο να κάνουμε περαιτέρω εικασίες. Το Turing χειρίζεται επίσης 1 πρωτόγονο ανά ώρα ανά GPC (δηλαδή έως και 6 για την πλήρη TU102 GPU) σε μηχανές Raster, αλλά και Πλέγμα ShadersΠροσφέρει την ίδια λειτουργικότητα με τα Primitive Shaders της AMD. Το Direct3D δεν είναι ένα σύνολο λειτουργιών OpenGL ή Vulkan, αλλά μπορεί να χρησιμοποιηθεί μέσω επεκτάσεων API.

Αυτό φαίνεται να δίνει στον Turing ένα πλεονέκτημα έναντι του Navi όσον αφορά τον χειρισμό τριγώνων και πρωτόγονων, αλλά προς το παρόν δεν υπάρχουν αρκετές ακριβείς πληροφορίες στο δημόσιο τομέα.

Όχι όλα για τις μονάδες επιβολής

Υπάρχουν άλλες πτυχές του Navi και του Turing που αξίζει να συγκριθούν. Αρχικά, και οι δύο GPU διαθέτουν προηγμένες μηχανές οθόνης και πολυμέσων. Η πρώτη επεξεργάζεται την έξοδο στην οθόνη, η δεύτερη κωδικοποιεί και αποκωδικοποιεί τις ροές βίντεο.

Όπως θα περίμενε κανείς από τη νέα σχεδίαση GPU του 2019, ο κινητήρας οθόνης της Navi προσφέρει πολύ υψηλές αναλύσεις με υψηλούς ρυθμούς ανανέωσης και προσφέρει υποστήριξη HDR. Προβολή συμπίεσης ροής (DSC) είναι ένας αλγόριθμος γρήγορης απώλειας συμπίεσης που επιτρέπει τη μετάδοση των αναλύσεων 4K + σε ρυθμούς ανανέωσης υψηλότερους από 60 Hz μέσω σύνδεσης DisplayPort 1.4. Ευτυχώς, η υποβάθμιση της ποιότητας της εικόνας είναι πολύ μικρή στο σημείο που θεωρείτε ότι το DSC είναι σχεδόν χωρίς απώλειες.

Το Turing υποστηρίζει επίσης DisplayPort με συνδέσεις DSC, αλλά ο υποστηριζόμενος συνδυασμός υψηλής ανάλυσης και ρυθμού ανανέωσης είναι ελαφρώς καλύτερος από το Navi: 4K HDR στα 144 Hz - τα υπόλοιπα είναι τα ίδια.

Ο κινητήρας πολυμέσων της Navi είναι τόσο σύγχρονος όσο ο κινητήρας οθόνης και Προηγμένη κωδικοποίηση βίντεο (H.264) και Κωδικοποίηση βίντεο υψηλής απόδοσης (H.265), πάλι σε υψηλές αναλύσεις και υψηλούς ρυθμούς bit.

Ο κινητήρας βίντεο του Turing είναι σχεδόν ίδιος με τους Navi, αλλά η υποστήριξη για κωδικοποίηση HDR 8K30 μπορεί να μετατρέψει την ισορροπία υπέρ του Turing για μερικούς ανθρώπους.

Υπάρχουν άλλες πτυχές για σύγκριση (για παράδειγμα, η διασύνδεση Navi's PCI Express 4.0 ή το Turing's NV Link), αλλά ανεξάρτητα από το πόσο ντυμένοι και εμπορεύονται, είναι πραγματικά μικροσκοπικά κομμάτια της συνολικής αρχιτεκτονικής. Αυτό συμβαίνει επειδή για τη συντριπτική πλειονότητα των πιθανών χρηστών αυτές οι μοναδικές δυνατότητες δεν θα είναι σημαντικές.

Σύγκριση "Μου αρέσει"

Αυτό το άρθρο είναι μια παρατήρηση του αρχιτεκτονικού σχεδιασμού, των χαρακτηριστικών και της λειτουργικότητας, αλλά η άμεση σύγκριση απόδοσης θα ήταν ένας καλός τρόπος για να ολοκληρωθεί μια τέτοια ανάλυση. Ωστόσο, η αντιστοίχιση του chip Navi σε ένα Radeon RX 5700 XT σε έναν GeForce RTX 2080 Ti με τον επεξεργαστή Turing TU102 σε ένα GeForce RTX 2080 Ti δεν θα ήταν σαφώς δίκαιο, δεδομένου ότι ο τελευταίος είναι σχεδόν διπλάσιος από τον αριθμό των συνδυασμένων μονάδων shader. Ωστόσο, υπάρχει μια έκδοση του τσιπ Turing που μπορεί να χρησιμοποιηθεί για σύγκριση, και αυτή είναι που βρίσκεται στο GeForce RTX 2070 Super.

  Radeon RX 5700 XT GeForce RTX 2070 Super
GPU | Αρχιτεκτονικός Navi 10 | rDNA TU104 | Τούρινγκ
επεξεργάζομαι, διαδικασία 7 nm TSMC 12 nm TSMC
Περιοχή μούχλας (mm2) 251 545
Τρανζίστορ (δισεκατομμύρια) 10.3 13.6
Αποκλεισμός προφίλ 2 SE | 4 ACE | 40 PB 5 GPC | 20 TPC | 40 SM
Συνδυασμένοι πυρήνες shader 2560 SP 2560 ΜΑΡΑΚΛΙΑ
TMU 160 160
ROPS 64 64
Βασικός χρόνος 1605 MHz 1605 MHz
Ρολόι παιχνιδιού 1755 MHz ΟΧΙ
Ώρα ώθησης 1905 MHz 1770 MHz
Μνήμη 8 GB 256 bit GDDR6 8 GB 256 bit GDDR6
Εύρος ζώνης μνήμης 448 GBps 448 GBps
Ισχύς θερμικού σχεδιασμού (TDP) 225 Watt 215 Δ.

Αξίζει να σημειωθεί ότι το RTX 2070 Super δεν είναι ένα «πλήρες» τσιπ TU104 (ένα από τα GPC είναι απενεργοποιημένο), οπότε όλα αυτά τα 13.6 τρανζίστορ είναι ανενεργά, πράγμα που σημαίνει ότι τα τσιπ είναι περίπου τα ίδια όσον αφορά τον αριθμό των τρανζίστορ. Στην ονομαστική τους τιμή, οι δύο GPU φαίνονται πολύ παρόμοιες, ειδικά αν λάβετε υπόψη μόνο μονάδες shader, TMU, ROP και κύρια συστήματα μνήμης.

Στον επεξεργαστή Nvida, ένα SM μπορεί να επεξεργαστεί 32 ταυτόχρονα στημόνια, και με κάθε στρέβλωση 32 νημάτων, ένα πλήρως φορτωμένο GeForce RTX 2070 Super μπορεί να τρέξει σε 40.960 νήματα σε ολόκληρο το chip. Για το Navi, ένα CU SIMD32 μπορεί να δέχεται 16 κύματα ανά ALU και κάθε κύμα είναι 32 σκέλη. Έτσι, το Radeon RX 5700 XT μπορεί επίσης να συσκευαστεί έως και 40.960 νήματα. Φαίνεται ότι αυτό τους κάνει ακριβώς εδώ, αλλά δεδομένου του πόσο διαφορετικά τακτοποιούνται οι CU / SM και το πλεονέκτημα της Nvidia με την ταυτόχρονη επεξεργασία INT και FP, το αποτέλεσμα θα εξαρτηθεί σε μεγάλο βαθμό από τον κώδικα που εκτελείται.

Τι αποτέλεσμα θα έχει σε διάφορες παραστάσεις παιχνιδιών, καθώς ο κώδικας μιας μηχανής 3D θα ευνοήσει τη δημιουργία ενός άλλου ανάλογα με το είδος των οδηγιών που αποστέλλονται τακτικά στην GPU. Αυτό, δοκιμάστηκαν δύο κάρτες γραφικών:

Όλα τα παιχνίδια που χρησιμοποιήθηκαν στη δοκιμή προγραμματίστηκαν για την αρχιτεκτονική GCN της AMD απευθείας για υπολογιστές με Radeon ή μέσω GCN GPU που βρίσκονται στο PlayStation 4 ή στο Xbox One. Είναι πιθανό ότι μερικά από τα πρόσφατα λανσάρονται προετοιμασμένα για τις αλλαγές του RDNA, αλλά οι διαφορές στα αποτελέσματα αναφοράς είναι πιθανότερο λόγω των μηχανών απόδοσης και του τρόπου επεξεργασίας των οδηγιών και των δεδομένων.

Τι σημαίνει λοιπόν όλα αυτά; Είναι μια αρχιτεκτονική πολύ καλύτερη από την άλλη; Η Turing προσφέρει σίγουρα περισσότερη χωρητικότητα από τη Navi χάρη στους Tensor και RT Cores, αλλά η τελευταία ανταγωνίζεται σίγουρα όσον αφορά την απόδοση απόδοσης 3D. Οι διαφορές που παρατηρούνται στα 12 παραδείγματα παιχνιδιών δεν είναι αρκετά ακριβείς για να πάρουν μια τελική κρίση.

Και αυτό είναι καλό νέο για εμάς.

Τελικές λέξεις

Τα σχέδια Navi της AMD ανακοινώθηκε Στοχεύουν στην κυκλοφορία του 2018 το 2016 και παρόλο που δεν είπαν πολλά. Όταν έρθει και φεύγει αυτή η ημερομηνία οδικός χάρτης άλλαξε Ωστόσο, ήταν σαφές ότι η Navi θα κατασκευαζόταν σε κόμβο διεργασιών 7nm και ο σχεδιασμός θα επικεντρωνόταν στη βελτίωση της απόδοσης.

Αυτό συνέβαινε σίγουρα, και όπως έχουμε δει σε αυτό το άρθρο, η AMD έχει κάνει αρχιτεκτονικές αλλαγές για να επιτρέψει στη Nvidia να ανταγωνιστεί τις αντίστοιχες προσφορές της. Η νέα σχεδίαση ωφελεί περισσότερο από τους χρήστες υπολογιστών, καθώς γνωρίζουμε ότι η Sony και η Microsoft θα χρησιμοποιήσουν μια παραλλαγή του τσιπ στην προσεχή περίοδο. Playstation 5 ve σονράκι xbox.

Αν επιστρέψετε στην αρχή αυτού του άρθρου και κοιτάξετε ξανά τη δομική σχεδίαση του Shader Motors, το συνολικό μέγεθος της μήτρας και τον αριθμό των τρανζίστορ, υπάρχει σαφώς περιθώριο για ένα μεγάλο "chip Navi". τελευταία κάρτα γραφικών? Η AMD έχει επιβεβαιώσει σχεδόν ότι αυτό θα πρέπει να είναι μέρος των τρεχόντων σχεδίων της και στοχεύει στη βελτίωση της αρχιτεκτονικής και της διαδικασίας κατασκευής τα επόμενα δύο χρόνια.

Αλλά ποια είναι τα σχέδια για τη Nvidia, την Turing και τον διάδοχό της; Παραδόξως, λίγα έχουν επιβεβαιωθεί από την εταιρεία. Το 2014, Nvidia Ενημερωμένος χάρτης πορείας GPU Σχεδιασμός της αρχιτεκτονικής Pascal για την κυκλοφορία του 2016 (και επίτευξη αυτού του στόχου). Το 2017, Η Tesla ανακοίνωσε το V100Ήταν αυτό το σχέδιο που έφερε το Turing το 2018, χρησιμοποιώντας την αρχιτεκτονική Volta.

Από τότε, τα πράγματα ήταν αρκετά ήσυχα και έπρεπε να βασιστούμε σε φήμες και αποσπάσματα ειδήσεων, τα οποία λένε συχνά το ίδιο πράγμα: Η επόμενη αρχιτεκτονική της Nvidia θα ονομάζεται Ampere, Κατασκευασμένο από τη Samsung Χρησιμοποιεί τον κόμβο διαδικασίας 7nm και έχει προγραμματιστεί για το 2020. Εκτός από αυτό, δεν υπάρχει τίποτα άλλο να συνεχίσουμε. Το νέο chip είναι απίθανο να σπάσει την παράδοση εστιάζοντας σε μονάδες εκτέλεσης βαθμών ή είναι απίθανο να απορρίψει πτυχές όπως το Tensor Cores, καθώς αυτό θα προκαλέσει σημαντικά προβλήματα συμβατότητας προς τα πίσω.

Ωστόσο, μπορούμε να κάνουμε κάποιες εύλογες προβλέψεις για το πώς θα είναι η επόμενη GPU της Nvidia. Η εταιρεία έχει επενδύσει σημαντικό χρόνο και χρήμα. ανίχνευση ακτίνωνκαι την υποστήριξή του μόνο σε παιχνίδια αυξάνουν; Επομένως, μπορούμε να περιμένουμε να δούμε μια βελτίωση στον πυρήνα RT όσον αφορά τις δυνατότητες ή τους αριθμούς ανά SM. Εάν ένα Κόμβος διαδικασίας 7 nm Εάν είναι αλήθεια, το Nvidia πιθανότατα θα στοχεύει στη μείωση ισχύος παρά στην άμεση αύξηση της ταχύτητας ρολογιού, ώστε να μπορούν να αυξήσουν τον αριθμό των GPC. Είναι επίσης δυνατό να παραλείψετε 7 nm και να ξεκινήσετε το Nvidia. Ευθεία για 5 nm Για να αποκτήσετε πλεονέκτημα έναντι της AMD.

Προφανώς AMD και Nvidia, διακριτή κάρτα γραφικών Αγορά από την Intel όπως γνωρίζουμε ότι σχεδιάζουν να επανέλθουν σε αυτόν τον κλάδο, Καλέστε 20 χρόνια. Αυτό το νέο προϊόν (επί του παρόντος Xe) Θα είναι σε θέση να ανταγωνιστεί στο ίδιο επίπεδο με τους Navi και Turing.

Εν τω μεταξύ, η Intel επέζησε της αγοράς GPU για αυτές τις δύο δεκαετίες κάνοντας ολοκληρωμένα γραφικά για τους CPU της. Η τελευταία GPU της Intel Γεν. 11Είναι παρόμοιο με την αρχιτεκτονική της AMD καθώς χρησιμοποιεί διανυσματικά ALU που μπορούν να χειριστούν δεδομένα FP32 και INT32, αλλά δεν γνωρίζουμε εάν οι νέες κάρτες γραφικών θα είναι μια άμεση εξέλιξη αυτού του σχεδιασμού.

Αυτό που είναι σίγουρο είναι ότι τα επόμενα χρόνια θα είναι πολύ ενδιαφέροντα καθώς τρεις γίγαντες δομών πυριτίου συνεχίζουν να αγωνίζονται για τα πορτοφόλια μας. Νέα σχέδια και αρχιτεκτονικές GPU θα προκαλέσουν αριθμούς τρανζίστορ, μεγέθη προσωρινής μνήμης και ιδιότητες shader. Οι Navi και RDNA είναι οι νεότεροι από αυτούς και έχουν δείξει ότι κάθε βήμα προς τα εμπρός μπορεί να κάνει μια μικρή διαφορά.

Συντομεύσεις αγορών:

Αυτό το άρθρο δημοσιεύθηκε αρχικά στις 7 Αυγούστου 2019. Ως μέρος της πρωτοβουλίας #ThrowbackThursday, αναθεωρήσαμε και κάναμε λίγο σφάλμα.