شما هر دو را در پردازنده گرافیکی Nvidia خود خواهید یافت، اما آنها چه کار می کنند؟
پردازندههای گرافیکی انویدیا، نه تنها از نظر عملکرد بازی، بلکه در سایر برنامهها، بهویژه هوش مصنوعی و یادگیری ماشین، مسیر طولانی را طی کردهاند. دو عامل اصلی مسئول عملکرد پردازنده گرافیکی انویدیا، هسته های CUDA و Tensor هستند که تقریباً روی هر پردازنده گرافیکی مدرن انویدیا که می توانید خریداری کنید، وجود دارد.
اما این هسته ها دقیقاً چه کار می کنند و اگر هر دو در برنامه های کاربردی هوش مصنوعی و یادگیری ماشین استفاده می شوند، چه تفاوتی با هم دارند؟
هسته های CUDA چیست و چه کاربردی دارند؟
CUDA مخفف Compute Unified Device Architecture است که برای توضیح حضور آنها در یک GPU کار زیادی انجام نمی دهد. این هستهها در معماری Maxwell سال 2014 در سری پردازندههای گرافیکی Nvidia معرفی شدند و در پردازش موازی تخصص دارند.
آنها از نظر عملکرد کاملاً شبیه به هستههای CPU هستند، اما در انجام وظایف خاص، از جمله هشهای رمزنگاری، موتورهای فیزیک، پروژههای مرتبط با علم داده و حتی توسعه بازی، بهتر عمل میکنند.
در حالی که قبلاً چگونگی تأثیر هستههای CUDA بر عملکرد بازی رایانه شخصی شما را پوشش دادهایم، آنها به همان اندازه در کاهش اعداد مفید هستند. در حالی که حتی قدرتمندترین CPU ها دارای هسته های دو رقمی هستند، پردازنده های گرافیکی Nvidia با چندین هزار هسته CUDA عرضه می شوند که آنها را در حجم کاری عددی بسیار سریع تر می کند. علاوه بر این، از آنجایی که آنها این محاسبات را به صورت موازی انجام می دهند، با هسته های CUDA سرعت بسیار بیشتری دریافت می کنید.
هستههای CUDA سریعتر از هستههای CPU معمولی هستند، اما هنوز راهحل ایدهآل نیستند. این به این دلیل است که آنها هرگز در نظر گرفته نشده بودند که به این شکل مورد استفاده قرار گیرند. هستههای CUDA برای پردازش گرافیکی و توانایی بیشتر پردازندههای گرافیکی انویدیا در عملکرد بازی ساخته شدهاند.
هسته های تانسور چیست و چه کاربردی دارند؟
با شروع استفاده از پردازندههای گرافیکی برای بارهای کاری هوش مصنوعی و یادگیری ماشین، انویدیا هستههای Tensor را در معماری Volta برای پردازندههای گرافیکی مرکز داده خود از سال 2017 معرفی کرد.
با این حال، تا معماری Nvidia Turing (GPU های سری 20 RTX) طول کشید تا این هسته ها به پردازنده های گرافیکی مصرف کننده بیایند. به یاد داشته باشید که اگرچه کارت های سری 16 GTX نیز بر اساس معماری تورینگ ساخته شده اند، اما هیچ هسته ردیابی پرتو یا Tensor در آن ها وجود ندارد.
در حالی که هستههای CUDA در بهترین حالت برای بارهای کاری محاسباتی کافی بودند، هستههای Tensor با سرعت قابلتوجهی سریعتر بودند. در حالی که هستههای CUDA فقط میتوانند یک عملیات را در هر چرخه ساعت انجام دهند، هستههای Tensor میتوانند چندین عملیات را انجام دهند و عملکرد فوقالعادهای به آنها افزایش دهند. اساسا، تمام هسته های Tensor افزایش سرعت ضرب ماتریس است.
این افزایش سرعت محاسباتی به قیمت دقت انجام می شود و هسته های CUDA به طور قابل توجهی دقیق تر هستند. گفته میشود، وقتی صحبت از آموزش مدلهای یادگیری ماشین میشود، هستههای Tensor از نظر سرعت محاسباتی و هزینه کلی بسیار مؤثرتر هستند. از این رو از دست دادن دقت اغلب نادیده گرفته می شود.
هسته های Tensor و CUDA چگونه بر عملکرد GPU تأثیر می گذارند؟
همانطور که احتمالاً تا به حال می توانید حدس بزنید، در حالی که هسته های CUDA و Tensor می توانند بارهای کاری مشابهی را تحمل کنند، هر دو هسته های تخصصی برای رندر گرافیکی و حجم کاری عددی هستند.
این بدان معناست که بسته به کاربری که یک GPU خاص در آن هدف قرار گرفته است، تعداد هسته های متفاوتی خواهد داشت. به عنوان مثال، اگر RTX 4090، جدیدترین و بهترین پردازنده گرافیکی بازی انویدیا را در نظر بگیریم، هسته های CUDA بسیار بیشتری نسبت به هسته های Tensor دریافت خواهید کرد. 16384 هسته CUDA تا 512 هسته Tensor، به طور خاص.
در مقایسه، پردازنده گرافیکی Nvidia L40 برای مراکز داده، بر اساس همان معماری Ada Lovelace مانند RTX 4090، دارای 18176 هسته CUDA و 568 هسته Tensor است. ممکن است این تفاوت چندان بزرگ به نظر نرسد، اما می تواند عملکرد این پردازنده های گرافیکی را به شدت تحت تاثیر قرار دهد.
از نظر عملکرد تئوری، L40 دارای 90.52 TFlops عملکرد FP16 و FP32 و همچنین 1414 GFlops عملکرد FP64 است. این افزایش عملکرد در مقایسه با عملکرد 82.58 TFlops FP16 و FP32 RTX 4090 و عملکرد FP64 1290 GFlops RTX 4090 است.
اگر با اعداد عملکرد عددی GPU آشنا نباشید، ارقام عملکرد ممیز شناور GPU Nvidia در بالا ممکن است برای شما اهمیت زیادی نداشته باشد. با این حال، به طور خلاصه، آنها نشان میدهند که L40 در محاسبات عددی بسیار سریعتر از RTX 4090 است – محاسباتی که برای هوش مصنوعی و بارهای کاری مبتنی بر یادگیری ماشین مورد نیاز است.
با در نظر گرفتن مصرف انرژی دو پردازنده گرافیکی، بهبود عملکرد بسیار چشمگیرتر می شود. RTX 4090 دارای TGP رتبه بندی شده (با TDP اشتباه نشود، تفاوت کمی وجود دارد) 450 وات است، در حالی که L40 تنها برای 300 وات رتبه بندی شده است.
هر دوی این پردازندههای گرافیکی بازیها را اجرا میکنند و مدل یادگیری ماشینی شما را به خوبی آموزش میدهند. با این حال، RTX 4090 در اجرای بازی ها بهتر خواهد بود و L40 در آموزش مدل های یادگیری ماشین بهتر خواهد بود.
هسته های CUDA در مقابل هسته های تانسور: کدام یک مهم تر است؟
هر دو هسته به یک اندازه مهم هستند، صرف نظر از اینکه پردازنده گرافیکی خود را برای بازی می خرید یا آن را در یک رک مرکز داده قرار می دهید. پردازندههای گرافیکی گیمینگ انویدیا از مجموعهای از ویژگیهای هوش مصنوعی (به ویژه DLSS) استفاده میکنند و وجود هستههای Tensor روی آن میتواند مفید باشد.
در مورد پردازندههای گرافیکی مرکز داده، هستههای CUDA و Tensor در بیشتر مواقع پشت سر هم کار میکنند، بنابراین بدون در نظر گرفتن پردازنده گرافیکی انتخابی، هر دو را دریافت خواهید کرد. به جای تمرکز بر روی نوع خاصی از هسته در GPU خود، باید بیشتر بر روی کاری که کارت گرافیک به طور کلی انجام می دهد و نوع کاربری که برای آن در نظر گرفته شده است، تمرکز کنید.
هسته های CUDA در مدیریت بارهای گرافیکی تخصص دارند، در حالی که هسته های Tensor در هسته های عددی بهتر هستند. آنها با هم کار می کنند و تا حدی قابل تعویض هستند، اما تخصص های خود را مدیریت می کنند، به همین دلیل است که در وهله اول وجود دارند.
GPU های مختلف در جنبه های مختلف تخصص دارند. RTX 4090 به راحتی هر بازی را که به آن پرتاب کنید خرد می کند، در حالی که RTX 4060 فقط می تواند بازی های 1080p را انجام دهد. اگر با استفاده از GPU خود بازی نمیکنید و فقط برای اعداد یا آموزش شبکههای عصبی به آن نیاز دارید، یک GPU مرکز داده سری A مانند A100 یا حتی L40 بهترین گزینه است.
هسته های GPU شما مهم هستند
هستههای بیشتر GPU عملکرد کلی بهتری را به شما میدهند، زیرا GPU شما همه کارهتر خواهد بود و منابع اختصاصی برای انجام وظایف مختلف دارد. با این حال، دریافت کورکورانه یک GPU با بیشترین تعداد هسته بهترین تصمیم نیست. لحظه ای را صرف بررسی دقیق مورد استفاده خود کنید، به قابلیت های GPU به طور کلی نگاهی بیندازید و سپس انتخاب خود را انجام دهید.