خبر و ترفند روز

خبر و ترفند های روز را اینجا بخوانید!

هسته های CUDA انویدیا در مقابل هسته های تانسور: تفاوت چیست؟

شما هر دو را در پردازنده گرافیکی Nvidia خود خواهید یافت، اما آنها چه کار می کنند؟

پردازنده‌های گرافیکی انویدیا، نه تنها از نظر عملکرد بازی، بلکه در سایر برنامه‌ها، به‌ویژه هوش مصنوعی و یادگیری ماشین، مسیر طولانی را طی کرده‌اند. دو عامل اصلی مسئول عملکرد پردازنده گرافیکی انویدیا، هسته های CUDA و Tensor هستند که تقریباً روی هر پردازنده گرافیکی مدرن انویدیا که می توانید خریداری کنید، وجود دارد.

اما این هسته ها دقیقاً چه کار می کنند و اگر هر دو در برنامه های کاربردی هوش مصنوعی و یادگیری ماشین استفاده می شوند، چه تفاوتی با هم دارند؟

هسته های CUDA چیست و چه کاربردی دارند؟

CUDA مخفف Compute Unified Device Architecture است که برای توضیح حضور آنها در یک GPU کار زیادی انجام نمی دهد. این هسته‌ها در معماری Maxwell سال 2014 در سری پردازنده‌های گرافیکی Nvidia معرفی شدند و در پردازش موازی تخصص دارند.

آنها از نظر عملکرد کاملاً شبیه به هسته‌های CPU هستند، اما در انجام وظایف خاص، از جمله هش‌های رمزنگاری، موتورهای فیزیک، پروژه‌های مرتبط با علم داده و حتی توسعه بازی، بهتر عمل می‌کنند.

تصویر نزدیک پنکه GPU Geforce RTX 3080

در حالی که قبلاً چگونگی تأثیر هسته‌های CUDA بر عملکرد بازی رایانه شخصی شما را پوشش داده‌ایم، آنها به همان اندازه در کاهش اعداد مفید هستند. در حالی که حتی قدرتمندترین CPU ها دارای هسته های دو رقمی هستند، پردازنده های گرافیکی Nvidia با چندین هزار هسته CUDA عرضه می شوند که آنها را در حجم کاری عددی بسیار سریع تر می کند. علاوه بر این، از آنجایی که آنها این محاسبات را به صورت موازی انجام می دهند، با هسته های CUDA سرعت بسیار بیشتری دریافت می کنید.

هسته‌های CUDA سریع‌تر از هسته‌های CPU معمولی هستند، اما هنوز راه‌حل ایده‌آل نیستند. این به این دلیل است که آنها هرگز در نظر گرفته نشده بودند که به این شکل مورد استفاده قرار گیرند. هسته‌های CUDA برای پردازش گرافیکی و توانایی بیشتر پردازنده‌های گرافیکی انویدیا در عملکرد بازی ساخته شده‌اند.

مطلب مرتبط:   Intel Arc A750 در مقابل Intel Arc 770: بهترین بازی برای بازی چیست و چه چیزی باید بخرید؟

هسته های تانسور چیست و چه کاربردی دارند؟

با شروع استفاده از پردازنده‌های گرافیکی برای بارهای کاری هوش مصنوعی و یادگیری ماشین، انویدیا هسته‌های Tensor را در معماری Volta برای پردازنده‌های گرافیکی مرکز داده خود از سال 2017 معرفی کرد.

با این حال، تا معماری Nvidia Turing (GPU های سری 20 RTX) طول کشید تا این هسته ها به پردازنده های گرافیکی مصرف کننده بیایند. به یاد داشته باشید که اگرچه کارت های سری 16 GTX نیز بر اساس معماری تورینگ ساخته شده اند، اما هیچ هسته ردیابی پرتو یا Tensor در آن ها وجود ندارد.

یک GPU متصل به یک کیس کامپیوتر در حال اجرا

در حالی که هسته‌های CUDA در بهترین حالت برای بارهای کاری محاسباتی کافی بودند، هسته‌های Tensor با سرعت قابل‌توجهی سریع‌تر بودند. در حالی که هسته‌های CUDA فقط می‌توانند یک عملیات را در هر چرخه ساعت انجام دهند، هسته‌های Tensor می‌توانند چندین عملیات را انجام دهند و عملکرد فوق‌العاده‌ای به آن‌ها افزایش دهند. اساسا، تمام هسته های Tensor افزایش سرعت ضرب ماتریس است.

این افزایش سرعت محاسباتی به قیمت دقت انجام می شود و هسته های CUDA به طور قابل توجهی دقیق تر هستند. گفته می‌شود، وقتی صحبت از آموزش مدل‌های یادگیری ماشین می‌شود، هسته‌های Tensor از نظر سرعت محاسباتی و هزینه کلی بسیار مؤثرتر هستند. از این رو از دست دادن دقت اغلب نادیده گرفته می شود.

هسته های Tensor و CUDA چگونه بر عملکرد GPU تأثیر می گذارند؟

همانطور که احتمالاً تا به حال می توانید حدس بزنید، در حالی که هسته های CUDA و Tensor می توانند بارهای کاری مشابهی را تحمل کنند، هر دو هسته های تخصصی برای رندر گرافیکی و حجم کاری عددی هستند.

این بدان معناست که بسته به کاربری که یک GPU خاص در آن هدف قرار گرفته است، تعداد هسته های متفاوتی خواهد داشت. به عنوان مثال، اگر RTX 4090، جدیدترین و بهترین پردازنده گرافیکی بازی انویدیا را در نظر بگیریم، هسته های CUDA بسیار بیشتری نسبت به هسته های Tensor دریافت خواهید کرد. 16384 هسته CUDA تا 512 هسته Tensor، به طور خاص.

مطلب مرتبط:   چگونه از مدل زبان سفارشی گوگل برای افزایش هزینه مطالعاتم استفاده می کنم

در مقایسه، پردازنده گرافیکی Nvidia L40 برای مراکز داده، بر اساس همان معماری Ada Lovelace مانند RTX 4090، دارای 18176 هسته CUDA و 568 هسته Tensor است. ممکن است این تفاوت چندان بزرگ به نظر نرسد، اما می تواند عملکرد این پردازنده های گرافیکی را به شدت تحت تاثیر قرار دهد.

از نظر عملکرد تئوری، L40 دارای 90.52 TFlops عملکرد FP16 و FP32 و همچنین 1414 GFlops عملکرد FP64 است. این افزایش عملکرد در مقایسه با عملکرد 82.58 TFlops FP16 و FP32 RTX 4090 و عملکرد FP64 1290 GFlops RTX 4090 است.

GPU در دست افراد

اگر با اعداد عملکرد عددی GPU آشنا نباشید، ارقام عملکرد ممیز شناور GPU Nvidia در بالا ممکن است برای شما اهمیت زیادی نداشته باشد. با این حال، به طور خلاصه، آنها نشان می‌دهند که L40 در محاسبات عددی بسیار سریع‌تر از RTX 4090 است – محاسباتی که برای هوش مصنوعی و بارهای کاری مبتنی بر یادگیری ماشین مورد نیاز است.

با در نظر گرفتن مصرف انرژی دو پردازنده گرافیکی، بهبود عملکرد بسیار چشمگیرتر می شود. RTX 4090 دارای TGP رتبه بندی شده (با TDP اشتباه نشود، تفاوت کمی وجود دارد) 450 وات است، در حالی که L40 تنها برای 300 وات رتبه بندی شده است.

هر دوی این پردازنده‌های گرافیکی بازی‌ها را اجرا می‌کنند و مدل یادگیری ماشینی شما را به خوبی آموزش می‌دهند. با این حال، RTX 4090 در اجرای بازی ها بهتر خواهد بود و L40 در آموزش مدل های یادگیری ماشین بهتر خواهد بود.

هسته های CUDA در مقابل هسته های تانسور: کدام یک مهم تر است؟

هر دو هسته به یک اندازه مهم هستند، صرف نظر از اینکه پردازنده گرافیکی خود را برای بازی می خرید یا آن را در یک رک مرکز داده قرار می دهید. پردازنده‌های گرافیکی گیمینگ انویدیا از مجموعه‌ای از ویژگی‌های هوش مصنوعی (به ویژه DLSS) استفاده می‌کنند و وجود هسته‌های Tensor روی آن می‌تواند مفید باشد.

مطلب مرتبط:   Claude Artifact در مقابل Canvas ChatGPT: گزینه بهتر چیست؟

در مورد پردازنده‌های گرافیکی مرکز داده، هسته‌های CUDA و Tensor در بیشتر مواقع پشت سر هم کار می‌کنند، بنابراین بدون در نظر گرفتن پردازنده گرافیکی انتخابی، هر دو را دریافت خواهید کرد. به جای تمرکز بر روی نوع خاصی از هسته در GPU خود، باید بیشتر بر روی کاری که کارت گرافیک به طور کلی انجام می دهد و نوع کاربری که برای آن در نظر گرفته شده است، تمرکز کنید.

تصویر یک GPU RTX با پوشش آتش

هسته های CUDA در مدیریت بارهای گرافیکی تخصص دارند، در حالی که هسته های Tensor در هسته های عددی بهتر هستند. آنها با هم کار می کنند و تا حدی قابل تعویض هستند، اما تخصص های خود را مدیریت می کنند، به همین دلیل است که در وهله اول وجود دارند.

GPU های مختلف در جنبه های مختلف تخصص دارند. RTX 4090 به راحتی هر بازی را که به آن پرتاب کنید خرد می کند، در حالی که RTX 4060 فقط می تواند بازی های 1080p را انجام دهد. اگر با استفاده از GPU خود بازی نمی‌کنید و فقط برای اعداد یا آموزش شبکه‌های عصبی به آن نیاز دارید، یک GPU مرکز داده سری A مانند A100 یا حتی L40 بهترین گزینه است.

هسته های GPU شما مهم هستند

هسته‌های بیشتر GPU عملکرد کلی بهتری را به شما می‌دهند، زیرا GPU شما همه کاره‌تر خواهد بود و منابع اختصاصی برای انجام وظایف مختلف دارد. با این حال، دریافت کورکورانه یک GPU با بیشترین تعداد هسته بهترین تصمیم نیست. لحظه ای را صرف بررسی دقیق مورد استفاده خود کنید، به قابلیت های GPU به طور کلی نگاهی بیندازید و سپس انتخاب خود را انجام دهید.