چگونه صدای خود را به متن با Whisper OpenAI برای ویندوز تبدیل کنید

از قدرت هوش مصنوعی برای تبدیل گفتار خود به متن با Whisper for Windows استفاده کنید.

OpenAI’s Whisper یک راه حل جدید مبتنی بر هوش مصنوعی است که می تواند صدای شما را به متن تبدیل کند. بهترین از همه، با هزینه صفر عرضه می شود.

با این حال، یک نکته وجود دارد: نصب و استفاده از آن از ابزار متوسط ویندوز شما چالش برانگیزتر است. به خصوص اگر می خواهید از هسته های Tensor GPU انویدیا خود برای تقویت خوب آن استفاده کنید.

هر چند ناراحت نباش به همین دلیل است که ما اینجا هستیم! برای اطلاع از نحوه نصب و استفاده از آن به ادامه مطلب مراجعه کنید، اما همچنین، اگر صاحب یکی از آن هستید، Whisper از GPU Nvidia شما استفاده کند.

Whisper OpenAI چیست؟

ChatGPT امروزه بسیار محبوب است و ما قبلاً دیدیم که چگونه می توانید از ChatGPT توسط OpenAI استفاده کنید. و با این حال، این تنها پروژه جالب OpenAI نیست.

Whisper با استفاده از یادگیری عمیق و شبکه های عصبی، یک سیستم پردازش زبان طبیعی است که می تواند گفتار را “درک” و آن را به متن تبدیل کند. اما این نیز چیز خاص خود است، نشستن در نقطه ای درست در میان همه راه حل های مشابه:

Whisper یک راه حل هوش مصنوعی “آموزش داده شده” با زبان طبیعی است. بنابراین، درک گفتار “عادی” انسان بهتر از راه حل های قدیمی تر است.
Whisper نه با رابط همراه است و نه می تواند صدا را ضبط کند. فقط می تواند فایل های صوتی موجود را بگیرد و فایل های متنی را خروجی کند.
از آنجایی که Whisper در “معنی سازی زبان” خوب است، Whisper همچنین دارای ابرقدرت ترجمه خودکار در یک مرحله است.
Whisper یک سرویس آنلاین نیست و می تواند کاملاً آفلاین کار کند.
اگر یک GPU نسبتاً مدرن Nvidia (GTX970 یا جدیدتر) دارید، Whisper می‌تواند در «حالت شتاب سخت‌افزاری» برای افزایش سرعت اجرا شود.
هیچ الزامی برای ثبت نام، خرید مجوز یا خرید اشتراک وجود ندارد.

چرا پردازنده های گرافیکی AMD پشتیبانی نمی شوند؟

برای اینکه پردازنده‌های گرافیکی بیشتر از گرافیک مفید باشند، باید به‌عنوان پردازنده‌های کاملاً قابل برنامه‌ریزی عمل کنند. به همین دلیل انویدیا CUDA را ایجاد کرد که به طور رسمی “یک پلتفرم محاسباتی موازی و مدل برنامه نویسی” شناخته می شود. برای کسب اطلاعات بیشتر در مورد CUDA و سخت افزار مربوطه (“CUDA Cores”)، مقاله ما را در مورد هسته های CUDA و چگونگی بهبود بازی های رایانه شخصی بخوانید.

CUDA فناوری اختصاصی انویدیا است که فقط با پردازنده‌های گرافیکی انویدیا سازگار است. نزدیکترین جایگزین برای سخت افزار AMD OpenCL و Radeon Compute Platform هستند. برای کسب اطلاعات بیشتر در مورد نحوه مقایسه راه حل های هر شرکت، مقاله ما را در مورد واحدهای محاسباتی AMD در مقابل هسته های Nvidia CUDA بررسی کنید.

مطلب مرتبط: نحوه رفع گیرکردن Logitech G HUB هنگام بارگذاری برای ویندوز

در مقایسه با جایگزین‌ها، CUDA بالغ‌تر، کارآمدتر و برای استفاده آسان‌تر در نظر گرفته می‌شود. بنابراین، اکثر توسعه دهندگان فقط CUDA را هدف قرار می دهند، که به نوبه خود به این معنی است که نرم افزار آنها فقط از ویژگی های سخت افزاری پردازنده های گرافیکی Nvidia بهره می برد. و این شامل Whisper نیز می شود.

نحوه دانلود و نصب Whisper

متأسفانه Whisper یک برنامه مستقل نیست که بتوانید آن را دانلود، نصب و اجرا کنید. متکی به نرم افزارهای دیگری است که باید نصب شوند.

برای ویندوز، برای ساده نگه داشتن این راهنما، از Chocolatey به طور گسترده برای نصب بیشتر بخش های نرم افزاری ضروری استفاده می کنیم. برای اطلاعات بیشتر در مورد Chocolatey، راهنمای ما در مورد سریعترین راه برای نصب نرم افزار ویندوز را بررسی کنید.

برای لینوکس و مک، فرآیند نصب (به استثنای متغیر مسیر ویندوز و فایل‌های دسته‌ای با استفاده آسان که ایجاد خواهیم کرد) باید مشابه باشد.

برای نصب و استفاده از Whisper باید پایتون و ابزار PIP آن را نصب کرده و به متغیر «مسیر» ویندوز اضافه کنید. برای اطلاعات در مورد آن، مقاله ما را در مورد نحوه نصب Python PIP در ویندوز، مک و لینوکس بررسی کنید.
FFMPEG را از طریق Chocolatey با این دستور نصب کنید: choco install ffmpeg همچنین نسخه پایتون آن را با: pip3 install python-ffmpeg نصب کنید
در نهایت، Whisper را از صفحه Github خود نصب کنید: pip3 install git+https://github.com/openai/whisper.git

choco install ffmpeg

pip3 install python-ffmpeg

pip3 install git+https://github.com/openai/whisper.git

دریافت نسخه CUDA فعال Whisper

اگرچه Whisper از پردازنده‌های گرافیکی Nvidia استفاده نمی‌کند، بسته مشعل که به آن تکیه می‌کند نسخه‌ای با شتاب CUDA ارائه می‌دهد. استفاده از این به‌جای نسخه «ساده» می‌تواند به Whisper کمک کند رونویسی‌های خود را بسیار سریع‌تر با کمک GPU Nvidia شما تکمیل کند.

برای داشتن Whisper از هسته های CUDA پردازنده گرافیکی Nvidia خود استفاده کنید:

اگر قبلاً نسخه «وانیلی» مشعل را نصب کرده‌اید، با استفاده از: pip3 uninstall torch، آن را حذف نصب و پاکسازی کنید.
نسخه CUDA مشعل را نصب کنید: pip3 install torch torchvision torchaudio –extra-index-url https://download.pytorch.org/whl/cu117
برای بررسی اینکه آیا Whisper می‌تواند از GPU Nvidia شما استفاده کند، از: whisper –help | استفاده کنید findstr -i pytorch باید به جای (پیش‌فرض: cpu) (پیش‌فرض: cuda) را ببینید.

pip3 uninstall torch

pip cache purge

pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117

whisper --help | findstr -i pytorch

اگر مشعل نصب نشد چه باید کرد؟

اگر هنگام نصب مشعل با خطای «نسخه یافت نشد» مواجه شدید، ممکن است لازم باشد نسخه قدیمی پایتون را موازی با نسخه فعلی خود نصب کنید.

مطلب مرتبط: نحوه ایجاد یک ماشین مجازی لینوکس در داخل یک ماشین مجازی ویندوز با استفاده از Hyper-V

برای این کار از این دستور استفاده کنید:

choco install python --version OLDER_VERSION --side-by-side

“OLDER_VERSION” را با نسخه ای مانند 3.10 جایگزین کنید.

سپس، از مسیر نسخه ثانویه برای همه دستورات Whisper “عمومی” استفاده کنید (به عنوان مثال، “c:\Python310\Scripts\pip.exe” به جای “pip”).

چگونه صدای خود را ضبط کنیم

می توانید از هر برنامه ضبط صدا برای تبدیل صدای خود به فایل WAV یا MP3 استفاده کنید. ویندوز شامل چنین برنامه‌ای است—برای اطلاعات بیشتر در مورد آن، نحوه استفاده از برنامه ضبط صدا ویندوز 10 را ببینید.

برای گزینه‌های کامل‌تر، Audacity را امتحان کنید. نحوه انجام این کار را با راهنمای ما در مورد نحوه استفاده از Audacity برای ضبط صدا در ویندوز و مک بیاموزید.

چگونه با Whisper رونویسی را شروع کنیم

اگرچه Whisper دارای رابط کاربری گرافیکی کاربرپسند نیست، اما استفاده از آن بسیار ساده است.

فرض کنید فایل LatestNote.mp3 را داریم که حاوی گفتار به زبان یونانی است، در پوشه c:\MyAudioFiles، و می‌خواهیم آن را به انگلیسی ترجمه کرده و به یک فایل متنی رونویسی کنیم.

ما با اجرای Command Prompt یا PowerShell شروع می کنیم.
ما دایرکتوری را تغییر می دهیم که فایل صوتی در آن ذخیره می شود با این دستور: cd C:\MyAudioFiles
Whisper را روی فایل با استفاده از: whisper –model base –language gr –task translate LatestNote.mp3 آزاد می کنیم

cd C:\MyAudioFiles

whisper --model base --language gr --task translate LatestNote.mp3

پس از پردازش، فایل متنی (با نام “LatestNote.mp3.txt”) در همان پوشه ظاهر می شود. برای مشاهده متن ترجمه شده، آن را در یک ویرایشگر متن مانند Notepad باز کنید.

ما از یک مثال ترجمه استفاده کردیم زیرا رونویسی انگلیسی حتی ساده تر است: شما فقط باید پرچم های “–language” و “-task” را “از دست بدهید”. بنابراین، برای رونویسی ساده، دستور بالا به صورت زیر خواهد بود:

whisper --model base LatestNote.mp3

پرچم “مدل” مورد نیاز است زیرا Whisper از یکی از گزینه های مختلف استفاده می کند. بیایید آنها را گسترش دهیم تا به شما در انتخاب بهترین ها برای نیازهایتان کمک کنیم.

کدام مدل را انتخاب کنیم؟

Whisper مدل های مختلف زبان را ارائه می دهد. هرچه مدل بزرگتر باشد، دقت آن بیشتر می‌شود، اما نیازهای سخت‌افزاری آن نیز بیشتر می‌شود. آن ها هستند:

کوچک.
پایه.
کم اهمیت.
متوسط.
بزرگ

بیشتر انگلیسی زبانان بومی باید با مدل های کوچک یا پایه خوب باشند. انگلیسی زبانان غیر بومی ممکن است با مدل های بزرگتر، مانند کوچک و متوسط، نتایج بهتری ببینند.

البته توجه داشته باشید که مدل های متوسط و بزرگ به بیش از 8 گیگابایت VRAM (یعنی «حافظه پردازنده گرافیکی شما») نیاز دارند.

مطلب مرتبط: نحوه فعال و تنظیم Windows Sandbox در ویندوز 11

برای انتخاب یکی از آنها، مدل را بعد از سوئیچ “–model” در دستور مشخص کنید:

whisper --model tiny/small/medium/large [file]

مثلا:

whisper --model small My_Voice_Note.mp3

چگونه رونویسی خود را ساده کنید

مجبور به تایپ کل فرمان Whisper هر بار که می خواهید برخی از صداها را رونویسی کنید می تواند به سرعت خسته کننده شود. بیایید یک فایل دسته ای در دسترس جهانی بسازیم تا فرآیند را ساده کنیم.

Windows Explorer را اجرا کنید و از درایو C: خود بازدید کنید.
یک پوشه برای اسکریپت های خود ایجاد کنید و مسیر آن را در کلیپ بورد کپی کنید.
در منوی استارت ویندوز، عبارت path را جستجو کرده و Edit the system variables environment را انتخاب کنید.
متغیر مسیر را در زیر متغیرهای کاربر برای YOUR_USERNAME پیدا کنید. برای ویرایش روی آن دوبار کلیک کنید. بر روی New کلیک کنید و مسیر را به پوشه اسکریپت خود وارد کنید. برای پذیرش تغییرات بر روی OK کلیک کنید.
به پوشه اسکریپت خود در Windows Explorer بازگردید. یک فایل دسته ای جدید با نام “wht.bat” ایجاد کنید. “در داخل” آن، این دستور را قرار دهید: whisper –model tiny –language en %1
دو فایل دسته ای دیگر، “whs” و “whm” ایجاد کنید.
این را در اولین اسکریپت قرار دهید: whisper –model small –language en %1
این را در دومی قرار دهید: whisper –model medium –language en %1

whisper --model tiny --language en %1

whisper --model small --language en %1

whisper --model medium --language en %1

تبریک می‌گوییم، اکنون سه اسکریپت برای استفاده آسان از مدل‌های کوچک، کوچک و متوسط Whisper با فایل‌های صوتی خود دارید! برای رونویسی هر فایل صوتی به متن:

فایل را با Windows File Explorer پیدا کنید.
روی یک نقطه خالی کلیک راست کرده و Open in Terminal را انتخاب کنید.
این دستور را تایپ کنید و برای استفاده از مدل های زبان کوچک یا متوسط، “wht” را با “whs” یا “whm” جایگزین کنید: wht YOUR_AUDIO_FILE.mp3

wht YOUR_AUDIO_FILE.mp3

تایپ با سرعت صدا با Whisper

حتی سریع‌ترین تایپیست‌های لمسی نیز نمی‌توانند با سرعتی که ما با آن صحبت می‌کنیم، برابری کنند. با این حال، تا همین اواخر، صحبت کردن به جای تایپ کردن برای ایجاد اسناد بهینه نبود.

اکثر راه حل های صوتی به متن نتایج متوسطی را تولید کردند. شما می توانید چند راه حل بیابید که ارزش امتحان کردن را دارند، اما استفاده از آنها پیچیده یا پرهزینه بود. خوشبختانه Whisper همه اینها را تغییر داد.

پس از انجام مراحل بالا، باید فقط با استفاده از یک فرمان آماده رونویسی یا ترجمه صدای خود با دقت بالا باشید.