از قدرت هوش مصنوعی برای تبدیل گفتار خود به متن با Whisper for Windows استفاده کنید.
OpenAI’s Whisper یک راه حل جدید مبتنی بر هوش مصنوعی است که می تواند صدای شما را به متن تبدیل کند. بهترین از همه، با هزینه صفر عرضه می شود.
با این حال، یک نکته وجود دارد: نصب و استفاده از آن از ابزار متوسط ویندوز شما چالش برانگیزتر است. به خصوص اگر می خواهید از هسته های Tensor GPU انویدیا خود برای تقویت خوب آن استفاده کنید.
هر چند ناراحت نباش به همین دلیل است که ما اینجا هستیم! برای اطلاع از نحوه نصب و استفاده از آن به ادامه مطلب مراجعه کنید، اما همچنین، اگر صاحب یکی از آن هستید، Whisper از GPU Nvidia شما استفاده کند.
Whisper OpenAI چیست؟
ChatGPT امروزه بسیار محبوب است و ما قبلاً دیدیم که چگونه می توانید از ChatGPT توسط OpenAI استفاده کنید. و با این حال، این تنها پروژه جالب OpenAI نیست.
Whisper با استفاده از یادگیری عمیق و شبکه های عصبی، یک سیستم پردازش زبان طبیعی است که می تواند گفتار را “درک” و آن را به متن تبدیل کند. اما این نیز چیز خاص خود است، نشستن در نقطه ای درست در میان همه راه حل های مشابه:
- Whisper یک راه حل هوش مصنوعی “آموزش داده شده” با زبان طبیعی است. بنابراین، درک گفتار “عادی” انسان بهتر از راه حل های قدیمی تر است.
- Whisper نه با رابط همراه است و نه می تواند صدا را ضبط کند. فقط می تواند فایل های صوتی موجود را بگیرد و فایل های متنی را خروجی کند.
- از آنجایی که Whisper در “معنی سازی زبان” خوب است، Whisper همچنین دارای ابرقدرت ترجمه خودکار در یک مرحله است.
- Whisper یک سرویس آنلاین نیست و می تواند کاملاً آفلاین کار کند.
- اگر یک GPU نسبتاً مدرن Nvidia (GTX970 یا جدیدتر) دارید، Whisper میتواند در «حالت شتاب سختافزاری» برای افزایش سرعت اجرا شود.
- هیچ الزامی برای ثبت نام، خرید مجوز یا خرید اشتراک وجود ندارد.
چرا پردازنده های گرافیکی AMD پشتیبانی نمی شوند؟
برای اینکه پردازندههای گرافیکی بیشتر از گرافیک مفید باشند، باید بهعنوان پردازندههای کاملاً قابل برنامهریزی عمل کنند. به همین دلیل انویدیا CUDA را ایجاد کرد که به طور رسمی “یک پلتفرم محاسباتی موازی و مدل برنامه نویسی” شناخته می شود. برای کسب اطلاعات بیشتر در مورد CUDA و سخت افزار مربوطه (“CUDA Cores”)، مقاله ما را در مورد هسته های CUDA و چگونگی بهبود بازی های رایانه شخصی بخوانید.
CUDA فناوری اختصاصی انویدیا است که فقط با پردازندههای گرافیکی انویدیا سازگار است. نزدیکترین جایگزین برای سخت افزار AMD OpenCL و Radeon Compute Platform هستند. برای کسب اطلاعات بیشتر در مورد نحوه مقایسه راه حل های هر شرکت، مقاله ما را در مورد واحدهای محاسباتی AMD در مقابل هسته های Nvidia CUDA بررسی کنید.
در مقایسه با جایگزینها، CUDA بالغتر، کارآمدتر و برای استفاده آسانتر در نظر گرفته میشود. بنابراین، اکثر توسعه دهندگان فقط CUDA را هدف قرار می دهند، که به نوبه خود به این معنی است که نرم افزار آنها فقط از ویژگی های سخت افزاری پردازنده های گرافیکی Nvidia بهره می برد. و این شامل Whisper نیز می شود.
نحوه دانلود و نصب Whisper
متأسفانه Whisper یک برنامه مستقل نیست که بتوانید آن را دانلود، نصب و اجرا کنید. متکی به نرم افزارهای دیگری است که باید نصب شوند.
برای ویندوز، برای ساده نگه داشتن این راهنما، از Chocolatey به طور گسترده برای نصب بیشتر بخش های نرم افزاری ضروری استفاده می کنیم. برای اطلاعات بیشتر در مورد Chocolatey، راهنمای ما در مورد سریعترین راه برای نصب نرم افزار ویندوز را بررسی کنید.
برای لینوکس و مک، فرآیند نصب (به استثنای متغیر مسیر ویندوز و فایلهای دستهای با استفاده آسان که ایجاد خواهیم کرد) باید مشابه باشد.
- برای نصب و استفاده از Whisper باید پایتون و ابزار PIP آن را نصب کرده و به متغیر «مسیر» ویندوز اضافه کنید. برای اطلاعات در مورد آن، مقاله ما را در مورد نحوه نصب Python PIP در ویندوز، مک و لینوکس بررسی کنید.
- FFMPEG را از طریق Chocolatey با این دستور نصب کنید: choco install ffmpeg همچنین نسخه پایتون آن را با: pip3 install python-ffmpeg نصب کنید
- در نهایت، Whisper را از صفحه Github خود نصب کنید: pip3 install git+https://github.com/openai/whisper.git
choco install ffmpeg
pip3 install python-ffmpeg
pip3 install git+https://github.com/openai/whisper.git
دریافت نسخه CUDA فعال Whisper
اگرچه Whisper از پردازندههای گرافیکی Nvidia استفاده نمیکند، بسته مشعل که به آن تکیه میکند نسخهای با شتاب CUDA ارائه میدهد. استفاده از این بهجای نسخه «ساده» میتواند به Whisper کمک کند رونویسیهای خود را بسیار سریعتر با کمک GPU Nvidia شما تکمیل کند.
برای داشتن Whisper از هسته های CUDA پردازنده گرافیکی Nvidia خود استفاده کنید:
- اگر قبلاً نسخه «وانیلی» مشعل را نصب کردهاید، با استفاده از: pip3 uninstall torch، آن را حذف نصب و پاکسازی کنید.
- نسخه CUDA مشعل را نصب کنید: pip3 install torch torchvision torchaudio –extra-index-url https://download.pytorch.org/whl/cu117
- برای بررسی اینکه آیا Whisper میتواند از GPU Nvidia شما استفاده کند، از: whisper –help | استفاده کنید findstr -i pytorch باید به جای (پیشفرض: cpu) (پیشفرض: cuda) را ببینید.
pip3 uninstall torch
pip cache purge
pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
whisper --help | findstr -i pytorch
اگر مشعل نصب نشد چه باید کرد؟
اگر هنگام نصب مشعل با خطای «نسخه یافت نشد» مواجه شدید، ممکن است لازم باشد نسخه قدیمی پایتون را موازی با نسخه فعلی خود نصب کنید.
برای این کار از این دستور استفاده کنید:
choco install python --version OLDER_VERSION --side-by-side
“OLDER_VERSION” را با نسخه ای مانند 3.10 جایگزین کنید.
سپس، از مسیر نسخه ثانویه برای همه دستورات Whisper “عمومی” استفاده کنید (به عنوان مثال، “c:\Python310\Scripts\pip.exe” به جای “pip”).
چگونه صدای خود را ضبط کنیم
می توانید از هر برنامه ضبط صدا برای تبدیل صدای خود به فایل WAV یا MP3 استفاده کنید. ویندوز شامل چنین برنامهای است—برای اطلاعات بیشتر در مورد آن، نحوه استفاده از برنامه ضبط صدا ویندوز 10 را ببینید.
برای گزینههای کاملتر، Audacity را امتحان کنید. نحوه انجام این کار را با راهنمای ما در مورد نحوه استفاده از Audacity برای ضبط صدا در ویندوز و مک بیاموزید.
چگونه با Whisper رونویسی را شروع کنیم
اگرچه Whisper دارای رابط کاربری گرافیکی کاربرپسند نیست، اما استفاده از آن بسیار ساده است.
فرض کنید فایل LatestNote.mp3 را داریم که حاوی گفتار به زبان یونانی است، در پوشه c:\MyAudioFiles، و میخواهیم آن را به انگلیسی ترجمه کرده و به یک فایل متنی رونویسی کنیم.
- ما با اجرای Command Prompt یا PowerShell شروع می کنیم.
- ما دایرکتوری را تغییر می دهیم که فایل صوتی در آن ذخیره می شود با این دستور: cd C:\MyAudioFiles
- Whisper را روی فایل با استفاده از: whisper –model base –language gr –task translate LatestNote.mp3 آزاد می کنیم
cd C:\MyAudioFiles
whisper --model base --language gr --task translate LatestNote.mp3
پس از پردازش، فایل متنی (با نام “LatestNote.mp3.txt”) در همان پوشه ظاهر می شود. برای مشاهده متن ترجمه شده، آن را در یک ویرایشگر متن مانند Notepad باز کنید.
ما از یک مثال ترجمه استفاده کردیم زیرا رونویسی انگلیسی حتی ساده تر است: شما فقط باید پرچم های “–language” و “-task” را “از دست بدهید”. بنابراین، برای رونویسی ساده، دستور بالا به صورت زیر خواهد بود:
whisper --model base LatestNote.mp3
پرچم “مدل” مورد نیاز است زیرا Whisper از یکی از گزینه های مختلف استفاده می کند. بیایید آنها را گسترش دهیم تا به شما در انتخاب بهترین ها برای نیازهایتان کمک کنیم.
کدام مدل را انتخاب کنیم؟
Whisper مدل های مختلف زبان را ارائه می دهد. هرچه مدل بزرگتر باشد، دقت آن بیشتر میشود، اما نیازهای سختافزاری آن نیز بیشتر میشود. آن ها هستند:
- کوچک.
- پایه.
- کم اهمیت.
- متوسط.
- بزرگ
بیشتر انگلیسی زبانان بومی باید با مدل های کوچک یا پایه خوب باشند. انگلیسی زبانان غیر بومی ممکن است با مدل های بزرگتر، مانند کوچک و متوسط، نتایج بهتری ببینند.
البته توجه داشته باشید که مدل های متوسط و بزرگ به بیش از 8 گیگابایت VRAM (یعنی «حافظه پردازنده گرافیکی شما») نیاز دارند.
برای انتخاب یکی از آنها، مدل را بعد از سوئیچ “–model” در دستور مشخص کنید:
whisper --model tiny/small/medium/large [file]
مثلا:
whisper --model small My_Voice_Note.mp3
چگونه رونویسی خود را ساده کنید
مجبور به تایپ کل فرمان Whisper هر بار که می خواهید برخی از صداها را رونویسی کنید می تواند به سرعت خسته کننده شود. بیایید یک فایل دسته ای در دسترس جهانی بسازیم تا فرآیند را ساده کنیم.
- Windows Explorer را اجرا کنید و از درایو C: خود بازدید کنید.
- یک پوشه برای اسکریپت های خود ایجاد کنید و مسیر آن را در کلیپ بورد کپی کنید.
- در منوی استارت ویندوز، عبارت path را جستجو کرده و Edit the system variables environment را انتخاب کنید.
- متغیر مسیر را در زیر متغیرهای کاربر برای YOUR_USERNAME پیدا کنید. برای ویرایش روی آن دوبار کلیک کنید. بر روی New کلیک کنید و مسیر را به پوشه اسکریپت خود وارد کنید. برای پذیرش تغییرات بر روی OK کلیک کنید.
- به پوشه اسکریپت خود در Windows Explorer بازگردید. یک فایل دسته ای جدید با نام “wht.bat” ایجاد کنید. “در داخل” آن، این دستور را قرار دهید: whisper –model tiny –language en %1
- دو فایل دسته ای دیگر، “whs” و “whm” ایجاد کنید.
- این را در اولین اسکریپت قرار دهید: whisper –model small –language en %1
- این را در دومی قرار دهید: whisper –model medium –language en %1
whisper --model tiny --language en %1
whisper --model small --language en %1
whisper --model medium --language en %1
تبریک میگوییم، اکنون سه اسکریپت برای استفاده آسان از مدلهای کوچک، کوچک و متوسط Whisper با فایلهای صوتی خود دارید! برای رونویسی هر فایل صوتی به متن:
- فایل را با Windows File Explorer پیدا کنید.
- روی یک نقطه خالی کلیک راست کرده و Open in Terminal را انتخاب کنید.
- این دستور را تایپ کنید و برای استفاده از مدل های زبان کوچک یا متوسط، “wht” را با “whs” یا “whm” جایگزین کنید: wht YOUR_AUDIO_FILE.mp3
wht YOUR_AUDIO_FILE.mp3
تایپ با سرعت صدا با Whisper
حتی سریعترین تایپیستهای لمسی نیز نمیتوانند با سرعتی که ما با آن صحبت میکنیم، برابری کنند. با این حال، تا همین اواخر، صحبت کردن به جای تایپ کردن برای ایجاد اسناد بهینه نبود.
اکثر راه حل های صوتی به متن نتایج متوسطی را تولید کردند. شما می توانید چند راه حل بیابید که ارزش امتحان کردن را دارند، اما استفاده از آنها پیچیده یا پرهزینه بود. خوشبختانه Whisper همه اینها را تغییر داد.
پس از انجام مراحل بالا، باید فقط با استفاده از یک فرمان آماده رونویسی یا ترجمه صدای خود با دقت بالا باشید.