سازندگان ChatGPT ابزار دیگری دارند که هدف آن از بین بردن بار انگشتان شماست.
همان افراد پشت ChatGPT ابزار دیگری مبتنی بر هوش مصنوعی ایجاد کرده اند که می توانید امروز از آن برای افزایش بهره وری خود استفاده کنید. ما به Whisper اشاره می کنیم، یک راه حل صوتی به متن که تمام راه حل های مشابهی را که قبل از آن ارائه شده بود را تحت الشعاع قرار داد.
می توانید از Whisper در برنامه های خود یا خط فرمان استفاده کنید. و با این حال، این هدف اصلی خود را شکست می دهد: تایپ بدون صفحه کلید. اگر برای استفاده از آن نیاز به تایپ دارید، چرا برای جلوگیری از تایپ از آن استفاده کنید؟ خوشبختانه، اکنون می توانید از Whisper از طریق رابط کاربری گرافیکی دسکتاپ استفاده کنید. حتی بهتر از آن، میتواند صدای شما را تقریباً در زمان واقعی رونویسی کند. بیایید ببینیم چگونه می توانید با استفاده از Whisper Desktop با صدای خود تایپ کنید.
Whisper OpenAI چیست؟
OpenAI’s Whisper یک سیستم تشخیص خودکار گفتار (به اختصار ASR) یا به بیان ساده راه حلی برای تبدیل زبان گفتاری به متن است.
با این حال، برخلاف سیستمهای دیکته و رونویسی قدیمی، Whisper یک راهحل هوش مصنوعی است که بر روی بیش از 680000 ساعت گفتار به زبانهای مختلف آموزش داده شده است. Whisper دقت بینظیری را ارائه میکند و به طرز چشمگیری، نه تنها چند زبانه است، بلکه میتواند بین زبانها نیز ترجمه کند.
مهمتر از آن، رایگان است و به عنوان منبع باز در دسترس است. به لطف آن، بسیاری از توسعهدهندگان کد آن را در پروژههای خود تقسیم کردهاند یا برنامههایی مانند Whisper Desktop ایجاد کردهاند که به آن متکی هستند.
اگر نسخه “وانیلی” Whisper و تطبیق پذیری ترمینال را به جای رابط های کاربری گرافیکی نامطلوب ترجیح می دهید، مقاله ما را در مورد چگونگی تبدیل صدای خود به متن با Whisper برای ویندوز OpenAI بررسی کنید.
آیا Whisper و Whisper Desktop یکی هستند؟
Whisper Desktop علیرغم نام رسمیاش، یک رابط کاربری گرافیکی شخص ثالث برای Whisper است که برای همه کسانی که ترجیح میدهند به جای تایپ دستورات روی دکمهها کلیک کنند، ساخته شده است.
Whisper Desktop یک راه حل مستقل است که به نصب Whisper موجود متکی نیست. به عنوان یک امتیاز، از نسخه جایگزین و بهینه سازی شده Whisper استفاده می کند، بنابراین باید عملکرد بهتری نسبت به نسخه مستقل داشته باشد.
شما در آن سوی طیف قرار دارید، و به جای اینکه به دنبال راهی ساده تر برای استفاده از Whisper نسبت به ترمینال باشید، به دنبال راه هایی برای پیاده سازی آن در راه حل های خود هستید؟ خوشحال باشید، زیرا OpenAI دسترسی به ChatGPT و Whisper API را باز کرده است.
Whisper Desktop را دانلود و نصب کنید
اگرچه استفاده از Whisper Desktop راحتتر از Whisper مستقل است، اما نصب آن پیچیدهتر از کلیک مکرر روی Next در یک جادوگر است.
- از صفحه رسمی Github Whisper Desktop دیدن کنید. به سمت راست نگاه کنید و بر روی آخرین نسخه در قسمت Releases کلیک کنید.
- در قسمت Assets، روی WhisperDesktop.zip کلیک کنید و آن را در رایانه شخصی خود دانلود کنید.
- آرشیو دانلود شده را در یک پوشه استخراج کنید و از مدیر فایل خود برای بازدید از آن استفاده کنید. در داخل برنامه Whisper Desktop را خواهید دید. برای اجرا روی آن دوبار کلیک کنید.
- شما همچنین به یک مدل زبان Whisper در فرمت باینری GCML نیاز دارید. Whisper Desktop دو لینک برای به دست آوردن یکی در اختیار شما قرار می دهد. از لینک دوم برای تولید مدل خود صرف نظر کنید زیرا این فرآیند پیچیدهتر است. روی Hugging Face کلیک کنید تا آن صفحه در مرورگر پیش فرض خود باز شود و از آنجا می توانید یک فایل آماده را دانلود کنید.
- نسخه Whisper Desktop که در حین نوشتن این مقاله استفاده کردیم، پیوندی به یک مخزن منسوخ در Hugging Face ارائه کرد. اگر با همین مشکل مواجه شدید، به پیوندی به مکان جدید توجه کنید. برای بازدید از مخزن جدید روی آن کلیک کنید.
- روی لینکی که شما را به مدل های موجود می برد کلیک کنید.
- از آن لیست، بسته به اینکه در Whisper پشتیبانی چند زبانه یا فقط انگلیسی میخواهید، روی ggml-medium.bin یا ggml-medium.en.bin کلیک کنید.
- بالاخره باید به مقصد می رسیدی. به خطی توجه کنید که این فایل با Git LFS ذخیره شده است و برای نمایش خیلی بزرگ است، اما همچنان می توانید آن را دانلود کنید. برای انجام دقیقاً روی دانلود کلیک کنید.
- هنگامی که دانلود فایل کامل شد، از مدیر فایل مورد علاقه خود استفاده کنید (File Explorer این کار را انجام می دهد) تا فایل مدل زبان دانلود شده را به همان پوشه Whisper Desktop منتقل کنید.
رونویسی با Whisper Desktop
رونویسی با Whisper Desktop آسان است، اما همچنان ممکن است برای استفاده از برنامه به یک یا دو کلیک نیاز داشته باشید.
Whisper Desktop را دوباره اجرا کنید. آیا (هنوز) مسیر صحیح مدل زبان دانلود شده شما را از دست می دهد؟ روی دکمه سه نقطه سمت راست فیلد کلیک کنید و فایلی را که از Hugging Face دانلود کرده اید به صورت دستی انتخاب کنید.
از این نقطه، میتوانید از منوی کشویی کنار پیادهسازی مدل استفاده کنید تا انتخاب کنید که آیا میخواهید Whisper را روی GPU (GPU)، هم در CPU و هم GPU (Hybrid) یا فقط روی CPU (مرجع) اجرا کنید. .
دکمه Advanced به گزینه های بیشتری منجر می شود که بر نحوه اجرای Whisper بر روی سخت افزار شما تأثیر می گذارد. با این حال، از آنجایی که دکمه به وضوح بیان می کند که آنها پیشرفته هستند، پیشنهاد می کنیم فقط در صورتی که در حال عیب یابی هستید یا می دانید چه کاری انجام می دهید، آنها را تغییر دهید. تنظیم مقادیر اشتباه گزینه ها در اینجا می تواند جریمه عملکردی را اعمال کند یا برنامه را غیرقابل استفاده کند.
روی OK کلیک کنید تا به رابط اصلی برنامه بروید.
اگر از قبل صدای ضبط شده ای دارید که می خواهید به متن نوشته شده تبدیل شود، روی Transcribe File کلیک کنید و آن را انتخاب کنید. با این حال، ما از Whisper Desktop برای رونویسی زنده برای این مقاله استفاده خواهیم کرد.
گزینه های ارائه شده ساده هستند. میتوانید زبانی را که Whisper استفاده میکند انتخاب کنید، انتخاب کنید که آیا میخواهید بین زبانها ترجمه کنید و کنسول Debug برنامه را فعال کنید.
اکثر کاربران انگلیسی زبان میتوانند با خیال راحت از آن گزینهها رد شوند و فقط مطمئن شوند که ورودی صوتی صحیح از منوی کشویی کنار Capture Device انتخاب شده است.
مطمئن شوید ذخیره در فایل متنی و افزودن به آن فایل فعال هستند تا Whisper Desktop خروجی خود را بدون بازنویسی محتوای آن در یک فایل ذخیره کند. از دکمه سه نقطه در سمت راست قسمت مسیر فایل برای تعریف فایل متنی مذکور استفاده کنید.
برای شروع رونویسی گفتار خود به متن، روی Capture کلیک کنید.
Whisper Desktop سه نشانگر را برای تشخیص فعالیت صوتی، زمانی که به طور فعال رونویسی می کند و زمانی که فرآیند متوقف شده است به شما نشان می دهد.
میتوانید تا زمانی که دوست دارید به صحبت کردن ادامه دهید، و باید هر از گاهی دو نشانگر اول را در حالی که برنامه صدای شما را به متن تبدیل میکند، چشمک میزند. پس از اتمام روی Stop کلیک کنید.
فایل متنی که انتخاب کردهاید باید در ویرایشگر متن پیشفرض شما باز شود و همه چیزهایی را که گفتهاید تا زمانی که روی Stop کلیک نکردهاید، به صورت مکتوب در بر داشته باشد.
باید توجه داشته باشیم که میتوانید برعکس آنچه در اینجا دیدیم نیز انجام دهید: هر متنی را به گفتار تبدیل کنید. به این ترتیب شما می توانید به جای اینکه چشمان خود را از خم شدن در صفحه نمایش خسته کنید، به هر چیزی که انگار یک پادکست است گوش دهید. برای اطلاعات بیشتر در مورد آن، مقاله ما را در مورد برخی از بهترین ابزارهای آنلاین رایگان برای دانلود تبدیل متن به گفتار به عنوان صدای MP3 بررسی کنید.
نکات تایپ صوتی Whisper Desktop
اگرچه Whisper Desktop میتواند نجاتدهنده باشد، و به شما امکان میدهد با صدای خود بسیار سریعتر از آنچه میتوانید تایپ کنید بنویسید، اما بسیار عالی است.
در طول آزمایش، متوجه شدیم که ممکن است گهگاه دچار لکنت شود، از برخی کلمات بگذرد، تا زمانی که فرآیند را به صورت دستی متوقف و مجدداً راه اندازی نکنید، رونویسی نکند، یا در یک حلقه گیر کرده و به بازنویسی مجدد همان عبارت ادامه دهید.
ما معتقدیم که این اشکالات موقتی هستند که رفع خواهند شد زیرا Whisper مستقل همان مشکلات را نشان نمی دهد.
جدا از آن ضربه های جزئی، تبدیل صدای خود به متن باید با Whisper Desktop بدون دردسر باشد. با این حال، در طول آزمایشات خود متوجه شدیم که می تواند حتی بهتر عمل کند اگر…
- به جای بیان تنها دو یا سه کلمه و سپس مکث، Whisper می تواند شما را بهتر درک کند اگر بیشتر ادامه دهید. سعی کنید حداقل یک جمله را در یک زمان به آن بگویید.
- به همین دلیل، از شروع و توقف مکرر فرآیند رونویسی خودداری کنید.
- هر زمان متوجه شدید که اشتباه کرده اید، آن را نادیده بگیرید و ادامه دهید. به نظر می رسد بارگیری و تخلیه مدل زبان زمان برترین بخش فرآیند با وضعیت فعلی Whisper و سخت افزار موجود ما باشد. بنابراین، سریعتر به صحبت کردن ادامه دهید و سپس اشتباهات خود را ویرایش کنید.
- همانند نسخه مستقل Whisper، بهتر است از مدل زبان بهینه برای سخت افزار موجود خود استفاده کنید. اگر پردازنده گرافیکی شما 8 گیگابایت VRAM داشته باشد، می توانید از مدل متوسط استفاده کنید. برای VRAM کمتر، به سراغ مدل های کوچکتر بروید. اگر از یک GPU با 16 گیگابایت VRAM یا بیشتر استفاده میکنید، فقط مدل بزرگ کمی دقیقتر و همچنین بسیار سختتر را انتخاب کنید.
- به یاد داشته باشید که هر چه مدل زبان بزرگتر باشد، روند رونویسی کندتر است. به سراغ مدلی بزرگتر از حد نیاز نروید. احتمالاً متوجه خواهید شد که Whisper Desktop میتواند در اکثر مواقع با مدلهای متوسط یا کوچکتر، با تنها یک یا دو خطا در هر پاراگراف، شما را «درک» کند.
هنوز در حال تایپ هستید؟ از صدای خود با Whisper استفاده کنید
علیرغم نیاز به زمان زیادی برای راه اندازی، همانطور که هنگام امتحان خواهید دید، Whisper Desktop بسیار بهتر از بسیاری از گزینه های جایگزین، با دقت بسیار بالاتر و سرعت بهتر عمل می کند.
بعد از اینکه شروع به استفاده از آن برای تایپ با صدای خود کردید، صفحه کلید شما ممکن است مانند یادگاری از دوران باستان به نظر برسد.