چگونه با Whisper Desktop صدای خود را در زمان واقعی به متن تبدیل کنید

سازندگان ChatGPT ابزار دیگری دارند که هدف آن از بین بردن بار انگشتان شماست.

همان افراد پشت ChatGPT ابزار دیگری مبتنی بر هوش مصنوعی ایجاد کرده اند که می توانید امروز از آن برای افزایش بهره وری خود استفاده کنید. ما به Whisper اشاره می کنیم، یک راه حل صوتی به متن که تمام راه حل های مشابهی را که قبل از آن ارائه شده بود را تحت الشعاع قرار داد.

می توانید از Whisper در برنامه های خود یا خط فرمان استفاده کنید. و با این حال، این هدف اصلی خود را شکست می دهد: تایپ بدون صفحه کلید. اگر برای استفاده از آن نیاز به تایپ دارید، چرا برای جلوگیری از تایپ از آن استفاده کنید؟ خوشبختانه، اکنون می توانید از Whisper از طریق رابط کاربری گرافیکی دسکتاپ استفاده کنید. حتی بهتر از آن، می‌تواند صدای شما را تقریباً در زمان واقعی رونویسی کند. بیایید ببینیم چگونه می توانید با استفاده از Whisper Desktop با صدای خود تایپ کنید.

Whisper OpenAI چیست؟

OpenAI’s Whisper یک سیستم تشخیص خودکار گفتار (به اختصار ASR) یا به بیان ساده راه حلی برای تبدیل زبان گفتاری به متن است.

با این حال، برخلاف سیستم‌های دیکته و رونویسی قدیمی، Whisper یک راه‌حل هوش مصنوعی است که بر روی بیش از 680000 ساعت گفتار به زبان‌های مختلف آموزش داده شده است. Whisper دقت بی‌نظیری را ارائه می‌کند و به طرز چشمگیری، نه تنها چند زبانه است، بلکه می‌تواند بین زبان‌ها نیز ترجمه کند.

مهمتر از آن، رایگان است و به عنوان منبع باز در دسترس است. به لطف آن، بسیاری از توسعه‌دهندگان کد آن را در پروژه‌های خود تقسیم کرده‌اند یا برنامه‌هایی مانند Whisper Desktop ایجاد کرده‌اند که به آن متکی هستند.

اگر نسخه “وانیلی” Whisper و تطبیق پذیری ترمینال را به جای رابط های کاربری گرافیکی نامطلوب ترجیح می دهید، مقاله ما را در مورد چگونگی تبدیل صدای خود به متن با Whisper برای ویندوز OpenAI بررسی کنید.

آیا Whisper و Whisper Desktop یکی هستند؟

Whisper Desktop علیرغم نام رسمی‌اش، یک رابط کاربری گرافیکی شخص ثالث برای Whisper است که برای همه کسانی که ترجیح می‌دهند به جای تایپ دستورات روی دکمه‌ها کلیک کنند، ساخته شده است.

Whisper Desktop یک راه حل مستقل است که به نصب Whisper موجود متکی نیست. به عنوان یک امتیاز، از نسخه جایگزین و بهینه سازی شده Whisper استفاده می کند، بنابراین باید عملکرد بهتری نسبت به نسخه مستقل داشته باشد.

شما در آن سوی طیف قرار دارید، و به جای اینکه به دنبال راهی ساده تر برای استفاده از Whisper نسبت به ترمینال باشید، به دنبال راه هایی برای پیاده سازی آن در راه حل های خود هستید؟ خوشحال باشید، زیرا OpenAI دسترسی به ChatGPT و Whisper API را باز کرده است.

مطلب مرتبط: نحوه تغییر نوع NAT در ویندوز 11/10

Whisper Desktop را دانلود و نصب کنید

اگرچه استفاده از Whisper Desktop راحت‌تر از Whisper مستقل است، اما نصب آن پیچیده‌تر از کلیک مکرر روی Next در یک جادوگر است.

از صفحه رسمی Github Whisper Desktop دیدن کنید. به سمت راست نگاه کنید و بر روی آخرین نسخه در قسمت Releases کلیک کنید.
در قسمت Assets، روی WhisperDesktop.zip کلیک کنید و آن را در رایانه شخصی خود دانلود کنید.
آرشیو دانلود شده را در یک پوشه استخراج کنید و از مدیر فایل خود برای بازدید از آن استفاده کنید. در داخل برنامه Whisper Desktop را خواهید دید. برای اجرا روی آن دوبار کلیک کنید.
شما همچنین به یک مدل زبان Whisper در فرمت باینری GCML نیاز دارید. Whisper Desktop دو لینک برای به دست آوردن یکی در اختیار شما قرار می دهد. از لینک دوم برای تولید مدل خود صرف نظر کنید زیرا این فرآیند پیچیده‌تر است. روی Hugging Face کلیک کنید تا آن صفحه در مرورگر پیش فرض خود باز شود و از آنجا می توانید یک فایل آماده را دانلود کنید.
نسخه Whisper Desktop که در حین نوشتن این مقاله استفاده کردیم، پیوندی به یک مخزن منسوخ در Hugging Face ارائه کرد. اگر با همین مشکل مواجه شدید، به پیوندی به مکان جدید توجه کنید. برای بازدید از مخزن جدید روی آن کلیک کنید.
روی لینکی که شما را به مدل های موجود می برد کلیک کنید.
از آن لیست، بسته به اینکه در Whisper پشتیبانی چند زبانه یا فقط انگلیسی می‌خواهید، روی ggml-medium.bin یا ggml-medium.en.bin کلیک کنید.
بالاخره باید به مقصد می رسیدی. به خطی توجه کنید که این فایل با Git LFS ذخیره شده است و برای نمایش خیلی بزرگ است، اما همچنان می توانید آن را دانلود کنید. برای انجام دقیقاً روی دانلود کلیک کنید.
هنگامی که دانلود فایل کامل شد، از مدیر فایل مورد علاقه خود استفاده کنید (File Explorer این کار را انجام می دهد) تا فایل مدل زبان دانلود شده را به همان پوشه Whisper Desktop منتقل کنید.

رونویسی با Whisper Desktop

رونویسی با Whisper Desktop آسان است، اما همچنان ممکن است برای استفاده از برنامه به یک یا دو کلیک نیاز داشته باشید.

Whisper Desktop را دوباره اجرا کنید. آیا (هنوز) مسیر صحیح مدل زبان دانلود شده شما را از دست می دهد؟ روی دکمه سه نقطه سمت راست فیلد کلیک کنید و فایلی را که از Hugging Face دانلود کرده اید به صورت دستی انتخاب کنید.

از این نقطه، می‌توانید از منوی کشویی کنار پیاده‌سازی مدل استفاده کنید تا انتخاب کنید که آیا می‌خواهید Whisper را روی GPU (GPU)، هم در CPU و هم GPU (Hybrid) یا فقط روی CPU (مرجع) اجرا کنید. .

مطلب مرتبط: نحوه رفع خطای "ویندوز نمی تواند به این شبکه متصل شود" در ویندوز 11

دکمه Advanced به گزینه های بیشتری منجر می شود که بر نحوه اجرای Whisper بر روی سخت افزار شما تأثیر می گذارد. با این حال، از آنجایی که دکمه به وضوح بیان می کند که آنها پیشرفته هستند، پیشنهاد می کنیم فقط در صورتی که در حال عیب یابی هستید یا می دانید چه کاری انجام می دهید، آنها را تغییر دهید. تنظیم مقادیر اشتباه گزینه ها در اینجا می تواند جریمه عملکردی را اعمال کند یا برنامه را غیرقابل استفاده کند.

روی OK کلیک کنید تا به رابط اصلی برنامه بروید.

اگر از قبل صدای ضبط شده ای دارید که می خواهید به متن نوشته شده تبدیل شود، روی Transcribe File کلیک کنید و آن را انتخاب کنید. با این حال، ما از Whisper Desktop برای رونویسی زنده برای این مقاله استفاده خواهیم کرد.

گزینه های ارائه شده ساده هستند. می‌توانید زبانی را که Whisper استفاده می‌کند انتخاب کنید، انتخاب کنید که آیا می‌خواهید بین زبان‌ها ترجمه کنید و کنسول Debug برنامه را فعال کنید.

اکثر کاربران انگلیسی زبان می‌توانند با خیال راحت از آن گزینه‌ها رد شوند و فقط مطمئن شوند که ورودی صوتی صحیح از منوی کشویی کنار Capture Device انتخاب شده است.

مطمئن شوید ذخیره در فایل متنی و افزودن به آن فایل فعال هستند تا Whisper Desktop خروجی خود را بدون بازنویسی محتوای آن در یک فایل ذخیره کند. از دکمه سه نقطه در سمت راست قسمت مسیر فایل برای تعریف فایل متنی مذکور استفاده کنید.

برای شروع رونویسی گفتار خود به متن، روی Capture کلیک کنید.

Whisper Desktop سه نشانگر را برای تشخیص فعالیت صوتی، زمانی که به طور فعال رونویسی می کند و زمانی که فرآیند متوقف شده است به شما نشان می دهد.

می‌توانید تا زمانی که دوست دارید به صحبت کردن ادامه دهید، و باید هر از گاهی دو نشانگر اول را در حالی که برنامه صدای شما را به متن تبدیل می‌کند، چشمک می‌زند. پس از اتمام روی Stop کلیک کنید.

فایل متنی که انتخاب کرده‌اید باید در ویرایشگر متن پیش‌فرض شما باز شود و همه چیزهایی را که گفته‌اید تا زمانی که روی Stop کلیک نکرده‌اید، به صورت مکتوب در بر داشته باشد.

باید توجه داشته باشیم که می‌توانید برعکس آنچه در اینجا دیدیم نیز انجام دهید: هر متنی را به گفتار تبدیل کنید. به این ترتیب شما می توانید به جای اینکه چشمان خود را از خم شدن در صفحه نمایش خسته کنید، به هر چیزی که انگار یک پادکست است گوش دهید. برای اطلاعات بیشتر در مورد آن، مقاله ما را در مورد برخی از بهترین ابزارهای آنلاین رایگان برای دانلود تبدیل متن به گفتار به عنوان صدای MP3 بررسی کنید.

مطلب مرتبط: نحوه رفع کد خطای GeForce Now 0x0000F004 در ویندوز

نکات تایپ صوتی Whisper Desktop

اگرچه Whisper Desktop می‌تواند نجات‌دهنده باشد، و به شما امکان می‌دهد با صدای خود بسیار سریع‌تر از آنچه می‌توانید تایپ کنید بنویسید، اما بسیار عالی است.

در طول آزمایش، متوجه شدیم که ممکن است گهگاه دچار لکنت شود، از برخی کلمات بگذرد، تا زمانی که فرآیند را به صورت دستی متوقف و مجدداً راه اندازی نکنید، رونویسی نکند، یا در یک حلقه گیر کرده و به بازنویسی مجدد همان عبارت ادامه دهید.

ما معتقدیم که این اشکالات موقتی هستند که رفع خواهند شد زیرا Whisper مستقل همان مشکلات را نشان نمی دهد.

جدا از آن ضربه های جزئی، تبدیل صدای خود به متن باید با Whisper Desktop بدون دردسر باشد. با این حال، در طول آزمایشات خود متوجه شدیم که می تواند حتی بهتر عمل کند اگر…

به جای بیان تنها دو یا سه کلمه و سپس مکث، Whisper می تواند شما را بهتر درک کند اگر بیشتر ادامه دهید. سعی کنید حداقل یک جمله را در یک زمان به آن بگویید.
به همین دلیل، از شروع و توقف مکرر فرآیند رونویسی خودداری کنید.
هر زمان متوجه شدید که اشتباه کرده اید، آن را نادیده بگیرید و ادامه دهید. به نظر می رسد بارگیری و تخلیه مدل زبان زمان برترین بخش فرآیند با وضعیت فعلی Whisper و سخت افزار موجود ما باشد. بنابراین، سریعتر به صحبت کردن ادامه دهید و سپس اشتباهات خود را ویرایش کنید.
همانند نسخه مستقل Whisper، بهتر است از مدل زبان بهینه برای سخت افزار موجود خود استفاده کنید. اگر پردازنده گرافیکی شما 8 گیگابایت VRAM داشته باشد، می توانید از مدل متوسط استفاده کنید. برای VRAM کمتر، به سراغ مدل های کوچکتر بروید. اگر از یک GPU با 16 گیگابایت VRAM یا بیشتر استفاده می‌کنید، فقط مدل بزرگ کمی دقیق‌تر و همچنین بسیار سخت‌تر را انتخاب کنید.
به یاد داشته باشید که هر چه مدل زبان بزرگتر باشد، روند رونویسی کندتر است. به سراغ مدلی بزرگتر از حد نیاز نروید. احتمالاً متوجه خواهید شد که Whisper Desktop می‌تواند در اکثر مواقع با مدل‌های متوسط یا کوچک‌تر، با تنها یک یا دو خطا در هر پاراگراف، شما را «درک» کند.

هنوز در حال تایپ هستید؟ از صدای خود با Whisper استفاده کنید

علیرغم نیاز به زمان زیادی برای راه اندازی، همانطور که هنگام امتحان خواهید دید، Whisper Desktop بسیار بهتر از بسیاری از گزینه های جایگزین، با دقت بسیار بالاتر و سرعت بهتر عمل می کند.

بعد از اینکه شروع به استفاده از آن برای تایپ با صدای خود کردید، صفحه کلید شما ممکن است مانند یادگاری از دوران باستان به نظر برسد.