با نرم افزار هوش مصنوعی گفتاری ElevenLabs، صدایی بسازید که هر چیزی را که می خواهید بگوید، بدون اینکه شبیه ربات باشد.
هوش مصنوعی مولد و دیپ فیک با توسعه ابزارهای صوتی هوش مصنوعی برخورد کرده اند. ایده ساده است: شما یک صدا را می گیرید و آن را دستکاری می کنید تا کلماتی را که به آن می دهید بیان کنید.
پیشرو در این زمینه ElevenLabs است که یک ابزار صوتی هوش مصنوعی رایگان را ارائه می دهد.
Eleven Labs چیست؟
ElevenLabs یک شرکت تحقیقاتی فناوری صوتی است که توسط یک مهندس سابق یادگیری ماشین گوگل و یک استراتژیست سابق استقرار Palintir تأسیس شده است. نرمافزار گفتار هوش مصنوعی عنصر کلیدی استراتژی آن است، اما هدف نهایی ایجاد ابزاری است که «فوراً صدای گفتاری را بین زبانها تبدیل میکند».
ElevenLabs مدل های جدید تبدیل متن به گفتار را توسعه داده است که می تواند صدای انسان با صدایی واقع گرایانه ایجاد کند. در وبسایت آن آمده است: «مأموریت ما این است که پشتیبانی صوتی چندزبانه درخواستی را در آموزش، پخش جریانی، کتابهای صوتی، بازی، فیلم و حتی مکالمه بیدرنگ به واقعیت تبدیل کنیم.»
Google Translate و جایگزین های آن یک چیز هستند، اما آیا می توانید ابزاری را تصور کنید که فوراً آنچه را می شنوید ترجمه کند؟ شبیه سازی صدای گوینده به طوری که شما سخنرانی را همانطور که آنها می گویند بشنوید، این یک پله مهم برای آن است.
نسل صدای هوش مصنوعی چیست؟
با توضیح ساده، تولید صدای هوش مصنوعی به شما این امکان را می دهد که صدایی بگیرید و کاری کنید که هر چه می خواهید بشنوید، بگوید. به سادگی یک صدا را انتخاب کنید، دیالوگ ارائه دهید، و ابزار بقیه کارها را انجام می دهد.
ممکن است فکر کنید “خوب، مایکروسافت سام در دهه 1990 این کار را انجام می داد” و کاملاً درست می گویید. اما مایکروسافت سام و ابزارهای مشابه شبیه روباتها بودند. در همین حال، ابزار ElevenLabs بسیار نزدیک به انسان به نظر می رسد.
ElevenLabs سه گزینه AI ارائه می دهد: صداهای کاملاً رایگان “از پیش ساخته”، تولید کننده صدا (به شما امکان می دهد جنسیت، سن و لهجه را انتخاب کنید) و صداهای “کلون شده” فقط با اشتراک که می توانید آپلود کنید.
در اینجا یک مثال است:
استفاده از هوش مصنوعی برای اهداف خلاقانه با برخی از مسئولیت های اخلاقی همراه است و ایجاد صدا با ابزار هوش مصنوعی گفتاری ElevenLabs تفاوتی ندارد.
به طور خلاصه، از صدای کسی بدون اجازه او استفاده نکنید. اگرچه غیرقانونی نیست، اما ممکن است از این موضوع ناراحت شوند.
قبل از ادامه، به یاد داشته باشید که در زمان نوشتن، ابزار هوش مصنوعی گفتاری ElevenLabs در بتا است. این بدان معنی است که محصول نهایی نیست.
ایجاد یک گفتگوی پایه هوش مصنوعی
ساده ترین راه برای استفاده از ElevenLabs با ابزار هوش مصنوعی آزادی بیان است.
برای استفاده از این، به beta.elevenlabs.io بروید و یک حساب کاربری ایجاد کنید (می توانید از ایمیل خود، یک حساب Google یا فیس بوک استفاده کنید).
بعد:
- روی Speech Synthesis کلیک کنید
- یکی از صداهای از پیش ساخته شده را در تنظیمات انتخاب کنید (صدای مرد و زن در دسترس هستند)
- برای تنظیم لغزنده های Stability and Clarity + Similarity Enhancement (پایداری بالا یکنواخت است، وضوح بالا به صدای مورد نظر نزدیکتر است) تنظیمات صدا را گسترش دهید.
- Eleven monolingual (انگلیسی استاندارد) را انتخاب کنید
- متنی را که می خواهید به گفتار تبدیل کنید وارد کنید
- روی Generate کلیک کنید
- پس از تکمیل فرآیند، باید به صورت خودکار پخش شود. اگر نه، روی Play کلیک کنید
همچنین می توانید نمونه تولید شده را دانلود کنید.
با ElevenLabs یک صدا ایجاد کنید
اگر ترجیح می دهید صدای جدیدی ایجاد کنید، می توانید از دکمه Add Voice برای بازدید از صفحه VoiceLab استفاده کنید. برای تولید صدای جدید بر اساس تنظیمات پیشفرض ElevenLabs:
- روی Add Voice > Voice Design کلیک کنید
- فیلدهای جنسیت، سن و لهجه را تنظیم کنید
- نوار لغزنده Accent Strength را در صورت نیاز تنظیم کنید
- متنی را که می خواهید تبدیل کنید وارد کنید
- روی Generate کلیک کنید
- وقتی تمام شد، گوش کنید
در آزمایش، متوجه شدم که هر دو لهجه زن/جوان/استرالیایی و مذکر/قدیمی/استرالیایی به طور مشخص «آمریکایی» هستند. این موضوعی است که احتمالاً با توسعه فناوری برطرف خواهد شد.
ایجاد صدای خود در هوش مصنوعی
در حالی که گزینههای از پیش ساخته و قابل تنظیم جالب هستند، عنصر واقعاً هیجانانگیز فناوری ElevenLabs، ابزار Instant Voice Cloning است.
بر خلاف گزینه های دیگر، شبیه سازی صدای فوری نیاز به اشتراک دارد. چندین گزینه در دسترس است که ارزانترین آنها 5 دلار در ماه است. در زمان نوشتن، این با 80٪ تخفیف برای ماه اول همراه است که آن را فقط 1 دلار می کند.
سایر گزینه ها 22، 99 دلار و 330 دلار در ماه هزینه دارند و امکان تولید حداکثر 40 ساعت صدا در ماه وجود دارد.
برای استفاده از Instant Voice Cloning، نه تنها به دیالوگ نیاز دارید، بلکه به نمونه ای از صدای خود نیز نیاز دارید. هر کاری انجام می شود، تا زمانی که واضح باشد، و در فرمت MP3. هرچه نمونه طولانی تر باشد، بهتر است، تا 5 دقیقه.
از صفحه VoiceLab:
- روی Add Voice > Instant Voice Cloning کلیک کنید
- در پنجره ایجاد شده، یک نام تنظیم کنید
- برای آپلود نمونه روی یک فایل مناسب کلیک کنید یا بکشید (برای دقت بیشتر میتوان حداکثر 25 نمونه اضافه کرد)
- روی Labels کلیک کنید و یک کلید + مقدار (به عنوان مثال لهجه/بریتانی) مشخص کنید – این کار را تا 5 بار انجام دهید
- توضیحات مختصری از صدا وارد کنید
- کادر تأیید تأیید رضایت و سپس افزودن صدا را علامت بزنید
با اضافه شدن صدا، میتوانید آن را در صفحه Speech Synthesis مانند بالا تنظیم کنید.
با صدای هوش مصنوعی چه کاری می توانید انجام دهید؟
گفتار هوش مصنوعی با صداهای از پیش ساخته و شبیه سازی شده دارای امکانات متعددی است. همانطور که اشاره شد، هدف نهایی ElevenLabs ترجمه زنده است، اما آنها به کاربردهای مختلف دیگری اشاره کرده اند.
کتابهای صوتی (شاید توسط یک ستاره فیلم که مدتها مرده خوانده شود) همراه با بازیهای ویدیویی ذکر شده است (استفاده از گفتار هوش مصنوعی باعث صرفهجویی در صداپیشگان میشود). اما کاربردهایی فراتر از این دارد، از موسیقی گرفته تا طنز تا خودیاری، و احتمالا فراتر از آن.
حتی می توانید با استفاده از گفتار هوش مصنوعی یک پادکست ایجاد کنید، اگرچه نتایج ممکن است صاف و خسته کننده به نظر برسد.
مقدمه قسمتی از پادکست واقعا مفید ما با استفاده از ElevenLabs تهیه شده است:
در حالی که نتایج کاملاً آن چیزی که ما امیدوار بودیم نبود، استفاده از آن به اندازه کافی خوب است و فناوری فقط می تواند بهتر شود.
در همین حال، ElevenLabs در حال برنامه ریزی برای ایجاد یک ویژگی “مکالمه صوتی” است که در آینده معرفی می شود.
با استفاده از هوش مصنوعی گفتاری ElevenLabs از صدای خود به روشی جدید استفاده کنید
هوش مصنوعی در چند سال گذشته ابزارهای شگفت انگیز جدیدی را برای ما به ارمغان آورده است. Chat-GPT را می توان برای ایجاد متن، پاسخ به سوالات، طرح کلی گزارش ها و موارد دیگر استفاده کرد. Midjourney ابزاری شگفت انگیز است که بر اساس اعلان ها هنر ایجاد می کند.
اکنون، ابزار گفتاری هوش مصنوعی ElevenLabs دستکاری صدا را آسان می کند. این شبیه یک جعل هویت است، اما با شبیه سازی صدای اصلی.
در حالی که استدلالهای اخلاقی علیه استفاده از صداها بدون رضایت وجود دارد، این ابزار قدرتمندی با برخی احتمالات جالب است. بهترین از همه، استفاده از آن به طرز شگفت انگیزی آسان است و نتایج چشمگیری ارائه می دهد.