چگونه با ElevenLabs صدای هوش مصنوعی بسازیم که شبیه شما باشد

با نرم افزار هوش مصنوعی گفتاری ElevenLabs، صدایی بسازید که هر چیزی را که می خواهید بگوید، بدون اینکه شبیه ربات باشد.

هوش مصنوعی مولد و دیپ فیک با توسعه ابزارهای صوتی هوش مصنوعی برخورد کرده اند. ایده ساده است: شما یک صدا را می گیرید و آن را دستکاری می کنید تا کلماتی را که به آن می دهید بیان کنید.

پیشرو در این زمینه ElevenLabs است که یک ابزار صوتی هوش مصنوعی رایگان را ارائه می دهد.

Eleven Labs چیست؟

ElevenLabs یک شرکت تحقیقاتی فناوری صوتی است که توسط یک مهندس سابق یادگیری ماشین گوگل و یک استراتژیست سابق استقرار Palintir تأسیس شده است. نرم‌افزار گفتار هوش مصنوعی عنصر کلیدی استراتژی آن است، اما هدف نهایی ایجاد ابزاری است که «فوراً صدای گفتاری را بین زبان‌ها تبدیل می‌کند».

ElevenLabs مدل های جدید تبدیل متن به گفتار را توسعه داده است که می تواند صدای انسان با صدایی واقع گرایانه ایجاد کند. در وب‌سایت آن آمده است: «مأموریت ما این است که پشتیبانی صوتی چندزبانه درخواستی را در آموزش، پخش جریانی، کتاب‌های صوتی، بازی، فیلم و حتی مکالمه بی‌درنگ به واقعیت تبدیل کنیم.»

Google Translate و جایگزین های آن یک چیز هستند، اما آیا می توانید ابزاری را تصور کنید که فوراً آنچه را می شنوید ترجمه کند؟ شبیه سازی صدای گوینده به طوری که شما سخنرانی را همانطور که آنها می گویند بشنوید، این یک پله مهم برای آن است.

نسل صدای هوش مصنوعی چیست؟

با توضیح ساده، تولید صدای هوش مصنوعی به شما این امکان را می دهد که صدایی بگیرید و کاری کنید که هر چه می خواهید بشنوید، بگوید. به سادگی یک صدا را انتخاب کنید، دیالوگ ارائه دهید، و ابزار بقیه کارها را انجام می دهد.

ممکن است فکر کنید “خوب، مایکروسافت سام در دهه 1990 این کار را انجام می داد” و کاملاً درست می گویید. اما مایکروسافت سام و ابزارهای مشابه شبیه روبات‌ها بودند. در همین حال، ابزار ElevenLabs بسیار نزدیک به انسان به نظر می رسد.

مطلب مرتبط: استیبل کوین های با پشتوانه طلا چیست؟

ElevenLabs سه گزینه AI ارائه می دهد: صداهای کاملاً رایگان “از پیش ساخته”، تولید کننده صدا (به شما امکان می دهد جنسیت، سن و لهجه را انتخاب کنید) و صداهای “کلون شده” فقط با اشتراک که می توانید آپلود کنید.

در اینجا یک مثال است:

استفاده از هوش مصنوعی برای اهداف خلاقانه با برخی از مسئولیت های اخلاقی همراه است و ایجاد صدا با ابزار هوش مصنوعی گفتاری ElevenLabs تفاوتی ندارد.

به طور خلاصه، از صدای کسی بدون اجازه او استفاده نکنید. اگرچه غیرقانونی نیست، اما ممکن است از این موضوع ناراحت شوند.

قبل از ادامه، به یاد داشته باشید که در زمان نوشتن، ابزار هوش مصنوعی گفتاری ElevenLabs در بتا است. این بدان معنی است که محصول نهایی نیست.

ایجاد یک گفتگوی پایه هوش مصنوعی

ساده ترین راه برای استفاده از ElevenLabs با ابزار هوش مصنوعی آزادی بیان است.

برای استفاده از این، به beta.elevenlabs.io بروید و یک حساب کاربری ایجاد کنید (می توانید از ایمیل خود، یک حساب Google یا فیس بوک استفاده کنید).

بعد:

روی Speech Synthesis کلیک کنید
یکی از صداهای از پیش ساخته شده را در تنظیمات انتخاب کنید (صدای مرد و زن در دسترس هستند)
برای تنظیم لغزنده های Stability and Clarity + Similarity Enhancement (پایداری بالا یکنواخت است، وضوح بالا به صدای مورد نظر نزدیکتر است) تنظیمات صدا را گسترش دهید.
Eleven monolingual (انگلیسی استاندارد) را انتخاب کنید
متنی را که می خواهید به گفتار تبدیل کنید وارد کنید
روی Generate کلیک کنید
پس از تکمیل فرآیند، باید به صورت خودکار پخش شود. اگر نه، روی Play کلیک کنید

همچنین می توانید نمونه تولید شده را دانلود کنید.

با ElevenLabs یک صدا ایجاد کنید

اگر ترجیح می دهید صدای جدیدی ایجاد کنید، می توانید از دکمه Add Voice برای بازدید از صفحه VoiceLab استفاده کنید. برای تولید صدای جدید بر اساس تنظیمات پیش‌فرض ElevenLabs:

روی Add Voice > Voice Design کلیک کنید
فیلدهای جنسیت، سن و لهجه را تنظیم کنید
نوار لغزنده Accent Strength را در صورت نیاز تنظیم کنید
متنی را که می خواهید تبدیل کنید وارد کنید
روی Generate کلیک کنید
وقتی تمام شد، گوش کنید

مطلب مرتبط: متداول ترین استانداردها و انواع Wi-Fi، توضیح داده شده است

در آزمایش، متوجه شدم که هر دو لهجه زن/جوان/استرالیایی و مذکر/قدیمی/استرالیایی به طور مشخص «آمریکایی» هستند. این موضوعی است که احتمالاً با توسعه فناوری برطرف خواهد شد.

ایجاد صدای خود در هوش مصنوعی

در حالی که گزینه‌های از پیش ساخته و قابل تنظیم جالب هستند، عنصر واقعاً هیجان‌انگیز فناوری ElevenLabs، ابزار Instant Voice Cloning است.

بر خلاف گزینه های دیگر، شبیه سازی صدای فوری نیاز به اشتراک دارد. چندین گزینه در دسترس است که ارزانترین آنها 5 دلار در ماه است. در زمان نوشتن، این با 80٪ تخفیف برای ماه اول همراه است که آن را فقط 1 دلار می کند.

سایر گزینه ها 22، 99 دلار و 330 دلار در ماه هزینه دارند و امکان تولید حداکثر 40 ساعت صدا در ماه وجود دارد.

برای استفاده از Instant Voice Cloning، نه تنها به دیالوگ نیاز دارید، بلکه به نمونه ای از صدای خود نیز نیاز دارید. هر کاری انجام می شود، تا زمانی که واضح باشد، و در فرمت MP3. هرچه نمونه طولانی تر باشد، بهتر است، تا 5 دقیقه.

از صفحه VoiceLab:

روی Add Voice > Instant Voice Cloning کلیک کنید
در پنجره ایجاد شده، یک نام تنظیم کنید
برای آپلود نمونه روی یک فایل مناسب کلیک کنید یا بکشید (برای دقت بیشتر می‌توان حداکثر 25 نمونه اضافه کرد)
روی Labels کلیک کنید و یک کلید + مقدار (به عنوان مثال لهجه/بریتانی) مشخص کنید – این کار را تا 5 بار انجام دهید
توضیحات مختصری از صدا وارد کنید
کادر تأیید تأیید رضایت و سپس افزودن صدا را علامت بزنید

با اضافه شدن صدا، می‌توانید آن را در صفحه Speech Synthesis مانند بالا تنظیم کنید.

مطلب مرتبط: چگونه تاریخچه ChatGPT خود را حذف کنیم

با صدای هوش مصنوعی چه کاری می توانید انجام دهید؟

گفتار هوش مصنوعی با صداهای از پیش ساخته و شبیه سازی شده دارای امکانات متعددی است. همانطور که اشاره شد، هدف نهایی ElevenLabs ترجمه زنده است، اما آنها به کاربردهای مختلف دیگری اشاره کرده اند.

کتاب‌های صوتی (شاید توسط یک ستاره فیلم که مدت‌ها مرده خوانده شود) همراه با بازی‌های ویدیویی ذکر شده است (استفاده از گفتار هوش مصنوعی باعث صرفه‌جویی در صداپیشگان می‌شود). اما کاربردهایی فراتر از این دارد، از موسیقی گرفته تا طنز تا خودیاری، و احتمالا فراتر از آن.

حتی می توانید با استفاده از گفتار هوش مصنوعی یک پادکست ایجاد کنید، اگرچه نتایج ممکن است صاف و خسته کننده به نظر برسد.

مقدمه قسمتی از پادکست واقعا مفید ما با استفاده از ElevenLabs تهیه شده است:

در حالی که نتایج کاملاً آن چیزی که ما امیدوار بودیم نبود، استفاده از آن به اندازه کافی خوب است و فناوری فقط می تواند بهتر شود.

در همین حال، ElevenLabs در حال برنامه ریزی برای ایجاد یک ویژگی “مکالمه صوتی” است که در آینده معرفی می شود.

با استفاده از هوش مصنوعی گفتاری ElevenLabs از صدای خود به روشی جدید استفاده کنید

هوش مصنوعی در چند سال گذشته ابزارهای شگفت انگیز جدیدی را برای ما به ارمغان آورده است. Chat-GPT را می توان برای ایجاد متن، پاسخ به سوالات، طرح کلی گزارش ها و موارد دیگر استفاده کرد. Midjourney ابزاری شگفت انگیز است که بر اساس اعلان ها هنر ایجاد می کند.

اکنون، ابزار گفتاری هوش مصنوعی ElevenLabs دستکاری صدا را آسان می کند. این شبیه یک جعل هویت است، اما با شبیه سازی صدای اصلی.

در حالی که استدلال‌های اخلاقی علیه استفاده از صداها بدون رضایت وجود دارد، این ابزار قدرتمندی با برخی احتمالات جالب است. بهترین از همه، استفاده از آن به طرز شگفت انگیزی آسان است و نتایج چشمگیری ارائه می دهد.

Tags: هوش مصنوعی