Pengisi suara AI terdengar lebih manusiawi dari sebelumnya—dan mereka siap untuk dipekerjakan

Konsep aktor sulih suara AI

Nona Tek | Getty



Posting blog perusahaan meneteskan antusiasme dari infomersial AS tahun 90-an. WellSaid Labs menjelaskan apa yang dapat diharapkan klien dari delapan aktor suara digital barunya! Tobin energik dan berwawasan luas. Paige tenang dan ekspresif. Ava dipoles, percaya diri, dan profesional.

Masing-masing didasarkan pada aktor suara nyata, yang kemiripannya (dengan persetujuan) telah dipertahankan menggunakan AI. Perusahaan sekarang dapat melisensikan suara-suara ini untuk mengatakan apa pun yang mereka butuhkan. Mereka hanya memasukkan beberapa teks ke dalam mesin suara, dan keluar akan menggulung klip audio yang tajam dari kinerja yang terdengar alami.





WellSaid Labs , startup berbasis di Seattle yang keluar dari lembaga penelitian nirlaba Allen Institute of Artificial Intelligence, adalah perusahaan terbaru yang menawarkan suara AI kepada klien. Untuk saat ini, ia mengkhususkan diri dalam suara untuk video e-learning perusahaan. Startup lain membuat suara untuk asisten digital , operator pusat panggilan , dan bahkan karakter permainan video .

bagaimana wikileaks menghasilkan uang?
KH · Pengisi suara AI WellSaid dalam gaya promosi

Belum lama ini, suara deepfake seperti itu memiliki reputasi buruk untuk digunakan dalam panggilan penipuan dan tipu daya internet . Tetapi peningkatan kualitas mereka telah menarik minat semakin banyak perusahaan. Terobosan terbaru dalam pembelajaran mendalam telah memungkinkan untuk mereplikasi banyak seluk-beluk ucapan manusia. Suara-suara ini berhenti dan bernapas di semua tempat yang tepat. Mereka dapat mengubah gaya atau emosi mereka. Anda dapat melihat triknya jika mereka berbicara terlalu lama, tetapi dalam klip audio pendek, beberapa tidak dapat dibedakan dari manusia.

Suara AI juga murah, skalabel, dan mudah digunakan. Tidak seperti rekaman aktor suara manusia, suara sintetis juga dapat memperbarui skrip mereka secara real time, membuka peluang baru untuk mempersonalisasi iklan.



Tetapi munculnya suara palsu yang hiperrealistis tidak bebas konsekuensi. Aktor suara manusia, khususnya, dibiarkan bertanya-tanya apa artinya ini bagi mata pencaharian mereka.

Cara memalsukan suara

Suara sintetis telah ada selama beberapa waktu. Tapi yang lama, termasuk suara aslinya suriah dan Alexa , cukup rekatkan kata dan suara untuk mencapai efek robotik yang kikuk. Membuat mereka terdengar lebih alami adalah tugas manual yang melelahkan.

Pembelajaran mendalam mengubah itu. Pengembang suara tidak lagi perlu mendikte kecepatan, pengucapan, atau intonasi yang tepat dari ucapan yang dihasilkan. Sebagai gantinya, mereka dapat memasukkan beberapa jam audio ke dalam algoritme dan membuat algoritme mempelajari pola-pola itu sendiri.

mereka mendorong kecepatan tertinggi

Jika saya Pizza Hut, saya pasti tidak bisa terdengar seperti Domino, dan saya pasti tidak bisa terdengar seperti Papa John.



Rupal Patel, pendiri dan CEO VocaliD

Selama bertahun-tahun, para peneliti telah menggunakan ide dasar ini untuk membangun mesin suara yang semakin canggih. WellSaid Labs yang dibangun, misalnya, menggunakan dua model deep-learning utama. Yang pertama memprediksi, dari bagian teks, garis besar seperti apa suara pembicara—termasuk aksen, nada, dan timbre. Yang kedua mengisi detailnya, termasuk napas dan cara suara bergema di lingkungannya.

Namun, membuat suara sintetis yang meyakinkan membutuhkan lebih dari sekadar menekan tombol. Bagian dari apa yang membuat suara manusia begitu manusiawi adalah inkonsistensi, ekspresif, dan kemampuannya untuk menyampaikan baris yang sama dalam gaya yang sama sekali berbeda, tergantung pada konteksnya.

Menangkap nuansa ini melibatkan menemukan aktor suara yang tepat untuk memasok data pelatihan yang sesuai dan menyempurnakan model pembelajaran mendalam. WellSaid mengatakan proses tersebut membutuhkan setidaknya satu atau dua jam audio dan beberapa minggu kerja untuk mengembangkan replika sintetis yang terdengar realistis.

desain reaktor nuklir teraman
KH · Agen layanan pelanggan Resemble.ai KH · Pengisi suara Resemble.ai dalam gaya percakapan

Suara AI telah menjadi sangat populer di kalangan merek yang ingin mempertahankan suara yang konsisten dalam jutaan interaksi dengan pelanggan. Dengan keberadaan speaker pintar di mana-mana saat ini, dan munculnya agen layanan pelanggan otomatis serta asisten digital yang tertanam di mobil dan perangkat pintar, merek mungkin perlu menghasilkan lebih dari seratus jam audio sebulan. Tetapi mereka juga tidak lagi ingin menggunakan suara umum yang ditawarkan oleh teknologi text-to-speech tradisional—tren yang dipercepat selama pandemi karena semakin banyak pelanggan yang melewatkan interaksi di dalam toko untuk terlibat dengan perusahaan secara virtual.

Jika saya Pizza Hut, saya pasti tidak bisa terdengar seperti Domino, dan saya pasti tidak bisa terdengar seperti Papa John, kata Rupal Patel, seorang profesor di Universitas Northeastern dan pendiri dan CEO VocaliD, yang berjanji untuk membuat suara khusus yang cocok dengan identitas merek perusahaan. Merek-merek ini telah memikirkan warna mereka. Mereka telah memikirkan font mereka. Sekarang mereka harus mulai memikirkan bagaimana suara mereka terdengar juga.

Karen Hao, Ulasan Teknologi MIT · Contoh iklan VocaliD dengan suara pria Karen Hao, Ulasan Teknologi MIT · Contoh iklan VocaliD dengan suara wanita

Sementara perusahaan dulu harus mempekerjakan aktor suara yang berbeda untuk pasar yang berbeda—Timur Laut versus Selatan AS, atau Prancis versus Meksiko—beberapa perusahaan AI suara dapat memanipulasi aksen atau mengganti bahasa satu suara dengan cara yang berbeda. Ini membuka kemungkinan untuk mengadaptasi iklan pada platform streaming tergantung pada siapa yang mendengarkan, tidak hanya mengubah karakteristik suara tetapi juga kata-kata yang diucapkan. Iklan bir dapat memberi tahu pendengar untuk mampir ke pub yang berbeda tergantung apakah itu diputar di New York atau Toronto, misalnya. Resemble.ai, yang mendesain suara untuk iklan dan asisten pintar, mengatakan telah bekerja dengan klien untuk meluncurkan iklan audio yang dipersonalisasi di Spotify dan Pandora.

Industri game dan hiburan juga melihat manfaatnya. Sonantic, sebuah firma yang mengkhususkan diri pada suara-suara emotif yang dapat tertawa dan menangis atau berbisik dan berteriak, bekerja dengan pembuat video-game dan studio animasi untuk memasok pengisi suara untuk karakter mereka. Banyak kliennya menggunakan suara yang disintesis hanya dalam pra-produksi dan beralih ke aktor suara nyata untuk produksi akhir. Tapi Sonantic mengatakan beberapa sudah mulai menggunakannya selama proses berlangsung, mungkin untuk karakter dengan garis yang lebih sedikit. Resemble.ai dan lainnya juga telah bekerja dengan film dan acara TV untuk memperbaiki penampilan aktor ketika kata-kata menjadi kacau atau salah diucapkan.

Tetapi ada batasan seberapa jauh AI bisa berjalan. Masih sulit untuk mempertahankan realisme suara dalam jangka waktu yang lama yang mungkin diperlukan untuk buku audio atau podcast. Dan hanya ada sedikit kemampuan untuk mengontrol kinerja suara AI dengan cara yang sama seperti yang dapat dilakukan sutradara untuk memandu pemain manusia. Kami masih di hari-hari awal pidato sintetis, kata Zohaib Ahmed, pendiri dan CEO Resemble.ai, membandingkannya dengan hari-hari ketika teknologi CGI digunakan terutama untuk touch-up daripada untuk menciptakan dunia yang sama sekali baru dari layar hijau .

Sentuhan manusia

Dengan kata lain, aktor suara manusia tidak akan pergi dulu. Proyek yang ekspresif, kreatif, dan berjangka panjang masih paling baik dilakukan oleh manusia. Dan untuk setiap suara sintetis yang dibuat oleh perusahaan-perusahaan ini, aktor suara juga perlu menyediakan data pelatihan asli.

Tetapi beberapa aktor semakin khawatir tentang mata pencaharian mereka, kata juru bicara di SAG-AFTRA, serikat pekerja yang mewakili aktor suara di AS. Jika mereka tidak takut diotomatisasi oleh AI, mereka khawatir akan kompensasi yang tidak adil atau kehilangan kendali atas suara mereka, yang merupakan merek dan reputasi mereka.

Ini sekarang subjek gugatan melawan TikTok yang dibawakan oleh aktor suara Kanada Bev Standing, yang menuduh bahwa fitur sulih suara bawaan aplikasi menggunakan salinan sintetis suaranya tanpa izinnya. Pengalaman berdiri juga menggemakan Susan Bennett , suara asli Siri Amerika, yang dibayar untuk rekaman awalnya tetapi tidak untuk penggunaan lanjutan dari kemiripan vokalnya di jutaan perangkat Apple.

Beberapa perusahaan ingin lebih bertanggung jawab dalam cara mereka terlibat dengan industri pengisi suara. Yang terbaik, kata perwakilan SAG-AFTRA, telah mendekati serikat pekerja untuk mencari cara terbaik untuk memberi kompensasi dan menghormati aktor suara atas pekerjaan mereka.

Manusia palsu yang menyeramkan ini menandai era baru dalam AI

Butuh lebih banyak data untuk pembelajaran mendalam? Perusahaan data sintetis akan membuatnya untuk Anda.

mengapa mobil tanpa pengemudi itu buruk

Beberapa sekarang menggunakan model bagi hasil untuk membayar aktor setiap kali klien melisensikan suara sintetis khusus mereka, yang telah membuka aliran pendapatan pasif baru. Lainnya melibatkan aktor dalam proses merancang kemiripan AI mereka dan memberi mereka hak veto atas proyek yang akan digunakan. SAG-AFTRA juga mendorong undang-undang untuk melindungi aktor dari replika suara mereka yang tidak sah.

Tetapi untuk Patel VocaliD, tujuan suara AI pada akhirnya bukan untuk mereplikasi kinerja manusia atau untuk mengotomatiskan pekerjaan voice-over yang ada. Sebaliknya, janjinya adalah bahwa mereka dapat membuka kemungkinan yang sama sekali baru. Bagaimana jika di masa depan, katanya, suara sintetis dapat digunakan untuk mengadaptasi materi pendidikan online dengan cepat ke audiens yang berbeda? Jika Anda mencoba menjangkau, katakanlah, sekelompok anak-anak dalam kota, bukankah lebih bagus jika suara itu benar-benar terdengar seperti berasal dari komunitas mereka?

bersembunyi

Teknologi Aktual

Kategori

Tidak Dikategorikan

Teknologi

Bioteknologi

Kebijakan Teknologi

Perubahan Iklim

Manusia Dan Teknologi

Bukit Silikon

Komputasi

Majalah Berita Mit

Kecerdasan Buatan

Ruang Angkasa

Kota Pintar

Blockchain

Cerita Fitur

Profil Alumni

Koneksi Alumni

Fitur Berita Mit

1865

Pandangan Ku

77 Jalan Massal

Temui Penulisnya

Profil Dalam Kemurahan Hati

Terlihat Di Kampus

Surat Alumni

Berita

Pemilu 2020

Dengan Indeks

Di Bawah Kubah

Pemadam Kebakaran

Cerita Tak Terbatas

Proyek Teknologi Pandemi

Dari Presiden

Sampul Cerita

Galeri Foto

Direkomendasikan