Sound Of Text – Andrew Breen, Manajer Senior, Text-to-Speech Research, memberikan gambaran tentang sejarah kemajuan TTS pada konferensi MARS Juni lalu.
Kemajuan dalam teknologi text-to-speech membantu komputer mendeteksi suara, menghasilkan suara yang terdengar alami, seperti ucapan manusia yang telah menjadi tujuan para ilmuwan selama beberapa dekade.
Table of Contents
Sound Of Text
Catatan editor: Tim Alexa baru-baru ini memperkenalkan gaya bicara bentuk panjang baru yang membuat Alexa merasa lebih alami saat membaca konten yang lebih panjang seperti artikel ini. Jika Anda lebih suka mendengarkan cerita ini daripada membacanya, artikel di bawah ini menggunakan gaya bicara bentuk panjang.
The Sound Was A Familiar One.” What Sound Did The Doctor Hear? What Did He Think It Was? How Many Times Did He Hear It? (find The Places In The Text.) When
Kata-kata yang diucapkan penting bagi orang-orang. Kami menyukai suara anak kami, lagu favorit atau bintang film favorit kami yang mengucapkan kalimat klasik.
Bahasa sehari-hari yang berhubungan dengan komputer juga menjadi lebih umum. Alexa, layanan suara populer, telah menjawab pertanyaan dan permintaan konsumen selama lebih dari lima tahun dan sekarang tersedia di ratusan juta perangkat dan dari produsen perangkat pihak ketiga. Bisnis lain memanfaatkan pidato yang dihasilkan komputer untuk menangani panggilan layanan pelanggan, memasarkan produk, dan banyak lagi.
Bahasa dan ucapan sangat kompleks. Kata-kata memiliki makna, tentu saja. Begitu juga konteks kata-kata itu, emosi di baliknya, dan reaksi orang yang mendengarnya. Alamat kata yang diucapkan tampaknya berada di luar jangkauan komputer paling canggih sekalipun. Namun kemajuan dalam teknologi text-to-speech (TTS) dalam beberapa tahun terakhir — kemampuan komputer untuk mengubah rangkaian kata menjadi respons audio yang terdengar alami dan dapat dipahami — telah memungkinkan komputer terdengar lebih seperti manusia.
Para ilmuwan dan insinyur membantu membuat terobosan baru di era di mana komputer membuat suara yang ramah dan informatif, sementara emotikon ucapan memprediksi seperti apa suara pendengar rata-rata, misalnya, dan merespons dengan intonasi seperti manusia.
Readability: The Optimal Line Length
Sebuah revolusi di bidang ini terjadi pada tahun 2016 ketika WaveNet – sebuah teknologi untuk menghasilkan audio mentah – diperkenalkan. Dibuat oleh para peneliti di perusahaan kecerdasan buatan yang berbasis di London, DeepMind, teknik ini menghasilkan suara yang realistis menggunakan jaringan saraf yang dilatih dengan rekaman ucapan nyata.
“Penelitian awal ini menunjukkan bahwa pendekatan pembelajaran mesin baru menawarkan kualitas yang sama atau lebih besar dan potensi fleksibilitas yang lebih besar,” kata Andrew Breen, manajer senior tim peneliti TTS di Cambridge, Inggris. Breen telah lama bekerja pada masalah membuat pidato komputer lebih bermakna dan otentik. Sebelum bergabung pada tahun 2018, ia adalah Direktur Penelitian TTS untuk Nuance, sebuah perusahaan yang berbasis di Massachusetts yang mengembangkan solusi kecerdasan buatan percakapan.
Dimodelkan secara longgar pada sistem saraf manusia, jaringan saraf adalah jaringan node pemrosesan yang sederhana namun saling berhubungan erat. Biasanya node-node ini disusun berlapis-lapis, dan output dari setiap lapisan menuju ke lapisan di atasnya. Koneksi antar baris memiliki “bobot” yang menentukan seberapa banyak output dari satu node berkontribusi pada perhitungan yang dilakukan oleh node berikutnya.
Seiring dengan pembelajaran mesin, jaringan saraf telah mempercepat kemajuan dalam mengembangkan pidato komputasi. “Ini benar-benar standar emas inovasi,” kata Breen.
Missing Sounds Of New York: An Auditory Love Letter To New Yorkers
Menciptakan suara alami, ucapan seperti manusia telah menjadi tujuan para ilmuwan selama beberapa dekade. Pada tahun 1930-an ilmuwan Bell Labs Homer Dudley Voder mengembangkan mesin bicara sintetis primitif yang berfungsi seperti keyboard piano – kecuali untuk musik, mesin ini menghasilkan suara derit mekanis. Pada 1980-an, DECTalk, aplikasi TTS komputer yang dikembangkan oleh Digital Equipment Corporation, berkembang ke titik di mana mendiang Stephen Hawking memasangkan versinya dengan keyboard untuk “berbicara”. Hasilnya berisik, tetapi kata-kata intuitif yang masih diasosiasikan banyak orang dengan mesin bicara.
Pada awal 2000-an, sintesis ucapan yang lebih akurat menjadi umum. Teknik kunci yang digunakan saat itu: sintaks komponen hibrid. , misalnya, metode ini digunakan hingga tahun 2015 untuk membuat versi awal suara Alexa atau untuk membangun kemampuan suara menjadi produk seperti tablet Fire. Nikhil Sharma, Manajer Produk Senior, TTS Group, mengatakan: “Untuk membuat beberapa suara Alexa awal, kami menghabiskan waktu berjam-jam di studio bekerja dengan bakat suara dan membuat mereka mengucapkan frasa yang berbeda. Kami membagi data suara itu menjadi diphone (diphone adalah kombinasi dari dua fonem menjadi dua, unit suara yang unik) dan menambahkannya ke database audio yang lebih besar. Kemudian, ketika permintaan masuk untuk menghasilkan ucapan, kita dapat memanfaatkan database itu dan memilih difon terbaik untuk digabungkan dan membuat kalimat yang diucapkan Alexa. “
Proses itu berjalan dengan baik. Tetapi sintaks komponen hybrid memiliki keterbatasan. Ini membutuhkan banyak suara pra-rekaman dari bakat suara profesional untuk mendapatkan informasi – seperti turis yang membolak-balik buku Prancis besar yang terus-menerus mencari frasa tertentu. “Karena itu, kami tidak dapat mengatakan bahwa sistem komposisi komponen hibrida mempelajari bahasa,” kata Breen.
Tujuan dari peneliti adalah untuk membuat komputer yang dapat belajar bahasa dan tidak hanya menghafal frase. “Itu adalah Holy Grail, tapi tidak ada yang tahu bagaimana melakukannya,” kata Breen. Kami sudah dekat, tetapi kami memiliki batas kualitas yang menghalangi kemungkinan itu.”
Cách Sử Dụng Sound Of Text Chuyển Văn Bản Thành Giọng Nói
Jaringan saraf menawarkan cara untuk melakukan itu. Pada tahun 2018, para ilmuwan menunjukkan bahwa dengan menggunakan pendekatan jaringan saraf generatif untuk membuat ucapan sintetis, mereka dapat menghasilkan ucapan yang terdengar alami. Menggunakan pendekatan jaringan saraf generatif, Alexa juga dapat memperluas cara berbicara tentang topik tertentu. Misalnya, para ilmuwan menciptakan gaya pidato berita Alexa hanya dari beberapa jam data pelatihan, yang memungkinkan konsumen mendengar berita dengan gaya yang biasa mereka dengar. Kemajuan ini membuka jalan bagi Alexa dan layanan lainnya untuk beradaptasi dengan gaya berbicara yang berbeda dalam situasi yang berbeda, meningkatkan pengalaman pelanggan.
Polly baru-baru ini mengumumkan fitur baru yang disebut Suara Merek, yang memungkinkan organisasi untuk bekerja dengan tim ilmuwan penelitian AI dan ahli bahasa Polly untuk membuat produksi suara TTS saraf yang unik dan berkualitas tinggi yang mewakili kepribadian merek mereka. Pengadopsi awal Kentucky Fried Chicken (KFC) Kanada dan National Australia Bank (NAB) menggunakan layanan ini untuk membuat dua suara merek unik yang menggunakan teknologi pembelajaran mendalam yang sama yang memperkuat suara Anda Alexa.
Poly adalah layanan AWS yang mengubah teks menjadi ucapan animasi, memungkinkan pelanggan untuk membangun kelas produk yang sepenuhnya baru dengan dukungan ucapan. Polly menyediakan lusinan suara langsung dalam berbagai bahasa, memungkinkan pelanggan membangun aplikasi yang mendukung ucapan yang berfungsi di berbagai negara.
Ke depan, para peneliti bekerja untuk mengajarkan komputer untuk memahami arti dari sekumpulan kata dan mengucapkan kata-kata tersebut menggunakan efek yang sesuai. “Jika saya memberikan komputer artikel berita, itu akan melakukan pekerjaan yang wajar untuk menerjemahkan kata-kata dalam artikel,” kata Breen. “Tapi ada sesuatu yang hilang. Penting untuk memahami isi artikel, apakah itu kabar baik atau kabar buruk, dan di mana letaknya. Kurangnya intuisi itu.”
The Sound Of Pixels
Itu berubah. Sekarang, komputer dapat diajarkan untuk mengucapkan kalimat yang sama dengan jenis migrasi yang berbeda. Di masa depan, mereka cenderung mengenali bagaimana mengucapkan kata-kata ini berdasarkan konteks kata-kata atau kata-kata itu sendiri. “Kami ingin komputer peka terhadap lingkungan dan pendengar dan beradaptasi dengan baik,” kata Breen.
TTS memiliki beragam aplikasi, mulai dari layanan pelanggan dan pembelajaran jarak jauh hingga pelaporan dalam artikel berita. Mendorong peningkatan dalam teknologi ini adalah pendekatan yang dilakukan para ilmuwan dan insinyur untuk menciptakan pengalaman yang lebih baik tidak hanya untuk pelanggan Alexa, tetapi juga untuk organisasi di seluruh dunia.
“Kemampuan Alexa untuk mengubah gaya bicaranya berdasarkan konteks permintaan pelanggan membuka potensi untuk memberikan pengalaman baru dan menyenangkan yang sebelumnya tak terbayangkan,” kata Breen. “Ini adalah saat-saat yang sangat menyenangkan.”
Ringkasan Pekerjaan Mencari ilmuwan terapan yang bersemangat, berbakat, dan inovatif dengan latar belakang pembelajaran mesin yang kuat untuk membantu membangun teknologi bahasa terdepan di industri. NLP), Pemahaman Bahasa Alami (NLU), Manajemen Percakapan, AI Percakapan, dan Pembelajaran Mesin (ML). Teknologi modern dalam bahasa manusia. Pekerjaan Anda akan berdampak langsung pada jutaan pelanggan kami dalam bentuk produk dan layanan, serta berkontribusi pada komunitas riset yang lebih luas. Anda akan mendapatkan pengalaman langsung dengan beragam sumber data tekstual dan terstruktur serta sumber daya komputasi yang besar untuk mempercepat kemajuan dalam pemahaman bahasa. Peran ini dapat berbasis di NYC, Seattle, atau Palo Alto. Di sini, di AWS, budaya tim yang inklusif, kami merangkul perbedaan kami. Kami berkomitmen untuk mempromosikan budaya inklusi kami. Kami memiliki sepuluh grup afiliasi yang dipimpin oleh karyawan, menjangkau 40.000 karyawan di lebih dari 190 cabang di seluruh dunia. Kami memiliki penawaran manfaat inovatif dan menyelenggarakan pengalaman belajar tahunan dan berkelanjutan, termasuk Percakapan kami tentang Ras dan Etnis.
Hypothesis Testing Problems
Sound of text suara pria, sound of text suara wanita, sound of text untuk whatsapp, buat sound of text, sound of text untuk wa, sound of text indonesia, sound of text aplikasi, sound of text suara robot, sound of text pria, aplikasi sound of text whatsapp, cara membuat sound of text, sound of text suara google