Pengenalan suara, atau pengenalan suara, adalah teknologi komputer yang menggunakan input audio untuk memasukkan data daripada keyboard. Berbicara ke mikrofon, misalnya, menghasilkan hasil yang sama seperti mengetik kata secara manual dengan keyboard. Secara sederhana, perangkat lunak pengenalan suara dirancang dengan database internal kata atau frasa yang dapat dikenali. Program ini mencocokkan tanda tangan audio ucapan dengan entri yang sesuai dalam database.
Perangkat lunak pengenalan suara untuk komputer memungkinkan pengguna untuk berbicara melalui mikrofon ke informasi input audio daripada mengetik.
Meskipun mengubah ucapan menjadi teks mungkin terdengar mudah, ini adalah tugas yang sangat sulit. Masalahnya terletak pada susunan pola dan aksen bicara individu yang hampir tak terbatas, yang diperparah oleh kecenderungan alami manusia untuk menjalankan kata-kata bersama-sama.
Smartphone dilengkapi dengan perangkat lunak pengenalan suara yang dapat digunakan untuk mengucapkan perintah dan instruksi.
Berbagai caral perangkat lunak pengenalan suara digunakan untuk berbagai aplikasi, dari dikte pribadi hingga perutean panggilan otomatis komersial, dari membantu penyandang cacat hingga subtitle acara olahraga dan berita. Setiap caral berperilaku berbeda dan memiliki kemampuan dan batasannya sendiri.
Program pengenalan suara yang mengharuskan pengguna untuk “melatih” perangkat lunak untuk mengenali pola bicara khusus mereka disebut sistem yang bergantung pada pembicara . Individu biasanya menggunakan jenis program ini di rumah atau di kantor. Email , memo, surat, data, dan teks dapat dimasukkan dengan berbicara ke mikrofon.
Beberapa sistem pengenalan suara, yang disebut sistem ucapan diskrit , mengharuskan pengguna untuk berbicara dengan jelas dan perlahan dan untuk memisahkan kata-kata. Sistem ucapan berkelanjutan dirancang untuk memahami cara berbicara yang lebih alami.
Sistem ucapan diskrit banyak digunakan untuk perutean layanan pelanggan . Sistem ini tidak bergantung pada pembicara , tetapi hanya memahami kumpulan kecil kata atau frasa. Penelepon diberi pilihan untuk menjawab pertanyaan, biasanya dengan “ya” atau “tidak”. Setelah menerima jawaban, sistem meningkatkan penelepon ke tingkat berikutnya. Jika penelepon menjawab dengan jawaban yang unik, respons otomatis biasanya, “Maaf, saya tidak mengerti Anda; silakan coba lagi,” dengan pengulangan pertanyaan dan jawaban yang tersedia. Jenis pengenalan suara ini juga disebut sebagai pengenalan terbatas tata bahasa.
Pidato berkelanjutan adalah bentuk perangkat lunak pengenalan suara yang lebih canggih, di mana penelepon dapat berbicara secara alami untuk menjelaskan masalah atau meminta layanan. Program ini dirancang untuk memilih kata atau frasa kunci dan membuat tebakan statistik terbaik tentang apa yang diinginkan pelanggan. Berbicara dengan jelas membantu program dalam mengidentifikasi kebutuhan. Jenis sistem ini memiliki basis data yang jauh lebih intensif daripada sistem ucapan rahasia dan juga disebut sebagai pengenalan bahasa alami.
Pengenalan Ucapan Otomatis (ASR) adalah caral pengenalan suara yang dirancang untuk dikte. Perangkat lunak ini berbeda dari caral sebelumnya karena tidak berusaha untuk memahami apa yang dikatakan, hanya untuk mengidentifikasi kata-kata yang diucapkan. Karena banyak kata dalam bahasa Inggris terdengar sama, kesalahan mudah dibuat. Software ASR sering ditemukan pada perekam suara digital.