Ana teknoloji

Konuşma tanıma teknolojisi

Konuşma tanıma teknolojisi
Konuşma tanıma teknolojisi

Video: Ses Tanıma Teknolojisi 2024, Temmuz

Video: Ses Tanıma Teknolojisi 2024, Temmuz
Anonim

Konuşma tanıma, cihazların sözlü komutlara cevap verme yeteneği. Konuşma tanıma, çeşitli cihazların ve ekipmanların (birçok engelli için belirli bir nimet) eller serbest kontrolünü sağlar, otomatik çeviriye girdi sağlar ve baskıya hazır dikte oluşturur. Konuşma tanıma için en eski uygulamalar arasında otomatik telefon sistemleri ve tıbbi dikte yazılımı vardı. Dikte için, veritabanlarını sorgulamak ve bilgisayar tabanlı sistemlere, özellikle de uzmanlık bilgilerine dayanan mesleklerde komut vermek için sıklıkla kullanılır. Ayrıca, Apple'ın Siri gibi araçlarda ve akıllı telefonlarda kişisel asistanlara da olanak tanır.

Herhangi bir makinenin konuşmayı yorumlayabilmesi için, bir mikrofon bir kişinin sesinin titreşimlerini dalga benzeri bir elektrik sinyaline çevirmelidir. Bu sinyal sırayla sistemin donanımı (örneğin, bir bilgisayarın ses kartı) tarafından dijital bir sinyale dönüştürülür. Bir konuşma tanıma programının konuşmanın temel yapı taşları olan ayrı fonemleri tanımak için analiz ettiği dijital sinyaldir. Fonemler daha sonra kelimelere dönüştürülür. Bununla birlikte, birçok kelime birbirine benzemektedir ve uygun kelimeyi seçmek için programın bağlama bağlı olması gerekir. Birçok program, herhangi bir iki sözcüğün ardından verilen üçüncü bir sözcüğün geleceği olasılıkların atandığı, sık kullanılan üç kelimeli kümelerin bir veritabanına dayanan bir yöntem olan trigram analizi aracılığıyla bağlam oluşturur. Örneğin, bir konuşmacı “kimim” derse, bir sonraki kelime, benzer, fakat daha az muhtemel “göz” yerine “ben” zamiri olarak tanınacaktır. Bununla birlikte, bazen hataları düzeltmek için insan müdahalesine ihtiyaç vardır.

Telefon sesli navigasyon sistemleri gibi birkaç izole kelimeyi tanımak için programlar neredeyse her kullanıcı için çalışır. Öte yandan, dikte programları gibi sürekli konuşma programları, bireyin konuşma düzenlerini tanımak için eğitilmelidir; eğitim kullanıcının yüksek sesle metin örneklerini okumasını içerir. Günümüzde kişisel bilgisayarların ve mobil cihazların artan gücüyle, konuşma tanıma doğruluğu önemli ölçüde artmıştır. On binlerce kelime içeren sözcük dağarcığında hata oranları yaklaşık yüzde 5'e düşürüldü. Radyolojik tanıların dikte edilmesi gibi özel uygulamalar için sınırlı sözcük dağarcığında daha fazla doğruluk elde edilmektedir.