Yapay zeka araştırmacıları, insanların yaptığı gibi, yalnızca ses girişinden gelen konuşmayı anlaması için AI sistemlerini eğitme hedeflerine doğru ilerleme kaydediyor. Şu anda, AI'nın çoğunluğu yalnızca önce konuşmayı metne çevirerek tanıyabilir. Kelime hata oranlarını düşürmek ve dil desteğini artırmak açısından çok ilerleme kaydedildiği ortada.
Bununla birlikte, AI'nın sadece ses girişi yoluyla konuşmayı anlaması, bu aşamadaki büyük bir sıçrama olarak kabul ediliyor; bu nedenle MIT'nin Bilgisayar Bilimi ve Yapay Zeka Laboratuarı'ndaki araştırmacılar, konuşmayı metinden çok resimlerle eşleştirerek bir adım atmış durumda.
Yapay zeka sizi duyuyor
İlk bakışta fazla bir şey ifade etmiyor gibi görünse de, 'bir resim bin kelimeye bedeldir' ifadesi, etkisinin ne kadar büyük olabileceğini açıkça ortaya koyuyor. Yapay Sinir Ağları Bilgi İşlem Sistemleri konferansında araştırmacılar yöntemlerini, yazmış oldukları bir makaleye dayalı bir sunumla sergilediler.
Araştırmalarının arkasındaki fikir, birkaç sözcük tek bir ilgili resim altında gruplanabiliyorsa, AI'nın titiz bir eğitim yapmaya gerek kalmadan "muhtemel" bir çeviri yapması mümkün olabilmesi.
AI sistemleri için bir eğitim veri seti oluşturmak amacıyla, araştırmacılar 2.5 milyondan fazla görüntüye 205 farklı konuya sahip Places205 veri setini kullandı. Araştırmacılar, insanlara resimlerde ne gördüklerini söylemelerini istedi ve seslerini kayıt etti. 1.163 kişiden 120.000'den fazla kayıt toplamayı başardılar.
Daha sonra AI, her altyazıdaki kelimeleri alakalı resimlere bağlayacak şekilde eğitildi ve en uygun çeviriyi seçmek için her bir eşlemenin benzerliğini puanladı. Bir altyazı resimle alakalıysa yüksek puanı almalı, eğer değilse de puanı düşük olmalı.