Teknolohiya ng pagkilala sa pagsasalita

Ang pagkilala sa pagsasalita, ang kakayahan ng mga aparato upang tumugon sa mga pasalitang utos. Ang pagkilala sa pagsasalita ay nagbibigay-daan sa walang kontrol na kamay ng iba't ibang mga aparato at kagamitan (isang partikular na boon sa maraming mga may kapansanan), ay nagbibigay ng input sa awtomatikong pagsasalin, at lumilikha ng naka-print na handa na pagdidikta. Kabilang sa mga pinakaunang aplikasyon para sa pagkilala sa pagsasalita ay awtomatikong mga sistema ng telepono at medikal na pagdidikta ng software. Madalas itong ginagamit para sa pagdidikta, para sa pag-query sa mga database, at para sa pagbibigay ng mga utos sa mga system na nakabase sa computer, lalo na sa mga propesyon na umaasa sa mga dalubhasang bokabularyo. Pinapayagan din nito ang mga personal na katulong sa mga sasakyan at smartphone, tulad ng Apple's Siri.

Bago mai-interpret ng anumang makina ang pagsasalita, ang isang mikropono ay dapat isalin ang mga panginginig ng boses ng isang tao sa isang signal ng kuryente. Ang signal na ito ay ibabalik ng hardware ng system - halimbawa, ang tunog card ng isang computer - sa isang digital signal. Ito ang digital signal na sinusuri ng isang programa ng pagkilala sa pagsasalita upang makilala ang hiwalay na mga ponema, ang pangunahing mga bloke ng pagsasalita ng pagsasalita. Ang mga ponema ay pagkatapos ay muling isasaalang-alang sa mga salita. Gayunpaman, maraming mga salita ang magkatulad, at, upang piliin ang naaangkop na salita, ang programa ay dapat umasa sa konteksto. Maraming mga programa ang nagtatag ng konteksto sa pamamagitan ng pagsusuri ng trigram, isang pamamaraan batay sa isang database ng madalas na tatlong-kumpol na kumpol kung saan ang mga probabilidad ay naatasan na ang anumang dalawang salita ay susundan ng isang naibigay na pangatlong salita. Halimbawa, kung sasabihin ng isang tagapagsalita na "sino ako," ang susunod na salita ay makikilala bilang panghalip na "Ako" sa halip na magkaparehas na tunog ngunit mas malamang na "mata." Gayunpaman, ang interbensyon ng tao kung minsan ay kinakailangan upang iwasto ang mga pagkakamali.

Ang mga programa para sa pagkilala ng ilang mga nakahiwalay na salita, tulad ng mga sistema ng pag-navigate sa boses ng telepono, ay gumagana para sa halos bawat gumagamit. Sa kabilang banda, ang patuloy na mga programa sa pagsasalita, tulad ng mga programa ng pagdidikta, ay dapat na sanayin upang makilala ang mga pattern ng pagsasalita ng isang indibidwal; ang pagsasanay ay nagsasangkot sa pagbabasa nang malakas ng gumagamit ng mga halimbawa ng teksto. Ngayon, sa dumaraming kapangyarihan ng mga personal na computer at mobile na aparato, ang katumpakan ng pagkilala sa pagsasalita ay napabuti nang malaki. Ang mga rate ng pagkakamali ay nabawasan sa halos 5 porsyento sa mga bokabularyo na naglalaman ng libu-libong mga salita. Kahit na ang higit na kawastuhan ay naabot sa limitadong mga bokabularyo para sa dalubhasang mga aplikasyon tulad ng pagdidikta ng mga diagnosis ng radiological.