
බිහිරි අය සමඟ කතාබහ කිරිමට, කට හඬ උපදවිය නොහැකි අය සමඟ කතාබහ කිරිමට යනාදී වැඩ වෙනුවෙන් යොදා ගන්නා ප්රකට උපක්රමයක් තමයි තොල් සැලෙන රටා කියවීම කියන්නෙ. මේ වගේ තොල් සැලෙන රටාවට අනුව වචන හඳුනා ගැනීම හෙවත් ලිප් රීඩිං ගැන දන්නා ප්රවීණයෝ සිටිනවා. එහෙත් ඒ අයටත් සියලු දෙයම නිවැරදිව කියවන්න බැහැ.
දැන් ඒ වෘත්තිකයින්ටත් වඩා හොඳින් ලිප් රිඩිං වැඩ කළ හැකි කෘත්රිම බුද්ධි පරිගණක වැඩසටහන් හෙවත් ඇල්ගොරිතම කීපයක් එළි දක්වා තිබෙනවා. හඬ නැතිව තොල් සැලෙන ආකාරය පමණක් ඇති තැනකදී, මුවින් නික්මෙන වචන මොනවාදැයි අනුමාන කිරීම සංකීර්ණ ගැටලුවක්. එය විසඳීමට නිර්මානය කර ඇති ඇල්ගොරිතම, ලිප් රීඩිං ඇල්ගොරිතම නම් වෙනවා.
මේවා විශේෂයෙන් සකසා ඇත්තේ කතා නාද නැති වීඩියෝවකදී යම් කෙනෙක් කතා කරන්නේ මොනවාදැයි හඳුනා ගනු පිණිසයි. එයට අමතර වශයෙන් මෙම තාක්ෂණය භාවිතා කරමින් වීඩියෝ වෙතට විවිධ භාෂාවල කතා නාද එක් කරන්නට පුළුවන්. ඒවගේම කතා නාද වචන වලින් දක්වා, ඒ අනුව තොල් සැළෙන වීඩියෝ සකසන්නටත් පුළුවන්.
මේවා අතරින් දැන් වේගයෙන් ප්රකට වෙමින් යන්නේ Read Their Lips, Lip.ai, Sync.so, Hedra යනාදී වැඩසටහන්. මෙම ඇප් සියල්ලේදීම පාහේ, තොල් සැලෙන රටාව අනුමාන කරන්නේ CNN- Convolutional Neural Network නම් තාක්ෂණය භාවිතා කරමින්. වීඩියෝ ලක්ෂ ගණනක් ඇසුරෙන් මෙම කෘත්රිම බුද්ධි වැඩසටහන පුරුදු කර තිබෙන නිසා එය බොහෝ සෙයින් නිවැරදියි.
මේ අයුරින් තොල් සැලෙන රටා කියැවිය හැකි, ලොව පළමු සාර්ථක කෘත්රිම බුද්ධි ඇල්ගොරිතමය නිර්මාණය කරනු ලැබූයේ, වර්ෂ 2016දී බ්රිතාන්යයේ ඔක්ස්ෆර්ඩ් විශ්ව විද්යාලයේ පර්යේෂකයින් පිරිසක් විසින්. මෙම විෂය ක්ෂේත්රයේ ලොව ප්රකටම පර්යේෂකයෙක් සේ සැලකෙන, දැන් ගූගල් ඩීප්මයින්ඩ් කෘත්රිම බුද්ධි සමාගමේ පර්යේෂක යානිස් අසායෙල් එහි ප්රධානියා උනා.
තොල් සැලෙන රටාව හඳුනා ගත හැකි කෘත්රිම බුද්ධි ඇල්ගොරිතමයක් සැකසූ ඔවුහු තත්පර තුනක පමණ කාලයක් තුළ දිවෙන වීඩියෝ 29000ක්, උපසිරැසිද සහිතව යොදා, එය පුහුණු කර තිබෙනවා. එසේ වීඩියෝ කියවමින්, වචන දත්ත ගබඩාවක් සකසා, මෙම කෘත්රිම බුද්ධි පද්ධතිය, LipNet වශයෙන් එළි දැක්වුනා. එය භාවිතා කරන විට 93%ක නිවැරදිතාවෙන් යුතුව මතුලන දේ කියවිය හැකි උනා. වෘත්තීය මට්ටමේ තොල් කියවන්නන් පවා 60%ක නිවැරදිබවකින් ඔබ්බට යන්නේ කලාතුරකින් නිසා, මෙය විශිෂ්ට තත්ත්වයක්.
Leave a Reply