Çѱ۳»¿ë (Korean Abstract) |
ÃÖ±Ù Àü »ê¾÷ºÐ¾ß¿¡ ÀΰøÁö´É ±â¼úÀÇ µµÀÔÀÌ È°¹ßÈ÷ ÁøÇàµÇ°í ÀÖ´Ù. ƯÈ÷ À½¼ºÀÎ½Ä ºÐ¾ß´Â °³ÀÎ ¸ð¹ÙÀÏ¿¡¼ºÎÅÍ À½¼ºÃ³¸® ¼ºñ½º¸¦ ÇÏ´Â ºÐ¾ß·Î ´õ¿í È®´ëµÇ¾î ÁøÇàµÇ°í ÀÖ´Ù. À½¼ºÀνÄÀÇ ¹ß´Þ¿¡ µû¸¥ À½¼º°¨Á¤ÀνÄ(Speech emotion recognition, SER)ÀÇ ¿¬±¸ ºÐ¾ßµµ ¸¹ÀÌ ºÎ°¢µÇ°í ÀÖ´Ù. º» ³í¹®¿¡¼´Â À½¼º°¨Á¤ÀνÄÀ» À§ÇÑ Àüó¸® °úÁ¤¿¡¼ End-to-End ¹æ½Ä°ú ¸á ½ºÆåÆ®·Î±×·¥À» È°¿ëÇÑ ¹æ½ÄÀ» ÀÎ½Ä ¸ðµ¨¿¡ ¹Ý¿µÇÏ¿© ¼º´ÉÀ» ºÐ¼®Çؼ ºñ±³Çϱâ·Î ÇÑ´Ù. º» ³í¹®¿¡¼ À½¼º°¨Á¤ÀνĿ¡ »ç¿ëµÇ´Â µ¥ÀÌÅÍ ¼Â(IEMOCAP)À» »ç¿ëÇÏ¿© 4°¡Áö °¨Á¤(ºÐ³ë, ±â»Ý, ½½ÇÄ, º¸Åë)À» ¼±Á¤ÇÏ¿© 3°¡Áö ÀÎ½Ä ¸ðµ¨(CNN, LSTM, RNN)À» È¥¿ëÇÏ¿© ¼º´ÉÀ» ºñ±³ÇÏ¿´´Ù. º» ºñ±³ ºÐ¼®À» ÅëÇÏ¿© ÇâÈÄ À½ÇâÀû Ư¡°úÀÇ ¿¬°ü°ü°è¿Í ¸ðµ¨ÀÇ º¯Çü ¹ßÀüÀ» ÅëÇÑ Àνķü Çâ»ó¿¡ ´ëÇÑ ¿¬±¸¸¦ ÁøÇàÇÏ°íÀÚ ÇÑ´Ù.
|