비디오 질의응답을 위한 멀티모달 문맥 트랜스포머

홈 > 연구문헌 >

한글제목(Korean Title)	비디오 질의응답을 위한 멀티모달 문맥 트랜스포머
영문제목(English Title)	Multi-modal Contextual Transformer for Video Question Answering
저자(Author)	최성호 장병탁 Seongho Choi Byoung-Tak Zhang
원문수록처(Citation)	VOL 48 NO. 02 PP. 0801 ~ 0803 (2021. 12)
한글내용 (Korean Abstract)	비디오 질의응답(Video Question Answering)은 비디오 이해 능력을 자연어 형태로 된 오지선다의 객관식 문제의 정확도로 측정한다. 기존에 트랜스포머를 활용하여 비디오 질의응답을 해결하기 위한 기법은 트랜스포머 계산 비용이 비디오의 길이가 늘어남에 따라 기하급수적으로 증가하여 사전학습 단계에서 문맥을 고려하지 못했다는 특징이 있다. 하지만 비디오의 문맥은 비디오의 내용을 자연스럽게 이해하기 위해 필수적으로 고려되어야 한다. 본 논문에서는 비디오의 문맥을 고려하여 트랜스포머를 학습시키는 방법을 제안하며, 이를 이용하여 비디오 질의응답을 해결하고자 한다. 제안하는 트랜스포머 학습 기법은 비디오 질의응답 외에도 비디오 이해를 위한 다양한 형태의 태스크에도 활용될 수 있다.
영문내용 (English Abstract)
키워드(Keyword)
파일첨부	PDF 다운로드

사이트맵