수화 영상 : 손짓 ,눈짓
https://www.youtube.com/watch?v=3esOubx5l4U
수화는 언어학적 특징(linguistical property)을 가지고 있기 때문에, NLP의 도구나 이론이 유효할 것으로 예상한다. 그러나 기존의 SLP 에선 좀처럼 수화의 언어학적 특징을 연구하거나 활용하려 하지 않았다. 위 논문은 기존 SLP model의 한계를 알아보고, NLP 를 수화까지 확장해 볼 것이다. 최종적으로 우리는 아래 4가지를 촉구한다.
(1) the adoption of an efficient tokenization method (효율적인 토큰화 방식 채택)
(2) the development of linguistically-informed models (언어학에 정통한 모델의 발전)
(3) the collection of real-world signed language data ( 실제 수화 데이터 수집)
(4) the inclusion of local signed language communities as an active and leading voice in the direction of research. (수화 관련 단체들의 활발한 연구)
Videos
SL 의 가장 직설적인(straightforward) 표현이며 , 상세하게(amply) 그 의미를 전달할 수 있다. 다만, 차원이 크다는 단점(drawback)이 있다. 큰 차원으로 인해 저장 , 전달, 인코딩하기에 비용이 비싸다. 또한 수화에서 표정은 중요한 요소인데 초상권 문제로 동영상 데이터는 public data로 쓰기엔 제한된다.
Poses
비디오의 시각적 요소를 줄여서 선구조(꼭짓점 연결한 구조)로 바꿔준다. 모션 캡처가 때론 더 좋기도 하지만 장비가 비싸고 , 현재는 비디오를 통한 방법이 더 선호되고 있다.
비디오보다 복잡도도 낮고 초상권 문제도 없고(annoymized) 정보 손실도 적다. 그러나! 대부분의 NLP 모델에선 연속적인 2차원 표현은 사용되지 않는다는 한계가 있다.
Written notation systems
비연속적이며 2차원 문자. 많은 표기법이 제안되었지만, 수화 커뮤니티에서 널리 채택된 건 없다. 표준이 없다보니 데이터를 표준화하거나 프로젝트에 적용하기가 힘들다.
Glossing
sign이 고유의 식별자를 가질 때, sign-by-sign을 각각 하나의 의미로 표기하는 것.
linear gloss annotation 또한 부정확한 표기이며 , 동시에 다른 단서(cues)를 표현할 수 없다.
SLP의 다운스트림 테스크에 활용하기엔 정보 손실이 불가피하다.
다른 형태의 resources들을 살펴보며 어떻게 그것들을 SL modeling에 적용할 지 얘기해보자.
Bilingual dictionaries
23,000개 단어 , 41개의 다른 구어-수화 쌍 표현 , 500,000개 이상의 비디오
어휘 규칙을 세우기에 적합함. 다만, 문법은 이야기 안함.
Fingerspelling corpora
구어를 빌려와 낱말마다 signed된 단어들의 비디오로 구성되어있다.
그러나 한가지 측면에서만 수어의 의미를 담고 있다.
Isolated sign corpora
주석이 달린(annotated) 단일 부호의 모음
한가지 언어로된(isolated) 수화 인식이나 minimal 수화 쌍의 대조 분석에 사용될 수 있다.
Continuous sign corpora
수화의 연속된 데이터와 구어를 포함한다. 수화의 연속된 데이터 뭉치는 극히 제한적이며, 구어 기계 번역에 대한 유사한 말뭉치 보다 4-6배 더 적은 문장 쌍을 포함한다.
보통 이런 데이터는 합성되거나, 스튜디오에서 촬영한 것들이다. 더욱이 구어 → 수화를 직역한 것이다보니 원어민 수화와 뜻이 다를 수 있다.
Availability (가용성)
얼마 없기도 하고, 구어를 직역한 거라 부정확하고, 그나마 있는 것도 라이센스가 강력해서 사용하기 어렵기도 하다. 얼굴 표정이 중요한데 이게 초상권문제로 수화에선 특히 쉽지 않다.
⇒ 정보 손실을 최소화하며 데이터를 익명화하는 것이 필요하다.
형식상 구어와 수화는 다르지만, 감성,구문, NLP의 화용론(Pragmatics) 측면에서 SLP가 NLP로 확장 가능할 것이고 그래야 한다.
Tokenization
많은 NLP 방법에선 비연속적인 입력을 요구한다. → 최우선으로 연속적인 수화 동영상을 discrete하게 바꿀 tokenization tool이 필요하다.
Syntactic Analysis
품사 태깅하는 건 문장의 단어들을 이해하는데 중요하다. 그러나 자동 구문 분석을 하는 언어학적 도구는 존재하지 않는다. (새로 만들어야할까? 아니면 기존에 구어에 쓰던걸 가져와 쓸 수 있을까?)
Named Entity Recognition (NER)
Coreference Resolution
Towards Linguistically Informed and Multi- modal SLP
우리는 수화를 NLP에 포함시키길 촉구한다. 우리는 특히 성공적인 구어처리 방법과, 수화의 언어학적 특징을 알려주는 CV의 동영상 처리기술을 통해, SLP 기술이 발전될 것이라 믿는다. 수화 단체와 협력관계를 구축하며, 수화 데이터를 모으고 SLP 도구의 기술을 발전시키는데 관심과 노력이 증가하길 소망한다.
느낀점
방향성을 제시하는 논문은 그 분야에 대한 이해가 선행되면 좋을 것 같다. (수화 , 언어학)
수화를 정확하게 인식한다면, 모션을 통해 문장으로 인공지능에 명령할 수도 있을 것 같다.
(지금은 음성비서에 간단한 동작만 인식)
사업성 : 사이렌 오더가 잘된 이유 : 사람과 대화 안해도 되서 → 수화 인식 잘되면 쉽게 주문도 가능!
근데 정말 쉽지 않아 보인다.. (표준화 , 데이터 제작, 토크나이징..)