[논문리뷰] Including Signed Languages in Natural Language Processing

수화 영상 : 손짓 ,눈짓

https://www.youtube.com/watch?v=3esOubx5l4U

0. Abstract

수화는 언어학적 특징(linguistical property)을 가지고 있기 때문에, NLP의 도구나 이론이 유효할 것으로 예상한다. 그러나 기존의 SLP 에선 좀처럼 수화의 언어학적 특징을 연구하거나 활용하려 하지 않았다. 위 논문은 기존 SLP model의 한계를 알아보고, NLP 를 수화까지 확장해 볼 것이다. 최종적으로 우리는 아래 4가지를 촉구한다.

(1) the adoption of an efficient tokenization method (효율적인 토큰화 방식 채택)

(2) the development of linguistically-informed models (언어학에 정통한 모델의 발전)

(3) the collection of real-world signed language data ( 실제 수화 데이터 수집)

(4) the inclusion of local signed language communities as an active and leading voice in the direction of research. (수화 관련 단체들의 활발한 연구)

1. Introduction

스크린샷 2021-09-12 오후 11.44.30.png

사진 : CS 분야보다 현저하게 수화에 대한 연구가 적은 ACL

2. Background and Related Work

2.1 History of Signed Languages and Deaf Culture

2.2 Sign Language Processing in the Literature

3. Sign Language Lingusitics

Phonology (음운 체계)

Simultaneity (동시성)

눈짓 , 손짓 등 한번에 여러가지 표현할 수 있다.

Referencing

Fingerspelling

수화
각 나라의 손가락으로 된 스펠링들 존재

4. Current state of SLP

이번 챕터에선 현존하는 SLP의 resources, methods , tasks 를 알아볼 것이다.
또한, 후속연구에 제한이 되는 것들에 대해 논의할 것이다.

4.1 Representations of Signed Languages

스크린샷 2021-09-13 오후 2.11.00.png

구어와 달리 수어는 기준이되는 문체가 없기 때문에 , SLP에 있어서 representation은 중요하다.
- 표현 과정 : video stream → pose stream → sign writing → HamNoSys → ASL Gloss

Videos

SL 의 가장 직설적인(straightforward) 표현이며 , 상세하게(amply) 그 의미를 전달할 수 있다. 다만, 차원이 크다는 단점(drawback)이 있다. 큰 차원으로 인해 저장 , 전달, 인코딩하기에 비용이 비싸다. 또한 수화에서 표정은 중요한 요소인데 초상권 문제로 동영상 데이터는 public data로 쓰기엔 제한된다.
Poses

비디오의 시각적 요소를 줄여서 선구조(꼭짓점 연결한 구조)로 바꿔준다. 모션 캡처가 때론 더 좋기도 하지만 장비가 비싸고 , 현재는 비디오를 통한 방법이 더 선호되고 있다.

비디오보다 복잡도도 낮고 초상권 문제도 없고(annoymized) 정보 손실도 적다. 그러나! 대부분의 NLP 모델에선 연속적인 2차원 표현은 사용되지 않는다는 한계가 있다.
Written notation systems

비연속적이며 2차원 문자. 많은 표기법이 제안되었지만, 수화 커뮤니티에서 널리 채택된 건 없다. 표준이 없다보니 데이터를 표준화하거나 프로젝트에 적용하기가 힘들다.
Glossing

sign이 고유의 식별자를 가질 때, sign-by-sign을 각각 하나의 의미로 표기하는 것.

linear gloss annotation 또한 부정확한 표기이며 , 동시에 다른 단서(cues)를 표현할 수 없다.

SLP의 다운스트림 테스크에 활용하기엔 정보 손실이 불가피하다.

4.2 Existing Sign Language Resources

스크린샷 2021-09-13 오후 4.11.48.png

다른 형태의 resources들을 살펴보며 어떻게 그것들을 SL modeling에 적용할 지 얘기해보자.

Bilingual dictionaries

23,000개 단어 , 41개의 다른 구어-수화 쌍 표현 , 500,000개 이상의 비디오

어휘 규칙을 세우기에 적합함. 다만, 문법은 이야기 안함.
Fingerspelling corpora

구어를 빌려와 낱말마다 signed된 단어들의 비디오로 구성되어있다.

그러나 한가지 측면에서만 수어의 의미를 담고 있다.
Isolated sign corpora

주석이 달린(annotated) 단일 부호의 모음

한가지 언어로된(isolated) 수화 인식이나 minimal 수화 쌍의 대조 분석에 사용될 수 있다.
Continuous sign corpora

수화의 연속된 데이터와 구어를 포함한다. 수화의 연속된 데이터 뭉치는 극히 제한적이며, 구어 기계 번역에 대한 유사한 말뭉치 보다 4-6배 더 적은 문장 쌍을 포함한다.

보통 이런 데이터는 합성되거나, 스튜디오에서 촬영한 것들이다. 더욱이 구어 → 수화를 직역한 것이다보니 원어민 수화와 뜻이 다를 수 있다.
Availability (가용성)

얼마 없기도 하고, 구어를 직역한 거라 부정확하고, 그나마 있는 것도 라이센스가 강력해서 사용하기 어렵기도 하다. 얼굴 표정이 중요한데 이게 초상권문제로 수화에선 특히 쉽지 않다.

⇒ 정보 손실을 최소화하며 데이터를 익명화하는 것이 필요하다.

4.3 Sign Language Processing Tasks

스크린샷 2021-09-13 오후 4.13.25.png

Detection
Identification
Segmentation
Recognition
Translation
Production

5. Towards Including Signed Languages in Natural Language Processing

SLP 모델 설계는 수화의 언어적 특성에 대한 탐구가 부족해서 막히곤 한다.
CV 그룹의 시각화 전문성 , SL 그룹의 수화 사용 경험 & SLP 전문성을 NLP 그룹과 결합해야한다.
우선 , NLP의 과정을 소개함으로 다른 그룹이 이해할 수 있어야하며, 수화에서 SLP가 발전하면 좋은 점과 청각장애인 그룹의 수화 주인의식을 알려줄 필요가 있다.

5.1 Building NLP Pipelines

형식상 구어와 수화는 다르지만, 감성,구문, NLP의 화용론(Pragmatics) 측면에서 SLP가 NLP로 확장 가능할 것이고 그래야 한다.

Tokenization

많은 NLP 방법에선 비연속적인 입력을 요구한다. → 최우선으로 연속적인 수화 동영상을 discrete하게 바꿀 tokenization tool이 필요하다.
Syntactic Analysis

품사 태깅하는 건 문장의 단어들을 이해하는데 중요하다. 그러나 자동 구문 분석을 하는 언어학적 도구는 존재하지 않는다. (새로 만들어야할까? 아니면 기존에 구어에 쓰던걸 가져와 쓸 수 있을까?)
Named Entity Recognition (NER)
Coreference Resolution
Towards Linguistically Informed and Multi- modal SLP

5.2 Collect Real-World-Data

스크린샷 2021-09-13 오후 4.04.55.png

What is Good Signed Language Data?
Challenges of Data Collection

스크린샷 2021-09-13 오후 4.22.14.png

Automatic Anotation

5.3 Practioce Deaf Collaboration

Solving Real Needs
Building Collaboration

6. Conclusions

우리는 수화를 NLP에 포함시키길 촉구한다. 우리는 특히 성공적인 구어처리 방법과, 수화의 언어학적 특징을 알려주는 CV의 동영상 처리기술을 통해, SLP 기술이 발전될 것이라 믿는다. 수화 단체와 협력관계를 구축하며, 수화 데이터를 모으고 SLP 도구의 기술을 발전시키는데 관심과 노력이 증가하길 소망한다.

느낀점

방향성을 제시하는 논문은 그 분야에 대한 이해가 선행되면 좋을 것 같다. (수화 , 언어학)
수화를 정확하게 인식한다면, 모션을 통해 문장으로 인공지능에 명령할 수도 있을 것 같다.

(지금은 음성비서에 간단한 동작만 인식)
사업성 : 사이렌 오더가 잘된 이유 : 사람과 대화 안해도 되서 → 수화 인식 잘되면 쉽게 주문도 가능!
근데 정말 쉽지 않아 보인다.. (표준화 , 데이터 제작, 토크나이징..)