A1. Truncated BPTT : 시퀀스 길이가 길어지면 BPTT를 통한 역전파 알고리즘이 불안정해지므로 일정 길이로 잘라서 진행하는 것이다.
다 가능하다.
A1. 자세하게 식이 어떻게 되는 지는 좀 더 정리해서 말씀 드릴게요 ,,
읽어봐야할 것 : hierachical attention network!
공부 Tip
배웠던 것들을 그때그때 블로그 & 노션에 정리하는 습관 (잘 되지 않음)
읽었던 논문도, 논문 관리하는 툴(맨들레이)을 이용해서 정리했다. → pdf만 업로드하면 논문 기본 정보들 정리해준다.
추천하는 강의 (CS 224N)
Stanford CS 224N | Natural Language Processing with Deep Learning
논문 읽는 법