하이퍼 파라미터 튜닝(max_len , weight_decay, scheduler , optimizer , lr , batch)

스크린샷 2021-10-05 오후 10.19.49.png

Default : max_len = ~~128~~ 200 , scheduler =linear , optimizer = AdamW, weight_decay = 0, lr = 1e-5 , batch ~~(8,64)~~ 32 , epoch = (4) 10 , warmup_steps ~~300~~ 500

Untitled

nohup sh -c 'python train.py && python train.py --epochs 20 1> /dev/null 2>&1 && python train.py --seed 2020 1> /dev/null 2>&1' &

[10/06]

배치 큰게 더 나은 것 같다. 배치 64로 고정해서 돌리자. (시간되면 64랑 16비교하기)

⇒ 근데 길게 보면 더 좋은 지는 모르겠어서 다시 16, 32 서칭!!
loss 기준으로 early stopping 했었는데, Loss가 늘면서 f1도 같이 느는 현상 발생하므로 early stopping 빼고 에폭 늘려서 돌리기!
추가로 해볼 것들
- 배치 (16 or 32) , seed 바꿔보기 , epoch 늘려보기
- TAPT 값으로 학습시켜보기
- seed 만 바꿔서 앙상블해보기!

일단 , 데이터 효석님꺼로 바꿔서 +typed entity marker (punct) 추가해서 다시 돌리자!

typed entity marker (punct) 코드 추가하고 이해하기 (찍어보기)
데이터 증강도 잘 고민해보고 이해해보기.

+) 배치 실험하고 , seed 섞고 모델은 동현님걸로!