Default : max_len = 128 200 , scheduler =linear , optimizer = AdamW, weight_decay = 0, lr = 1e-5 , batch (8,64) 32 , epoch = (4) 10 , warmup_steps 300 500
nohup sh -c 'python train.py && python train.py --epochs 20 1> /dev/null 2>&1 && python train.py --seed 2020 1> /dev/null 2>&1' &
[10/06]
배치 큰게 더 나은 것 같다. 배치 64로 고정해서 돌리자. (시간되면 64랑 16비교하기)
⇒ 근데 길게 보면 더 좋은 지는 모르겠어서 다시 16, 32 서칭!!
loss 기준으로 early stopping 했었는데, Loss가 늘면서 f1도 같이 느는 현상 발생하므로 early stopping 빼고 에폭 늘려서 돌리기!
추가로 해볼 것들
일단 , 데이터 효석님꺼로 바꿔서 +typed entity marker (punct) 추가해서 다시 돌리자!
+) 배치 실험하고 , seed 섞고 모델은 동현님걸로!