ai 컴공 연구 윤리

2023.01.20

2519

컴공 ai 쪽에서 연구 윤리에 대해 의견을 여쭙니다.

동료들과 얘기해봐도 다 다른거 같습니다.

어느 것이 데이터 조작일까요?

1. test 결과를 마지막 한번 뽑을때만 보는 경우

2. 발전 시킬때마다 validation으로 하이퍼 파라미터 찾고 test결과 내가

3. 성능이 잘나오는 random seed를 고르는 경우

4. test는 노출 되었지만 논문에 작성한대로만 돌리면 비슷한 결과가 나오는 경우

5. 개발한 모델을 결과가 잘나오는 데이터만 table에 싣는 경우

등등

다들 기준이 어떠신가요?
competition을 제외하고 수업때 받은데로 test를 노출 하지 않고 실험 할수 잇을까요?

카카오 계정과 연동하여 게시글에 달린
댓글 알람, 소식등을 빠르게 받아보세요

댓글 14개

속편한 장자크 루소*

2023.01.20

1, 2는 왜? 데이터 조작일 수가 있나?

대댓글 3개

2023.01.20

1은 정석인데, 2는 test 결과를 모델을 발전 시킬때마다 보자나요. 결국에는 이 과정을 수십 수백번 반복하면 결과는 높아질수 밖에 없지 않나요?

속편한 장자크 루소*

2023.01.20

validation을 본다고 했잖아?

2023.01.20

val로 하이퍼 찾고 실험 결과를 뽑으면 결국엔 test를 보는데 가설이 맞지 않으면 또 다시 다른거 적용해보고 val로 하이퍼 찾고 test 보고 반복 이짆아요

2023.01.20

2보고 놀라며 댓글 작성합니다. 혹시나 해서 박사과정은 아니실거라고 바래보며 혹시나 박사과정생이시라면 다시 한번 생각해보시길 바라며 댓글 남깁니다.

테스트 과정은 말 그대로 훈련에 관여하지 않은 임의의 셋에 대하여 모형의 평가를 하기 위한 데이터 표본이지요.

Valid set은 훈련 각 에폭마다 파라미터 업데이트를 위한 방향성을 잡아주는 셋이구요.
그리고 나온 최종 모형을 가지고 test에서 평가를 하게 되는거지요.

여기서 가장 중요한 hypothesis는 이 test 셋이 전체 모집단을 반영해줄 것이며 그렇기 위해서 대부분 test set은 랜덤하게 추출됩니다.

하지만 이 결과 값이 충분하지 않으면 전처리를 다르게 한다거나 post processing을 통해서 성능 향상을 하고 validation에서 결과를 보고 test셋에서 최종 성능을 보고 결과를 마무리 짓게 되는데, 이게 문제가 된다는건가요?

훈련 과정에 참여하지 않은 표본으로 모형의 평가를 하고 다시 훈련하거나 다른 방법론을 쓰는건 문제가 되지 않습니다.

대댓글 3개

2023.01.20

예를들묜 엄밀하게 한다고 이론이 틀리면 업데이트마저도 하지 않고 무조건 틀렸으니 갈아 엎어라 이렇게 되는건데 이게 맞는 방법론인지 싶네요.

평가를 하고 휸련에 개입하지 않은 방법으로 최종 성능을 업데이트 하는건 문제의 소지가 없습니다.
이게 문제라고 하면, 지금 까지 연구를 반박하는 페이퍼를 내시면 될거에요

2023.01.20

동의합니다. 이 방법론 밖에 없는것도 알지만, 결국에는 시간 문제인가라는 생각, 내 가설을 소설 잘 쓰고 작동하는 3-4개 대이터셋 보여주면 되는 거 아닌가라는 생각이 들어 현타가 오는 거 같습니다.

2023.01.23

2와 같은 문제 때문에 나중에 새로운 테스트셋을 만들어서 이전 연구들이 실제로 성능 개선이 있었는지, 갈아엎고 목적의 연구도 많습니다. 특히 imagenet의 경우 각종 test set이 존재하는데, in domain의 경우 imagenet v2이 있고 domain generalization을 보기 위한 셋으로는 common corruption, sketch, objectnet 등 셋이 있습니다.

2023.01.20

2번은 multiple testing 에 의해 우연하게 좋은 결과가 나왔을 때 이에 대한 신뢰도가 문제가 되는 경우가 있습니다. 그래서 hyperparameter tuning 에 민감한 ML 연구는 재현성 이슈가 따라 붙곤 합니다. 그렇다고 해서 이를 데이터 조작이라 보기는 어렵고, 해당 실험의 신뢰성이 높지 않다고 판단하면 됩니다. 그럴 때는 다른 데이터 혹은 다른 task 에서 hyperparameter tuning 를 하지 않고 벤치마크와 비교실험을 하면 됩니다.

대댓글 1개

2023.01.20

3, 4 번은 문제가 있는 행위이고 5번은 논문에 작성된 메시지에 따라 다르게 해석해야 할 듯 하네요. 어떤 데이터에 특화된 모델이라고 주장할 수는 있으니까요.

2023.01.21

짱깨들중엔 표에 sota 미리써놓고 논문낸다음에 나중에 어거지로 맞추거나 못맞추면 공개안하는 애들도 넘쳐남 ㅋㅋㅋㅋ

2023.01.22

3,4 는 문제가 있는것 같고 1,2는 정석이죠.
5는 논문의 효용을 보이기 위해 충분히 필요할 수도 있는 조건일듯 합니다. 정말 부실한 검증이면 리뷰어들이 가만 안놔두겠죠

대댓글 1개

2023.01.22

3번도 고르는 과정을 Val set으로 한다면 문제는 아니지만 재현성 이슈가 붙을겁니다

2023.01.22

1번은 모르겠고 나머진 전부 조작이네요.

댓글쓰기

게시판 목록으로 돌아가기

자유 게시판(아무개랩)에서 핫한 인기글은?

자유 게시판(아무개랩)에서 최근 댓글이 많이 달린 글

🔥 시선집중 핫한 인기글

최근 댓글이 많이 달린 글