카카오 계정과 연동하여 게시글에 달린
댓글 알람, 소식등을 빠르게 받아보세요

가장 핫한 댓글은?

머신러닝 질문 있습니다

2023.03.14

3

840

안녕하세요 신소재공학의 대학원생입니다.

제가 실험 값 기반으로 머신러닝 훈련 연구를 진행 중인데 질문이 있습니다.

실험 내용이 중요한건 아니니 끓는 점으로 예시를 들어서 설명을 해보겠습니다.

물질이 몇만개 정도 있는 A 데이터 베이스에서 1000개 정도 제가 실험을 통해 끓는 점을 구했습니다.

제가 원하는건 끓는 점이 1400도 이상인 물질입니다.

그래서 1000개의 데이터를 기반으로 모델을 훈련시켜 A 데이터 베이스를 스크리닝 시켜 1400도 이상을 가질 것이라 예상되는 후보 물질 100개를 선정하게 되었습니다. (훈련 모델 score는 R 기준 0.85)

그런데 데이터가 1000개 뿐이고 데이터 1000개 중에는 끓는 점이 1000도 이상 되는 것이 몇개 없는 수준이라 target property가 학습 데이터 range 밖을 벗어나 있는 상태 입니다.

그러다보니 100개 중에 검증 실험을 하는 중인데 결과를 보니 절반 정도만 조건을 만족하게 되네요.

그래서 검증 실험을 거친 물질 60개를 1000개 데이터 뒤에 추가시켜 1060개의 데이터로 학습을 하려고 합니다.

결과는 훈련도 잘되고 (R = 0.95) 후에 A 데이터 베이스에 스크리닝 한 결과도 꽤나 만족스럽게 나옵니다.

근데 이런 식으로 훈련 과정이 진행되도 괜찮은건가요?

즉, 모델 훈련 -> 데이터베이스 스크리닝 -> 스크리닝으로 선별된 물질을 검증 실험을 통해 데이터에 다시 추가 (결과가 좋든 안좋든) -> 모델 재학습 -> 같은 데이터베이스 스크리닝 -> 최종결과 이 과정이 혹시 문제는 없을까요?

만약 훈련 과정이 문제 없이 정상이라면 논문을 쓰게 될 때 어떤 식으로 설명할 수 있을까요? 그냥 위 과정 그대로 설명하면 될까요?

지금 연구실에 머신러닝 건드리는 사람이 교수님 포함해서 아무도 없다보니 질문 드려봅니다. 감사합니다

카카오 계정과 연동하여 게시글에 달린
댓글 알람, 소식등을 빠르게 받아보세요

댓글 3개

2023.03.15

기존 1000개와 비교하여, 이후 1060개로 실험했을 때에는 새롭게 검증한 60개의 샘플을 train dataset으로 추가했을 것으로 생각됩니다. 이런 경우엔 1000개일 때와 1060개일 때의 test dataset에 대한 학습과정동안의 accuracy 차이를 보여줄 수 있을 것 같습니다. 다만, 한 가지 짚고 싶은 점을 신약개발 분야를 예로 들어보겠습니다. 모종의 방법으로 분자를 벡터로 표현하였을 것이고,

대댓글 1개

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

2023.03.22

땡. Cross validation 해보세요.

댓글쓰기

게시판 목록으로 돌아가기

자유 게시판(아무개랩)에서 핫한 인기글은?

자유 게시판(아무개랩)에서 최근 댓글이 많이 달린 글

🔥 시선집중 핫한 인기글

최근 댓글이 많이 달린 글