안녕하세요 현재 석사 4학기 차에 접어들며, 학위 논문의 주제를 잡으며 교수님과 열심히 미팅을 하고 있는 석사과정 공학계열 대학원생입니다.
석사 학위 논문으로
최근 10년 간 기업의 XX보고서(보고서 당 약 100p, 약 80개 보고서)의 키워드와 트렌드를 분석하고자 합니다.
위 주제에 대해서 가장 사용하기 좋은 기법이 토픽 모델링인 것 같아 지도교수님께 '토픽 모델링을 활용할 예정이다!' 라고 말씀드렸는데, 교수님께서는 지금은 한물 간 방법이고, 산업에서는 좋을지 몰라도 연구적 측면에서는 그리 좋지 않다! 라고 말씀주시면서 다른 방법을 사용하고, 주제를 바꾸는게 어떻겠냐고 하시더라고요.
그 말을 듣고 Web of Science나 ASU 등에서 토픽 모델링을 키워드로 검색한 결과, 2년 전쯤 페이퍼 수가 피크를 찍긴 했으나 아직도 인기가 그리 많이 시들해지진 않았고, 제가 생각하는 논문 주제에 대한 연구 방법으로는 가장 적법하다고 생각이 듭니다...
제가 연구자로서 좁은 식견과 시야를 가지고 혼자 그렇게 생각하고 있는 것인지, 아니면 교수님께서 다른 방법이랑 헷갈리시거나 하여 말씀한 것인지..
조금 혼란스러운 상황이라 연구자 분들께 자문을 구하고자 글을 작성합니다..!!
(그리고.. 혹시 PDF로 이루어진 100p 정도의 80개 보고서의 공통된 키워드를 파악하기에 좋은 기법(토픽 모델링 제외)이 있다면 추천 주시면 정말정말 감사하겠습니다..)
카카오 계정과 연동하여 게시글에 달린 댓글 알람, 소식등을 빠르게 받아보세요
댓글 6개
2024.08.09
전통적인 Topic Modeling보다는 최근 LLM이랑 껴서 적용되는 Topic Modeling도 많아요. 몇가지 단점이 있긴 하지만, 그런거 사용하시거나 좀 개선해보시면 어떨까 싶네요~ Bertopic이라던지.. 사실상 아직 topic modeling을 완전히 대체할 수 있는 다른 시각화 기법은 없는 것 같습니다.
전통적인 토픽 모델링의 기반이 되는 LDA은 뉴럴넷을 사용하지 않았기 때문에 트렌드에서 뒤쳐진 건 사실이죠. 하지만 토픽 모델링이란게 특정 기법에 국한된 게 아니라, "corpus에 포함된 topic-document쌍을 추출"하는 태스크를 의미하기 때문에 (과거 토픽 모델을 연구해오던 분들이라면) neural net을 활용해서 지속적으로 발전이 가능하겠죠.
하지만 최근 토픽 모델링 논문들을 읽으면서 한 번 생각해 보세요. 토픽모델링의 가장 큰 목적은 "corpus를 (부가 정보 없이) 전반적으로 이해하기 위한 테크닉"이죠. LLM을 corpus로 finetuning시키거나 RAG으로 연결시키면, 토픽 모델 없이도 비슷한 목적을 달성할 수 있지 않을까요?
2024.08.09
대댓글 1개
2024.08.10
대댓글 1개
2024.08.11
대댓글 1개