결론부터 말하면, “LLM은 클로즈드 액세스 논문 학습 못 해서 대학원생 급이라는 건 다 구라” → 👉 일부는 맞고, 핵심은 좀 틀린 말이에요.
⸻
1. 일단 구조를 나눠보면
당신 말은 대략 이렇게 정리할 수 있음: 1. 출판사들이 밥줄 지키려고 LLM이 자기네 논문 데이터 학습하는 걸 다 막고 있다 2. 그래서 Nature 같은 유료 논문은 LLM이 인용/요약을 못 한다, 초록만 가능하다 3. 그러니 “LLM이 대학원생급” 같은 소리는 다 뻥이다
이제 각 항목별로 뭐가 사실이고 뭐가 과장인지 보자.
⸻
2. LLM이 뭘로 학습됐는지 (공식 설명)
OpenAI가 공식적으로 밝힌 건: • 모델은 ① 공개 웹 데이터 + ② 라이선스 사온 데이터 + ③ 사람 검수자가 만든 데이터 로 학습된다.  • 공개 웹을 긁을 때는 **“유료벽(paywall) 뒤에 있는 걸 의도적으로 긁지는 않는다”**고 적혀 있음. 
즉,
“출판사들이 막아서 논문 데이터는 아예 못 봤다”
는 건 틀린 말이에요. 공짜 무단 크롤링은 줄어드는 추세지만, ‘돈 주고 라이선스로 받아가는’ 쪽은 오히려 늘고 있음.
⸻
3. 출판사들, 진짜 “다 막고” 있나?
3-1. 막는 쪽: 무단 크롤링 차단 • 뉴스·웹사이트 상당수가 robots.txt나 서버 레벨에서 AI 크롤러 차단 규칙을 넣고 있음.  • Cloudflare·Fastly 같은 CDN은 “AI 크롤러 기본 차단 + 필요하면 돈 받고 접근 허용” 같은 기능을 제공 중. 
그래서 “지들 밥줄 지키려고 막는다”는 감각 자체는 절반 정도 맞음.
3-2. 동시에, 팔고 있음: 라이선스 장사
근데 같은 시기에: • 뉴스 쪽: AP, Axel Springer(Politico, BI), Financial Times, News Corp(WSJ, NY Post 등), Vox, The Atlantic, Condé Nast(뉴요커, WIRED 등) 등이 OpenAI 같은 AI 회사에 콘텐츠를 라이선스로 판매. 이들 중 상당수는 유료 아카이브까지 훈련·요약에 쓰도록 허용하는 계약임.  • 학술 쪽: Wiley, Taylor & Francis, Oxford University Press 같은 대형 학술 출판사들이 LLM/AI 회사와 수천만 달러 규모 라이선스 계약을 공식적으로 인정했고, 이를 추적하는 “학술 컨텐츠–LLM 라이선스 트래커”까지 나와 있음.  • Nature가 직접 쓴 기사에서도, 여러 학술 출판사가 논문 데이터를 AI에게 라이선스로 팔고 있다고 밝힘. 
정리하면:
출판사들은 “LLM 학습을 막는 것”이 아니라 **“무단·공짜 학습은 막고, 돈 받고 팔고 있는 중”**에 더 가깝다.
그래서 “논문 데이터 학습이 다 막혔다”는 표현은 명백히 과장.
⸻
4. 그럼 지금 너(챗GPT)는 Nature 논문 못 읽지 않냐?
여기서 중요한 건 **“훈련 시점에 뭘 봤냐”**랑 **“지금 이 채팅에서 실시간으로 뭘 볼 수 있냐”**를 구분해야 해요.
4-1. 실시간 접근(브라우징) 한계 • 나는 로그인이나 학교 구독 권한이 없어서 유료벽 뒤 PDF, 구독자 전용 HTML 본문, ResearchGate 로그인 필요 페이지는 못 들어간다. • 사용자가 직접 논문 PDF나 본문을 붙여주면 그건 분석·요약 가능.
즉, 실시간 웹 브라우징 수준에서는 “paywall 앞까지만” 맞음.
4-2. 그럼 정말로 “초록만 읽는다”?
꼭 그런 건 아님: • Nature/Science급 “유명 논문”은 • 아예 오픈액세스인 경우도 많고, • arXiv/bioRxiv/medRxiv 같은 프리프린트 버전이 거의 항상 있고, • 리뷰 논문·블로그·뉴스·위키 등 2차 요약이 널려 있음. • 그런 경우 나는 • 프리프린트/리뷰/뉴스에 기반해서 실제 본문 구조와 주요 주장·실험 내용을 꽤 상세히 재구성 가능해요. • 반대로, • 프리프린트도 없고, • 딱히 요약글도 없고, • 출판사–AI 라이선스도 안 맺었고, • 당신이 텍스트도 안 보여 준 논문 → 이런 아주 특수한 케이스는 정말로 초록 정도밖에 못 안다고 보는 게 맞음.
그래서
“아카이브·RG에도 없고, 어디에도 안 풀린 유료 논문은 LLM이 모른다”
→ 그 조건에 한정하면 맞는 말이고,
“유명 논문들은 절대 요약 못하고 초록만 읽는다”
→ 전반적으로는 틀린 말이에요. 유명해질 정도면 대개 프리프린트나 2차자료가 따라다니거든요.
⸻
5. “LLM이 대학원생 급”이라는 말은?
여긴 두 층이 섞여 있음.
5-1. 시험·문제 풀이 기준
OpenAI가 공개한 GPT-4 성능 자료를 보면: • 모의 변호사 시험(bar exam)에서 상위 10% 수준, • 여러 AP 과목, SAT, GRE 같은 시험에서도 상위권 성적. 
이건 실제 점수로 찍힌 거라,
“일정 수준의 시험·문제 풀이 능력은 상위권 대학원생급이다”
라는 주장은 완전 구라라고 하긴 어렵다는 게 팩트.
5-2. “대학원생”의 실제 일을 생각하면
근데 현실 연구실에서의 대학원생은: • 최신 논문 직접 서치 & 읽고, • 아이디어 만들고, • 실험/코드 설계·구현하고, • 데이터 수집·검증하고, • 지도교수·동료랑 논쟁하며 연구 방향 조정하고, • 연구 윤리·재현성 책임지고, • 학회·저널에 직접 논문 투고까지 함.
지금 LLM(나 포함)은: • 실시간 웹·데이터베이스에 제한이 있고, • paywall·특수 DB(Scopus, Web of Science 등)는 접근 불가, • 실험 장비도 못 돌리고, 실제 세계와 상호작용 불가, • 긴 프로젝트 관리나 책임 있는 의사결정도 못 함.
그래서 학계에서도 보통 이렇게 정리해요: • 문제풀이·요약·초안 작성·코드 짜기 같은 좁은 태스크 → 꽤 “상위권 학생급” 성능이 나올 수 있다. • 실제 연구자 역할 전체 → 대학원생을 대체한다 수준은 아니다.
당신이 느끼는 “대학원생급이라고 포장하는 건 과장 아니냐”는 감각은 꽤 타당한데, 그 이유를 **“논문 데이터 학습을 못 해서”**로 설명하는 건 정확하진 않다는 정도.
⸻
6. 아주 짧게 총정리 1. 논문 데이터 학습 “전부 막혔다” • ❌ 틀림. 무단 크롤링은 많이 막혔지만, Wiley, T&F, OUP, 여러 뉴스·미디어·학술 출판사가 이미 LLM 회사에 논문·기사 데이터를 라이선스로 팔고 있음.  2. 지금 이 챗GPT는 paywall 논문을 실시간으로 못 본다 • ⭕ 맞음. 로그인/구독 없고, 사용자가 텍스트 안 주면 유료 PDF는 못 읽음. • 그래서 정말 어디에도 공개 안 된 논문은 초록 수준만 아는 경우 많다. 3. “유명 논문은 절대 요약 못 하고 초록만 읽는다” • ❌ 전반적으로 틀림. 유명 논문은 대개 프리프린트나 리뷰, 기사 등 2차 자료가 있어서 꽤 자세히 설명 가능. 4. “LLM 능력이 대학원생 급이라는 건 다 구라” • ⭕ 실제 연구자급이라고 포장하는 건 과장 섞인 마케팅에 가깝다. • ❌ 하지만 각종 시험·풀이 기준으로 “상위권 학생급”이라는 말 자체가 완전 뻥은 아니다.
요약하면,
출판사 vs LLM 싸움은 “완전 차단”이 아니라 **“공짜 크롤링은 막고, 유료 라이선스 장사로 재편 중”**이고, LLM은 문제풀이·요약·초안작성엔 꽤 쓸만하지만, 진짜 대학원생을 대체하는 수준은 아직 아니다… 정도로 보는 게 팩트에 가깝습니다.
댓글쓰기