카카오 계정과 연동하여 게시글에 달린
댓글 알람, 소식등을 빠르게 받아보세요

가장 핫한 댓글은?

본문이 수정되지 않는 박제글입니다.

Gpt 능력은?

2025.12.11

0

432

결론부터 말하면,
“LLM은 클로즈드 액세스 논문 학습 못 해서 대학원생 급이라는 건 다 구라” →
👉 일부는 맞고, 핵심은 좀 틀린 말이에요.



1. 일단 구조를 나눠보면

당신 말은 대략 이렇게 정리할 수 있음:
1. 출판사들이 밥줄 지키려고 LLM이 자기네 논문 데이터 학습하는 걸 다 막고 있다
2. 그래서 Nature 같은 유료 논문은 LLM이 인용/요약을 못 한다, 초록만 가능하다
3. 그러니 “LLM이 대학원생급” 같은 소리는 다 뻥이다

이제 각 항목별로 뭐가 사실이고 뭐가 과장인지 보자.



2. LLM이 뭘로 학습됐는지 (공식 설명)

OpenAI가 공식적으로 밝힌 건:
• 모델은
① 공개 웹 데이터 + ② 라이선스 사온 데이터 + ③ 사람 검수자가 만든 데이터
로 학습된다. 
• 공개 웹을 긁을 때는 **“유료벽(paywall) 뒤에 있는 걸 의도적으로 긁지는 않는다”**고 적혀 있음. 

즉,

“출판사들이 막아서 논문 데이터는 아예 못 봤다”

는 건 틀린 말이에요.
공짜 무단 크롤링은 줄어드는 추세지만, ‘돈 주고 라이선스로 받아가는’ 쪽은 오히려 늘고 있음.



3. 출판사들, 진짜 “다 막고” 있나?

3-1. 막는 쪽: 무단 크롤링 차단
• 뉴스·웹사이트 상당수가 robots.txt나 서버 레벨에서 AI 크롤러 차단 규칙을 넣고 있음. 
• Cloudflare·Fastly 같은 CDN은 “AI 크롤러 기본 차단 + 필요하면 돈 받고 접근 허용” 같은 기능을 제공 중. 

그래서 “지들 밥줄 지키려고 막는다”는 감각 자체는 절반 정도 맞음.

3-2. 동시에, 팔고 있음: 라이선스 장사

근데 같은 시기에:
• 뉴스 쪽: AP, Axel Springer(Politico, BI), Financial Times, News Corp(WSJ, NY Post 등), Vox, The Atlantic, Condé Nast(뉴요커, WIRED 등) 등이 OpenAI 같은 AI 회사에 콘텐츠를 라이선스로 판매. 이들 중 상당수는 유료 아카이브까지 훈련·요약에 쓰도록 허용하는 계약임. 
• 학술 쪽: Wiley, Taylor & Francis, Oxford University Press 같은 대형 학술 출판사들이 LLM/AI 회사와 수천만 달러 규모 라이선스 계약을 공식적으로 인정했고, 이를 추적하는 “학술 컨텐츠–LLM 라이선스 트래커”까지 나와 있음. 
• Nature가 직접 쓴 기사에서도, 여러 학술 출판사가 논문 데이터를 AI에게 라이선스로 팔고 있다고 밝힘. 

정리하면:

출판사들은 “LLM 학습을 막는 것”이 아니라
**“무단·공짜 학습은 막고, 돈 받고 팔고 있는 중”**에 더 가깝다.

그래서 “논문 데이터 학습이 다 막혔다”는 표현은 명백히 과장.



4. 그럼 지금 너(챗GPT)는 Nature 논문 못 읽지 않냐?

여기서 중요한 건 **“훈련 시점에 뭘 봤냐”**랑
**“지금 이 채팅에서 실시간으로 뭘 볼 수 있냐”**를 구분해야 해요.

4-1. 실시간 접근(브라우징) 한계
• 나는 로그인이나 학교 구독 권한이 없어서
유료벽 뒤 PDF, 구독자 전용 HTML 본문, ResearchGate 로그인 필요 페이지는 못 들어간다.
• 사용자가 직접 논문 PDF나 본문을 붙여주면 그건 분석·요약 가능.

즉, 실시간 웹 브라우징 수준에서는 “paywall 앞까지만” 맞음.

4-2. 그럼 정말로 “초록만 읽는다”?

꼭 그런 건 아님:
• Nature/Science급 “유명 논문”은
• 아예 오픈액세스인 경우도 많고,
• arXiv/bioRxiv/medRxiv 같은 프리프린트 버전이 거의 항상 있고,
• 리뷰 논문·블로그·뉴스·위키 등 2차 요약이 널려 있음.
• 그런 경우 나는
• 프리프린트/리뷰/뉴스에 기반해서
실제 본문 구조와 주요 주장·실험 내용을 꽤 상세히 재구성 가능해요.
• 반대로,
• 프리프린트도 없고,
• 딱히 요약글도 없고,
• 출판사–AI 라이선스도 안 맺었고,
• 당신이 텍스트도 안 보여 준 논문
→ 이런 아주 특수한 케이스는 정말로 초록 정도밖에 못 안다고 보는 게 맞음.

그래서

“아카이브·RG에도 없고, 어디에도 안 풀린 유료 논문은 LLM이 모른다”

→ 그 조건에 한정하면 맞는 말이고,

“유명 논문들은 절대 요약 못하고 초록만 읽는다”

→ 전반적으로는 틀린 말이에요. 유명해질 정도면 대개 프리프린트나 2차자료가 따라다니거든요.



5. “LLM이 대학원생 급”이라는 말은?

여긴 두 층이 섞여 있음.

5-1. 시험·문제 풀이 기준

OpenAI가 공개한 GPT-4 성능 자료를 보면:
• 모의 변호사 시험(bar exam)에서 상위 10% 수준,
• 여러 AP 과목, SAT, GRE 같은 시험에서도 상위권 성적. 

이건 실제 점수로 찍힌 거라,

“일정 수준의 시험·문제 풀이 능력은 상위권 대학원생급이다”

라는 주장은 완전 구라라고 하긴 어렵다는 게 팩트.

5-2. “대학원생”의 실제 일을 생각하면

근데 현실 연구실에서의 대학원생은:
• 최신 논문 직접 서치 & 읽고,
• 아이디어 만들고,
• 실험/코드 설계·구현하고,
• 데이터 수집·검증하고,
• 지도교수·동료랑 논쟁하며 연구 방향 조정하고,
• 연구 윤리·재현성 책임지고,
• 학회·저널에 직접 논문 투고까지 함.

지금 LLM(나 포함)은:
• 실시간 웹·데이터베이스에 제한이 있고,
• paywall·특수 DB(Scopus, Web of Science 등)는 접근 불가,
• 실험 장비도 못 돌리고, 실제 세계와 상호작용 불가,
• 긴 프로젝트 관리나 책임 있는 의사결정도 못 함.

그래서 학계에서도 보통 이렇게 정리해요:
• 문제풀이·요약·초안 작성·코드 짜기 같은 좁은 태스크 → 꽤 “상위권 학생급” 성능이 나올 수 있다.
• 실제 연구자 역할 전체 → 대학원생을 대체한다 수준은 아니다.

당신이 느끼는 “대학원생급이라고 포장하는 건 과장 아니냐”는 감각은 꽤 타당한데,
그 이유를 **“논문 데이터 학습을 못 해서”**로 설명하는 건 정확하진 않다는 정도.



6. 아주 짧게 총정리
1. 논문 데이터 학습 “전부 막혔다”
• ❌ 틀림. 무단 크롤링은 많이 막혔지만,
Wiley, T&F, OUP, 여러 뉴스·미디어·학술 출판사가 이미 LLM 회사에 논문·기사 데이터를 라이선스로 팔고 있음. 
2. 지금 이 챗GPT는 paywall 논문을 실시간으로 못 본다
• ⭕ 맞음. 로그인/구독 없고, 사용자가 텍스트 안 주면 유료 PDF는 못 읽음.
• 그래서 정말 어디에도 공개 안 된 논문은 초록 수준만 아는 경우 많다.
3. “유명 논문은 절대 요약 못 하고 초록만 읽는다”
• ❌ 전반적으로 틀림. 유명 논문은 대개 프리프린트나 리뷰, 기사 등 2차 자료가 있어서 꽤 자세히 설명 가능.
4. “LLM 능력이 대학원생 급이라는 건 다 구라”
• ⭕ 실제 연구자급이라고 포장하는 건 과장 섞인 마케팅에 가깝다.
• ❌ 하지만 각종 시험·풀이 기준으로 “상위권 학생급”이라는 말 자체가 완전 뻥은 아니다.

요약하면,

출판사 vs LLM 싸움은 “완전 차단”이 아니라
**“공짜 크롤링은 막고, 유료 라이선스 장사로 재편 중”**이고,
LLM은 문제풀이·요약·초안작성엔 꽤 쓸만하지만,
진짜 대학원생을 대체하는 수준은 아직 아니다… 정도로 보는 게 팩트에 가깝습니다.

카카오 계정과 연동하여 게시글에 달린
댓글 알람, 소식등을 빠르게 받아보세요

댓글 0개

댓글쓰기

게시판 목록으로 돌아가기

김박사넷의 새로운 거인, 인공지능 김GPT가 추천하는 게시물로 더 멀리 바라보세요.

자유 게시판(아무개랩)에서 핫한 인기글은?

자유 게시판(아무개랩)에서 최근 댓글이 많이 달린 글

🔥 시선집중 핫한 인기글

최근 댓글이 많이 달린 글