카카오 계정과 연동하여 게시글에 달린
댓글 알람, 소식등을 빠르게 받아보세요

가장 핫한 댓글은?

논문 요약! Attention Is All You Need

2026.06.23

4

228

1. Transformer attention
핵심은 QK^T → softmax → AV.
QK^T는 의미 관계 자체가 아니라 query-key 호환성 점수 행렬.
softmax는 점수를 정규화해 value를 섞는 가중치 행렬로 만듦.
A V로 각 토큰 표현을 문맥에 맞게 재조합함.

2. 네가 잡은 핵심 정리
LLM은 기존에 없는 새로운 문장 구조나 단어를 만들 수 없음.
학습된 단어, 구조를 재조합 하지만 선택의 판단 방식도 학습된 언어 패턴에 의존함.
새 은어/비속어처럼 같은 언어 또는 새로운 소설 등 불가.
신화/설화를 학습시킨다고 실마릴리온이 나오지는 않음.

3. 용어 비판
attention, memory, learning, knowledge, vector, tensor 같은 용어가 과하게 쓰임.
실제론 가중 혼합, 저장/참조, 파라미터 최적화, 패턴 압축, 숫자 배열, 다차원 배열에 가까움.
문제는 수학이 아니라 은유적 이름이 철학적/물리적 의미를 과장하는 것.

4. 철학적 연결
Transformer는 단일 본질 기준보다 토큰 간 관계 가중치의 중첩으로 의미를 구성함.
그래서 비트겐슈타인의 가족유사성과 연결 가능함.
단, 모델이 가족유사성을 이해하는 건 아니고, 그런 방식처럼 작동하는 계산 구조임.

5. 구현/산업 난이도
이론 수식은 단순하지만 실제 구현은 어려움.
병목은 GPU 연산 자체보다 메모리 대역폭, 동기화, 지연, 분산 통신, 최적화.
산업적 가치는 수식보다 대규모 데이터, 병렬 처리, 최적화, 스케일링 성공에서 나옴.

결론... 이딴거로 개인이 4조를 받는다고...?

카카오 계정과 연동하여 게시글에 달린
댓글 알람, 소식등을 빠르게 받아보세요

댓글 4개

2026.06.23

ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
1, 3 실제로 attention mechanism은 벡터의 프로젝션처럼 연산되는게 맞음. 다차원 배열이 실제로 텐서가 맞는데 무슨? 물론 텐서에 선형 변환 하나로 변환되면 일반 일차텐서에 가깝겠지만 미분기하 수준의 변환은 아니더라도 텐서처럼 다루는게 맞음. 딴거도 아니고 attention / memory / learning 이런거로 태클거는건 ㅋㅋㅋ;;; 당시 nlp에서 long-term memory 극복을 위한 맥락도 모름, 인공지능 지식과 수학적 지식도 둘다 제대로 없는거 같음

2. LLM은 데이터를 외우는게 아니라 데이터의 분포를 학습하는거임. 말대로 완전히 ood인 단어나 문장은 불가능하지만, in-distribution의 long-tail에 걸쳐있는 단어는 비교적 새로운 단어에 가까울 확률이 있음. 그리고 완전 새로운 소설이 탄생가능할 정도면 AGI는 그냥 딸깍이었겠지 그냥 생성형 모델 자체도 모르는것으로 보임

4. 뭔 개소리하는거임 이건

5. 애초에 트랜스포머 자체가 CNN이나 MLP 기존의 inductive bias가 없기떄문에 scaling이 가능했던 점에서 현재 많은 대형 모델의 백본이 되었고 대체가 안되는 것이고. 기본 트랜스포머 구현은 별로 안어려움;; 당연히 모델을 크게 만들었으니까 그런 요소가 중요한거지

딱봐도 통계좀 배운 문과생이 gpt 돌린 수준인거 같은데, 자아가 ㅈㄴ 비대하시네

대댓글 3개

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

댓글쓰기

게시판 목록으로 돌아가기

🔥 시선집중 핫한 인기글

최근 댓글이 많이 달린 글

확인