카카오 계정과 연동하여 게시글에 달린
댓글 알람, 소식등을 빠르게 받아보세요

가장 핫한 댓글은?

인공지능쟁이 선배님들 한테 질문

2025.02.12

8

784

혹시 모델 짜실 때 cuda나 triton으로 개발해서 사용해보신 경험 있으신 분 있을까요?

재밋어서 해보고 있긴한데 ,
Cuda 단에서 설계하는건 xlstm이나 flash attention mamba , ring attention 정도에서나 봤지 대부분은 그냥 torch 써서 개발하시더라구요.

혹시 인공지능 과제에서나 논문에서 개발해보신 경험 있으신 분들 있을까요??

카카오 계정과 연동하여 게시글에 달린
댓글 알람, 소식등을 빠르게 받아보세요

댓글 8개

2025.02.13

최근 triton으로 커스텀 커널 개발했는데, 문서화도 잘 안되어있고 제약이 많아서 꽤 고생했습니다.
c++익숙하시면 cuda가 차라리 편할것 같아요

대댓글 1개

2025.02.13

커스텀 커널은 혹시 어떤 이유로 개발하셧을가요?

2025.02.13

산업에선 성능이 중요한 특수한 경우 아니면 그냥 pytorch 씁니다.
CUDA나 triton은 성능 튜닝할때 쓰는거고 논문용으로 커스텀 kernel 짜는건 취미생활에 가깝죠.

대댓글 2개

2025.02.13

근데 요즘 llm 쓰실때 다들 flash attention은 쓰시지 않나요?

2025.02.13

flash attention정도는 pytorch에서 제공해주지않나요?

2025.02.13

그냥 pytorch로 개발해서 cuda로 돌아가게 하는게 대부분이죠.

2025.02.15

원하는 형태의 sparse attention을 효율적으로 처리할 방법이 없어서 직접 만들었습니다.
시퀀스길이가 2만이 넘는 계산을 해야되는데 기본 sdpa는 전체 연산후 마스킹하는 방식이라 너무 비효율적이더라구요

2025.02.15

혹시 triton개발 관심있으시면 쪽지주세요.
저도 이번에 공부하면서 많이 배워서 도움필요하시면 알려드릴게요.

댓글쓰기

게시판 목록으로 돌아가기

김박사넷의 새로운 거인, 인공지능 김GPT가 추천하는 게시물로 더 멀리 바라보세요.

자유 게시판(아무개랩)에서 핫한 인기글은?

자유 게시판(아무개랩)에서 최근 댓글이 많이 달린 글