ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 인간만 열 받는게 아냐... 반도체 미래 좌우할 초격차 기술은
    지금 이곳에선 2024. 6. 14. 10:01

    인간만 열 받는게 아냐... 반도체 미래 좌우할 초격차 기술은

    [WEEKLY BIZ] [김정호의 반도체 특강] 공랭식, 수랭식과 함께 액침 냉각 기술도 도입돼

    김정호 KAIST 전기·전자공학과 교수

    입력 2024.05.30. 18:26업데이트 2024.06.02. 07:41

    WEEKLY BIZ 뉴스레터 구독하기https://page.stibee.com/subscriptions/146096

    /그래픽=김의균, DALL E

    인간도 ‘열’ 받을 일이 있다. 이때 이마에 땀이 송골송골 맺힌다. 자연에서 ‘온도’란 물질을 이루는 분자나 원자의 운동 에너지를 수치화한 개념이다. 이마에 땀이 맺히게 되면 이마에서 공기로 운동 에너지가 이동해 이마의 열이 식게 된다.

    그런데 열 받는 건 인간만이 아니다.

    인공지능(AI) 반도체도 열이 엄청나게 발생해 식혀줘야 한다. AI 반도체에서 열이 나는 건 기본적으로 AI 반도체가 ‘디지털 회로’로 만들어졌기 때문이다. 디지털 회로엔 1과 0이란 두 가지 상태가 존재한다. 회로에서 1일 때 전류를 흘리고, 0일 때 전기를 끊어 표현한다.

    이들을 조합해서 무수한 논리 계산으로 원하는 결과를 만들어 낸다. 이들 계산으로 AI가 학습도 하고 생성도 한다. 이렇게 AI가 학습과 생성을 할 땐 1과 0 사이에 끝없는 변화(스위칭)가 필요하다. 1초에 조(兆) 단위 횟수로 일어난다.

    AI에 쓰이는 반도체인 GPU(그래픽처리장치) 안에는 수백억 개의 트랜지스터가 이렇게 전류 전환을 해낸다. 이렇게 스위칭을 할 때마다 반도체 내의 저항에서 열이 발생한다. 그래서 AI 반도체도 열을 많이 받는다.

    그러면 AI 반도체는 얼마나 많이 열을 낼까.

    엔비디아가 올 3월 처음 소개한 AI 수퍼칩 ‘블랙웰(GB200)’은 손바닥만 한 크기에 2.7KW의 전력을 소모한다. 전열기 수준의 열이 난다. 만약 냉각하지 않으면 온도가 섭씨 1000도 이상 올라가 다 녹아 버릴 것이다. 더구나 반도체는 온도가 올라가면 성능이 급격히 떨어진다.

    AI 학습과 생성 속도가 급격히 떨어지고, HBM(고대역폭 메모리)의 경우 저장해둔 데이터를 잃어버린다. 전류가 누설되기 때문이다. 여기에 더해 온도가 오르면 반도체나 패키지 내의 물질 사이 열팽창 계수의 차이로 인해 반도체가 휘어지고 금이 가게 된다. 그러면 결국 불량률이 높아진다.

    그래서 AI 반도체는 정해진 온도 미만으로 반드시 유지돼야 한다. 낮을수록 좋다. 이에 냉각 기술이 더욱 중요해지고 있다. 미래엔 AI 반도체 냉각 기술이 결국 ‘초격차 기술’이 될 것이다.

    냉각 기술엔 크게 세 가지 방법이 쓰인다. 우선 공기로 식히는 공랭식(空冷式) 냉각 기술이다.

    오토바이에서 엔진 열을 식히려고 엔진 표면에 날개 주름을 만들어 공기로 식히는 것과 비슷한 원리가 쓰인다. AI 반도체 뒷면에도 주름진 방열판을 붙이고 공기 팬을 틀어 냉각한다. 다음으론 수랭식(水冷式) 냉각 방법이다. 공기 대신 냉각수를 이용해 열을 식히는 방식이다.

    이때 냉각수의 누수 위험을 방지하는 게 중요하다. 이에 시스템 설계가 복잡하고, 비용도 증가한다. 액침 냉각(immersion cooling)이란 냉각 시스템도 도입되고 있다. AI 반도체를 전기가 통하지 않는 비전도성 액체에 담가 열을 식히는 기술이다. 먼 미래엔 AI 데이터센터 전체를 북극 얼음물 바닷속에 담글 날이 올 수도 있다. 그만큼 AI의 성능은 냉각 능력에 좌우될 것이다.

    여기에 더해 반도체를 보호하는 패키지의 물질이나 설계도 냉각 성능에 큰 영향을 준다. 열이 빠져나갈 통로를 마련해 둬야 하기 때문이다. HBM의 경우 쌓아 올리는 D램 사이에 ‘비전도성 필름(NCF)’이나 ‘채움 물질(underfill)’을 채운다. 일종의 접착제이자 빈 공간 메우기 물질이다.

    이때 열 전달을 돕고자 무기물, 세라믹이나 금속 입자를 인위적으로 추가하기도 한다. 입자가 작아야 하고 균일해야 한다. 이런 물질의 열전도 계수에 따라 HBM 성능까지 달라진다.

    HBM을 D램으로 층층이 쌓아 올린 아파트라 비유한다면, 데이터가 각 층을 오갈 수 있게 만든 엘리베이터 격인 ‘실리콘 관통 전극(TSV)’도 열 방출 통로로 사용된다.

    데이터를 나르는 것뿐만 아니라 열을 나르는 열 전달 엘리베이터로도 쓰이는 것이다. 이를 ‘열 관통 전극’이라고 부른다.

    AI 반도체에 열이 오르면 정상 작동이 어려우니, AI 반도체 내에 온도 센서도 여러 곳에 달아 온도가 올라가면 일부 기능을 멈추거나 속도를 줄이는 제어 회로 기술도 필요해졌다.

    차세대 HBM으로 개발 중인 HBM4는 맨 아래에 설치되는 ‘베이스 다이(Base Die)’를 통해 GPU의 계산 기능까지 더해진다. 열이 더 발생하는 구조란 얘기다. 결국 열 발생 제어와 냉각 기술이 HBM4의 성능과 신뢰성을 좌우할 전망이다. AI 반도체는 다양한 학문 분야가 융합된 다학제기술(multi-physics) 기술이다. 점점 융합적이고 복합적인 기술이 요구되고 있다.

    김정호 KAIST 전기·전자공학과 교수



    댓글

Designed by Tistory.