딸깍 한 번이면 AI 서비스가 된다는 거짓말

만들 수 있는 것과 서비스할 수 있는 것은 전혀 다른 문제다. 그 사이에는 소프트웨어 역사상 한 번도 제대로 겪어본 적 없는 비용 구조가 가로놓여 있다.

1. 데모는 누구나 만든다

요즘 인터넷에는 이런 말이 넘쳐난다. "AI API 키 하나만 있으면 딸깍딸깍 그럴듯한 서비스를 만들 수 있다." 절반은 맞는 말이다. 실제로 지금은 몇 시간이면 자연어로 대화하며 정보를 주는 챗봇 한 개쯤은 거뜬히 띄울 수 있다. 프롬프트를 짜고, API를 붙이고, 프런트엔드를 얹으면 끝이다. 20년 전 같았으면 자연어 처리 연구팀 하나가 몇 년을 매달려야 했을 일이다.

그래서 사람들은 착각한다. 만들었으니 서비스도 되겠지.

여기서부터가 함정이다. 우리가 방금 만든 것은 데모다. 동작하는 데모와, 불특정 다수에게 24시간 열어두고 돌아가는 서비스는 완전히 다른 물건이다. 그리고 그 둘을 가르는 것은 코드 실력도, 아이디어도 아니다. 바로 비용 구조다.

2. 소프트웨어가 세상을 먹어치운 이유

왜 지난 30년 동안 골방 개발자 한 명이 만든 앱이 수백만 명을 상대하는 일이 가능했을까. 답은 소프트웨어의 한계비용이 0에 수렴하기 때문이다.

전통적인 소프트웨어의 경제학은 단순하다. 만드는 데는 큰 고정비(개발 시간, 인건비)가 들지만, 일단 만들고 나면 사용자 한 명을 더 받는 데 드는 추가 비용은 사실상 0에 가깝다. 백만 번째 사용자에게 서비스를 제공하는 한계비용은 약간의 트래픽 대역폭과 서버 한 줌이 전부다. 그래서 한 번 잘 만든 소프트웨어는 사용자가 늘어날수록 단위당 비용이 떨어지고, 규모가 곧 수익이 된다. Build once, serve infinitely. 이 공식이 카카오톡을, 인스타그램을, 수많은 1인 개발 앱을 가능하게 했다.

소프트웨어가 세상을 먹어치울 수 있었던 건 천재 개발자가 많아서가 아니라, 이 한계비용 0의 마법 때문이었다.

AI 서비스는 이 마법을 깨버린다.

3. AI 추론에는 반드시 돈이 든다

AI 서비스의 본질은 매 요청마다 거대한 신경망을 한 번씩 돌리는 것이다. 사용자가 말 한마디를 건넬 때마다 수십억~수천억 개의 파라미터를 통과하는 연산(추론, inference)이 실제로 일어난다. 그 연산은 공짜가 아니다. 누군가는 GPU를 돌렸고, 전기를 태웠다.

즉 AI 서비스는 사용자 한 명이 늘 때마다, 대화 한 줄이 오갈 때마다 실제 현금이 빠져나가는 구조다. 한계비용이 0이 아니라, 사용량에 정비례해서 계속 발생한다. 이건 소프트웨어의 경제학이 아니라 차라리 제조업이나 전력 공급업의 경제학에 가깝다. 원료(연산)를 투입해야 제품(응답)이 나오고, 많이 팔수록 원료비도 그만큼 든다.

그래서 잔인한 역설이 생긴다. 전통적인 앱은 입소문을 타고 사용자가 폭증하면 축배를 든다. AI 앱은 사용자가 폭증하면 고지서가 폭증한다. 성공이 곧 출혈인 것이다.

이 한 가지 사실만 이해해도, "딸깍 만들기" 담론이 무엇을 빼먹고 있는지 보인다. 그들이 쉬워졌다고 말하는 건 *만드는 비용(고정비)*이다. 그건 정말로 거의 0이 됐다. 하지만 *서비스하는 비용(변동비)*은 단 한 번도 0이 된 적이 없고, 앞으로도 그럴 것이다. 쉬워진 건 데모고, 비싼 채로 남아 있는 건 운영이다.

4. 첫 번째 길 — API: 남의 GPU를 토큰으로 빌리기

그럼 그 비용이 구체적으로 얼마인가. 두 갈래 길이 있다.

첫 번째는 API다. OpenAI, Anthropic, 구글 같은 곳이 GPU를 다 사놓고, 우리는 토큰 단위로 추론을 빌려 쓴다. 2026년 현재 가격 경쟁이 치열해져서 1년 전보다 단가가 80% 가까이 떨어졌다. 가장 싼 축의 모델은 입력 100만 토큰에 0.1~0.15달러, 출력은 보통 그 3~10배 수준이다. 좋은 모델로 올라가면 입력 100만 토큰에 수 달러, 프런티어급은 출력 100만 토큰에 25~30달러까지 뛴다.

100만 토큰에 몇백 원이라니, 싸 보인다. 함정은 "100만 토큰"이라는 단위의 감각이다. 자연스러운 대화형 서비스는 한 번 응답할 때마다 시스템 프롬프트, 대화 맥락, 검색 결과까지 다 토큰으로 집어넣는다. 한 차례 주고받기에 수천 토큰이 우습게 나간다. 사용자 한 명이 하루 수십 번 대화하고, 그런 사용자가 수천, 수만 명이라고 상상해보라. 토큰은 기하급수로 불어난다.

그리고 API의 본질은 이것이다. 나는 결국 남의 연산을 마진까지 얹어서 되파는 리셀러다. 토큰 단가에는 클라우드 사업자의 GPU 감가상각, 전기료, 그리고 이윤이 전부 녹아 있다. 편리한 대신, 내 비용은 사용량에 그대로 따라붙고, 그 위에 남의 마진까지 붙는다. 무료로 불특정 다수에게 무제한 대화를 열어주는 순간, 그 토큰 청구서는 고스란히 내 몫이다.

5. 두 번째 길 — 자체 구동: 내 GPU를 직접 태우기

"그럼 모델을 내가 직접 돌리면 마진을 떼이지 않잖아." 맞다. 두 번째 길이다. 오픈웨이트 모델(라마, 딥시크, 큐원 등)을 받아 내 GPU에서 직접 추론을 돌린다. 중간 마진은 사라진다.

대신 다른 청구서가 날아온다. 2026년 기준 데이터센터급 H100 GPU는 한 장에 2.5만~4만 달러, 8장짜리 서버 한 대는 인프라 포함 20만~40만 달러를 호가한다. 중고 시장이 그나마 숨통을 틔워 중고 A100이 8천~1.2만 달러, 중고 H100이 1.5만~2만 달러 선이다. 사기 싫으면 빌리면 된다. H100 클라우드 대여가 시간당 1.5~7달러, 보통 2.85~3.5달러 언저리다.

문제는 진짜 쓸 만한 프런티어급 오픈 모델은 GPU 한 장으로 안 돌아간다는 점이다. 4~8장은 묶어야 하고, 그러면 월 비용이 2천~2만 달러 구간으로 들어간다. 여기에 결정타가 셋 더 있다.

첫째, 전기와 냉각. H100 한 장이 최대 700W를 먹는다. 여러 장을 24시간 돌리면 전기료에 냉각비, 데이터센터 효율 손실(PUE)까지 얹힌다.

둘째, 가동률의 저주. GPU는 놀고 있어도 돈을 먹는다. 사용자가 없는 새벽에도 모델은 메모리에 올라가 대기해야 하고, 그 시간만큼 비싼 하드웨어가 공회전한다. 10%만 쓰는 GPU의 토큰당 실비용은 차라리 API보다 비싸진다. 이게 자체 구동의 가장 흔한 함정이다.

셋째, 숨은 운영비. 업계에서는 자체 구동의 실제 총비용이 순수 GPU 대여비의 3~5배라고 본다. MLOps 엔지니어 인건비, 모델 업데이트, 네트워크·스토리지·장애 대응이 다 여기 들어간다. GPU 광고는 이 숫자를 절대 말해주지 않는다.

6. 보존 법칙: 어느 길이든 결국 'FLOPs 값'을 낸다

여기서 핵심을 짚자. 정직하게 계산해보면, 실은 적은 규모에서는 API가 자체 구동보다 싸다. 손익분기는 보통 하루 수천만~1억 토큰을 넘어가는 대규모에서야 자체 구동 쪽으로 넘어온다. 즉 "진짜 서비스를 하려면 무조건 모델을 직접 돌려야 한다"는 명제 자체는 절반만 맞다.

하지만 그 절반의 오류를 걷어내고 나면, 더 단단한 진실이 남는다.

두 길 모두, 결국 같은 것을 사는 행위다 — 연산(FLOPs).

API의 토큰 단가는 연산을 마진으로 포장한 것이고, 자체 구동의 전기·하드웨어 비용은 연산을 자본지출(capex)로 포장한 것이다. 포장지만 다를 뿐 안에 든 물건은 똑같다. 어느 경로를 택하든, 사용자가 던지는 모든 질문 뒤에는 누군가 반드시 지불해야 하는 연산량이 깔려 있다. 연산이 공짜인 경로는 존재하지 않는다. 한계비용 0의 마법은 여기서 작동하지 않는다.

이것이 일종의 보존 법칙이다. 비용은 사라지지 않는다. API를 쓰면 토큰 청구서로, 직접 돌리면 GPU 감가상각과 전기 고지서로 형태만 바꿔 나타날 뿐이다. 그리고 사용자가 늘수록 그 총량은 반드시 함께 커진다.

7. 그래서, 자본의 리그다

이제 처음 질문으로 돌아가자. 이런 비용 구조를 누가 감당할 수 있는가.

성공할수록 출혈이 커지는 사업을, 손해를 감수하며 시장을 선점할 때까지 버틸 수 있는 자. GPU를 수백 장 사들이고, 전력 계약을 유리하게 협상하고, 막대한 사용량으로 단가를 희석할 수 있는 자. 즉 자본을 가진 자다.

이건 우연이 아니라 구조적 귀결이다. PC와 인터넷, 오픈소스, 클라우드는 지난 수십 년간 소프트웨어를 만들고 서비스하는 데 드는 자본 장벽을 거의 0까지 끌어내렸다. 그 덕에 차고에서 출발한 1인 개발자가 거대 기업과 같은 운동장에서 경쟁할 수 있었다. 소프트웨어의 민주화였다.

AI는 그 장벽을 다시 세운다. 연산이 다시 비싸고 희소한 자원이 되면서, 산업의 무게중심이 메인프레임 시대의 경제학으로 회귀한다. 컴퓨팅이 미터기 달린, 자본집약적인, 소수가 통제하는 유틸리티로 돌아가는 것이다. 모델을 훈련할 돈, GPU를 살 돈, 적자를 버틸 돈을 가진 소수의 하이퍼스케일러와 그들의 자본에 올라탄 플레이어들. 결국 기술과 돈을 동시에 가진 대형 기업들의 리그다. 무료로, 누구에게나, 무제한으로 대화를 열어주는 바로 그 소비자형 AI 서비스야말로, 자본이 출혈을 감내하는 시장 선점용 미끼 상품으로만 지속 가능하다.

인플루언서들이 "누구나 만들 수 있다"고 할 때, 그들은 데모에 대해서는 옳고 사업에 대해서는 틀렸다. 만드는 일은 민주화됐지만, 운영의 경제학은 민주화되지 않았다.

8. 그래도 작은 플레이어가 설 자리

비관만 하고 끝내면 정직하지 못하다. 작은 플레이어가 완전히 죽은 건 아니다. 다만 살아남는 통로가 좁고 분명해졌을 뿐이다.

추론 한 번의 가치가 비싼 영역. 무료 소비자 챗봇처럼 응답 한 줄이 0원의 가치를 갖는 시장이 아니라, 응답 한 줄이 수만 원의 의사결정을 좌우하는 B2B·전문 영역. 마진이 토큰값을 압도하면 비용은 문제가 아니라 원가가 된다.
소규모·니치. 불특정 다수가 아니라, 비용을 감당할 수 있는 만큼의 명확한 사용자.
하이브리드 설계. 대부분의 요청은 값싼 소형 모델로 쳐내고, 정말 필요한 순간에만 비싼 프런티어 모델을 호출하는 라우팅. 진지한 프로덕션 팀들이 실제로 안착하는 패턴이다.
공짜를 포기하는 것. 한계비용이 0이 아닌 서비스에 "무료·무제한"을 붙이는 순간 자살 행위다. 사용자에게 원가 이상을 받아야 한다.

결국 작은 플레이어의 전략은 한 문장으로 요약된다. 연산 한 번에 그 이상의 값을 받을 수 있는 곳에서만 싸워라. 무료로 모두에게 열어두는 거대 소비자 서비스는, 그것을 미끼로 던질 수 있는 자본의 몫으로 남겨두고.

맺으며

"딸깍 한 번에 AI 서비스"라는 말은 거짓말이라기보다, 절반의 진실을 전부인 것처럼 파는 마케팅이다. 만드는 일은 정말로 쉬워졌다. 그러나 자연어로 불특정 다수와 대화하는 서비스를 지속적으로 돌리는 일은, 소프트웨어가 30년간 누려온 한계비용 0의 마법이 통하지 않는 새로운 게임이다.

API의 토큰값이든 GPU의 전기료든, 우리는 같은 것을 산다. 연산. 그리고 그 연산을 충분히 싸게, 충분히 오래 살 수 있는 자가 누구인지 묻는 순간, AI 서비스 산업의 지형은 선명해진다. 공짜 점심은 없다. 적어도 이 식탁에서는, 점심값을 계속 낼 수 있는 자만이 자리에 앉아 있을 수 있다.