한국 최초 랄프톤 후기 : 하네스 엔지니어링 시대
이번 주말에 좋은 기회로 우리 회사 신정호 수석심사역과 함께 AI엔지니어 정구봉(Team Attention)님이 주최하는 한국 최초 랄프톤을 후원하고 심사위원으로 참여하게 되었다. 이 랄프톤은 1박 2일의 기간 동안 우수한 13명의 해커들이 첫날 하네스 엔지니어링을 마치고 랄프모드1로 코딩에이전트가 수시간 동안 자율적으로 루프를 돌리며 목적을 달성하도록 돌려놓고 다음날 아침에 결과를 보는, 아주 신박한 해커톤이었다. 이 해커톤을 지켜보며, 또 비즈니스 임팩트 심사를 하면서 큰 배움이 있었는데, 그것은 바로 빌더, 개발자의 역할이 실무자에서 설계자로 바뀌고 있다라는 것이었다.
하네스 엔지니어링의 시대
지난주 금요일 전 카카오벤처스 EIR이자 이제는 우리 패밀리가 된 (주)탭제로 김태호 대표님과 오랜만에 점심을 먹고 오후내내 같이 코딩을 했다. 그때 나누었던 주제중 하나가 ‘하네스 엔지니어링’이었다. ‘하네스 엔지니어링(Harness engineering)’이란 오픈AI의 Ryan Lopopolo가 블로그 글을 통해 선점한 개념이고, 쉽게 얘기하면 AI라는 야생마가 제멋대로 날뛰지 않고 목적지까지 잘 갈 수 있도록 안전벨트와 고삐를 설계하는 일이다. 예전에는 개발자가 코드를 직접 쓰고 검수했다면, 이제는 AI가 코드를 제대로 짜고, 스스로 검증할 수 있도록 정교한 설계도(PRD, spec)와 검증 시스템을 만드는 일이 핵심이 된 것이다. 김태호 대표님은 AI코딩에서의 핵심이 프롬프트 엔지니어링 → 컨텍스트 엔지니어링 → 하네스 엔지니어링으로 진화해온 것이고, 지난번 그가 블로그에서 강조했던 모노레포 또한 하네스 엔지니어링을 하는 방법론 중 하나로 설명될 수 있다고 했다.
랄프톤 우승팀의 비결 : 모호성 제거와 70%를 차지하는 테스트 코드
랄프톤에서 우승한 팀은 무려 10만줄의 코드를 에이전트가 짜게 만들었는데, 이중 무려 7만줄이 테스트 코드였다. 에이전트를 수시간동안 믿고 프로덕션까지 랄프모드로 돌려야하니, 그만큼 단단한 테스트 코드가 구현이 되어야 한다고 생각을 한 것이다. 따라서 탄탄한 검증 시스템을 위해 여러 에이전트들(밸리데이터, 코디네이터, 패커)이 모호함을 없애고 검증이 성공했다고 하는 AI의 거짓 주장도 걸러내면서 루프가 돌 수 있도록 촘촘하게 설계를 했다. 이 팀은 또한 애초에 PRD와 스펙의 모호함을 없애는게 매우 중요하다고 생각해서, 특정 에이전트에게 스스로 질문을 던지는 소크라틱 리즈닝(문답법)을 루프로 133번 진행시켰다고 한다. 그리고 이를 통해 Ambiguity score2(모호성 지수)를 평가 기준으로 개선을 진행하여 133번의 리즈닝 인터뷰를 통해 0.05까지 낮춰놓고 이를 기반으로 AI가 훨씬 정교한 PRD와 스펙문서를 만들어놓고 랄프모드를 시작할 수 있게 한 것이다. 이 팀이 우승했던 이유 중 하나는 랄프 시작 시점과 종료 시점 사이에 한번도 키보드를 만지지 않았던 점도 있었는데, (대부분의 참가자들은 한번 이상 건드렸다.) 이렇게 세팅해놓으니 가능했겠구나 싶었다.
3등한 팀의 경우, 비용최적화 측면에서 하네스의 위력을 보여주었다. 이 참가자는 처음엔 비싼 모델을 썼지만 나중에는 아주 저렴한 모델로 똑같은 성능지표를 내도록 목표를 주고 수많은 루프를 돌려 깎아냈다. 이런 부분들은 AI 모델을 활용해 사업을 하는 스타트업들도 API 비용 최적화를 위해 적용해볼 있는 접근이라고 생각이 되었다.
반대로 뼈아픈 레슨을 얻은 사례도 있었다. 한 팀은 처음엔 랄프가 잘 돌아가다가, 너무 빨리 끝날 것 같아서 스펙을 급하게 확장하고 워크트랙을 3개를 병렬로 실행하게 뒀더니 배포가 멈추고 이상한 루프에 빠져버렸고, 결국 랄프 종료 시점 이후에 코드를 직접 수정해야했다. 결국 중간에 스펙 확장을 급하게 한 것이 모호성을 늘리고 자가 검증이 어렵게 되어 꼬인 것 아닌가라는 추측을 했다.
이외에도 참가팀들의 발표를 들으면서 아이템도 아이템이지만 랄프 모드가 잘 돌아갈 수 있도록 하네스 엔지니어링을 어떻게 했느냐에 고민을 많이 한 팀일 수록 개입해야 했던 빈도가 줄고, 결과물도 좋다는 것을 확인할 수 있었다.
I ship code I don’t read
결국 하네스 엔지니어링은 AI가 성과를 내기 좋은 환경을 만드는 일이다. OpenClaw 창시자 Peter Steinberger가 ‘I ship code I don’t read’라고 했듯이 이제는 사람이 읽기 좋은 문서/코드가 아니라 AI에이전트가 이해하고 고치기 좋은 구조를 만드는 것, 그리고 인간이 잠든 사이에도 에이전트가 스스로 개선해나가는 루프를 완성하는 시스템을 설계하는 것이 AI를 활용한 생산성 증대의 핵심이다. AI가 코딩하는 시대가 되어 엔지니어 생산성이 5~10배 증가했다고들 이야기 하는데, 자는 시간과 모니터 안보는 시간까지 이용하면 거기서 또 2배가 증가할 수 있다. 아마 잘하는 팀들은 이미 도입을 하고 고민을 하고 있겠지만, 이 흐름을 빨리 타는 스타트업들이 다음 세대의 주인공이 되지 않을까 생각이 들었다.
(랄프톤 마치고 찍은 단체샷. 팀어텐션 그리고 참여자분들 모두 너무 고생 많으셨습니다-!)
랄프 모드는 AI의 자율적인 반복 검증 루프를 의미. (심슨 가족의 캐릭터 '랄프 위검'에서 이름을 딴 밈적인 표현)
Ambiguity = 1 − Σ(clarityᵢ × weightᵢ)

