Skip to content

크롤러 개발 자동화

작성: 0chil

빙글에서는 지속가능한 방법으로 상품 수를 확충하기 위해 생성형 AI를 통한 AI 크롤러 개발을 시도하고 있다.

문제 - 생성형 AI의 한계 (as of 2025.02)

Section titled “문제 - 생성형 AI의 한계 (as of 2025.02)”

그러나 AI는 할루시네이션으로 인해 일관적이지 않으며, 처리 속도가 느려 프로덕션에 실시간으로 사용하기 어렵다.
AI가 마음대로 + 암묵적으로 판단 기준(CSS Selector)을 매번 새로 생성하기 때문이다.

AI를 실시간으로 사용하는 것이 아니라, 개발 단계에만 사용한다면 어떨까?
현재 빙글 크롤러 개발 프로세스는 다음과 같다: 링크

여기서 가장 귀찮고 유동적인 프로세스인 CSS Selector 선정 및 저장 자동화를 할 수 있다면, 다른 작업들을 자동화하는것은 쉽다.

  1. AI에게 정제된 HTML을 제공한다.
  2. AI가 적절한 CSS Selector를 생성한다.
  3. 생성된 CSS Selector로 크롤링한 결과를 검증한다.
    • 구현 옵션 1: 부정확한 경우 처음부터 다시 시작한다.
    • 구현 옵션 2: 여러 개를 병렬 수행해 가장 정확한 버전을 선택한다.
  4. 검증된 CSS Selector를 저장한다.
  5. 저장된 결과물들을 사용해 런타임에 크롤러들을 객체화한다.
  1. AI에게 정제된 HTML을 제공한다. img.png

  2. AI가 적절한 CSS Selector를 생성한다. img_1.png

  3. 생성된 CSS Selector로 크롤링한 결과를 검증한다. img_2.png

  4. 검증된 CSS Selector를 저장한다.

  5. 저장된 결과물들을 사용해 런타임에 크롤러들을 객체화한다.