Supabase Hybrid Search vs FAISS/Chroma 완벽 비교: pgvector + tsvector와 인메모리 벡터 DB의 모든 것

한국어·다국어 워크로드 주의

tsvector는 영어 외 언어에서 형태소 분석이 약함. 한국어가 핵심이면 mecab/khaiii 기반 토크나이저로 직접 토큰화해 tsvector를 만들거나, Elasticsearch + nori 같은 분석기를 별도 운영하는 편이 안전. 임베딩 모델은 다국어 모델 선택.

Supabase Hybrid Search vs FAISS/Chroma

pgvector + tsvector와 인메모리 벡터 DB 종합 비교

Part 1. 왜 하이브리드 검색인가

단일 검색 방식의 한계

하이브리드가 진짜로 필요한 워크로드

Part 2. pgvector 인덱스 알고리즘

HNSW: 다층 그래프 ANN

HNSW 인덱스 생성과 쿼리 튜닝

IVFFlat: 클러스터 기반 ANN

HNSW vs IVFFlat 선택 기준

Part 3. tsvector와 풀텍스트 검색

tsvector 컬럼과 GIN 인덱스

ts_rank vs ts_rank_cd, 그리고 쿼리 파서

Part 4. Postgres에서의 RRF 하이브리드 검색

RRF 공식과 smoothing constant k

Supabase hybrid_search SQL 함수

클라이언트에서 호출

Part 5. FAISS와 Chroma

FAISS 인덱스 패밀리

FAISS 인덱스 선택 가이드(공식)

FAISS HNSW 인덱스 예시

Chroma의 자리

Part 6. 인메모리 환경에서의 하이브리드 검색

rank_bm25 + FAISS + RRF

키워드 엔진 선택지

Part 7. 성능·메모리·운영 비교

지연시간 가이드라인 (768-dim, 1M 벡터)

메모리·운영 부담

Part 8. 워크로드별 의사결정 가이드

케이스 1: 사내 RAG / 검색 (≤ 1천만 문서)

케이스 2: 대규모 추천·이미지·멀티미디어 (수억~)

케이스 3: 프로토타입·연구

한국어·다국어 워크로드 주의

Part 9. 안티패턴과 마이그레이션 노트

Top 5 안티패턴

마이그레이션 체크리스트

Part 10. 결론

추천 시작점

감사합니다