fetch join
Last updated
Last updated
SQL 조인 종류는 아니다.
JPQL에서 성능 최적화를 위해 제공하는 전용 기능이다.
연관된 Entity나 컬렉션을 SQL 한 번에 조회할 수 있다.
select m
만 썼는데도 회원을 조회하면서 연관된 팀도 SQL에서 한 번에 조회한다.
SQL을 보면 회원 M.*
과 팀 T.*
을 함께 select 한다.
즉시 로딩으로 가져오는 방법과 똑같다.
단지 join fetch라고 명시적으로 선언해서 원하는 객체 그래프를 한 번에 조회하는 것이다.
회원 1, 2는 팀 A 소속이다.
회원 3은 팀 B 소속이다.
회원 4는 소속 팀이 없다.
fetch join으로 회원과 팀을 한 번에 조회할 수 있다.
총 5개의 엔티티를 1차 캐시에 저장해놓는다.
회원 1, 2, 3, 팀 A, 팀 B
소속 팀이 없는 회원은 제외되는 inner join이다.
연관 관계에 있는 team이 프록시로 들어왔다가, getTeam().getName()
을 호출할 때 지연 로딩으로 select 쿼리가 나간다.
회원 1이 팀 A를 불러 올 때 최초 SQL을 날린다.
회원 2는 같은 팀 A이므로 1차 캐시에서 가져온다.
회원 3의 팀 B는 영속성 컨텍스트에 존재하지 않으므로 새로운 쿼리를 날린다.
N + 1 문제
소속이 다 다르면 N개만큼 계속 쿼리가 나가야 한다.
회원을 가져오기 위해 최초에 날린 1번의 쿼리 + 회원이 소속된 팀 개수 N만큼 날린다.
fetch join으로 회원과 팀을 한 번에 조회한다.
지연 로딩하지 않는다.
즉, member.getTeam().name()
호출 시에 프록시가 아니라 실제 Entity가 담겨있다.
지연 로딩으로 되어있어도 fetch join이 우선 순위를 가진다.
일대다 관계에서의 컬렉션 조회
반대로 팀에서 N인 회원을 조회한다.
회원만큼 팀이 중복으로 출력된다.
DB 입장에서는 일대다 join 시 데이터가 뻥튀기 된다.
팀 A로 조인을 하면 회원이 2명이므로 데이터를 2개 만들어 낸다.
JPA 입장에서는 회원이 몇 명 있는지 미리 알 수가 없으니 DB가 반환하는 대로 가져와야 한다.
row는 2개지만 영속성 컨텍스트에 있는 ID는 같이 공유하므로 주소 값이 같다.
SQL의 DISTINCT
중복을 완벽하게 제거할 수 없다.
JPQL은 DISTINCT에 대해 2가지 기능을 제공한다.
SQL에 DISTINCT를 추가
SQL 결과를 애플리케이션에서 받은 뒤 엔티티의 중복을 제거
SQL의 DISTINCT는 데이터가 100% 똑같아야 적용된다.
join 결과를 보면 각 row의 PK가 다르기 때문에 중복 제거에 실패한다.
그래서 JPA가 애플리케이션에서 추가적인 중복 제거를 시도한다.
JPQL의 DISTINCT가 같은 식별자를 가진 Team Entity를 자동으로 제거한다.
연관된 entity를 함께 조회하지 않는다.
jpql에 일반 join을 쓰면 sql에서 team만 select 한다.
Team Entity만 조회하고 Member Entity는 조회하지 않는다.
team.getMembers()
하는 시점에 쿼리가 다시 나간다.
팀 정보를 가져올 때 회원 정보도 함께 가져온다.
fetch join을 사용할 때만 연관된 Entity를 함께 조회한다.
즉시 로딩의 개념
객체 그래프를 SQL 한 번에 조회할 수 있다.
fetch join 대상에는 별칭을 줄 수 없다.
하이버네이트는 가능하지만 가급적 사용하지 않는다.
fetch join은 연관된 모든 것을 가져오는 용도다.
중간에 걸러서 가져오고 싶다면 fetch join을 쓰면 안된다.
별칭을 줘서 선별적으로 가져왔다가 잘못하면 데이터가 누락되고 이상하게 돌아갈 수 있다.
원하는 회원만 가져오고 싶다면 처음부터 팀이 아니라 회원에 대한 쿼리를 날려야 한다.
JPA는 객체 그래프 탐색으로 연관된 데이터를 모두 가져올 수 있다는 걸 가정한다.
잘못된 설정으로 몇 개가 걸러져서 나온다면 이 상황을 보장할 수 없다.
유일하게 쓰는 케이스는 별칭 안에서 또 join fetch를 해서 들어가야할 때 뿐이다.
둘 이상의 컬렉션은 fetch join 할 수 없다.
곱하기에 곱하기가 되면서 데이터가 기하급수적으로 늘어나기 때문이다.
ex. team이 members와 orders를 가진다면 이 둘을 한번에 fetch join할 수 없다.
컬렉션을 fetch join 하면 페이징 API를 사용할 수 없다.
page size = 1이면 팀 A의 회원 2명이 다 나오는 게 아니라 짤려서 하나만 가져온다.
JPA는 팀 A의 결과가 2명임에도 1명밖에 없다고 말하게 된다.
회원 2는 2 페이지에 있기 때문에 모른다.
일대일, 다대일 같은 단일 값 연관 필드는 fetch join으로도 페이징이 가능하다.
데이터 뻥튀기가 되지 않기 때문이다.
하이버네이트는 경고 로그를 남기고 메모리에서 페이징하지만 매우 위험하다.
데이터가 백만 건이면 다 일단 가져와서 그 안에서 페이징 하기 때문에 장애가 발생한다.
페이징을 하고 싶다면 쿼리를 바꿔야 한다.
쿼리를 반대로 뒤집으면 회원과 팀이 다대일이 되어 페이징이 가능해진다.
쿼리를 수정할 수 없다면 maxResult를 건다.
하지만 지연 로딩으로 팀 A, B의 회원을 2번 더 쿼리한다.
즉, 쿼리가 총 3번이 나간다.
그래서 fetch join으로 한 번에 불러오는 게 좋은데 페이징이 힘들다.
페이징 때문에 fetch join을 사용하지 않는다면 @BatchSize를 사용한다.
팀을 가져올 때 지연 로딩으로 되어있는 회원에 대해 where team_id in (A, B)
로 가져온다.
지연 로딩은 N + 1이 발생하기 때문에 fetch join을 사용하지만 연관 관계가 컬렉션인 경우는 @BatchSize를 사용할 수 있다.
회원 수만큼이 아니라 딱 팀에 맞춰서 최적화된 쿼리로 불러올 수 있다.
보통 1000 이하의 값으로 주면 된다.
batchSize 설정은 글로벌로 두고 쓸 수도 있다.
연관된 Entity들을 SQL 한 번으로 조회하므로 성능 최적화가 된다.
Entity에 직접 적용하는 글로벌 로딩 전략보다 우선한다.
글로벌 로딩 전략이 @OneTonMany(fetch = FetchType.LAZY)
지연 로딩이더라도 적용된다.
실무에서 글로벌 로딩 전략은 모두 지연로딩이다.
최적화가 필요한 곳은 fetch join을 적용한다.
모든 것을 fetch join으로 해결할 수는 없다.
객체 그래프를 유지할 때 사용하면 효과적이다.
team.getMembers()
여러 테이블을 join해서 Entity가 가진 모양과 다른 결과를 내야 한다면?
일반 join으로 필요한 데이터만 조회해서 DTO로 반환한다.