자바/모던 자바 인 액션

[모던 자바 인 액션] 4장. 스트림이란

Rudtjs 2022. 9. 15. 22:21

모든 자바 애플리케이션은 컬렉션을 만들고 처리하는 과정이 있다. 컬렉션으로는 데이터를 그룹화하고 처리할 수 있다. 

여기서 많은 요소가 포함되는 커다란 컬렉션은 어떻게 처리해야 할까? 병렬 처리 코드? 단순 반복 코드? 이렇게 짜면 다른 개발자가 보기 불편할 뿐만 아니라 디버깅을 하기도 어렵다. 

이 문제를 처리하기 위해 나온것이 스트림이다.

 

 

4.1 스트림이란?

  • 정확한 의미는 '데이터 처리 연산을 지원하도록 소스에서 추출된 연속된 요소로' 정의할 수 있다.
  • 스트림은 자바8 API에 새로 추가된 기능이다. 
  • 스트림을 이용하면 선언형으로 컬렉션 데이터를 처리할 수 있다.
  • 데이터 컬렉션 반복을 처리하고 멀티스레드 코드를 구현하지 않아도 데이터를 투명하게 병렬로 처리할 수 있다.
filter, sorted, map, collect 같은 여러 빌딩 블록 연산을 연결하여 복잡한 데이터를 처리할 수 있게 해 준다.

 

 

4.2 스트림 정의와 특징

스트림 정의

  • 연속된 요소 : 컬렉션은 ArrayList, LinkedList 같은 공간 저장 및 접근 연산이 주를 이루고 스트림은 filter, sotred, map처럼 표현 계산식이 주를 이룬다.
  • 소스 :  스트림은 컬렉션, 배열, I/O 자원 등의 데이터 제공 소스로부터 데이터를 소비한다. 즉, 리스트로 스트림을 만들면 스트림의 요소는 리스트의 요소와 같은 순서를 유지한다.
  • 데이터 처리 연산 : filter, map, reduce, find, match 등 함수를 이용하여 데이터를 순차적으로 또는 병렬로 조작할 수 있다. 

 

스트림 특징

파이프 라이닝

  • 대부분의 스트림 연산은 스트림 연산끼리 연결해서 커다란 파이프 라인을 구성한다.
return menu.stream()
    	.filter(dish -> dish.getCalories() > 300)
        .map(Dish::getName)
        .limit(3)
        .collect(toList());

 

내부 반복

  • 반복자를 이용해서 명시적으로 반복하는 컬렉션과 달리 스트림은 내부 반복을 지원한다.

 

외부 반복 vs 내부 반복

외부 반복과 내부 반복의 큰 차이점은 데이터를 계산하는 시점입니다.Collection은 ArrayList, LinkedList에 모든 데이터를 메모리에 저장하는 자료구조이고, Stream은 요청할 때만 요소를 계산하는 자료구조입니다.

 

  • 외부 반복은 사용자가 직접 요소를 반복해야 한다.
List<String> menus = new ArrayList();
for (Dish dish : menu) { // 사용자 직접 명시 부분
	menus.add(dish.getName());
}
  • 내부 반복은 반복을 내부에서 처리하고 결과 값을 어딘가에 저장한다.
List<String> names = menu.stream()
	.map(Dish::getName)
	.collect(toList());

 

내부 반복의 이점

출처:https://velog.io/@adam2/JAVA8%EC%9D%98-%EC%8A%A4%ED%8A%B8%EB%A6%BC-%EC%95%8C%EC%95%84%EB%B3%B4%EA%B8%B0

  • 내부 반복을 이용하면 작업을 투명하게 병렬로 처리하거나 더 최적화된 다양한 순서로 처리할 수 있다.
  • 스트림 라이브러리의 내부 반복은 데이터 표현과 하드웨어를 활용한 병렬성 구현을 자동으로 선택한다.

 

딱 한 번만 탐색 가능

  • 반복자와 마찬가지로 스트림도 한 번만 탐색할 수 있다.
List<String> title = Arrays.asList("name", "in", "1");
Stream<String> s = title.stream();
s.forEach(System.out::println);
s.forEach(System.out::println); // 스트림이 이미 소비되어서 오류 발생

 

4.4 스트림 연산

스트림 연산은 계산식으로 이루어진 중간 연산과 스트림을 닫는 최종 연산 두 가지로 구분할 수 있다.

 

4.4.1 중간 연산

  • 스트림 파이프라인에서 중간 연산은 최종 연산에서 한 번에 처리하기 때문에 Lazy 한 특성을 얻는다.
  • 중간 연산자들을 이용해서 질의를 만들어 낼 수 있다.

4.4.2 최종 연산

  • 최종 연산은 스트림 파이프라인에서 결과를 도출한다.
  • forEach, count, collect 가 있다.