Devlog

JVM은 자바 언에어서만 사용하는 것이 아니다. 코틀린이나 스칼라언어에서도 JVM 동작 방식을 그대로 따른다.

따라서 JVM을 정확히 이해하면, 자바에서 파생된 모던 언어를 이해하는데 있어 수월해지며, 내부에서 정확히 어떻게 동작하고, 코드가 실행되는지 개념을 알면 코드 최적화나 리팩토링을 하는데 도움이 된다.

이번 시간에는 JVM이 컴파일된 .class 파일을 어떻게 프로그램으로 변환하는지의 과정을 살펴보자.

JVM의 동작 방식

JVM의 역할은 자바 애플리케이션을 클래스 로더를 통해 읽어 자바 API와 함께 실행하는 것이다.

다음은 자바 소스 파일을 어떤 동작으로 코드를 읽는지에 대한 그림이다.

자바 프로그램을 실행하면 JVM은 OS로부터 메모리를 할당받는다.
javac가 자바 소스코드(.java)를 자바 바이트 코드(.class)로 컴파일한다.
Class Loader는 동적 로딩을 통해 필요한 클래스들을 로딩 및 링크하여 Runtime Data Area에 올린다. 여기서 Runtime Data Area는 실질적인 메모리를 할당받아 관리하는 영역을 의미한다.
Runetime Data Area에 로딩된 바이트 코드는 Execution Engine을 통해 해석된다.
이 과정에서 Execution Engine에 의해 Garbage Collector의 작동과 Thread 동기화가 이루어진다.

JVM의 구조

다음 그림은 JVM 동작 과정에서 Class Loader - Execution Engine - Runtime Data Area 부분을 더 상세히 그린 그림이다.

이처럼 JVM은 다음과 같이 구성되어 있다.

Class Loader
Execution Engine
- Interpreter
- Just-in-time
- Garbage collector
Runtime Data Area
- Method Area
- Heap
- PC Register
- JVM Stack
- Native Method Stack
JNI: Native Method Inteface
Native Method Library

Class Loader

클래스 로더는 JVM 내로 클래스 파일을 동적으로 로드하고, 링크를 통해 작업을 수행하는 모듈이다.

즉, 로드된 바이트코드들을 엮어서 JVM의 메모리 영역인 Runtime Data Area에 배치한다.

클래스를 메모리에 올리는 로딩 기능은 한 번에 메모리에 올리지 않고, 어플리케이션에서 필요한 경우 동적으로 메모리에 적재하게 된다.

클래스 파일의 로딩 순서는 Loading -> Linking -> Initialization 순서로 구성된다.

Loading: 클래스 파일을 가져와서 JVM의 메모리에 로드한다.
Linking: 클래스 파일을 사용하기 위해 검증하는 과정이다.
1. Verifying: 읽어들인 클래스가 JVM 명세에 명시된 대로 구성되어 있는지 검사한다.
2. Preparing: 클래스가 필요로 하는 메모리를 할당한다.
3. Resolving: 클래스의 상수 풀 내 모든 심볼릭 레퍼런스를 다이렉트 레퍼런스로 변경한다.
Initialization: 클래스 변수들을 적절한 값으로 초기화한다.

Execution Engine

실행 엔진은 클래스 로더를 통해 런타임 데이터 영역에 배치된 바이트 코드를 명령어 단위로 읽어서 실행한다.

자바 바이트 코드는 기계가 바로 수행할 수 있는 언어보다는 가상 머신이 이해할 수 있는 중간 레벨로 컴파일된 코드이다. 그래서 실행 엔진은 이와 같은 바이트 코드를 실제로 JVM 내부에서 기계가 실행할 수 있는 형태로 변경해준다.

이 과정에서 실행 엔진은 인터프리터와 JIT 컴파일러 두 가지 방식을 혼합하여 바이트 코드를 실행한다.

Interpreter

바이트 코드 명령어를 하나씩 읽어서 해석하고 바로 실행한다.

JVM 안에서 바이트코드는 기본적으로 인터프리터 방식으로 동작한다. 다만, 같은 메소드라도 여러 번 호출이 된다면 매번 해석하고 수행해야 해서 전체적인 속도는 느리다.

JIT Compiler

위의 Interpreter의 단점을 보완하기 위해 도입된 방식으로 반복되는 코드를 발견하여 바이트 코드 전체를 컴파일하여 Native Code로 변경하고, 이후에는 해당 메서드를 더 이상 인터프리팅 하지 않고 캐싱해 두었다가 네티티브 코드로 직접 실행하는 방식이다.

하나씩 해석해서 실행하는 것이 아니라, 컴파일된 네이티크 코드를 실행하는 것이기 때문에 전체적인 실행 속도는 인터프리팅 방식보다 바르다.

그러나 바이트 코드를 Native Code로 변환하는 데에도 비용이 소모되므로, JVM은 모든 코드를 JIT 컴파일러 방식으로 실행하지 않고, 인터프리터 방식을 사용하다가 일정 기준이 넘어가면 JIT 컴파일러 방식으로 명령어를 실행한다.

이때 네이티브 코드는 Java의 부모격인 C, C++, 어셈블리어로 구성된 코드를 의미한다.

Garbage Collector

JVM은 GC를 이용해 Heap 메모리 영역에서 더는 사용하지 않는 메모리를 자동으로 회수해 준다.

C언어 같은 경우는 직접 개발자가 메모리를 해제해줘야 하지만, Java는 GC를 이용해 자동으로 메모리를 실시간 최적화 시켜준다. 따라서 개발자가 메모리를 관리하지 않아도 되므로, 손쉽게 프로그래밍을 할 수 있도록 해준다.

일반적으로 자동으로 실행되지만, GC가 실행되는 시간은 정해져있지 않다. 특히, Full GC가 발생하는 경우는 GC를 제외한 모든 스레드가 중지되기 때문에 장애가 발생할 수 있다.

Runtime Data Area

런타임 데이터 영역은 JVM의 메모리 영역으로 자바 애플리케이션을 실행할 때 사용되는 데이터들을 적재하는 영역이다.

런타임 데이터 영역은 크게 Method Area, Heap Area, Stack Area, PC Register, Native Method Stack으로 나눌 수 있다.

이때, Method Area, Heap Area는 모든 스레드가 공유하는 영역이고, 나머지 Stack Area, PC Register, Native Method Stack은 각 스레드마다 생성되는 개별 영역이다.

Method Area

메서드 영역은 JVM이 시작될 때 생성되는 공간으로, 바이트 코드를 처음 메모리 공간에 올릴 때 초기화되는 대상을 저장하기 위한 메모리 공간이다.

JVM이 동작하고 클래스가 로드될 때 적재되어 프로그램이 종료될 때까지 저장된다.

모든 스레드가 공유하는 영역이라 다음과 같이 초기화 코드들이 저장된다.

Field Info: 멤버 변수의 이름, 데이터 타입, 접근 제어자의 정보
Method Info: 메소드 이름, return 타입, 함수 매개변수, 접근 제어자의 정보
Type Info: Class 인지 Interface 인지 여부 저장, Type의 속성, 이름 Super Class의 이름

간단히 말하자면 메서드 영역에는 정적 필드와 클래스 구조만을 갖고 있다고 할 수 있다.

Heap Area

힙 영역은 메서드 영역과 함께 모든 스레드가 공유하며, JVM이 관리하는 프로그램 상에서 데이터를 저장하기 위해 런타임 시 동적으로 할당하여 사용하는 영역이다.

즉, new 연산자로 생성되는 클래스와 인스턴스 변수, 배열 타입 등 Referenece Type이 저장되는 곳이다.

당연히 Method Area 영역에 저장된 클래스만이 생성되어 적재된다.

유의할 점은 힙 영역에 생성된 객체와 배열은 Reference Type으로서, JVM 스택 영역의 변수나 다른 객체의 필드에서 참조된다는 점이다.

즉, 힙의 참조 주소는 스택이 갖고 있고, 해당 객체를 통해서만 힙 여역에 있는 인스턴스를 핸들링할 수 있는 것이다.

만약 참조하는 변수나 필드가 없다면, 의미 없는 객체가 되기 때문에 이를 쓰레기 취급하고, JVM은 GC를 실행시켜 쓰레기 객체를 힙 영역에서 자동으로 제거한다.

이처럼 힙 영역은 GC의 대상이 되는 공간이다.

그리고 효율적인 GC를 수행하기 위해 세부저긍로 다음과 같이 5가지 영역으로 나뉘게 된다.

이렇게 다섯가지 영역으로 나뉜 힙 영역은 다시 물리적으로 Young Generation과 Old Generation 영역으로 구분되게 되는데 다음과 같다.

Young Generation: 생명 주기가 짧은 객체를 GC 대상으로 하는 영역
- Eden: new를 통해 새로 생성된 객체가 위치. 정기적인 GC 수행 후 살아남은 객체들은 Survivor로 이동
- Survivor 0 / Survivor 1: 각 영역이 채워지면, 살아남은 객체는 비워진 Survivor로 순차적으로 이동
Old Generation: 생명 주기가 긴 객체를 GC 대상으로 하는 영역. Young Generation에서 마지막까지 살아남은 객체가 이동

Stack Area

스택 영역은 int, long, boolean 등 기본 자료형을 생성할 때 저장되는 공간으로, 임시적으로 사용되는 변수나 정보들이 저장되는 영역이다.

자료구조 Stack은 마지막에 들어온 값이 먼저 나가는 LIFO 구조로, push나 pop으로 동작한다.

메서드 호출마다 각각의 스택 프레임(해당 메서드만을 위한 공간)이 생성되고, 메서드 안에서 사용되는 값들을 저장하고, 호출된 메서드의 매개변수, 지역변수, 반환 값 및 연산 시 발생하는 값들을 임시로 저장한다.

그리고 메서드 수행이 끝나면 프레임별로 삭제된다.

단, 데이터의 타입에 따라 스택과 힙에 저장되는 방식이 다르다는 점은 유의해야 한다.

기본(원시)타입 변수는 스택 영역에 직접 값을 가지지만, 참조타입 변수는 힙 영역이나 메소드 영역의 객체 주소를 가진다.

예를 들어 Person p = new Person(); 처럼 클래스를 생성할 경우, new에 의해 생성된 클래스는 Heap Area에 저장되고, 생성된 클래스의 참조인 p는 Stack Area에 저장된다.

스택 영역은 각 스레드마다 하나씩 존재하며, 스레드가 시작될 때 할당된다.

프로세스가 메모리에 로드될 때, 스택 사이즈가 고정되어 있어, 런타임 시에 스택 사이즈를 바꿀수는 없다. 만야 고정된 크기의 JVM 스택에서 프로그램 실행 중 메모리 크기가 충분하지 않다면 StackOverflowError가 발생하게 된다.

Program Counter Register

PC 레지스터는 스레드가 시작될 때 생성되며, 현재 수행중인 JVM 명령어 주소를 저장하는 공간이다.

JVM 명령의 주소는 스레드가 어떤 부분을 어떤 명령으로 실행할지에 대한 기록을 가지고 있다.

일반적으로 프로그램의 실행은 CPU에서 명령어를 수행하는 과정으로 이뤄진다. 이때, CPU는 연산을 수행하는 동안 필욯나 정보를 레지스터라고 하는 CPU 내의 기억장치를 이용하게 된다.

예를 들어, A와 B라는 데이터와 피연산 값인 Operand가 있고, 이를 연산하라는 Instruction이 있다고 하자. 해당 연산이 순차적으로 진행되게 되는데, 이때 A를 받고 B를 더하는 동안 이 값을 CPU는 어딘가에 기억해둬야 한다.

이 공간이 바로 CPU 내의 기억장치인 Register이다.

하지만 자바의 PC Register는 CPU Register와는 조금 다르다. 자바는 OS나 CPU의 입장에서 하나의 프로세스이므로, JVM의 리소스를 사용해야 한다.

그래서 CPU에 직접 연산을 수행하도록 하는 것이 아닌, 현재 작업하는 내용을 CPU에게 연산으로 제공해야 하며, 이를 위한 버퍼 공간으로 PC Register라는 메모리 영역을 만들게 된다.

따라서 JVM은 스택에서 비연산값 Operand를 뽑아 별도의 메모리 공간인 PC Register에 저장하는 방식을 취한다.

만약 스레드가 자바 메소드를 수행하고 있다면, JVM Instruction의 주소를 PC Register에 저장한다. 그러다 만약 자바가 아닌 다른 언어의 메소드, 즉 Native Method, 를 수행하고 있다면, undefined 상태가 된다. 해당 부분은 자바에서는 따로 처리하며, 해당 부분이 바로 Native Method Stack 공간이다.

Native Method Stack

네이티브 메서드 스택은 자바 코드가 컴파일되어 생성되는 바이트 코드가 아닌 실제 실행할 수 있는 기계어로 작성된 프로그램을 실행시키는 영역이다.

또한, 자바 이외의 언어로 작성된 네이티브 코드를 실행하기 위한 공간이다. 보통, 사용되는 메모리 영역으로는 C 스택을 사용한다.

위에서 언급한 JIT 컴파일러에 의해 변환된 Native Code 또한 이 공간에서 실행된다.

일반적으로 메소드를 실행하는 경우 JVM 스택에 쌓아디가, 해당 메소드 내부에 네이티브 방식을 사용하는 메소드가 있다면 해당 메소드는 네이티브 스택에 쌓인다.

그리고 네이티브 메소드가 수행이 끝나면 다시 자바 스택으로 돌아와 다시 작업을 수행한다.

그래서 네이티브 코드로 되어 있는 함수의 호출을 자바 프로그램 내에서도 직접 수행할 수 있고, 그 결과를 받아올 수 있다.

네이티브 메소드 스택은 JNI와 연결되어 있는데, JNI가 사용되면 네이티브 메소드 스택에 바이트 코드로 전환되어 저장되게 된다.

Java Native Interface

JNI는 자바가 다른 언어로 만들어진 어플리케이션과 상호 작용할 수 있는 인터페이스를 제공하는 프로그램이다. 실질적으로 동작하는 언어는 C / C++ 정도 밖에 없다고 한다.

Native Method Library

C 혹은 C++로 작성된 라이브러리를 칭한다. 만약 헤더가 필요하다면, JNI는 이 라이브러리를 로딩해 실행한다.

JVM 해체 분석기 - 2편, 내부 구조와 메모리 영역

JVM의 내부 구조와 메모리 영역에 대해서 알아보자