1. WebSocket 프레임의 기본 구조
- WebSocket 프레임은 TCP 기반의 스트림 지향 프로토콜에서 메시지 단위의 통신을 가능하게 하는 핵심 구조입니다.
- RFC 6455에 정의된 WebSocket 프레임의 구조는 다음과 같습니다.
- 클라이언트에서 서버로(또는 그 반대) 전송되는 모든 프레임은 같은 구조를 가지고 있습니다.
0 1 2 3
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
+-+-+-+-+-------+-+-------------+-------------------------------+
|F|R|R|R| opcode|M| Payload len | Extended payload length |
|I|S|S|S| (4) |A| (7) | (16/64) |
|N|V|V|V| |S| | (if payload len==126/127) |
| |1|2|3| |K| | |
+-+-+-+-+-------+-+-------------+ - - - - - - - - - - - - - - - +
| Extended payload length continued, if payload len == 127 |
+ - - - - - - - - - - - - - - - +-------------------------------+
| |Masking-key, if MASK set to 1 |
+-------------------------------+-------------------------------+
| Masking-key (continued) | Payload Data |
+-------------------------------- - - - - - - - - - - - - - - - +
: Payload Data continued ... :
+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +
| Payload Data continued ... |
+---------------------------------------------------------------+
- FIN
- 프레임의 마지막 프래그먼트 여부를 나타냅니다.
- 1이면 마지막 프래그먼트, 0이면 연속 프래그먼트가 있음을 의미합니다.
- RSV1, RSV2, RSV3: 확장을 위한 예약 비트
- Opcode: 메시지 타입 (text, binary, ping, pong, close, continuation)
- Mask: 클라이언트 → 서버 메시지에만 사용되는 마스킹 여부
- 클라이언트가 전송하는 프레임은 반드시 마스킹 필요
- 클라이언트에서 오는 메시지는 반드시 마스킹되어야 하므로, 서버는 이 값이 1일 것으로 예상해야 합니다
- 실제로 스펙에 따르면 서버는 클라이언트가 마스킹되지 않은 메시지를 보내는 경우 해당 클라이언트와의 연결을 끊어야 합니다.
- Payload Length: 페이로드 길이 표현
- Masking Key: 마스킹 키 (4바이트)
1.1 프레임 크기의 특징
- 최소 크기: 2바이트 (서버에서 페이로드 없는 close 메시지)
- 최대 헤더 크기: 14바이트 (클라이언트에서 64KB 이상의 페이로드를 가진 메시지)
- 클라이언트 → 서버 메시지 예시: "over9000" 전송 시 14바이트 (마스킹으로 인한 랜덤성 포함)
- 서버 → 클라이언트 메시지 예시: 동일한 "over9000" 전송 시 10바이트로 고정
2. Payload Length(페이로드 길이)
- 페이로드 데이터를 제대로 읽으려면 어디까지가 데이터인지 알아야 합니다.
- 그래서 페이로드의 길이를 아는 게 중요한데, 이걸 알아내는 과정에 대해 알아봅니다.
2.1 페이로드 길이 표현
- 먼저 9-15번째 비트를 읽어서 숫자로 변환합니다.
- 이 숫자가 125 이하면? 그게 바로 실제 길이입니다.
- 더 이상 볼 것 없이 끝!
- 126이면 2단계로 가야 합니다.
- 127이면 3단계로 가야 합니다.
- (126인 경우) 그 다음 16비트를 더 읽어서 그게 실제 길이가 됩니다.
- (127인 경우) 그 다음 64비트를 읽어서 그게 실제 길이가 됩니다. 단, 이때 맨 앞 비트는 반드시 0이어야 합니다.
3. Masking(마스킹)
3.1 마스킹의 목적
- 웹소켓 데이터 프레임에서 마스킹을 하는 주된 이유는 캐시 포이즈닝(cache poisoning) 공격을 방지하기 위해서입니다.
- 마스크 키는 일반적인 의미의 비밀번호나 암호화 키와는 다릅니다.
- 재미있게도 마스크 키가 프레임에 그대로 포함되어 있다는 점에서 보안을 위한 것이 아닙니다.
- 이는 웹 프록시 서버나 캐시 서버의 "캐시 포이즈닝"이라는 공격을 방지하기 위한 것입니다.
- 악의적인 웹사이트가 프록시 서버의 캐시를 오염시키려고 할 수 있습니다
- 마스킹을 하면 매번 같은 메시지라도 다르게 보이게 됩니다 (마스크 키가 매번 랜덤으로 바뀌므로)
- 브라우저가 매 프레임마다 무작위로 마스크를 생성하므로 악의적인 코드가 의도적으로 특정 패턴의 데이터를 만들어낼 수 없음
- 이로 인해 프록시 서버가 WebSocket 메시지를 캐시하지 못하게 됩니다
3.2 마스킹 규칙
- 클라이언트 → 서버: 모든 메시지는 반드시 마스킹 필요
- 서버 → 클라이언트: 마스킹 사용 금지
- 마스킹 키: 4바이트 길이, 예측 불가능해야 함
3.3 마스킹 프로세스
// "hello" 메시지의 마스킹 예시 (ASCII/UTF-8)
원본: 104, 101, 108, 108, 111
마스크: 1, 2, 3, 4
마스킹
결과: 105, 103, 111, 104, 110
// 각 바이트별 XOR 연산
'h' ^ 1, 'e' ^ 2, 'l' ^ 3, 'l' ^ 4, 'o' ^ 1
경고
마스킹을 우회하는 것(예: 0,0,0,0 마스크 사용)은 보안상 위험할 수 있으며, 프로토콜 명세를 위반합니다.