-
ASCII와 Unicode, UTF-8Study/컴퓨터 구조 & 운영체제 2022. 9. 21. 21:36
01. 문자열 인코딩 (Character Set)
- 문자열을 n개의 byte로 이루어진 정수형으로 치환하여 프로그램에서 사용하는 것이다.
- 인코딩 방식으로 UTF-8, Multibyte, ASCII가 있다.
02. ASCII, Multibyte, WideChar, UTF-8 (그리고 UNICODE)
유니코드(UNICODE)는 ASCII Chracter Set에 포함되지 않은 문자(한국어 등) 을 표현하기 위한 방식이다
ASCII는 1Byte로 영어, 수학 기호 등이 표현되며, 1Byte인 만큼 최대 255개의 문자를 표현할 수 있다.
멀티바이트는 1바이트로도, 2Byte로도 문자가 표현될 수 있는 가변 인코딩 형식이다. 특정 문자 집합마다 (한국어, 중국어 등) 코드 페이지라는 것이 존재하며, 특정 코드 페이지로 작성된 멀티바이트 텍스트는 코드 페이지가 맞지 않으면 깨질 수 있다.
Wide Character는 2Byte로 고정되어 있다. ANSI에서 유니코드를 표현하기 위해 제정한 방식
UTF-8 또한 유니코드 인코딩 방식으로, 1Byte에서 4Byte까지 사용한다.
'Study > 컴퓨터 구조 & 운영체제' 카테고리의 다른 글
[운영체제] 가상 메모리(Virtual Memory)와 페이징, 세그멘테이션 (0) 2022.10.11 [뇌자극 시스템 프로그래밍] 01. 컴퓨터 구조에 대한 간략한 이해 (0) 2022.09.17 프로그램이 실행되는 과정 (CPU와 Register, RAM의 작동방식) (0) 2022.09.12