본문 바로가기

유니코드(Unicode)란 들어가기 문자열을 다루면서 유니코드(unicode)를 많이 사용하고 있다. 유니코드는 전 세계 문자를 공통으로 표현하는 국제 문자 코드 규약이다. 한번 유니코드에 간단하게 살펴보자. 작성자: ospace114@empal.com, http://ospace.tistory.com/ 문자 표현 방식들 실제로는 문자열을 표현하는 방식은 여러 개가 있다. 지금도 사용하고 있어서 어느정도 알아두는게 도움이 된다. 확장 ASCII 기존 ASCII에서 영어 표현 한계로 특수 문자를 확장한 ISO/IEC 8859-1을 정의했다. 지금 사용하는 ASCII 인코딩이 확장 ASCII이다. 8 bit 크기로 0x00~0xFF 범위를 가진다. MBCS(Multi-byte Character set) 여러 byte를 사용해서 한 문자.. 더보기
텍스트 문서에 대한 처리 텍스트 문서 처리하는 작업이 생각만큼 쉽지 않다. 단순 텍스트라고 해서 예전 ASCII 코드 값만 생각할지 모르겠지만, 다양한 포멧의 텍스트 문서가 있다. 그렇기에 그에 따른 처리도 달라질 수 밖에 없다. 이미지가 JPG인지 GIF인지에 따라 처리를 달리하는 경우와 같다. 작성자: Ospace (ospace114@empal.com) http://ospace.tistory.com 텍스트 문서의 포멧이라고 하면 의아해할 수 있지만, 제가 말하고자하는 부분은 유니코드 관련된 부분이다. 즉, 다양한 인코딩 방식이 있다. 예를 들어 영어권(일반텍스트): ascii 비영어권: Unicode, UTF-8 기타로 다음과 같은 것이 있다. LE와 BE는 Little Endian과 Big Endian 차이이다. UTF-1.. 더보기

반응형