티스토리 뷰
안녕하세요. 개발개입니다.
숭실대학교 정보검색연구실의 <정보검색론> 중 다음 4가지 항목에 대하여
4부작으로 요약 및 정리한 내용을 기술합니다.
이번 글에서는 한글 색인어 추출에 대해 알아보도록 하겠습니다.
오타, 오류 혹은 기타 의견은 언제든지 환영합니다.
한글에서 색인어를 추출하는 방법 중 다음 3가지를 다루고자 합니다.
(추출되는 색인어의 단위에 따른 분류)
-
어절 단위 색인법
-
형태소 단위 색인법
-
n-Gram 기반 색인법
1. 어절 단위 색인법
각 어절들에 대해 비색인 분절(non-indexable segment; 무의미한 조사, 어미, 접미사 등 절단)하여 원문에 가까운 형태로 색인어를 추출하는 것
명사형 뒤에 조사나 접미사 등이 붙는다는 한글의 특성을 근거로, 어절로부터 조사나 접미사 등을 제거하는 데 중점을 둔 색인법입니다.
- 예시. 비색인 분절
은, 는, 이, 가 | 을, 를, 에, 에게 | 와, 과 | 부터, 로부터 | 들, 들도, 들의 |
마다, 만큼, 보다 | 로서, 로써 | 와의, 과의, 처럼 | 하다, 하는, 하도록 | … |
색인 과정은 대체로 3단계로 구성됩니다.
-
빈칸 등을 구분자로 문서에서 어절을 인식
-
인식된 각 어절에 대해 비색인 분절을 제거
(최장 일치법 이용 : 주어진 어절 내에서 검출될 수 있는 비색인 분절 중 가장 긴 분절 선택) -
불용어를 제외한 나머지 색인 분절들을 색인어로 선정
위와 같이 과정이 비교적 간단한 것이 특징인 반면에, 복합 명사의 띄어 쓰기 문제를 적절히 처리하지 못한다는 문제점도 있습니다.
- 예시. 비색인 분절을 검출하는 과정에서 오류로 인하여 추출되는 색인어의 일관성이 떨어지는 경우
대상 어절 | 비색인분절 | 추출된 색인어 |
벨기에로서는 | 로서는 | 벨기에 |
벨기에 | 에 | 벨기 |
- 예시. 복합명사에 어절 단위 색인법을 사용했을 때 발생할 수 있는 문제
문서번호 | 문서 내 문자열 | 어절 단위 색인법 적용 |
1 | 정보검색 | [정보검색] |
2 | 정보 전송 | [정보], [전송] |
이처럼 [정보검색], [정보 전송]이라는 문자열은 각각 [정보검색]과 [정보], [전송]이라는 색인어가 추출이 됩니다.
다음과 같이 [정보 검색]이라는 질의어에서는 [정보], [검색]가 추출되기 때문에
질의 내 문자열 | 어절 단위 색인법 적용 |
정보 검색 | [정보], [검색] |
질의와 문서 사이의 유사도는 다음과 같습니다.
-
sim(문서1, 질의) = 0
-
sim(문서2, 질의) = 문서2의 [정보] x 질의의 [정보]
눈으로 보기엔 [정보검색]과 [정보], [검색]이 유사해 보이지만, 띄어 쓰기로 인해 일치하는 색인어를 갖지 않는다는 점이 중요합니다.
2. 형태소 단위 색인법
형태소 해석을 수행함으로써 각 어절을 형태소 단위(명사, 부사, 조사 등)로 분리한 후, 문서나 질의의 내용 표현에 적절한 형태소들을 추출하는 것
- 문장 분석의 정도에 따른 형태소 단위 색인법 분류
형태소 해석 | 구문 해석 | |
색인 과정 |
1. 어절들에 대한 형태소 해석 |
1. 어절들에 대한 형태소 해석 2. 형태소 해석의 애매성 제거 3. 형태소 해석 결과를 이용한 구문 분석 4. 명사 추출 5. 불용어 제거 |
어절 단위 색인법의 단점인 복합 명사의 띄어 쓰기 문제를 극복할 수 있습니다.
- 예시. 띄어쓰기가 없는 복합 명사에 대한 어절 단위 색인법과 형태소 단위 색인법 적용 결과
대상 어절 | 어절 단위 색인법 추출 색인어 | 형태소 단위 색인법 추출 색인어 |
정보검색서비스가 | [정보검색서비스] | [정보], [검색], [서비스] |
형태소 단위 색인법은 복합 명사의 띄어 쓰기 문제 처리도 용이하고 검색 효과도 좋은 반면 다음과 같은 3가지 문제점이 있습니다.
-
형태소 해석을 위한 사전을 개발하기 위해 많은 시간과 비용이 듦
-
형태소 해석 결과의 애매성, 미등록어, 비문법적인 어절 등을 이유로 부정확한 색인어가 추출될 수 있음
-
형태소 해석이나 구문 해석 과정에서 복잡한 규칙이 필요하고 예외적인 상황도 많이 발생함
3. n-Gram 기반 색인법
어절 단위 색인법과 n-Gram 색인법을 결합한 방법으로써, 문장 내의 각 어절에 대해 어절 단위 색인법을 적용하고, 그 결과로 생성된 분절에 n-Gram 색인법을 적용하는 것 (n-Gram : n개의 음절)
- n-Gram 기반 색인법의 적용 과정
적용 방법 | 단계 | 내용 | |
어절 단위 색인법 | 1단계 | 빈칸, 마침표, 쉼표, 따옴표 등을 구분자로 모든 어절들을 추출 | |
2단계 | 어절들에 대해 최장 일치법을 이용하여 비색인 분절을 절단 | ||
3단계 | 불용어 리스트를 이용하여 색인어로써 무의미한 어절들을 제거 | ||
n-Gram 방법 | 4단계 | 생성된 가각의 색인 분절에 대해 n-Gram 방법을 적용 |
- 예시. n-Gram 기반 색인법
내년 중반부터 정보검색서비스가 실시된다. | |
1단계 | 내년, 중반부터, 정보검색서비스가, 실시된다 |
2단계 | 내년, 중반, 정보검색서비스, 실시 |
3단계 | 정보검색서비스, 실시 |
4단계 | 정보, 보검, 검색, 색서, 서비, 비스, 실시 |
n-Gram 기반 색인법의 장점은 어절 단위 색인법의 복합 명사 띄어 쓰기 문제를 완화한다는 점과 형태소 단위 색인법의 복잡한 문장 해석 규칙 등을 요구하지 않는다는 점입니다.
반면에 단점으로는 동시에 많은 수의 색인어를 추출하기 때문에 인덱스를 저장하는데 공간을 많이 사용한다는 것과 의미없는 n-Gram의 생성으로 인해 질의에 부적합한 문서들이 검색될 가능성이 있다는 것이 있습니다.
본 글은 다음을 참고하여 작성되었습니다.
이준호, 정보검색론, 숭실대학교 정보검색연구실, p.102~109, 2003.9
'KR > 검색' 카테고리의 다른 글
[Elasticsearch] - 1. 엘라스틱서치의 이해 (1) (2) | 2020.03.23 |
---|---|
[데이터 색인] 역색인 구조 (역 인덱스; Inverted Index) (2) | 2020.03.15 |
[정보검색론] - 3. 영어 색인어 추출 (0) | 2020.03.01 |
[정보검색론] - 2. 검색 효과 평가 척도 (0) | 2020.02.09 |
[정보검색론] - 1. 정보 검색 시스템의 구조 (0) | 2020.02.09 |