티스토리 뷰

728x90

 

안녕하세요. 개발개입니다.

 

숭실대학교 정보검색연구실의 <정보검색론> 중 다음 4가지 항목에 대하여

4부작으로 요약 및 정리한 내용을 기술합니다.

  1. 정보검색 시스템의 구조

  2. 검색 효과 평가 척도

  3. 영어 색인어 추출

  4. 한글 색인어 추출

 

이번 글에서는 영어 색인어 추출에 대해 알아보도록 하겠습니다.

 

오타, 오류 혹은 기타 의견은 언제든지 환영합니다.

 

 

 

 


 

 

영어에서 색인어를 추출하는 3단계 과정은 다음과 같습니다.

  1. 어휘 분석

  2. 불용어 제거

  3. 스테밍

 


 

1. 어휘 분석

어휘 분석은 입력된 문자열을 토큰들로 변환하는 과정을 말합니다.

 

여기서 이 토큰들을의 형태를 정의 하기 위해서는 숫자, 하이픈, 구두점 등이 고려되어야 합니다.

 

  • 숫자

    • 대체적으로 연속된 숫자는 검색 주제와 무관한 경우가 많습니다.

    • 하지만 특정 문서에서는 주용한 의미를 가질 수도 있습니다.

      예를 들면, 비타민에 대한 문서에서 "B6", "B12"와 같은 토큰입니다.

  • 하이픈

    • 하이픈이 있는 단어를 하나의 토큰으로 인식할 지 각각 인식해야 할 지 결정해야 합니다.

    • 하나의 토큰으로 취급되는 경우는 "F-16", "MS-DOS" 같은 경우입니다.

  • 구두점

    • 하이픈과 마찬가지로 토큰의 일부분으로 인식되는 것이 적합한 경우들이 존재합니다.

    • 예를 들어, "6.25 전쟁", "5.18 광주 민주화 운동", "OS/2" 같은 경우입니다.

 

 

2. 불용어 제거

불용어(stopword)란 대다수의 문서들에 빈번히 사용되어 검색에 도움이 되지 않는 단어들입니다.

불용어에는 관사, 전치사, 접속사 등이 포함되는데

적절한 불용어 제거는 적절히 제거하면 문서간의 유사도 계산 시간 및 색인 파일의 크기를 40% 이상 감소시키며, 검색 수행 시간을 단축시켜주는 효과가 있습니다.

 

하지만 동시에 재현율의 감소라는 문제가 발생하기도 합니다.

예를 들어 문학 작품 '햄릿'의 대사 "to be or not to be"라는 구절에서 전치사와 접속사를 불용어로 제거해버리면 "b"라는 단어만 남기 때문입니다.

이 때문에 일부 정보 검색 시스템들은 불용어 제거를 수행하지 않고 있습니다.

 

 

3. 스테밍

스테밍이란 동일한 의미를 갖는 단어들의 다양한 변형들을 하나의 색인어로 변환하는 것을 말합니다.

예를 들면, "computers", "computing", "compute", "computed", "computable", "computation" 등의 단어들을 "compute"라는 색인어로 변환하는 작업입니다.

이는 정보 검색 시스템에서 저장 공간의 사용을 감소시키며 검색 속도의 개선을 도모합니다.

 

하지만 과도 스테밍은 정확률을 희생하여 재현율을 증가시키며, 과소 스테밍은 재현율을 희생하여 정확률을 증가시킵니다.

재현율보다 정확률이 중요한 시스템에서는 스테밍을 수행하지 않는 경향이 있습니다.

 

 


 

 

정확률과 재현율에 대한 참고 링크 : [KR/검색] - [정보검색론] - 2. 검색 효과 평가 척도

 

다음 시간에는 한글에서의 색인어 추출에 대하여

<정보검색론 4부 - 한글 색인어 추출>에서 정리하도록 하겠습니다.

 

 

 


 

본 글은 다음을 참고하여 작성되었습니다.

 

이준호, 정보검색론, 숭실대학교 정보검색연구실, p.54~60, 2003.9

 

728x90
Total
Today
Yesterday
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
11-24 08:17