티스토리 뷰

728x90

 

안녕하세요. 개발개입니다.

 

숭실대학교 정보검색연구실의 <정보검색론> 중 다음 4가지 항목에 대하여

4부작으로 요약 및 정리한 내용을 기술합니다.

  1. 정보검색 시스템의 구조

  2. 검색 효과 평가 척도

  3. 영어 색인어 추출

  4. 한글 색인어 추출

 

이번 글에서는 검색 효과 평가 척도에 대해 알아보도록 하겠습니다.

 

오타, 오류 혹은 기타 의견은 언제든지 환영합니다.

 

 

 

 


 

 

일반적으로 정보 검색 시스템의 검색 효과를 평가하기 위한 척도는 두 가지 입니다.

 

1. 재현율(recall)

  • 전체 적합 문서에 대한 검색된 적합 문서의 비율

  • 문서 집합에서 사용자가 원하는 문서를 어느 정도 검색하였는가

 

 

2. 정확률(precision)

  • 전체 검색 문서에 대한 검색된 적합 문서의 비율

  • 검색된 문서들 중에서 사용자가 원하는 문서가 얼마나 포함되어 있는가

 

 

재현율과 정확률 계산 예시

전체 문서 집합에 200개의 문서가 있고, 이 문서 집합 속에 사용자의 질의에 적합한 문서가 5개라고 했을 때, 검색 시스템이 6개의 문서를 검색하였고, 검색된 문서 중 4개의 문서가 질의를 만족하는 문서라면 재현율과 정확률은 어떻게 계산할까요?

  • 재현율 = 4 / 5 = 0.8

  • 정확률 = 4 / 6 = 0.66667

 

재현율과 정확률의 의미 재고

만약 두 검색 시스템  A, B에 대해

A 시스템이 B 시스템에 비해 재현율과 정확률이 모두 높으면

A 시스템의 검색 효과가 B 시스템보다 우수하다고 할 수 있습니다.

 

하지만

A 시스템이 B 시스템에 비해 재현율 혹은 정확률만 높은 경우에는

어느 평가척도가 더 중요한지를 검토해야 합니다.

특허/법률 분야의 검색에서는 일반적으로 정확률보다 재현율을 중요시 하며,

일반적인 웹 검색 시스템의 경우 높은 정확률을 제공하도록 설계하는 것이 바람직합니다.

(일반 사용자들은 유사도가 높은 상위 10-20개 정도의 문서만을 검토하는 경향이 있으므로)

 

 


 

 

다음 시간에는 영어에서의 색인어 추출에 대하여

<정보검색론 3부 - 영어 색인어 추출>에서 정리하도록 하겠습니다.

 

바로가기 : [KR/검색] - [정보검색론] - 3. 영어 색인어 추출

 

 


 

 

본 글은 다음을 참고하여 작성되었습니다.

 

이준호, 정보검색론, 숭실대학교 정보검색연구실, p.6,p.44~45, 2003.9

 

 

728x90
Total
Today
Yesterday
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
11-15 06:43