티스토리 뷰
안녕하세요. 개발개입니다.
숭실대학교 정보검색연구실의 <정보검색론> 중 다음 4가지 항목에 대하여
4부작으로 요약 및 정리한 내용을 기술합니다.
이번 글에서는 검색 효과 평가 척도에 대해 알아보도록 하겠습니다.
오타, 오류 혹은 기타 의견은 언제든지 환영합니다.
일반적으로 정보 검색 시스템의 검색 효과를 평가하기 위한 척도는 두 가지 입니다.
1. 재현율(recall)
-
전체 적합 문서에 대한 검색된 적합 문서의 비율
-
문서 집합에서 사용자가 원하는 문서를 어느 정도 검색하였는가
2. 정확률(precision)
-
전체 검색 문서에 대한 검색된 적합 문서의 비율
-
검색된 문서들 중에서 사용자가 원하는 문서가 얼마나 포함되어 있는가
재현율과 정확률 계산 예시
전체 문서 집합에 200개의 문서가 있고, 이 문서 집합 속에 사용자의 질의에 적합한 문서가 5개라고 했을 때, 검색 시스템이 6개의 문서를 검색하였고, 검색된 문서 중 4개의 문서가 질의를 만족하는 문서라면 재현율과 정확률은 어떻게 계산할까요?
-
재현율 = 4 / 5 = 0.8
-
정확률 = 4 / 6 = 0.66667
재현율과 정확률의 의미 재고
만약 두 검색 시스템 A, B에 대해
A 시스템이 B 시스템에 비해 재현율과 정확률이 모두 높으면
A 시스템의 검색 효과가 B 시스템보다 우수하다고 할 수 있습니다.
하지만
A 시스템이 B 시스템에 비해 재현율 혹은 정확률만 높은 경우에는
어느 평가척도가 더 중요한지를 검토해야 합니다.
특허/법률 분야의 검색에서는 일반적으로 정확률보다 재현율을 중요시 하며,
일반적인 웹 검색 시스템의 경우 높은 정확률을 제공하도록 설계하는 것이 바람직합니다.
(일반 사용자들은 유사도가 높은 상위 10-20개 정도의 문서만을 검토하는 경향이 있으므로)
다음 시간에는 영어에서의 색인어 추출에 대하여
<정보검색론 3부 - 영어 색인어 추출>에서 정리하도록 하겠습니다.
바로가기 : [KR/검색] - [정보검색론] - 3. 영어 색인어 추출
본 글은 다음을 참고하여 작성되었습니다.
이준호, 정보검색론, 숭실대학교 정보검색연구실, p.6,p.44~45, 2003.9
'KR > 검색' 카테고리의 다른 글
[Elasticsearch] - 1. 엘라스틱서치의 이해 (1) (2) | 2020.03.23 |
---|---|
[데이터 색인] 역색인 구조 (역 인덱스; Inverted Index) (2) | 2020.03.15 |
[정보검색론] - 4. 한글 색인어 추출 (0) | 2020.03.08 |
[정보검색론] - 3. 영어 색인어 추출 (0) | 2020.03.01 |
[정보검색론] - 1. 정보 검색 시스템의 구조 (0) | 2020.02.09 |