[정보검색론] - 1. 정보 검색 시스템의 구조

티스토리 뷰

KR/검색

[정보검색론] - 1. 정보 검색 시스템의 구조

개발개 2020. 2. 9. 15:03

728x90

안녕하세요. 개발개입니다.

숭실대학교 정보검색연구실의 <정보검색론> 중 다음 4가지 항목에 대하여

4부작으로 요약 및 정리한 내용을 기술합니다.

이번 글에서는 정보 검색 시스템의 구조에 대해 알아보도록 하겠습니다.

오타, 오류 혹은 기타 의견은 언제든지 환영합니다.

정보 시스템의 구조는 다음과 같습니다.

언뜻 복잡해 보이는 이 도표는 5가지로 부분으로 나눌 수 있습니다.

색인
질의 형식화
검색
적합성 피드백
검색 효과 평가

1. 색인

색인 모듈에 입력된 문서들은 색인어 추출 과정을 거쳐 문서 베이스에 저장됩니다.

과거의 색인 작업은 사서나 전문가에 의해 수작업으로 수행되었으나,

수작업 색인의 경우 시간과 비용면에서 효과적이지 못하며 작업자의 주관이 반영될 수 있다는 점 때문에

컴퓨터를 이용하여 문서와 질의를 자동적으로 분석함으로써

색인어를 추출하는 자동 색인 기법들이 출현하였습니다.

2. 질의 형식화

질의 형식화 모듈에 입력된 사용자의 정보 요구는 시스템이 지원하는 질의 언어에 적합한 형태로 형식화 됩니다.

정보 검색 시스템마다 서로 다른 질의 문법을 지원합니다.

예를 들어, 구글에서 사용하는 검색 질의 문법과 네이버에서 사용하는 검색 질의 문법은 차이가 있습니다.

하지만 사용자들이 각 검색 시스템에 맞는 문법을 익혀서 질의를 작성하긴 어렵기 때문에

사용자가 자연어를 사용하여 원하는 정보 요구를 기술하면,

형식화 모듈이 이를 분석하여 해당 검색 모듈의 특성에 부합하는 질의로 변환하는 것입니다.

물론 특정 정보 검색 시스템의 질의 문법에 익숙한 사용자는 질의를 직접 작성함으로써

검색 결과의 질을 향상시킬 수도 있습니다.

3. 검색

검색 모듈은 형식화 된 질의와 정보 베이스에 저장된 문서들 사이의 유사도(similarity)를 계산하여, 유사도가 높은 문서들을 우선적으로 출력합니다.

질의와 문서 사이의 유사도를 보다 정확하게 계산하기 위해 많은 연구들이 진행되어 왔습니다.

유사도가 높은 문서일수록 우선적으로 출력되기 때문에 사용자의 접근성 또한 높습니다.

따라서 유사도 계산이 정확하게 수행되었을 수록 사용자가 높은 순위의 문서를 우선적으로 검토함으로써

필요한 정보를 얻는데 소모되는 시간을 최소화하고, 질의에 대한 만족도가 크다고 할 수 있습니다.

4. 적합성 피드백

유사도의 순위에 따라 출력된 문서들 중, 사용자가 적합 문서와 비적합 문서들을 선정함으로써, 검색 결과에 대한 적합성 정보를 시스템에게 제공합니다.

사용자의 초기 질의는 임의적이고 불확실하며 광범위 할 수 있습니다.

사용자가 어떤 문서를 선택하느냐에 따라 시스템에게 적합성 정보(적합성 피드백)를 제공함으로써,

질의와 문서 사이의 유사도를 계산하는 정보 검색 시스템은 질의 수정을 자동으로 수행합니다.

이러한 사용자의 적합성 정보는 검색 결과의 질을 측정하거나,

검색 효과의 개선을 목적으로 질의를 재구성하는 데 활용될 수 있습니다.

5. 검색 효과 평가

정보 검색 시스템의 검색 효과는 일반적으로 재현율(recall)과 정확률(precision)로써 평가됩니다.

이 두 검색 효과의 평가 척도에 대해서는

<정보검색론 2부 - 검색 효과 평가 척도>에서 정리하도록 하겠습니다.

바로가기 : [KR/검색] - [정보검색론] - 2. 검색 효과 평가 척도

본 글은 다음을 참고하여 작성되었습니다.

이준호, 정보검색론, 숭실대학교 정보검색연구실, p.4~6, 2003.9

728x90

저작자표시 비영리 동일조건 (새창열림)

'KR > 검색' 카테고리의 다른 글

[Elasticsearch] - 1. 엘라스틱서치의 이해 (1) (2)	2020.03.23
[데이터 색인] 역색인 구조 (역 인덱스; Inverted Index) (2)	2020.03.15
[정보검색론] - 4. 한글 색인어 추출 (0)	2020.03.08
[정보검색론] - 3. 영어 색인어 추출 (0)	2020.03.01
[정보검색론] - 2. 검색 효과 평가 척도 (0)	2020.02.09

Total

Today

Yesterday

« 2026/08 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

08-03 18:10

DevLogs

티스토리 뷰