
안녕하세요. 개발개입니다. 이번 글에서는 검색엔진 분야에서 주목받고 있는 엘라스틱서치의 주요 특징 중 하나인 역색인 구조란 무엇인지에 대해 알아보겠습니다. 오타, 오류 혹은 기타 의견은 언제든지 환영합니다. 색인(Index)란? 문서에서 키워드를 찾아보기 쉽도록 정렬/나열한 목록을 말합니다. 일반적으로 책 뒷편에 색인, 인덱스, 찾아보기와 같은 이름으로 정돈된 목록을 말합니다. 역색인(Inverted Index)란? 키워드를 통해 문서를 찾아내는 방식을 말합니다. 책 뒷편의 색인된 키워드를 이용해 역으로 본문(혹은 문서)을 찾는 방식을 말합니다. 예를 들어, 리눅스를 사용하던 중 특정 파일을 찾고 싶어 명령어를 사용하려고 합니다. 그런데 which, whereis, find와 같은 명령어 중 무엇을 사용..

안녕하세요. 개발개입니다. 숭실대학교 정보검색연구실의 중 다음 4가지 항목에 대하여 4부작으로 요약 및 정리한 내용을 기술합니다. 정보검색 시스템의 구조 검색 효과 평가 척도 영어 색인어 추출 한글 색인어 추출 이번 글에서는 한글 색인어 추출에 대해 알아보도록 하겠습니다. 오타, 오류 혹은 기타 의견은 언제든지 환영합니다. 한글에서 색인어를 추출하는 방법 중 다음 3가지를 다루고자 합니다. (추출되는 색인어의 단위에 따른 분류) 어절 단위 색인법 형태소 단위 색인법 n-Gram 기반 색인법 1. 어절 단위 색인법 각 어절들에 대해 비색인 분절(non-indexable segment; 무의미한 조사, 어미, 접미사 등 절단)하여 원문에 가까운 형태로 색인어를 추출하는 것 명사형 뒤에 조사나 접미사 등이 붙..

안녕하세요. 개발개입니다. 숭실대학교 정보검색연구실의 중 다음 4가지 항목에 대하여 4부작으로 요약 및 정리한 내용을 기술합니다. 정보검색 시스템의 구조 검색 효과 평가 척도 영어 색인어 추출 한글 색인어 추출 이번 글에서는 정보 검색 시스템의 구조에 대해 알아보도록 하겠습니다. 오타, 오류 혹은 기타 의견은 언제든지 환영합니다. 정보 시스템의 구조는 다음과 같습니다. 언뜻 복잡해 보이는 이 도표는 5가지로 부분으로 나눌 수 있습니다. 색인 질의 형식화 검색 적합성 피드백 검색 효과 평가 1. 색인 색인 모듈에 입력된 문서들은 색인어 추출 과정을 거쳐 문서 베이스에 저장됩니다. 과거의 색인 작업은 사서나 전문가에 의해 수작업으로 수행되었으나, 수작업 색인의 경우 시간과 비용면에서 효과적이지 못하며 작업자..