
안녕하세요. 개발개입니다. 위키북스에서 나온 를 공부하면서 정리한 부분을 다음과 같은 목차에 따라 공유합니다. (설치와 관련된 포스트는 많기 때문에 따로 작성하지 않았습니다.) 엘라스틱서치의 이해 (1) 엘라스틱서치의 이해 (2) 데이터 모델링 엘라스틱서치 분석기 커스텀 분석기 이번 글에서는 분석기와 관련하여 다음에 내용에 대해 다룹니다. 목차 - custom Analyzer 오타, 오류 혹은 기타 의견은 언제든지 환영합니다. custom Analyzer 다음과 같은 커스텀 분석기/필터를 만들어 색인 시, 영화 제목은 movie_title_analyzer, 영화 코멘트는 movie_comment_analyzer를 적용하고 검색 시에는 Standard Analyzer만 사용하는 매핑을 통해 테스트를 진행해..

안녕하세요. 개발개입니다. 위키북스에서 나온 를 공부하면서 정리한 부분을 다음과 같은 목차에 따라 공유합니다. (설치와 관련된 포스트는 많기 때문에 따로 작성하지 않았습니다.) 엘라스틱서치의 이해 (1) 엘라스틱서치의 이해 (2) 데이터 모델링 엘라스틱서치 분석기 커스텀 분석기 이번 글에서는 분석기와 관련하여 다음에 내용에 대해 다룹니다. 목차 - 분석기 동작 프로세스 - 토크나이저/토큰 필터/분석기 - _analyze API 오타, 오류 혹은 기타 의견은 언제든지 환영합니다. 분석기 동작 프로세스 문장을 특정한 규칙에 의해 수정합니다. 전처리 필터 (CHARACTER FILTER; char_filter) 문장 분석 전 replaceAll()같은 패턴 처리나, 태그 제거 등의 역할 토크나이저 내부에서도 ..

안녕하세요. 개발개입니다. 숭실대학교 정보검색연구실의 중 다음 4가지 항목에 대하여 4부작으로 요약 및 정리한 내용을 기술합니다. 정보검색 시스템의 구조 검색 효과 평가 척도 영어 색인어 추출 한글 색인어 추출 이번 글에서는 한글 색인어 추출에 대해 알아보도록 하겠습니다. 오타, 오류 혹은 기타 의견은 언제든지 환영합니다. 한글에서 색인어를 추출하는 방법 중 다음 3가지를 다루고자 합니다. (추출되는 색인어의 단위에 따른 분류) 어절 단위 색인법 형태소 단위 색인법 n-Gram 기반 색인법 1. 어절 단위 색인법 각 어절들에 대해 비색인 분절(non-indexable segment; 무의미한 조사, 어미, 접미사 등 절단)하여 원문에 가까운 형태로 색인어를 추출하는 것 명사형 뒤에 조사나 접미사 등이 붙..

안녕하세요. 개발개입니다. 숭실대학교 정보검색연구실의 중 다음 4가지 항목에 대하여 4부작으로 요약 및 정리한 내용을 기술합니다. 정보검색 시스템의 구조 검색 효과 평가 척도 영어 색인어 추출 한글 색인어 추출 이번 글에서는 영어 색인어 추출에 대해 알아보도록 하겠습니다. 오타, 오류 혹은 기타 의견은 언제든지 환영합니다. 영어에서 색인어를 추출하는 3단계 과정은 다음과 같습니다. 어휘 분석 불용어 제거 스테밍 1. 어휘 분석 어휘 분석은 입력된 문자열을 토큰들로 변환하는 과정을 말합니다. 여기서 이 토큰들을의 형태를 정의 하기 위해서는 숫자, 하이픈, 구두점 등이 고려되어야 합니다. 숫자 대체적으로 연속된 숫자는 검색 주제와 무관한 경우가 많습니다. 하지만 특정 문서에서는 주용한 의미를 가질 수도 있습..