안녕하세요. 개발개입니다. 위키북스에서 나온 를 공부하면서 정리한 부분을 다음과 같은 목차에 따라 공유합니다. (설치와 관련된 포스트는 많기 때문에 따로 작성하지 않았습니다.) 엘라스틱서치의 이해 (1) 엘라스틱서치의 이해 (2) 데이터 모델링 엘라스틱서치 분석기 커스텀 분석기 이번 글에서는 데이터 모델링과 관련하여 다음에 내용에 대해 다룹니다. 목차 - 매핑 파라미터 - 메타 필드 - 데이터 타입 오타, 오류 혹은 기타 의견은 언제든지 환영합니다. 1. 매핑 파라미터 - anlayzer 해당 필드의 데이터를 형태소 분석의 대상으로 함 색인 및 검색 시 지정한 분석기로 형태소 분석을 수행 (디폴트 standard analyzer) - normalizer term query에 분석기를 사용하기 위함 asc..
안녕하세요. 개발개입니다. 위키북스에서 나온 를 공부하면서 정리한 부분을 다음과 같은 목차에 따라 공유합니다. (설치와 관련된 포스트는 많기 때문에 따로 작성하지 않았습니다.) 엘라스틱서치의 이해 (1) 엘라스틱서치의 이해 (2) 데이터 모델링 엘라스틱서치 분석기 커스텀 분석기 이번 글은 엘라스틱서치의 이해에 대한 두 번째 포스팅입니다. 목차 - 엘라스틱서치 설정 - snapshot 만들기 - snapshot 복구하기 오타, 오류 혹은 기타 의견은 언제든지 환영합니다. 1. 엘라스틱서치 설정 설정 파일 위치 [elasticsearch디렉토리]\config\elasticsearch.yml 주요 항목 정보 cluster.name 여러 노드를 묶기 위한 클러스터명 node.name 노드명 path.data 인..
안녕하세요. 개발개입니다. 위키북스에서 나온 를 공부하면서 정리한 부분을 다음과 같은 목차에 따라 공유합니다. (설치와 관련된 포스트는 많기 때문에 따로 작성하지 않았습니다.) 엘라스틱서치의 이해 (1) 엘라스틱서치의 이해 (2) 데이터 모델링 엘라스틱서치 분석기 커스텀 분석기 이번 글은 엘라스틱서치의 이해에 대한 첫 번째 포스팅입니다. 목차 - 검색 시스템의 구성 요소 - 엘라스틱서치 vs 관계형 데이터베이스 - 엘라스틱서치의 특징 오타, 오류 혹은 기타 의견은 언제든지 환영합니다. 1. 검색 시스템의 구성 요소 수집기 - 웹 상의 정보를 수집 - 파일의 경우 파일 이름/내용/경로 등의 정보를 수집하고 저장 - 크롤러(Crawler), 스파이더(Spider), 웜(Worms), 웹 로봇(Web Robo..
안녕하세요. 개발개입니다. 이번 글에서는 검색엔진 분야에서 주목받고 있는 엘라스틱서치의 주요 특징 중 하나인 역색인 구조란 무엇인지에 대해 알아보겠습니다. 오타, 오류 혹은 기타 의견은 언제든지 환영합니다. 색인(Index)란? 문서에서 키워드를 찾아보기 쉽도록 정렬/나열한 목록을 말합니다. 일반적으로 책 뒷편에 색인, 인덱스, 찾아보기와 같은 이름으로 정돈된 목록을 말합니다. 역색인(Inverted Index)란? 키워드를 통해 문서를 찾아내는 방식을 말합니다. 책 뒷편의 색인된 키워드를 이용해 역으로 본문(혹은 문서)을 찾는 방식을 말합니다. 예를 들어, 리눅스를 사용하던 중 특정 파일을 찾고 싶어 명령어를 사용하려고 합니다. 그런데 which, whereis, find와 같은 명령어 중 무엇을 사용..
안녕하세요. 개발개입니다. 숭실대학교 정보검색연구실의 중 다음 4가지 항목에 대하여 4부작으로 요약 및 정리한 내용을 기술합니다. 정보검색 시스템의 구조 검색 효과 평가 척도 영어 색인어 추출 한글 색인어 추출 이번 글에서는 한글 색인어 추출에 대해 알아보도록 하겠습니다. 오타, 오류 혹은 기타 의견은 언제든지 환영합니다. 한글에서 색인어를 추출하는 방법 중 다음 3가지를 다루고자 합니다. (추출되는 색인어의 단위에 따른 분류) 어절 단위 색인법 형태소 단위 색인법 n-Gram 기반 색인법 1. 어절 단위 색인법 각 어절들에 대해 비색인 분절(non-indexable segment; 무의미한 조사, 어미, 접미사 등 절단)하여 원문에 가까운 형태로 색인어를 추출하는 것 명사형 뒤에 조사나 접미사 등이 붙..
안녕하세요. 개발개입니다. 숭실대학교 정보검색연구실의 중 다음 4가지 항목에 대하여 4부작으로 요약 및 정리한 내용을 기술합니다. 정보검색 시스템의 구조 검색 효과 평가 척도 영어 색인어 추출 한글 색인어 추출 이번 글에서는 영어 색인어 추출에 대해 알아보도록 하겠습니다. 오타, 오류 혹은 기타 의견은 언제든지 환영합니다. 영어에서 색인어를 추출하는 3단계 과정은 다음과 같습니다. 어휘 분석 불용어 제거 스테밍 1. 어휘 분석 어휘 분석은 입력된 문자열을 토큰들로 변환하는 과정을 말합니다. 여기서 이 토큰들을의 형태를 정의 하기 위해서는 숫자, 하이픈, 구두점 등이 고려되어야 합니다. 숫자 대체적으로 연속된 숫자는 검색 주제와 무관한 경우가 많습니다. 하지만 특정 문서에서는 주용한 의미를 가질 수도 있습..
안녕하세요. 개발개입니다. 이번 글에서는 Lombok(롬복)을 설치하고 STS(eclipse)에 연동하는 방법을 알아보겠습니다. Lombok은 공식사이트, Maven, gradle 등 다양한 경로를 통해 다운받을 수 있고, 본 글에서는 ① 공식사이트 ② pom.xml직접 작성(Maven) ③ springboot 초기설정(Maven)을 통해 다운받고 설치하는 방법에 대해 다룹니다. 오타, 오류 혹은 기타 의견은 언제든지 환영합니다. Lombok(롬복) 이란? Lombok이란 자동으로 기본적인 상용구를 생성 해 줌으로써 코드량을 줄이는데 도움을 주는 Java 어노테이션 라이브러리입니다. 객체 클래스에 @Data 어노테이션만 달면, Getter/Setter/Equals/ToString과 같은 메서드를 자동으로..
안녕하세요. 개발개입니다. 숭실대학교 정보검색연구실의 중 다음 4가지 항목에 대하여 4부작으로 요약 및 정리한 내용을 기술합니다. 정보검색 시스템의 구조 검색 효과 평가 척도 영어 색인어 추출 한글 색인어 추출 이번 글에서는 검색 효과 평가 척도에 대해 알아보도록 하겠습니다. 오타, 오류 혹은 기타 의견은 언제든지 환영합니다. 일반적으로 정보 검색 시스템의 검색 효과를 평가하기 위한 척도는 두 가지 입니다. 1. 재현율(recall) 전체 적합 문서에 대한 검색된 적합 문서의 비율 문서 집합에서 사용자가 원하는 문서를 어느 정도 검색하였는가 2. 정확률(precision) 전체 검색 문서에 대한 검색된 적합 문서의 비율 검색된 문서들 중에서 사용자가 원하는 문서가 얼마나 포함되어 있는가 재현율과 정확률 ..