SeSAC 금융데이터 분석가/자연어 처리 썸네일형 리스트형 11/2 수 1. 유사도 - 자카드 유사도(Jaccard Similarity): 집합 기반 A, B 두 개의 집합이 있다고 할 때, 합집합에서 교집합의 비율을 구하는 것 0~1 사이의 값을 가짐 (두 집합이 동일하면 1, 두 집합의 교집합이 없다면 0 값을 가짐) 값이 1에 가까울수록 두 문장이 유사한 문장, 0에 가까울수록 유사하지 않은 문장으로 분류 각 아이템(단어)들을 Binary값(0,1)으로 변환하여 교집합/합집합을 구함 - 코사인 유사도(Cosine Similarity): 벡터(각도) 기반 두 벡터(방향성)간의 코사인 각도를 이용하여 구하는 두 벡터의 유사도를 의미 -1~1 사이의 값을 가짐 값이 1에 가까울수록(두 벡터의 방향이 같을수록) 유사성이 높음 (두 벡터가 서로 90°의 각을 이루면 코사인 유사.. 더보기 10/28 금 1. SVD(Singular Value Decomposition, 특이값 분해) SVD란 A가 m × n 행렬일 때, 다음과 같이 3개의 행렬의 곱으로 분해(decomposition)하는 것을 말한다. HTML 삽입 미리보기할 수 없는 소스 여기서 각 3개의 행렬은 다음과 같은 조건을 만족한다. HTML 삽입 미리보기할 수 없는 소스 이때 SVD로 나온 대각 행렬의 대각 원소의 값을 행렬 A의 특이값(singular value)이라고 한다. LSA(Latent Semantic Analysis, 잠재 의미 분석)의 경우 풀 SVD에서 나온 3개의 행렬에서 일부 벡터들을 삭제시킨 절단된 SVD(truncated SVD)를 사용하게 된다. 2. 행렬 1) 전치 행렬(Transposed Matrix) : 원래의.. 더보기 10/27 목 1. SoyNLP 지난번 배웠던 koNLPy의 형태소분석기로 토큰화가 잘 되지 않는 신조어를 응집 확률(cohesion probability)과 브랜칭 엔트로피(branching entropy)를 기반으로 단어에 점수를 부여해서 토큰화를 할 수 있도록 지원하는 SoyNLP 패키지를 배웠다! 강사님이 진행하신 코드와 거의 유사하고, 기법과 용어에 대한 설명이 자세하게 나온 페이지가 있어, 역시 참고하였다. - 응집 확률(cohesion probability) : 왼쪽부터 순서대로 문자를 추가하면서 각 문자열이 주어졌을 때 그다음 문자가 나올 확률을 계산하여 누적곱을 한 값. 값이 높을수록 해당 문자열 시퀀스가 하나의 단어로 등장할 가능성이 높아짐 - 브랜칭 엔트로피(branching entropy) : 만.. 더보기 이전 1 다음