22-2 IT집중교육1-07-Python Web Scraping and Text Processing.pdf
TF-IDF 설명: https://wikidocs.net/31698
TF-IDF란
여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다.
a numerical statistic that is intended to reflect how important a word is to a document in a collection or corpus.
example)
tf(d,t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수.
df(t) : 특정 단어 t가 등장한 문서의 수.
idf(d, t) : df(t)에 반비례하는 수.
예제에서는 분모에 1을 더해 값이 기하급수적으로 커지는 것을 제한함.
df(특정 단어 t가 등장한 문서의 수)가 높을수록 idf 값이 작아져 tf-idf값 또한 작아진다. 이는 특정 단어 t가 여러 문서에 고르게 퍼져있으면 그 단어의 tf-idf 값이 전체적으로 낮아진다는 것을 의미한다. 반대로 특정 단어 t가 하나의 문서에 집중적으로 나타나면 특정 단어 t의 tf-idf 값은 전체적으로 높아진다는 것을 의미한다.