OLD개발이야기/bigdata

    combinebykey 해석

    The groupByKey call makes no attempt at merging/combining values, so it’s an expensive operation.Thus the combineByKey call is just such an optimization. When using combineByKey values are merged into one value at each partition then each partition value is merged into a single value. It’s worth noting that the type of the combined value does not have to match the type of the original value and ..

    Hierachy Clustering

    Hierachy Clustering 의 종류 2가지Divisive Clustering (top -down )Agglomerative Clustering(bottom up) 1. Divisive Clustering 분할적 클러스터링 하향식이다. 다른 블로그의 글을 참고해 보면 ( http://www.openwith.net/?p=619)같은 같은 군집 내의 모든 객체들에서 시작하므로 하향식 (top-down) 접근이라 불린다. 연속적인 반복으로 군집은 결국 각 객체가 하나의 군집이 되거나 종료의 조건이 될 때까지 더 작은 군집으로 분할된다. 2. Agglomerative Clustering 병합적 클러스터링각 객체가 각각의 그룹을 형성하는 것에서 시작하여 상향식 (bottom-up) 접근이라고도 불린다.