2011. 1. 13. 15:46
How Twitter Uses NoSQL 프레임워크2011. 1. 13. 15:46
http://www.readwriteweb.com/cloud/2011/01/how-twitter-uses-nosql.php
Twitter 사용자들은 하루에 12 테라바이트(연 거의 4 페타바이트)의 데이터를 생산한다고 한다.
이러한 방대한 양의 데이터를 사용하는 트위터에서는 아래와 같은 NoSQL들을 사용한다고 한다.
Scribe(https://github.com/facebook/scribe)
- syslog는 더 이상 사용 불가.
- facebook에 의해 오픈소스화된 로그 수집 프레임워크인 scribe를 사용함.
- twitter는 scribe를 이용해서 로그를 hadoop에 저장.
Cloudera(http://www.cloudera.com/)'s Hadoop
- mysql은 분석 업무에 적합하지 않아서 hadoop을 사용
Pig
- hadoop을 사용하는 가장 좋은 방법은 자바를 이용한는 것이지만,
- 자바는 복잡하고 빠르게 반복 작업을 하기에는 적합하지 않다.
- hadoop 위에 구현된 상위 레벨 언어인 Pig(http://pig.apache.org/)를 사용한다.
Hbase(http://hbase.apache.org/)
- hadoop의 상위에 위치. low-latency, data mutability를 위해
- 사용자 검색 기능 강화를 위해 사용
FlockDB(https://github.com/twitter/flockdb)
- real-time, distributed DB.
- twitter에 의해 생성/오픈 소스화됨.
- twitter는 소셜 그래프 분석을 위해 사용함.
- still mysql underneath, but it's very fast
Cassandra(http://cassandra.apache.org/)
- Cassandra(facebook이 만든 NoSQL)는 아직 실험 단계(atomic counting에)이다.
각각에 대해서 살펴 볼 필요가 있을 듯 하다.
Twitter 사용자들은 하루에 12 테라바이트(연 거의 4 페타바이트)의 데이터를 생산한다고 한다.
이러한 방대한 양의 데이터를 사용하는 트위터에서는 아래와 같은 NoSQL들을 사용한다고 한다.
Scribe(https://github.com/facebook/scribe)
- syslog는 더 이상 사용 불가.
- facebook에 의해 오픈소스화된 로그 수집 프레임워크인 scribe를 사용함.
- twitter는 scribe를 이용해서 로그를 hadoop에 저장.
Cloudera(http://www.cloudera.com/)'s Hadoop
- mysql은 분석 업무에 적합하지 않아서 hadoop을 사용
Pig
- hadoop을 사용하는 가장 좋은 방법은 자바를 이용한는 것이지만,
- 자바는 복잡하고 빠르게 반복 작업을 하기에는 적합하지 않다.
- hadoop 위에 구현된 상위 레벨 언어인 Pig(http://pig.apache.org/)를 사용한다.
Hbase(http://hbase.apache.org/)
- hadoop의 상위에 위치. low-latency, data mutability를 위해
- 사용자 검색 기능 강화를 위해 사용
FlockDB(https://github.com/twitter/flockdb)
- real-time, distributed DB.
- twitter에 의해 생성/오픈 소스화됨.
- twitter는 소셜 그래프 분석을 위해 사용함.
- still mysql underneath, but it's very fast
Cassandra(http://cassandra.apache.org/)
- Cassandra(facebook이 만든 NoSQL)는 아직 실험 단계(atomic counting에)이다.
각각에 대해서 살펴 볼 필요가 있을 듯 하다.