Vấn đề lưu trữ database với các website hệ thống lớn luôn được quan tâm. Các công ty lớn lưu trữ và truyền tải lượng dữ liệu lớn hàng ngày đều mong muốn có một giải pháp tốt để ổn định hệ thống của mình. Các giải pháp mã nguồn mở có thể giải quyết vấn đề này cũng rất nhiều. Đây cũng sẽ là một sự lựa chọn cho rất nhiều nhà quản trị hệ thống.
BlogHosting xin giới thiệu đến bạn đọc 9 giải pháp được đánh giá cao trong trường hợp này.
1. Apache Hadoop
Apache Hadoop là phần mềm mã nguồn mở được xây dựng bởi Doug khi làm việc tại Nutch, để giải quyết việc quản lý dự liệu tập trung, chính xác hơn là để đáp ứng việc tìm kiếm dữ liệu trên website. Phần mềm được đặt tên dự theo con voi đồ chơi của con trai tác giả Doug. Hadoop trở thành một trong những công nghệ phổ biến nhất cho việc lưu trữ dữ liệu bao gồm có cấu trúc, bán cấu trúc và phi cấu trúc.
Hiện nay Hadoop được phát hành theo Giấy phép Apache 2.0
2. R
R là phần mềm mã mở được thiết kê cho nhu cầu thống kê dữ liệu trực quan, được phát triển bởi Ross Ihaka và Robert Gentleman tại Đại học Auckland, New Zealand, năm 1993 và nhanh chóng trở thành công cụ để phân tích, thống kê các hệ thống dữ liệu rất lớn. Nó đã được thương mại hóa bởi công ty Revolution Analytics. Phát hành theo giấy phép GNU General Public License.
3. Cascading
Là một layer (tầng) trong hadoop. Được xây dựng bởi Chris Wensel để thay thế cho sự phức tạp của MapReduce trong việc phân tích dữ liệu. Cascading được thương mại khi Wensel thành lập một công ty riêng. Hiện nay có Twitter và Etsy đang sử dụng giải pháp này.Phát hành theo giấy phép GNU General Public License.
4. Scribe
Scribe được phát triển bởi Facebook vào năm 2008. Nó được thiết kế để tổng hợp số liệu đăng nhập trực tiếp trong thời gian thực từ một số lượng lớn các máy chủ.Facebook dùng Scribe cho việc mở rộng hạ tầng cũng như quy mô của mình. Hiện nay Scribe còn được dùng để xử lý hàng triệu tin nhắn mỗi ngày. Được phát hành theo Giấy phép Apache 2.0.
5. ElasticSearch
Phát triển bởi Shay Banon và dựa trên Apache Lucene, ElasticSearch là một bản phân phối mã nguồn mở cho việc tìm kiếm dữ liệu trên máy chủ. Đó là một giải pháp mở rộng, hỗ trợ tìm kiếm thời gian thực mà không cần có một cấu hình đặc biệt. Nó đã được áp dụng bởi một số công ty, bao gồm cả StumbleUpon và Mozilla. ElasticSearch được phát hành theo Giấy phép Apache 2.0.
6. Apache HBase
Viết bằng Java và được phát triển bởi BigTable của Google, Apache HBase là một mã nguồn mở, được thiết kế để chạy trên hệ thống tập tin phân phối Hadoop (HDFS). Nó cung cấp khả năng chịu lỗi lưu trữ và truy cập nhanh. HBase là một trong vô số các phiên bản NoSQL sẵn có trong nhiều năm qua. Trong năm 2010, Facebook đã thông qua HBase để phục vụ nền tảng tin nhắn của họ. Được phát hành theo Giấy phép Apache 2.0.
7. Apache Cassandra
Một phiên bản khác của NoSQL được Facebook phát triển cho việc tìm kiếm Inbox (inbox search) của họ. Facebook đã không dùng Cassandra sau khi phát triển Hbase năm 20120.Tuy nhiên Hbase vẫn được nhiều công ty lớn sử dụng trong đó có Netflix. Được phát hành theo Giấy phép Apache 2.0.
8. MongoDB
Được phát triển bởi founder (người sáng lập) của doubleclick. MongoDB cũng là một phiên bản nổi tiếng của NoSQL. Nó lưu trữ dữ liệu theo cấu trúc JSON và BSON (Binary của JSON).MongoDB đã được áp dụng bởi một số doanh nghiệp lớn, bao gồm MTV Networks, craigslist, Disney Interactive Media Group, The New York Times và Etsy.
9. Apache CouchDB
Apache CouchDB là một phiên bản khác của NoSQL. Cũng lưu trữ dữ liệu dạng JSON và dùng Javascript như các câu truy vấn để lấy dữ liệu.Apache CouchDB được tạo ra vào năm 2005 bởi IBM Lotus Notes. Họ đã dùng nó cho việc lưu trữ hệ thống dữ liệu lớn bởi tính năng động của nó. Được phát hành theo Giấy phép Apache 2.0.