Học BigData (BD) – Ngày 1

Vị trí hiện tại Software Engineers:

Software Engineers->Data Engineer->Data Mining/Data Analytics (SE->DE->DM/DA)

Vị trí DE với 5Vs trong BD:

  • Variety _ độ phong phú của dữ liệu
  • Volume _ độ lớn của dữ liệu
  • Velocity _ tốc độ sản sinh dữ liệu
  • Veracity _ độ chính xác của dữ liệu
  • Value _ thứ quan trọng nhất: giá trị của dữ liệu

Mục tiêu: DM (thiết kế hệ thống Recommended System(Amazon, Netflix…)

Những cái tên nổi nhất trong làng dữ liệu BG: Hadoop, HDFS, MapReduce, Spark, NoSQL…

Yêu cầu cho DE: hiểu rõ ngôn ngữ, hiểu rõ cấu trúc dữ liệu, nên dùng giải thuật nào, multi-threading, multi-processing, distribution, hiểu rõ business của hệ thống để design on purposes, đánh đổi những cái hệ thống dư để đổi những cái hệ thống thiếu (đổi Mem để lấy CPU hoặc đổi IO để lấy Mem…), hiểu về system, caching, kernel, IO, network….

Giới thiệu về Hadoop: là một framework mã nguồn mở
Xử lý dữ liệu đặt trong Hadoop HDFS (Hadoop Distributed File system)
Hadoop-related ở Apachebao gồm Hive, HBase, Mahout, Sqoop , Flume và ZooKeeper
Đặc điểm của Hadoop:
Phân tích Big Data
Khả năng mở rộng
Khả năng chịu lỗi (Fault Tolerance)
Cấu trúc mạng trong Hadoop (Network Topology)

Tại sao HDSF quan trọng: Khi dữ liệu vượt quá sức chứa trên một máy vật lý,  sẽ cần thiết để chia nó ra các máy riêng biệt. Hệ thống tệp quản lý lưu trữ thực hiện vượt qua mạng gọi là hệ thống tệp phân tán hay distributed file system

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất /  Thay đổi )

Google photo

Bạn đang bình luận bằng tài khoản Google Đăng xuất /  Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất /  Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất /  Thay đổi )

Connecting to %s