Như mình đã chia sẻ trong bài viết trước (AWS DevAx Workshop), vào giữa tháng 9, mình có cơ hội tham gia Workshop về Data Analytics và cuộc thi Storytelling with Data do AWS Vietnam tổ chức. Trong bài viết này, mình sẽ tóm tắt sơ bộ về các yêu cầu của cuộc thi, bộ dữ liệu sử dụng và những nội dung cần phân tích.
Bạn cũng có thể đọc tiếp bài viết thứ hai, về các diễn biến trong hành trình tìm kiếm insight về hành vi của người mua hàng: Thấu hiểu hành vi
Hoặc tham khảo slide thuyết minh của mình.
Thứ tự trình bày của bài viết bao gồm:
Giới thiệu về cuộc thi
Cuộc thi Storytelling with Data này nằm trong chuỗi 4 buổi training do AWS Vietnam tổ chức nhằm trang bị cho người học các sử dụng một số công cụ của AWS cho mục tiêu: Xây dựng Data Lake, Data Warehouse và Biểu diễn dữ liệu với QuickSight.
Cuộc thi có 2 thể thức dự thi:
- Sử dụng bộ dữ liệu có sẵn: Brazilian-ecommerce, US-ecommerce về hoạt động thương mại điện tử tại Brazil và Mỹ
- Sử dụng bộ dữ liệu tự chọn: Thí sinh có thể sử dụng bất kỳ bộ dữ liệu nào
Tiêu chí chấm điểm:
- Chất lượng của thông tin được phân tích <insight>
- Mức độ cần thiết, tính thực tế của các phân tích
- Mức độ đa dạng của các minh họa
- 50% điểm số đến từ kết quả bình chọn của học viên tham gia + 50% từ
Hình thức thực hiện:
- Dùng Event Hash được BTC cung cấp để sử miễn phí các dịch vụ của AWS trong một khoảng thời gian nhất định
- Sử dụng QuickSight để biểu diễn dữ liệu và tạo dashboard
- Bài dự thi là Slide thuyết minh PowerPoint
- Thời gian làm bài: 3 ngày
Tổng quan về bộ dữ liệu
2 bộ dữ liệu được BTC cung cấp có một số đặc điểm:
- US E-Commerce
- Gồm 1 table
- Chứa 65.535 dòng – đơn hàng
- Thể hiện 16 cột – thông tin mỗi đơn hàng online
- Của 3 bang (Washington, California, New YorK)
- Từ ngày 13/09/2013 – 14/01/2014
- Brazilllian E-Commerce
- Gồm 8 tables: Customers, Geolocation, Order items, Order payments, Order Reviews, Orders, Products, Sellers và bảng tên danh mục trong tiếng Anh Category name translation
- Gồm hơn 100.000 đơn hàng
Bạn có thể tải về cả 2 bộ dataset tại đây.
Mình lựa chọn US E-Commerce dataset do giới hạn thời gian và bộ dữ liệu này ít phức tạp hơn Brazillian E-Commerce dataset. Trong thời gian tới, mình hy vọng sẽ dành thêm thời gian để tìm hiểu kỹ bộ dữ liệu này.
Tiếp theo, mình trình bày về bài làm của mình.
Xác định ngữ cảnh, mục tiêu
Với giả định là các bên liên quan gồm BTC và các thí sinh khác, bài làm của mình không đi sâu vào việc nói về công cụ và phương pháp thực hiện các hình minh họa.
Từ yêu cầu “Storytelling with data”, việc xác định mục tiêu, câu hỏi cần trả lời và mối quan tâm của các bên liên quan tương đối khó khăn.
Do đó, mình đã thực hiện một số quan sát ban đầu với mong muốn có thể phân loại các nhóm dữ liệu. Tuy nhiên, trước đó chúng ta cần xử lý dữ liệu.
Làm sạch dữ liệu
Khi thực hiện cập nhật bộ dữ liệu lên QuickSight, có một số vấn đề phát sinh:
- Format của cột Date (DD/MM/YYYY) không tương đồng với fortmat mặc định của QuickSight (MM/DD/YYYY). Do đó, thay đổi format của QuickSight hoặc chỉnh sửa trực tiếp dữ liệu trong file .csv
- Bên cạnh đó, có 159 dòng có trường Individual_Price_US$ mang giá trị “#Value”, QuickSight đã tự đồng loại bỏ các dòng này. Tuy nhiên, bạn cũng có thể dựa vào cột Amount và Quantity để tính toán lại giá trị Individual_Price_US$ tương ứng.
Quick Visual
Thực hiện một số minh hoạ nhanh:
Biểu diễn doanh số bán hàng theo ngày
Với biểu đồ này, mình thấy cần làm rõ thêm
- Xu hướng gia tăng của doanh thu vào cuối năm
- Doanh số giảm đột ngột dịp năm mới
- Doanh số đạt đỉnh vào một số thời điểm trong tháng 11 và 12
Phân bố khách hàng
Với 2 biểu đồ này, mình nhận thấy có thể mở rộng theo 2 hướng:
- Xác định hành vi theo giới tính
- Theo địa điểm
Kết hợp với các trường dữ liệu: Product, Category, Device Type, Delivery Type. Mình mong muốn sẽ kể một câu chuyện về sự khác biệt trong hành vi mua hàng theo giới tính và vị trí địa lý.
Nội dung câu chuyện
Do đó, nội dung câu chuyện sẽ được kể theo trình tự:
- Xác định các điểm nổi bật, khác thường trong dữ liệu
- Xác định phân bố đối tượng khách hàng
- Xác định hành vi của khách hàng
- Kết luận
Bài viết này đến đây cũng tương đối dài rồi. Trong phần tiếp theo, mình sẽ trình bày về diễn biến câu chuyện trong hành trình tìm kiếm insight của các đối tượng khách hàng.
Cảm ơn bạn đã ghé thăm.
Happy Reading ༼つ ் ▽ ் ༽つ