EDA "chuẩn chỉnh": Bí kíp giúp bạn "bá đạo" phân tích dữ liệu, khỏi lạc lối!
By Sumo Tech
Th06 25, 2025
Share this:
EDA "chuẩn chỉnh": Bí kíp giúp bạn "bá đạo" phân tích dữ liệu, khỏi lạc lối!
Chào mừng anh em đến với SumoTech! Hôm nay, chúng ta sẽ cùng nhau khám phá một chủ đề cực kỳ quan trọng trong thế giới dữ liệu: Exploratory Data Analysis (EDA), hay còn gọi là phân tích dữ liệu thăm dò. Chắc hẳn anh em nào làm việc với dữ liệu cũng từng rơi vào tình trạng "mò kim đáy bể", mở tá lả tab Excel, viết cả đống SQL query mà vẫn không biết mình đang đi đúng hướng hay không? Đừng lo, video này (và bài viết này nữa!) sẽ "gỡ rối" cho anh em bằng một bí mật cực kỳ quan trọng.
Vì sao EDA lại "mắc kẹt"?
Có bao giờ anh em tự hỏi:
Mình nên phân tích dữ liệu đến mức nào thì dừng?
Mình có đang tập trung vào đúng vấn đề không?
Liệu cách tiếp cận của mình có ổn không?
Làm sao để biến mớ dữ liệu hỗn độn thành những insight dễ hiểu cho người khác?
Thực ra, vấn đề nằm ở chỗ anh em đã bỏ qua một bước cực kỳ quan trọng: Requirement Gathering – thu thập yêu cầu. Đây chính là "chìa khóa" giúp anh em định hướng EDA một cách rõ ràng và hiệu quả.
Bước 1: Thu thập yêu cầu - "Kim chỉ nam" cho mọi dự án EDA
Requirement Gathering là quá trình anh em làm rõ mục tiêu, phạm vi và những gì cần đạt được trong dự án EDA. Nó giống như việc xác định điểm đến trước khi bắt đầu hành trình vậy. Hãy nhớ rằng, stakeholder (những người liên quan đến dự án) thường có những câu hỏi thuộc các nhóm sau:
Các loại câu hỏi thường gặp:
Xu hướng tổng quan: Ví dụ: Doanh số bán hàng đang tăng hay giảm? Tỷ lệ chuyển đổi có cải thiện không?
Đo lường hiệu suất: Ví dụ: Chương trình khách hàng thân thiết đang hoạt động tốt như thế nào? Chiến dịch marketing có hiệu quả không?
Báo cáo KPI: Ví dụ: Tỷ lệ hoàn trả hàng trong tháng vừa qua là bao nhiêu? Giá trị đơn hàng trung bình trong tuần này là bao nhiêu?
Mẹo SumoTech: Đừng ngại hỏi stakeholder! Càng làm rõ yêu cầu, anh em càng tiết kiệm thời gian và công sức về sau.
Ví dụ cụ thể:
Thay vì hỏi chung chung: "Doanh số bán hàng thế nào?", hãy hỏi rõ hơn:
Câu hỏi ban đầu: "Doanh số bán hàng năm nay ra sao?" (Khá mơ hồ)
Sau khi thu thập yêu cầu: "Doanh thu từ bán hàng của từng dòng sản phẩm từ năm 2019 đến 2022 thế nào? Phân tích ban đầu này sẽ được trình bày cho các quản lý marketing, quản lý sản phẩm và quản lý tài chính trong cuộc họp tuần tới, dưới dạng 2 slide trình bày." (Rất cụ thể và định hướng)
Bước 2: Framework SCAN - "Bản đồ" giúp bạn khám phá dữ liệu một cách có hệ thống
Để EDA không bị lan man, hãy sử dụng framework SCAN. Đây là một công cụ hữu ích giúp anh em đi từng bước một cách có hệ thống:
S - Stakeholder Goals: Mục tiêu của stakeholder là gì? Họ muốn đưa ra quyết định gì dựa trên phân tích này? KPI và khía cạnh (dimension) nào quan trọng nhất?
C - Columns and Coverage: Chúng ta có những dữ liệu gì? Có thể sử dụng chúng như thế nào? Dữ liệu có đầy đủ không?
A - Aggregates and Anomalies: Các chỉ số tổng quan (high-level metrics) là gì? Thống kê mô tả ra sao? Có gì bất thường (outliers) không? Có mẫu (pattern) nào rõ ràng không?
N - Notable Segments: Phân tích dữ liệu theo các khía cạnh khác nhau (ví dụ: thời gian, khu vực, khách hàng) để tìm ra những insight giá trị.
Bước 3: Thực hành với Excel - "Cầm tay chỉ việc" từng bước một
Giờ thì "xắn tay áo" lên và bắt đầu thực hành thôi! Chúng ta sẽ sử dụng Excel (công cụ quen thuộc của nhiều anh em) để minh họa.
Ví dụ: Phân tích doanh số bán hàng của một cửa hàng game (GameZone)
Câu hỏi: "Doanh thu từ bán hàng của từng dòng sản phẩm từ năm 2019 đến 2022 thế nào? Phân tích ban đầu này sẽ giúp các quản lý marketing, quản lý sản phẩm và quản lý tài chính hiểu rõ hơn về xu hướng chung."
Áp dụng Framework SCAN:
S - Stakeholder Goals: Hiểu xu hướng chung về doanh thu, từ đó đưa ra các quyết định về sản phẩm, marketing, và tài chính. KPI quan trọng: Doanh thu (USD Price), Sản phẩm (Product Name), Thời gian (Purchase Time).
C - Columns and Coverage: Chúng ta có các cột USD Price, Product Name, Purchase Time. Dữ liệu đã được làm sạch (ví dụ: loại bỏ các giá trị NULL).
A - Aggregates and Anomalies:
Sử dụng Pivot Table để tính tổng doanh thu theo tháng, theo sản phẩm.
Tìm ra các sản phẩm bán chạy nhất và các tháng có doanh thu cao nhất.
Mẹo SumoTech: Pivot Table là "bạn thân" của dân phân tích dữ liệu! Hãy làm chủ công cụ này nhé.
Sử dụng Conditional Formatting (ví dụ: Heat Map) để trực quan hóa dữ liệu và dễ dàng nhận ra các mẫu.
Sử dụng Sparklines (biểu đồ đường mini) để thấy rõ xu hướng theo thời gian.
N - Notable Segments: (Sẽ được đề cập trong video/bài viết tiếp theo) Phân tích doanh thu theo khu vực, theo phân khúc khách hàng,...
Ghi lại Insight - "Kho báu" của mọi dự án EDA
Trong quá trình phân tích, hãy ghi lại tất cả những insight quan trọng vào một file "Insights Log" (ví dụ: file Excel). Ghi rõ:
Tab/file chứa phân tích.
KPI và khía cạnh (dimension) đang xem xét.
Insight chính.
Đội nhóm nào có thể hưởng lợi từ insight này.
Kết luận: EDA không còn là "ác mộng"!
Vậy là anh em đã nắm được bí kíp để EDA "chuẩn chỉnh" rồi đấy! Hãy nhớ:
Requirement Gathering là "kim chỉ nam".
Framework SCAN là "bản đồ" giúp bạn đi đúng hướng.
Excel (và Pivot Table) là "công cụ đắc lực".
Hãy áp dụng những kiến thức này vào các dự án thực tế của anh em. Chúc anh em thành công và đừng quên ghé thăm SumoTech thường xuyên để học hỏi thêm nhiều kiến thức bổ ích khác!
Trong thế giới Data hiện đại, việc phân tích dữ liệu khám phá không chỉ là bước khởi đầu mà còn là vũ khí tối thượng giúp bạn hiểu rõ "bản chất thật" của dữ liệu trước khi bước vào modeling hay đưa ra quyết định. Một EDA “chuẩn chỉnh”...
Trong thế giới Data hiện đại, việc phân tích dữ liệu khám phá không chỉ là bước khởi đầu mà còn là vũ khí tối thượng giúp bạn hiểu rõ "bản chất thật" của dữ liệu trước khi bước vào modeling hay đưa ra quyết định. Một EDA “chuẩn chỉnh”...