Trang chủ>  Blog >  Chia sẻ kinh nghiệm >  🧰 Data Wrangling & Feature Engineering – “Công Đoạn Vàng” Trước Khi Làm Model

🧰 Data Wrangling & Feature Engineering – “Công Đoạn Vàng” Trước Khi Làm Model


“80% thời gian của Data Scientist là để chuẩn bị dữ liệu. 20% còn lại là để than vãn vì dữ liệu chưa sạch 😅”

  301 lượt xem

Nội dung bài viết

1️⃣ Data Wrangling Là Gì? 🧼

Data Wrangling (còn gọi là Data Cleaning / Data Preprocessing) là bước làm sạch, chuẩn hóa và định hình dữ liệu để sẵn sàng cho phân tích hoặc modeling.
Dù bạn làm ML, BI hay AI agent thì chất lượng dữ liệu vẫn là yếu tố quyết định.

🧠 Mục tiêu:

  • Loại bỏ dữ liệu lỗi, thiếu, trùng lặp

  • Đảm bảo các biến đúng định dạng (date, numeric, category…)

  • Tạo ra dataset sạch, thống nhất, đáng tin cậy

💡 Ví dụ:

  • Chuyển cột DoB từ chuỗi "31-12-2001" → kiểu datetime

  • Loại bỏ khoảng trắng, chuẩn hóa tên cột Customer IDcustomer_id

  • Gộp các bảng rời rạc thành một bảng phân tích chính

2️⃣ Feature Engineering Là Gì? 🧠⚡

Feature Engineering là quá trình tạo hoặc biến đổi biến số (features) để mô hình hiểu và học tốt hơn.
Đây là “nghệ thuật” biến dữ liệu thô → biến số hữu ích ✨

Một vài kỹ thuật phổ biến:

  • 🧮 Encoding: Biến category → số (One-hot, Label Encoding…)

  • 📊 Scaling: Chuẩn hóa dữ liệu số (MinMax, Standard…)

  • 📅 Datetime Features: Tách ngày → năm, tháng, thứ, mùa…

  • 🧠 Domain Features: Dựa vào kiến thức ngành để tạo biến mới (VD: revenue_per_customer, days_since_last_purchase)

  • 🌀 Polynomial / Interaction Features: Tạo biến tương tác, biến bậc cao cho mô hình phi tuyến

📌 Đây là nơi Data Scientist tạo ra lợi thế mô hình mà không cần deep model khủng 😎

3️⃣ Quy Trình Chuẩn Cho Data Wrangling 🧱

Bước Nhiệm vụ chính Tool/Thư viện
1️⃣ Load & khám phá dữ liệu pandas, numpy
2️⃣ Xử lý missing values pandas (fillna, dropna), sklearn
3️⃣ Chuẩn hóa format, kiểu dữ liệu pandas (astype, to_datetime)
4️⃣ Loại bỏ/ghép dữ liệu trùng pandas duplicated, merge, concat
5️⃣ Validate dữ liệu đầu ra Great Expectations, pandera

👉 Luôn viết script tái sử dụng được → tránh “chạy tay” mỗi lần 📈

4️⃣ Feature Engineering Patterns Phổ Biến 🧠

Pattern Khi dùng Ví dụ
Encoding Category → số Label Encoding Gender: M/F → 0/1
Scaling Chuẩn hóa giá trị MinMaxScaler cho các feature có thang đo khác nhau
Extraction Tách thông tin từ 1 biến DateYear, Month, Weekday
Aggregation Tổng hợp theo nhóm Doanh thu trung bình mỗi KH
Interaction Biến tương tác price * quantity

📌 Đặc biệt, với dữ liệu Việt Nam: cần chuẩn hóa Unicode, không dấu, cột địa chỉ/phường/xã… trước khi encoding nhé 🇻🇳

5️⃣ Tool Stack Cho Data Wrangling 🧰

Mục đích Tool phổ biến
EDA & Wrangling pandas, numpy, polars, Dask
Validate Great Expectations, pandera
Automation Airflow, Prefect
Feature Store Feast, Tecton (production scale)

🔥 pandas vẫn là “vua” cho hầu hết case học & MVP, nhưng nếu xử lý hàng trăm GB → chuyển qua polars hoặc Spark để tăng tốc ⚡

6️⃣ Case Study – Cleaning Data Bán Hàng 🧼🛍️

Bối cảnh:
Doanh nghiệp có 3 nguồn dữ liệu: POS, CRM và Excel thủ công → format khác nhau, tên cột lộn xộn.

Xử lý:

  • Mapping tên cột chuẩn hoá → snake_case

  • Merge 3 bảng theo customer_id

  • Loại bỏ dòng thiếu order_date

  • Tạo feature days_since_last_purchase để dự báo churn

Kết quả:

  • Dataset unified, không còn missing chính

  • Feature churn đơn giản giúp mô hình logistic đạt AUC 0.82 🔥

7️⃣ Best Practices 📝

  • 🧠 Document everything — clean không có log là tự sát 😅

  • Pipeline hóa quy trình — tránh xử lý thủ công mỗi lần

  • 🧪 Validate sau mỗi bước — tránh lỗi lan sang feature/model

  • 👥 Chuẩn hóa naming conventions để teamwork dễ dàng

📝 Kết Luận

Data Wrangling & Feature Engineering chính là “đòn bẩy” giúp mô hình của bạn bứt tốc:

  • 🧼 Dữ liệu sạch → Model hiểu đúng

  • 🧠 Feature hay → Performance cao

  • ⚡ Pipeline chuẩn → scale dễ dàng

👉 Làm chủ kỹ năng này = bạn đã có nền cực chắc để bước vào Modeling & MLOps 💪

📞 Hotline: 0352.433.233
🌐 mcivietnam.com
📺 youtube.com/@HocVienMCI
👥 facebook.com/groups/dataaivn

 

Chương trình đào tạo: Phân tích dữ liệu, Khoa học dữ liệu, Kĩ sư dữ liệu, Lập trình ứng dụng.
Chất lượng nhất - Uy tín nhất - Nhiều học viên tin tưởng nhất
Hơn 8000 học viên ưu tú đã tốt nghiệp
Đăng ký tư vấn khóa học

*Vui lòng nhập số điện thoại của bạn

*Vui lòng nhập họ tên của bạn

*Vui lòng chọn địa điểm học

*Vui lòng chọn giới tính

*Vui lòng chọn 1 trường


Các bài viết liên quan


🧱 Incremental Load & CDC – Bộ Đôi Hoàn Hảo Cho Data Pipeline 2025 ⚡📡

“Thay vì mỗi ngày quét cả núi dữ liệu, hãy chỉ lấy phần thay đổi. Incremental + CDC chính là bí kíp giúp hệ thống data chạy nhanh, rẻ và real-time.” 🧠✨

🌊 Change Data Capture (CDC) – “Trái Tim” Của Dữ Liệu Real-time 🧭💥

“CDC biến database từ nơi lưu trữ thụ động → thành một dòng sự kiện sống động, nơi mọi thay đổi đều trở thành tín hiệu cho hệ thống downstream.” 🧠📡

🤖 MLOps – “Cầu Nối” Từ Notebook Đến Production

“A model is only as good as its deployment pipeline.” 🧠✨ Rất nhiều team dừng lại ở mức “train được model ngon trong notebook”… nhưng không đưa được vào production → không ai dùng, không tạo impact 😅 👉 MLOps chính là tập hợp quy trình, công cụ & mindset giúp bạn đưa model từ notebook → production, rồi quản lý vòng đời model như DevOps quản lý software 👑

Các bài viết liên quan