Language:

Search

Giới thiệu tác nhân kỹ thuật dữ liệu BigQuery

  • Share this:
Giới thiệu tác nhân kỹ thuật dữ liệu BigQuery

Biến BigQuery Thành Siêu Năng Lực Với AI: Hướng Dẫn Tạo Pipeline Dữ Liệu Trong 10 Phút!

Ê mấy bạn SumoTechers ơi! Hôm nay tụi mình sẽ cùng nhau khám phá một "chiêu" mới siêu hay ho để tận dụng BigQuery, giúp dân Data Analyst và Data Engineer tụi mình làm việc nhanh hơn, hiệu quả hơn. Đó chính là sử dụng AI Agent trong BigQuery để tạo pipeline dữ liệu chỉ với vài câu lệnh đơn giản. Nghe hấp dẫn chưa?

Mình vừa xem được một video demo cực kỳ ấn tượng, và giờ mình muốn chia sẻ lại với các bạn cách để "hô biến" BigQuery thành siêu năng lực, tiết kiệm thời gian mà lại còn "xịn xò" nữa. Sẵn sàng chưa nào? Let's go!

Tại Sao Bạn Nên Quan Tâm Đến AI Agent Trong BigQuery?

  1. Tiết kiệm thời gian: Tạo pipeline dữ liệu, schema, metadata... chỉ với vài dòng prompt. Quên đi những ngày tháng "code mỏi tay" đi nhé!
  2. Tăng năng suất: Tập trung vào những việc quan trọng hơn, như phân tích dữ liệu và đưa ra insights, thay vì mất thời gian vào những công việc lặp đi lặp lại.
  3. Đơn giản hóa quy trình: Ngay cả khi bạn không phải là một chuyên gia SQL, bạn vẫn có thể tạo ra các pipeline dữ liệu phức tạp một cách dễ dàng.
  4. Hỗ trợ AI: Dễ dàng tạo metadata để tích hợp dữ liệu của bạn với các ứng dụng AI khác.

Hướng Dẫn Từng Bước Tạo Pipeline Dữ Liệu Với AI Agent Trong BigQuery (Trong Vòng 10 Phút!)

Mình sẽ chia nhỏ quy trình ra thành các bước nhỏ, dễ thực hiện, kèm theo những mẹo nhỏ để bạn không bị "tẩu hỏa nhập ma" nha!

Bước 1: Tạo Dataset

Đầu tiên, mình cần tạo một dataset để chứa dữ liệu của mình. Trong ví dụ này, mình sẽ tạo dataset "SFDC_dataset" ở khu vực "US".

Prompt: Create a dataset called SFDC_dataset in location US

AI Agent sẽ tự động tạo code SQL để tạo dataset. Bạn chỉ cần xem lại code, đảm bảo mọi thứ ổn, rồi chấp nhận thay đổi và chạy pipeline. Siêu nhanh!

image-374.png

Bước 2: Load Dữ Liệu Từ Google Cloud Storage (GCS)

Giả sử bạn đã có dữ liệu trong một bucket trên GCS. Bây giờ mình sẽ yêu cầu AI Agent load dữ liệu từ bucket này vào BigQuery.

Prompt: Load all of my files from the GCS bucket. Create physical tables based on the schemas in the parquet files. Use the same names in the files for the tables. [Listing specific files here]

Mẹo SumoTech: Thay vì chỉ nói "load all files", hãy liệt kê cụ thể các file bạn muốn load. Như vậy sẽ giúp AI Agent hiểu rõ hơn yêu cầu của bạn và giảm thiểu sai sót.

AI Agent sẽ quét từng file, tạo schema, và tạo bảng tương ứng trong BigQuery. Sau khi hoàn thành, bạn sẽ thấy một bản tóm tắt về những gì nó đã làm, kèm theo giải thích rõ ràng. Thích ghê!

Bước 3: Bổ Sung Time Dimension (Thời Gian)

Giả sử bạn muốn phân tích dữ liệu theo quý. Mình sẽ yêu cầu AI Agent tạo một time dimension để dễ dàng thực hiện việc này.

Prompt: Add a time dimension

 

image-375.png

AI Agent sẽ tự động tạo một bảng time dimension, bao gồm các thông tin như năm, quý, tháng, ngày,... Bạn có thể xem lại definition trước khi chạy pipeline.

Bước 4: Lọc Dữ Liệu Với AI (Phát Hiện Từ Ngữ Không Phù Hợp)

Đây là phần mình thấy "cool" nhất nè! Mình sẽ sử dụng một hàm AI trong BigQuery (kết nối với Vertex AI và mô hình Gemini) để lọc các case hỗ trợ có chứa từ ngữ không phù hợp.

Prompt: Enhance the cases table so that we can easily filter out those cases with profanities.

AI Agent sẽ tạo một cột boolean mới trong bảng "cases" để đánh dấu các case có chứa từ ngữ không phù hợp. Quá tiện lợi!

Lưu ý quan trọng: Để sử dụng tính năng này, bạn cần kết nối BigQuery với Vertex AI và có một mô hình Gemini đang chạy.

Bước 5: Đảm Bảo Chất Lượng Dữ Liệu (Data Quality)

Chất lượng dữ liệu luôn là ưu tiên hàng đầu. Mình sẽ nhờ AI Agent kiểm tra chất lượng dữ liệu trong bảng "users".

Prompt: Check data quality for the user table

AI Agent sẽ tự động kiểm tra các lỗi phổ biến, như giá trị null, định dạng email không hợp lệ,... Nếu phát hiện lỗi, nó sẽ tự động sửa hoặc báo cáo cho bạn.

Mẹo SumoTech: AI Agent có thể tự động revert những thay đổi không hợp lệ trong quá trình validation. Quá thông minh phải không nào!

Bước 6: Tạo Metadata Cho Ứng Dụng AI

Cuối cùng, mình sẽ yêu cầu AI Agent tạo metadata cho các bảng của mình, để dễ dàng tích hợp với các ứng dụng AI khác.

Prompt: Create metadata for our tables

ML with SQL in BigQuery to Online Predictions in Vertex AI for ML ...

AI Agent sẽ tạo metadata, bao gồm mô tả về các cột, kiểu dữ liệu, ý nghĩa của các giá trị,... Bạn có thể bổ sung thêm các thông tin chi tiết hơn để metadata trở nên hữu ích hơn.

Lưu ý: Hãy bổ sung thêm thuật ngữ chuyên ngành của bạn và các từ đồng nghĩa để metadata hoàn thiện hơn.

Kết Luận: BigQuery + AI = Siêu Năng Lực!

Chỉ với vài dòng prompt đơn giản, mình đã tạo ra một pipeline dữ liệu hoàn chỉnh, bao gồm dataset, bảng dữ liệu, time dimension, chức năng lọc dữ liệu bằng AI, kiểm tra chất lượng dữ liệu, và metadata cho ứng dụng AI. Thật là "vi diệu" phải không nào?

Nếu bạn muốn thử nghiệm tính năng này, hãy tìm link trong phần comment của video gốc. Chúc các bạn thành công và có những trải nghiệm thú vị với AI Agent trong BigQuery!