Xuất bản vào

4 chiếc mũ của một nhà khoa học dữ liệu full-stack

Tác giả

"""Nhà khoa học dữ liệu Full Stack là gì?

Khi tôi mới học về khoa học dữ liệu, kỹ thuật dữ liệu và kỹ thuật ML chưa phổ biến như ngày nay. Do đó, vai trò của nhà khoa học dữ liệu thường được xác định rộng rãi hơn những gì chúng ta có thể thấy ngày nay.

Ví dụ: các nhà khoa học dữ liệu có thể đã viết các tập lệnh ETL, thiết lập cơ sở dữ liệu, thực hiện kỹ thuật tính năng, mô hình ML được đào tạo và triển khai các mô hình vào sản xuất.

Mặc dù việc phân chia các nhiệm vụ này cho nhiều vai trò (ví dụ: kỹ sư dữ liệu, nhà khoa học dữ liệu và kỹ sư ML) ngày càng trở nên phổ biến hơn, nhưng nhiều tình huống vẫn cần những người đóng góp thành thạo mọi khía cạnh của việc phát triển mô hình ML. Tôi gọi những người đóng góp này là nhà khoa học dữ liệu toàn diện.

Cụ thể hơn, tôi thấy một nhà khoa học dữ liệu toàn diện là người có thể quản lý và triển khai giải pháp ML từ đầu đến cuối. Điều này liên quan đến việc hình thành các vấn đề kinh doanh, thiết kế các giải pháp ML, tìm nguồn cung ứng và chuẩn bị dữ liệu để phát triển, đào tạo các mô hình ML và triển khai các mô hình để giá trị của chúng có thể được hiện thực hóa.

Do sự gia tăng của các vai trò chuyên biệt trong việc triển khai các dự án ML, khái niệm FSDS này có vẻ đã lỗi thời. Ít nhất, đó là những gì tôi nghĩ trong vai trò khoa học dữ liệu công ty đầu tiên của mình.

Tuy nhiên, ngày nay, giá trị của việc học toàn bộ công nghệ ngày càng trở nên rõ ràng đối với tôi. Tất cả điều này bắt đầu vào năm ngoái khi tôi phỏng vấn các dịch giả tự do về khoa học dữ liệu hàng đầu từ Upwork.

Hầu như tất cả những người tôi đã nói đều phù hợp với định nghĩa đầy đủ của nhà khoa học dữ liệu ngăn xếp được đưa ra ở trên. Điều này không chỉ vì niềm vui và sự tò mò mà còn vì sự cần thiết.

Tôi đã chi 675,92 đô la để nói chuyện với các nhà khoa học dữ liệu hàng đầu về Upwork - Đây là những gì tôi học được

Thực tế của việc làm tự do trong khoa học dữ liệu

Điểm mấu chốt rút ra từ những cuộc phỏng vấn này là kỹ năng khoa học dữ liệu (riêng) bị hạn chế về tác động kinh doanh tiềm năng của chúng. Để tạo ra giá trị thực tế (mà khách hàng sẽ trả tiền), việc xây dựng các giải pháp toàn diện là điều bắt buộc.

Nhưng điều này không bị hạn chế đối với việc làm tự do. Dưới đây là một số bối cảnh khác mà FSDS có thể có ích

Một SMB (doanh nghiệp vừa và nhỏ) chỉ có 1 tài nguyên dành riêng cho các dự án AI/ML

Một người đóng góp AI/ML duy nhất được đưa vào nhóm kinh doanh

Người sáng lập muốn xây dựng một sản phẩm ML

Người đóng góp cá nhân tại một doanh nghiệp lớn có thể khám phá các dự án bên ngoài các nhóm đã thành lập

Nói cách khác, các nhà khoa học dữ liệu toàn diện là những người có hiểu biết tổng quát, những người có thể nhìn thấy bức tranh toàn cảnh và đi sâu vào các khía cạnh cụ thể của dự án khi cần thiết. Điều này khiến chúng trở thành nguồn tài nguyên quý giá cho bất kỳ doanh nghiệp nào muốn tạo ra giá trị thông qua AI và học máy.

4 chiếc mũ của FSDS

Mặc dù FSDS yêu cầu một số kỹ năng nhưng vai trò này có thể được chia thành bốn nhóm chính: Quản lý dự án, Kỹ sư dữ liệu, Nhà khoa học dữ liệu và Kỹ sư ML.

Tất nhiên, không ai có thể đội mọi chiếc mũ đều đẳng cấp thế giới (có lẽ vậy). Nhưng chắc chắn một người có thể đạt trên mức trung bình về mọi mặt (chỉ cần có thời gian).

Ở đây, tôi sẽ chia nhỏ từng chiếc mũ này dựa trên kinh nghiệm của tôi với tư cách là nhà tư vấn khoa học dữ liệu và các cuộc phỏng vấn với 27 chuyên gia dữ liệu/ML.

Mũ 1: Giám đốc dự án

Vai trò chính của người quản lý dự án (IMO) là trả lời 3 câu hỏi: cái gì, tại sao và như thế nào. Nói cách khác, chúng ta đang xây dựng cái gì? Tại sao chúng ta xây dựng nó? chúng ta sẽ làm thế nào đây?

Mặc dù có thể dễ dàng bỏ qua công việc này (và bắt đầu viết mã), nhưng việc không đội mũ PM đúng cách có nguy cơ tốn rất nhiều thời gian (và tiền bạc) để giải quyết sai vấn đề. Hoặc giải quyết đúng vấn đề một cách phức tạp và tốn kém không cần thiết.

Điểm khởi đầu cho việc này là xác định vấn đề kinh doanh. Trong hầu hết các bối cảnh, nhà khoa học dữ liệu toàn diện không giải quyết được vấn đề của họ, vì vậy điều này đòi hỏi khả năng làm việc với các bên liên quan để tìm ra nguyên nhân gốc rễ của vấn đề. Tôi đã thảo luận một số lời khuyên về điều này trong một bài viết trước.

Khi vấn đề được xác định rõ ràng, người ta có thể xác định cách AI có thể giải quyết nó. Điều này đặt ra mục tiêu để từ đó ước tính chi phí, tiến độ và yêu cầu của dự án.

Kỹ năng chính

Giao tiếp và quản lý các mối quan hệ

Chẩn đoán vấn đề và giải pháp thiết kế

Ước tính tiến độ, chi phí và yêu cầu của dự án

Mũ 2: Kỹ sư dữ liệu

Trong bối cảnh FSDS, kỹ thuật dữ liệu liên quan đến việc làm cho dữ liệu có sẵn để phát triển hoặc suy luận mô hình (hoặc cả hai).

Vì vai trò này vốn tập trung vào sản phẩm nên mũ DE có thể bị hạn chế hơn so với vai trò kỹ thuật dữ liệu thông thường. Cụ thể hơn, điều này có thể sẽ không yêu cầu tối ưu hóa kiến ​​trúc dữ liệu cho một số trường hợp sử dụng kinh doanh.

Thay vào đó, trọng tâm sẽ là xây dựng đường dẫn dữ liệu. Điều này liên quan đến việc thiết kế và triển khai các quy trình ETL (hoặc ELT) cho các trường hợp sử dụng cụ thể.

ETL là viết tắt của trích xuất, chuyển đổi và tải. Nó liên quan đến việc trích xuất dữ liệu từ các nguồn thô của chúng, chuyển đổi nó thành dạng có ý nghĩa (ví dụ: làm sạch dữ liệu, sao chép, xử lý ngoại lệ, kỹ thuật tính năng) và tải dữ liệu đó vào cơ sở dữ liệu (ví dụ: mô hình hóa dữ liệu và thiết kế cơ sở dữ liệu).

Một lĩnh vực quan trọng khác ở đây là giám sát dữ liệu. Mặc dù chi tiết về điều này sẽ phụ thuộc vào trường hợp sử dụng cụ thể, nhưng mục tiêu cuối cùng là cung cấp khả năng hiển thị liên tục cho các đường ống dữ liệu thông qua hệ thống cảnh báo, trang tổng quan hoặc những thứ tương tự.

Kỹ năng chính

Python, SQL, CLI (ví dụ: bash)

Đường ống dữ liệu, ETL/ELT (Airflow, Docker)

Nền tảng đám mây (AWS, GCP hoặc Azure)

Mũ 3: Nhà khoa học dữ liệu

Tôi định nghĩa một nhà khoa học dữ liệu là người sử dụng dữ liệu để khám phá những quy luật trên thế giới có thể được sử dụng để thúc đẩy tác động. Trong thực tế, điều này thường tập trung vào việc đào tạo một mô hình học máy (vì máy tính giỏi hơn con người rất nhiều trong việc tìm kiếm sự đều đặn trong dữ liệu).

Đối với hầu hết các dự án, người ta phải chuyển đổi giữa Mũ này và Mũ 1 và Mũ 2. Trong quá trình phát triển mô hình, người ta thường gặp phải những hiểu biết sâu sắc đòi hỏi phải xem lại việc chuẩn bị dữ liệu hoặc phạm vi dự án.

Ví dụ: người ta có thể phát hiện ra rằng một ngoại lệ không được xử lý đúng cách cho một trường cụ thể hoặc các trường được trích xuất không có khả năng dự đoán như đã được giả định ngay từ đầu dự án.

Một phần thiết yếu của đào tạo mô hình là xác nhận mô hình. Điều này bao gồm việc xác định các số liệu hiệu suất có thể được sử dụng để đánh giá các mô hình. Điểm thưởng nếu số liệu này có thể được chuyển trực tiếp thành số liệu hiệu quả kinh doanh.

Với chỉ số hiệu suất, người ta có thể thử nghiệm và đánh giá một số cấu hình mô hình theo chương trình bằng cách điều chỉnh, chẳng hạn như phân tách thử nghiệm đào tạo, siêu tham số, lựa chọn dự đoán và phương pháp ML. Nếu không cần đào tạo mô hình, người ta vẫn có thể muốn so sánh hiệu suất của nhiều mô hình được đào tạo trước.

Kỹ năng chính

Python (gấu trúc/cực, sklearn, TensorFlow/PyTorch)

Phân tích dữ liệu thăm dò (EDA)

Phát triển mô hình (kỹ thuật tính năng, theo dõi thử nghiệm, điều chỉnh siêu tham số)

Mũ 4: Kỹ sư ML

Chiếc mũ cuối cùng liên quan đến việc lấy mô hình ML và biến nó thành giải pháp ML - nghĩa là tích hợp mô hình đó vào quy trình công việc kinh doanh để có thể hiện thực hóa giá trị của nó.

Một cách đơn giản để thực hiện việc này là chứa mô hình và thiết lập API để các hệ thống bên ngoài có thể thực hiện lệnh gọi suy luận. Ví dụ: API có thể được kết nối với một trang web nội bộ cho phép người dùng doanh nghiệp chạy phép tính.

Tuy nhiên, một số trường hợp sử dụng có thể không đơn giản như vậy và yêu cầu các giải pháp phức tạp hơn. Đây là lúc công cụ điều phối có thể giúp xác định các quy trình công việc phức tạp. Ví dụ: nếu mô hình yêu cầu cập nhật hàng tháng khi có dữ liệu mới thì toàn bộ quá trình phát triển mô hình, từ ETL đến đào tạo đến triển khai, có thể cần phải được tự động hóa.

Một lĩnh vực quan trọng khác cần xem xét là giám sát mô hình. Giống như giám sát dữ liệu, điều này liên quan đến việc theo dõi các dự đoán và hiệu suất của mô hình theo thời gian và hiển thị chúng thông qua các cảnh báo tự động hoặc các phương tiện khác.

Mặc dù nhiều quy trình trong số này có thể chạy trên các máy cục bộ, nhưng việc triển khai các giải pháp này bằng nền tảng đám mây là cách làm phổ biến. Mỗi kỹ sư ML (MLE) mà tôi đã phỏng vấn đều sử dụng ít nhất 1 nền tảng đám mây và khuyến nghị triển khai đám mây như một kỹ năng cốt lõi của MLE.

Kỹ năng chính

Chứa tập lệnh (Docker), xây dựng API (FastAPI)

Điều phối - kết nối dữ liệu và đường ống ML (AirFlow)

Nền tảng đám mây (AWS, GCP hoặc Azure)

Trở thành Kỳ lân

Mặc dù một nhà khoa học dữ liệu toàn diện có thể trông giống như một con kỳ lân kỹ thuật, nhưng mục tiêu (IMO) không phải là trở thành chuyên gia về tất cả các khía cạnh của nhóm công nghệ. Đúng hơn là học đủ để trở nên nguy hiểm.

Nói cách khác, vấn đề không phải là nắm vững mọi thứ mà là khả năng học bất cứ điều gì bạn cần để hoàn thành công việc. Từ góc độ này, tôi phỏng đoán rằng hầu hết các nhà khoa học dữ liệu sẽ trở thành đầy đủ nếu có đủ thời gian.

Để đạt được mục tiêu này, đây là 3 nguyên tắc tôi đang sử dụng để đẩy nhanh quá trình phát triển FSDS cá nhân của mình.

Có lý do để học các kỹ năng mới - ví dụ: xây dựng các dự án đầu cuối Chỉ cần học đủ là nguy hiểm Giữ mọi thứ đơn giản nhất có thể - tức là không sử dụng quá nhiều giải pháp Cái gì tiếp theo?

Một nhà khoa học dữ liệu toàn diện có thể quản lý và triển khai giải pháp ML từ đầu đến cuối. Mặc dù điều này có vẻ như quá mức cần thiết đối với các bối cảnh tồn tại các vai trò chuyên biệt cho các giai đoạn quan trọng của quá trình phát triển mô hình, nhưng bộ kỹ năng tổng quát này vẫn có giá trị trong nhiều tình huống.

Là một phần trong hành trình trở thành nhà khoa học dữ liệu toàn diện của tôi, các bài viết trong tương lai của loạt bài này sẽ hướng dẫn từng chiếc trong số 4 Mũ FSDS thông qua việc triển khai từ đầu đến cuối của một dự án ML trong thế giới thực.

Với tinh thần học hỏi, nếu các bạn cảm thấy ở đây còn thiếu sót gì thì mời các bạn để lại nhận xét (rất trân trọng) 😁"""

4 chiếc mũ của một nhà khoa học dữ liệu full-stack

TÁC GIẢ

Về ABN Asia: AiUTOMATING PEOPLE, ABN Asia được thành lập từ năm 2012, là một công ty xuất phát từ học thuật, do những giảng viên, cựu du học sinh Hungary, Hà Lan, Nga, Đức, và Nhật Bản sáng lập. Chúng tôi chia sẻ đam mê chung và tầm nhìn vững chắc về công nghệ, mang đến sự đổi mới và chất lượng đỉnh cao cho khách hàng. Phương châm của chúng tôi là: Tốt hơn. Nhanh hơn. An toàn hơn. Trong nhiều trường hợp: Rẻ hơn.

Hãy liên hệ với chúng tôi khi Quý doanh nghiệp có các nhu cầu về dịch vụ công nghệ thông tin, tư vấn chuyển đổi số, tìm kiếm các giải pháp phần mềm phù hợp, hoặc nếu Quý doanh nghiệp có đấu thầu CNTT (RFP) để chúng tôi tham dự. Quý doanh nghiệp có thể liên hệ với chúng tôi qua địa chỉ email [email protected]. Chúng tôi sẵn lòng hỗ trợ với mọi nhu cầu công nghệ của Quý doanh nghiệp.

ABNAsia.org

© ABN ASIA

AbnAsia.org Software