Khoa học dữ liệu: Nghề quyến rũ nhất thế kỷ 21


Đã gần 10 năm kể từ khi bài báo “Nhà khoa học dữ liệu, nghề quyến rũ nhất thế kỷ” trên tạp chí Harvard Business Review* ra đời, dự báo này vẫn đúng. Vị trí “data scientist” vẫn là một vị trí mà nhiều doanh nghiệp tìm kiếm và là kỳ vọng của nhiều người ứng tuyển, trên cả thế giới và Việt Nam.


Trên thế giới, nhu cầu về nhân lực ngành khoa học dữ liệu rất lớn. Nguồn: TechGig.



Theo một báo cáo của Viện nghiên cứu McKinsey toàn cầu vào năm 20142, nước Mỹ sẽ có 250.000 vị trí tuyển dụng nhà khoa học dữ liệu vào năm 2024. Để đáp ứng nhu cầu đó, các chương trình đào tạo Khoa học dữ liệu hay Trí tuệ nhân tạo (AI) đã nhanh chóng ra đời. Ngoài các chương trình chính quy tại các trường Đại học, các nền tảng học trực tuyến, các trung tâm đào tạo ngắn hạn cũng tích cực tham gia vào việc tạo nguồn cung nhân lực Khoa học dữ liệu. Tuy nhiên sau một thời gian tăng trưởng nhanh, nhu cầu tuyển dụng nhà khoa học dữ liệu đã chậm lại do những thay đổi về công nghệ và kinh doanh các sản phẩm AI. Các doanh nghiệp đều muốn khai thác nguồn dữ liệu giá trị của mình, phát triển các sản phẩm AI nhưng còn chưa rõ trong việc xác định đúng kỹ năng và tuyển đúng người. Đã có nhiều trường hợp tuyển dụng và nghỉ việc nhà khoa học dữ liệu sau một thời gian do hai bên chưa đáp ứng đúng nhu cầu của nhau.


Ở Việt Nam, xu hướng này cũng bắt đầu xuất hiện, đi kèm với những khóa đào tạo trình độ đại học và cao học do một số trường đại học nhanh nhạy mở ra, ví dụ trường Đại học Khoa học Tự nhiên, Khoa Quốc tế (ĐHQGHN), trường Đại học Bách khoa HN, Viện John von Neumann, trường Đại học Công nghệ thông tin, Đại học Quốc tế (ĐHQG TPHCM)… Theo ước đoán thì số lượng mà các trường này có thể cung cấp vẫn còn chưa đáp ứng được nhu cầu của thị trường.


Để có cái nhìn toàn cảnh hơn về nghề khoa học dữ liệu, tôi giới thiệu năm xu hướng dịch chuyển mà tôi tổng hợp và tham khảo được. Việc nhận định các xu hướng nổi bật này cũng giúp chúng ta có được một con số dự đoán gần hơn với nhu cầu nhà khoa học dữ liệu ở Việt Nam hiện nay.

Xu hướng thứ nhất: tập trung vào dữ liệu thay vì thuật toán

Nhiệm vụ chính của một nhà khoa học dữ liệu là khai thác ra giá trị từ dữ liệu và một sản phẩm AI thường được mô tả nổi bật bởi những tính năng thông minh ví dụ như nhận dạng giọng nói và trả lời từ động. Thực tế ngày nay các công cụ mô hình hóa đã được hỗ trợ rất nhiều bởi các nền tảng, việc có được dữ liệu trở nên khó gấp 10 lần việc khai thác dữ liệu. Như vậy các nhà khoa học dữ liệu chỉ tham gia vào một phân đoạn nhỏ (số 4) trong cả một quá trình dài từ xây dựng mô hình kinh doanh, marketing, thiết kế phần mềm, chuẩn bị dữ liệu, khai thác dữ liệu, và triển khai và chỉ chiếm chưa quá 5% tổng số nhân sự của dự án. 


Như vậy các doanh nghiệp có thể nhận định quá số lượng nhà khoa học dữ liệu cần có và tuyển dụng nhiều hơn cần thiết. Sau khi được tuyển một số nhà khoa học dữ liệu có thể bị giao việc của giai đoạn ba vốn của kỹ sư dữ liệu (cần nhiều kỹ năng về cơ sở dữ liệu và công nghệ phần mềm), họ vẫn có thể giữ chức danh nhà khoa học dữ liệu nhưng bản chất là một kỹ sư dữ liệu.


Ngoài ra, một data scientist cần làm tốt những việc cơ bản như làm sạch dữ liệu hay biểu diễn hình ảnh, thay vì chỉ tập trung vào mô hình dữ liệu, bởi vì các bộ dữ liệu thực tế trong doanh nghiệp thường rất rời rạc và thiếu sót. Công việc xử lý và làm sạch các nguồn dữ liệu có thể chiếm đến 80% công việc của một nhà khoa học dữ liệu và đây có thể là một điều khiến nhiều data scientist thất vọng. Thực chất thì kết nối giỏi các nguồn dữ liệu, làm sạch hiệu quả và biểu diễn hình ảnh sống động trong một thời gian nhanh nhất là những kỹ năng rất quan trọng sẽ giúp các nhà khoa học dữ liệu tạo ra được nhiều giá trị hơn.

Xu hướng thứ hai: bình dân hóa Khoa học dữ liệu

Sau một thời gian nổi lên như những mô hình kỳ diệu và phức tạp thì các mô hình khoa học dữ liệu đã được tìm hiểu nhiều hơn, đơn giản hóa và đặc biệt là được hỗ trở bởi các công cụ kéo thả đặc biệt dễ dàng từ các hãng lớn. Ngày nay hầu như ai sau một vài giờ đào tạo cũng có thể kéo dữ liệu từ hệ thống Dữ liệu thông minh (Business Intelligence)/ kho dữ liệu (Datawarehouse)/ cơ sở dữ liệu (Database) hay các file dữ liệu trên máy hoặc trên đám mây vào công cụ Machine Learning (là các mô hình khoa học dữ liệu) với giao diện thân thiện. Như vậy một chuyên viên marketing cũng có thể dự báo xác suất mua hàng của từng khách hàng với mô hình cây quyết định, mạng nơron, hay một chuyên viên tín dụng dễ dàng chấm điểm tín dụng cho mỗi khách hàng với mô hình XGB (“Extreme Gradient Boosting”) hay SVM (“Support Vector Machine”). Và như thế là rất nhiều công việc có thể do các chuyên viên hay kỹ sư khác mà không cần nhà khoa học dữ liệu như trước nữa, nhu cầu tuyển dụng nhà khoa học dữ liệu có thể giảm đi nhưng nhu cầu đào tạo khoa học dữ liệu thì không giảm đi thậm chí còn tăng mạnh (đào tạo cho mọi ngành).

Khoa Quốc tế (ĐHQGHN) giới thiệu một khóa đào tạo khoa học dữ liệu. Nguồn: ĐHQGHN.

Xu hướng thứ ba: Chuyển dịch sang các mô hình không giám sát

Các mô hình giám sát bao gồm các bản ghi dữ liệu gắn kèm với một nhãn (“label”) mô tả tính chất. Ví dụ như với bộ dữ liệu gồm một triệu bức ảnh khuôn mặt, mỗi bức ảnh được đánh dấu/ghi lại trạng thái (vui, buồn, giận dữ, lo lắng, …) của khuôn mặt trên đó thì ta có thể dễ dàng tạo ra được một mô hình nhận dạng trạng thái khuôn mặt. Việc khó khăn nhất sẽ là có được một triệu bức ảnh và dán nhãn cho chúng, khó hơn nhiều so với việc xây dựng mô hình nhận dạng. Do vậy vai trò của kỹ sư phần mềm quan trọng hơn nhà khoa học dữ liệu. 

Theo Topdev3,nhu cầu kỹ sư công nghệ thông tin là khoảng 500.000 kỹ sư vào năm 2021-2022. Như vậy nếu hình dung khoảng 20% doanh nghiệp sẽ bắt đầu làm các sản phẩm có tính AI trong 1-2 năm tới, tương đương 100.000 kỹ sư liên quan, thì sẽ có nhu cầu khoảng 5.000 nhà khoa học dữ liệu cho Việt Nam (5%) trong năm 2021 này.

Các mô hình không giám sát ngược lại có thể áp dụng cho dữ liệu không dán nhãn, tức là không được phân loại hay chấm điểm sẵn. Ở đây doanh nghiệp có sẵn các bộ dữ liệu thô chưa có sự đánh giá và phân loại, thì các nhà khoa học dữ liệu có thể vận dụng được sự sáng tạo của mình để đưa ra các đặc tính chưa được hình dung trước, thậm chí tạo ra một mô hình kinh doanh mới. Các nhà khoa học dữ liệu sẽ cần nhiều kiến thức về toán và thống kê (cả mô tả và suy diễn), cụ thể là các phân phối xác suất, xác suất Bayes, ước lượng và kiểm định, đại số tuyến tính, phương pháp phân tích thành phần chính (“Principle Components Analysis” – PCA) hay phân tích giá trị đặc biệt (“Singular Value Decomposition” – SVD), các mô hình “Gaussian Mixture Model” hay “k-mean clustering”,…

Xu hướng thứ tư: sử dụng ™hộp đen∫ Deep Learning cho tất cả mọi thứ

Cũng là chuyển dịch mô hình, các nhà khoa học dữ liệu cũng đang đối diện với một xu hướng khác ở hướng ngược lại, đó là sử dụng “Deep Learning” (học sâu) cho mọi bài toán. Nguyên nhân là chúng hiệu quả, độ chính xác cao và dễ dàng triển khai hơn nhiều các mô hình Machine Learning (học máy) cổ điển. Đặc biệt học sâu phù hợp cho các dữ liệu phi cấu trúc là hình ảnh, âm thanh, giọng nói, và khối lượng dữ liệu lớn. Nhưng cũng chính xu hướng học sâu hóa này đang tạo ra một số vấn đề khá lớn trong AI hiện nay, đó là chúng hoạt động giống như một “hộp đen”. 


Một mô hình học sâu là một tập hợp các neuron nối với nhau bởi các liên kết có trọng số. Các trọng số này sẽ được điều chỉnh hay “học” khi dữ liệu được đưa vào theo một cách khá cơ học, cho đến khi nào chúng có được giá trị phù hợp cho việc dự báo. Mô hình càng sâu, càng to thì càng chính xác, nhưng vấn đề chưa ai hiểu vì sao nó lại chính xác. Các tiến bộ về học sâu phần lớn là dựa trên thử sai và chưa giải thích được rõ ràng vì sao mô hình có kiến trúc như thế này lại phù hợp với dạng dữ liệu nào đó và các giá trị trọng số có vai trò gì? Nếu như cho trước một dạng dữ liệu có thể dự đoán sơ bộ kiến trúc mạng neuron nào, giá trị trọng số nào sẽ phù hợp trước khi chạy thử hay không? 


Và điều này dẫn đến một hệ quả quan trọng là thế mạnh đang thuộc về những người hay doanh nghiệp có tiền, thật nhiều tiền, vì chạy mạng học máy tốn rất nhiều nguồn lực. Các mô hình tiên tiến nhất đang có đến hàng tỷ, hàng chục tỷ tham số cần học và giá cho một lần “học” đó có thể lên đến vài chục triệu đô la tiền tính toán. Điều này cũng đặt ra cho các nhà nghiên cứu về AI một bài toán hóc búa là giải thích được vì sao các mô hình học máy lại chạy tốt? Câu trả lời này sẽ giúp xây dựng được các hệ thống AI rẻ và nhanh hơn nhiều.

Xu hướng thứ năm: chuyên sâu về một dạng dữ liệu

Các nhà khoa học dữ liệu sẽ có một lợi thế lớn nếu hiểu rõ dữ liệu đặc thù ngành, ví dụ như tài chính, xã hội học, địa chất, thương mại hoặc đặc thù nguồn như dữ liệu vệ tinh, dữ liệu ảnh y tế/nông sản, dữ liệu âm thanh thoại, tiếng Việt,… Khi đó bạn có thể khá yên tâm với công việc mang nhiều tính khoa học này. Xu hướng này cũng có nghĩa là nghề khoa học dữ liệu sẽ rộng mở với nhiều ngành nghề khác nhau. Học tốt và hiểu rõ một ngành sau đó học thêm về khoa học dữ liệu và học sâu là một lựa chọn không tồi. Và một lưu ý cuối cùng là “hãy học tốt môn Toán” và sẵn sàng cho việc (học) lập trình rất nhiều. 


Theo Topdev3,nhu cầu kỹ sư công nghệ thông tin là khoảng 500,000 kỹ sư vào năm 2021-2022. Như vậy nếu hình dung khoảng 20% doanh nghiệp sẽ bắt đầu làm các sản phẩm có tính AI trong 1-2 năm tới, tương đương 100,000 kỹ sư liên quan, thì sẽ có nhu cầu khoảng 5.000 nhà khoa học dữ liệu cho Việt Nam (5%) trong năm 2021 này. 


Với xu hướng thứ hai chúng ta cần mở rộng các khóa học cơ bản về Khoa học dữ liệu cho mọi đối tượng liên ngành, từ điện tử đến hóa học, địa chất, từ marketing đến sale hay xã hội học,… Khoa Khoa học dữ liệu hay Trí tuệ nhân tạo nên là một khoa mở nhất của trường. Chúng ta đã thành công trong việc đào tạo phổ cập Tin học cho mọi sinh viên thì sắp tới sẽ là khoa học dữ liệu cơ bản. Xu hướng thứ ba và thứ tư có thể là tham khảo cho các chương trình học về Khoa học dữ liệu. Xu hướng thứ năm lại là một sự hợp tác đào tạo theo chiều ngược lại. Ở đó sinh viên của khoa Khoa học dữ liệu cần phải được gửi về các khoa khác để “học” tính chất của dữ liệu chuyên ngành và giúp giải quyết các bài toán chuyên ngành dựa trên khoa học dữ liệu.

Tham khảo:

https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century

https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/the-age-of-analytics-competing-in-a-data-driven-world

3 https://moit.gov.vn/web/guest/tin-chi-tiet/-/chi-tiet/topdev-nam-2019-viet-nam-thieu-hut-toi-90-000-nhan-luc-cntt-16444-402.html

Xu hướng số 2 và một phần của số 3 được tham khảo chủ yếu trong thảo luận sau:

https://www.quora.com/What-is-the-brutal-truth-about-data-scientists

Nguyễn Quang / Tạp Chí Tia Sáng

Data Scientist là gì?


Chuyện vào nghề: Data Scientist là gì?

Vào năm 2018, Harvard Business Review đã bầu chọn nghề Data Scientist – Nhà khoa học dữ liệu công việc “hot” nhất thế kỷ 21 để nhấn mạnh sự thành công và sức ảnh hưởng của Dữ liệu đến thị trường thế giới. Tuy nhiên, lĩnh vực này chưa hoàn toàn lớn mạnh như kỳ vọng, cũng như còn nhiều hiểu lầm – hiểu sai về công việc data scientist là gì. Nó xuất hiện với nhiều người như một thứ “kỹ thuật mờ”, có thể có khả năng triển khai sản phẩm hoặc dịch vụ của họ.

Sự hiểu lầm này có thể dẫn đến thất bại trong việc sử dụng tốt các nguồn lực. Hãy cùng lùi lại một bước để có cái nhìn chi tiết hơn về nghề Data Scientist, cùng như giải mã cách để bạn có thể “dấn thân” theo con đường này. 

Data Scientist là gì? 

Data Scientist (kỹ sư khoa học dữ liệu) là những người phân tích, sắp xếp và thay dữ liệu “kể chuyện”, bất kể nó có cấu trúc hay không. Công việc của họ sẽ cần phối hợp giữa cả khoa học máy tính, thống kê và toán học. Họ sẽ là người phân tích, xử lý và “mô hình hóa” các dữ liệu, sau đó diễn giải các kết quả để tạo ra các kế hoạch hoạt động cho team và doanh nghiệp.

Nói một cách dễ hiểu, nghề data scientist làm việc cũng dữ liệu và cho ra các insight mang tính phân tích. Họ sẽ truyền đạt các phát hiện và insight này với các bên liên quan – từ lãnh đạo cấp cao, quản lý đến khách hàng. Từ đó các công ty có thể trực tiếp hưởng lợi từ việc đưa ra các quyết định sáng suốt nhất để thúc đẩy tăng trưởng kinh doanh và lợi nhuận của họ (tức là, phụ thuộc vào bối cảnh của các ngành công nghiệp).

Tại Việt Nam, ngành CNTT cũng đang chứng kiến sự tăng trưởng tiềm năng của ngành Khoa học dữ liệu. Ngày càng có nhiều doanh nghiệp quan tâm hơn tới ngành khoa học dữ liệu và sẵn sàng đổ tiền cho việc nghiên cứu và phát triển. Không sai khi nói nghề Data Scientist đang là một trong những ngành hot nhất trên thị trường Việt Nam, liệu bạn hiểu rõ về nó?

Công việc của một Data Scientist

Data Science là gì ?

data scientist là gì

Credit: Matt Dancho 

Mục tiêu của bộ phận Data Science là làm sao để các bộ phận các tại Doanh nghiệp có thể đưa ra các quyết định dựa trên dữ liệu tốt hơn. Vì thế Data Science có vai trò hỗ trợ (tương tự như CNTT) cho phép tổ chức hoạt động tốt hơn và tăng giá trị nhanh hơn thông qua việc ra quyết định tốt hơn.

Luồng công việc của bộ phận Data Science sẽ gồm các Cột mốc quan trọng (đám mây), các giai đoạn (đường kẻ đứt nét) và các bước (box màu xám). Quy trình bắt đầu từ một vấn đề cụ thể (Cột mốc 1) – doanh nghiệp sẽ ưu tiên đưa vấn đề này đến nhóm khoa học dữ liệu và họ sẽ bắt đầu vào quy trình quản lý dự án. 

Chu trình Data Science có 3 giai đoạn:

  1. Chuẩn bị – Dữ liệu được thu thập và làm sạch. Điều này cần một lượng thời gian đáng kể vì hầu hết dữ liệu còn nhiễu, có nghĩa là cần thực hiện các bước để cải thiện chất lượng và chuyển nó sang thành định dạng mà máy có thể hiểu và đọc.
  2. Thử nghiệm – Đây là nơi các giả thuyết được tạo ra, dữ liệu được trực quan hóa và các mô hình được tạo ra. Điều này mất ít thời gian hơn so với khâu Chuẩn bị.
  3. Phân phối – Báo cáo kết quả được ghi lại thành tài liệu, slideshow trình bày cho quản lý và một khi quản lý thông qua, các quyết định sẽ được truyền tải xuống để thay đổi.

Khi kết thúc quy trình, phần triển khai này sẽ là lúc một Business Value (cột mốc) mới cho doanh nghiệp được tạo ra.  Data scientist vs data analyst: những khác biệt mà bạn cần biết

Phân biệt Data Scientist vs Data Engineer vs Data Analyst

data scientist là gì

“Tháp workflow” của bộ phận Data Science

Tuỳ thuộc vào quy mô và mô hình doanh nghiệp, mỗi vị trí tại mỗi tổ chức sẽ có vai trò và trách nhiệm khác nhau. Tuy nhiên, mô hình tổng quan nhất về sự khác nhau của bộ ba Data như sau:

  • Data Scientist sẽ phân tích, kiểm tra, tổng hợp, tối ưu hóa dữ liệu và trình bày nó cho công ty. Các nhà khoa học dữ liệu thường có 4 nhiệm vụ chính trong một công ty: Phân tích, kiểm tra, tạo và trình bày chúng cho nhóm.

Các nhà khoa học dữ liệu phải có một nền tảng toán học và thống kê. Họ cũng hiểu và thành thạo việc tạo ra các mô hình máy học và trí tuệ nhân tạo.

  • Data Engineers sẽ phụ trách thu thập dữ liệu liên quan. Họ di chuyển và biến đổi Dữ liệu này thành “Pipeline” cho bộ nhóm Khoa học dữ liệu. Họ có thể sử dụng các ngôn ngữ lập trình như Java, Scala, C ++ hoặc Python tùy theo nhiệm vụ của họ. Kỹ sư dữ liệu chuyên về 3 hành động dữ liệu chính: thiết kế, xây dựng và sắp xếp các đường ống dữ liệu.

Có thể gọi họ là loại kiến ​​trúc sư dữ liệu. Kỹ sư dữ liệu thường có kỹ thuật máy tính hoặc nền tảng khoa học và kỹ năng tạo hệ thống.

  • Data Analysts cũng sẽ tham gia vào việc lấy dữ liệu liên quan từ nhiều nguồn khác nhau và chuẩn bị nó để phân tích thêm. Dựa trên phân tích, một nhà phân tích dữ liệu cần đưa ra kết luận, hoàn thành các báo cáo cùng hình ảnh minh hoạ. 

Do đó, chúng ta có thể thấy rằng phạm vi công việc của các nhà phân tích dữ liệu nhằm phân tích và mô tả các chiến lược trong quá khứ hoặc trước đó dựa trên dữ liệu quá khứ hoặc hiện tại, trong khi các nhà khoa học dữ liệu tập trung vào việc dự đoán và tính toán trước để tạo ra các chiến lược trong tương lai.

Workload của một Data Scientist

Nhìn vào nhánh Data Science, hầu hết mọi người sẽ nói rằng Data Science = Machine Learning. Tuy nhiên trên thực tế, Machine Learning (hoặc Modeling) sẽ chỉ chiếm khoảng 20% trong workload của một Data Scientist. Phần trăm công việc của Data Scientist được phân chia như sau:

  • Hiểu vấn đề của doanh nghiệp: Tiếp xúc và giao tiếp với Lãnh đạo/ Khách hàng (15%)
  • Làm việc của Dữ liệu: Lọc sạch dữ liệu, Học data, Visual hoá, Xử lý, Chuyển đổi, và Thấu hiểu (70%)
  • Truyền tải kết quả: Báo cáo, Soạn Slide Decking, và Build nên Công cụ ra quyết định tự động) (15%)

Data scientist sẽ dựa vào phân tích dự đoán, học máy, điều hòa dữ liệu, mô hình toán học và phân tích thống kê. Một chuyên gia dữ liệu sẽ tiến hành xử lý khối lượng dữ liệu lớn theo quy trình như sau: 

data scientist là gì

Machine Learning Model

Mặc dù sự hiểu nhầm trên gần như đã phổ biến ở mọi nơi, việc xây dựng các mô hình máy học Machine Learning models chỉ là một bước của cả quá trình workload của một nhà khoa học dữ liệu. Sau khi đầu ra mô hình xử lý hậu kỳ, Data scientist sẽ truyền đạt kết quả cho các nhà quản lý, thường sử dụng các phương tiện trực quan hóa dữ liệu. Khi kết quả được thông qua, nhà khoa học dữ liệu đảm bảo công việc được tự động hóa và được phân phối một cách thường xuyên.

Nói tóm lại, người làm Data Scientist sẽ bao gồm:

  • Áp dụng các kỹ thuật định lượng từ kiến thức về thống kê, kinh tế lượng, optimizations và machine learning / deep learning về giải pháp cho doanh nghiệp từ nhiều lĩnh vực
  • Vận dụng các phương pháp thống kê để xây dựng các mô hình dự đoán
  • “Mở đường” cho việc ra quyết định dựa trên insight phân tích từ các bộ data có cấu trúc và không cấu trúc
  • Xác định các nguồn dữ liệu mới và khám phá tiềm năng sử dụng của chúng trong việc phát triển thêm các insight trong phát triển sản phẩm 
  • Khám phá công nghệ mới và các giải pháp phân tích để sử dụng trong phát triển mô hình định lượng
  • Thiết kế và phát triển các báo cáo và bảng điều khiển tương tác tùy chỉnh
  • Duy trì và cải thiện các mô hình hiện có
  • Truyền tải insight và các phân tích với dàn lãnh đạo và Stakeholder cũng như các phòng ban liên quan để tiến hành thay đổi/ cập nhật 

Lộ trình trở thành Data Scientist trong năm 2020

trở thành data scientist

Tin vui cho tất cả những người đang bước vào ngành Data Science: Đường learning curve của ngành này không còn quá dốc nữa – đường vào nghề ở thời điểm hiện tại đơn giản hơn ngày xưa rất nhiều. Từ bất kì background nào bạn cũng có thể vào lĩnh vực này, đương nhiên phải kiên trì học nhiều – hiểu nhiều – cày nhiều, nhưng có thể đi chậm và chắc từ những cái căn bản. 

Các ngôn ngữ Lập trình cơ bản

Python 

Python mãi xứng đáng có một vị trí cao ổn định trong bộ toolkit của một Data Scientist. Nhiều chuyên gia chọn ngôn ngữ này vì hệ sinh thái được thiết kế đặc biệt cho khoa học dữ liệu. Python có cộng đồng phân tích dữ liệu lớn nhất, sẽ dễ dàng tìm thấy các ví dụ về phân tích trong Kaggle, tìm các ví dụ mã trong Stackoverflow (trang web hỏi đáp với hầu hết người mới bắt đầu và thường nâng cao câu hỏi là tốt) và cơ hội việc làm vì nó là ngôn ngữ phổ biến nhất trên thị trường.

SQL

Việc “nói cùng ngôn ngữ với database” là điều cần thiết cho các nhà khoa học dữ liệu. Bạn sẽ cần phải thành thạo SQL để có thể lấy thông tin từ cơ sở dữ liệu bằng cách sử dụng các hướng dẫn truy vấn mà không cần phải nối mã tùy chỉnh.

Tham khảo tài liệu về SQL cho Data Scientist

R

Với nhiều tính năng đặc biệt, R là ngôn ngữ được “làm thủ công” dành riêng cho data science và là khởi đầu cần thiết cho các Data Scientist năm 2020. Mọi thông tin và vấn đề số liệu sẽ được xử lý bằng R.

Hadoop

Mặc dù kiến thức về công cụ này là không bắt buộc, nhưng Hadoop làm tăng giá trị và khả năng chuyên môn của một nhà khoa học dữ liệu, đặc biệt nếu họ có kinh nghiệm với Hive hoặc Pig. Các công cụ đám mây như Amazon S3 cũng có thể giúp ích rất nhiều.

Machine Learning

Không có cách nào để trốn được Machine Learning (ML) đâu, bạn chắc chắn phải hiểu hết những điều cơ bản của ML. Điều này cung cấp cho bạn một kiến thức khổng lồ để hiểu cách các mô hình khác nhau hoạt động bên trong và thậm chí nghĩ về mô hình tốt hơn cho từng vấn đề.

Có nhiều kỹ thuật phổ biến cho hầu hết mọi mô hình và bạn nên học các kỹ thuật này trước và chỉ sau đó tập trung vào tìm hiểu sự khác biệt toán học và chi tiết triển khai của chúng.

Xem thêm về Machine Learning căn bản cho Data Scientist

Thống kê (Statistics)

Phần tốt nhất, quan trọng nhất và không may là khó nhất để cuối cùng – Thống kê. Chính kỹ năng này sẽ phân biệt là Data scientist và Machine Learning Engineer. Không có đường tắt ở đây. Bạn nên bắt đầu với thống kê mô tả, biết cách thực hiện phân tích dữ liệu khám phá tốt (EDA) hoặc tối thiểu là các khái niệm cơ bản về xác suất và suy luận, hiểu rõ các khái niệm về sai lệch lựa chọn, Nghịch lý Simpson, liên kết các biến (cụ thể là phương pháp phân tách phương sai ), những điều cơ bản của suy luận thống kê (và thử nghiệm A / B nổi tiếng như suy luận được biết đến trên thị trường), và một ý tưởng cho thiết kế thử nghiệm.

data scientist là gì

Soft Skill: Suy nghĩ như một Data Scientist

Việc tự trau dồi và rèn luyện tư duy của một Data Scientist là một trong những kỹ năng quan trọng để phân biệt giữa một Scientist giỏi và một Scientist vừa đủ. Một số gợi ý cho bạn để tự rèn luyện cho mình:

  • Luôn tò mò

Hãy luôn đặt câu hỏi “Vi sao?”, tìm liên kết và những thông tin mới với những vấn đề trong cuộc sống hằng ngày. Trong công việc, các nhà khoa học dữ liệu cho ra insight từ dữ liệu và thông tin từ dataset và đưa ra các quyết định quan trọng theo đó. Việc phân tích hoàn hảo sẽ không hữu ích nếu nó không giải quyết được vấn đề cơ bản. Đôi khi bạn cần quay lại, thử một cách tiếp cận mới và điều chỉnh lại câu hỏi bạn đang cố gắng trả lời. Hãy luôn đặt câu hỏi.

  • Có tính tiểu tiết

Các nhà khoa học dữ liệu sử dụng rất nhiều công cụ để quản lý quy trình công việc, dữ liệu, chú thích và mã của họ. Điều quan trọng là phải làm việc khoa học, quan sát, thử nghiệm và ghi chép lại mọi lúc, để bạn có thể xem lại và suy nghĩ. Ngoài ra cần phải lưu lại tất cả các nghiên cứu, thông tin bạn phát hiện được không chỉ ở hiện tại – trong quá khứ nữa.

  • Biết sáng tạo

Nghe thì có vẻ mâu thuẫn, nhưng khoa học dữ liệu cần được tiếp cận ở nhiều cách thức – phương diện và góc nhìn khác nhau. Bạn không nhất thiết phải có background kĩ thuật, nhưng bạn cần phải có tư duy sáng tạo. Thông thường, suy nghĩ thay thế (alternative thinking) là chìa khóa cho cách bạn giải quyết một vấn đề mới. Nó sễ đi song song của tư duy logic để giúp bạn thành công trong nghiên cứu và giải mã insight.  

  • Ngừng lo lắng

Bạn không nhất thiết phải là chuyên gia lập trình, hay tài chính hay bắt buộc từ chuyên môn nào cả. Rất nhiều Data Scientist trên thế giới đến từ ngành luật hoặc kinh tế hoặc khoa học hoặc cả bác sĩ. Tất cả nằm ở chính mình và nỗ lực mà thôi.

Nếu có thể linh hoạt và làm việc có hệ thống, bạn hoàn toàn có thể quen với các tool, frameworks và datasets, cũng như nhanh chóng phát triển sự thấu hiểu về về ngành và vấn đề của doanh nghiệp.

Tìm kiếm các nguồn học tập dành cho Data Scientist

Các Data Science course phổ biến nhất hiện nay

  1. Machine Learning (Google ML): Các khóa học nhanh được update liên tục từ Google.
  2. Deep Learning (Kaggle Learn): Sản phẩm mới từ Kaggle bên cạnh động đồng Kaggle đang hot, từ lý thuyết nhỏ đi kèm với nhiều ứng dụng thực tế.
  3. Python for Data Science and Machine Learning (Udemy): Giải thích rất rõ ràng về các khái niệm khác nhau của cả khoa học dữ liệu và máy học. Khóa học này sẽ giúp bạn thành thạo thư viện scikit-learn phổ biến cho máy học. Nó cũng bao gồm phần giới thiệu về Spark và TensorFlow. 
  4. Complete SQL Bootcamp (Udemy): Một nhà khoa học dữ liệu cần có nhiều công cụ hơn trong kho vũ khí của mình hơn là chỉ lập trình R và Python. SQL là một ngôn ngữ quan trọng khác mà bạn sẽ thường sử dụng để tương tác với cơ sở dữ liệu. Khóa học này đã giúp tôi có được thực tập hiện tại và dạy tôi mọi thứ tôi cần biết về SQL trong hai ngày.
  5. DataCamp: DataCamp có các khoá học từ 4-6 tiếng. Các khóa học này có các video giải thích ngắn và sau đó bạn sẽ có các bài tập để áp dụng các nguyên tắc từ các video. Mọi thứ xảy ra trong trình duyệt của bạn, vì vậy bạn không phải cài đặt bất cứ thứ gì. Điều này làm cho DataCamp trở thành sự giới thiệu hoàn hảo cho lập trình R và Python. 

Tham khảo các khoá học Data Science miễn phí trực tuyến tại đây

Các đầu sách về Data Scientist cần đọc:

  1. Sách Lập trình: 
  2. Machine Learning: 
  3. Statistic:
  4. Data:

Các trang Blog về Data Scientist uy tín:

Github cần follow:

Các đầu git không thể bỏ qua nếu như đang dấn thân vào DS:

TopDev Blog cũng sẽ tiếp tục series về Data Science trong thời gian sắp đến. Đừng bỏ lỡ nhé!

Có thể bạn quan tâm:

By An Dieu – TopDev tổng hợp