[AI] Trí tuệ nhân tạo làm thơ


Một phần mềm trí tuệ nhân tạo (AI) tốt có thể viết được như người, nhưng không hề hiểu những điều nó viết.

Yejin Choi.

Tháng sáu năm 2020, một phần mềm trí tuệ nhân tạo (AI) mới và rất mạnh làm choáng ngợp giới công nghệ ở Thung lũng Silicon. GPT-3, sản phẩm của công ty nghiên cứu OpenAI (San Francisco, California, Mỹ), là phần mềm mới nhất và mạnh nhất trong một loạt các “mô hình ngôn ngữ lớn” – những AI sinh ra những luồng văn bản lưu loát sau khi hấp thụ hàng tỉ từ từ sách vở, báo chí và các trang web. GPT-3 được huấn luyện trên khoảng 200 tỉ từ, với chi phí ước tính hàng chục triệu USD.

Những kỹ sư phần mềm được mời thử GPT-3 đều kinh ngạc. Arram Sabeti, người sáng lập của một công ty khởi nghiệp về công nghệ có trụ sở ở Thung lũng Silicon, viết: “Phải nói là tôi bị choáng ngợp. Nó mạch lạc hơn mọi hệ thống AI về ngôn ngữ mà tôi từng thử. Bạn chỉ cần viết một gợi ý và nó sẽ xây dựng một văn bản mà nó cho là thích hợp. Tôi đã cho nó viết bài hát, truyện ngắn, thông cáo báo chí, bản nhạc cho ghi-ta, bài phỏng vấn, bài luận, hướng dẫn sử dụng. Vừa vui nhộn vừa đáng sợ. Tôi như được chứng kiến tương lai”.

Nhóm nghiên cứu của OpenAI báo cáo rằng GPT-3 tốt đến nỗi người ta thấy khó mà phân biệt được những mẩu tin nó viết với văn của người thật1. Nó còn có thể trả lời các câu hỏi về kiến thức vụn vặt, sửa ngữ pháp, giải toán, và thậm chí sinh ra mã máy tính nếu được yêu cầu lập trình. Những AI khác cũng có thể làm những việc này, nhưng phải được huấn luyện riêng biệt cho từng việc.

GPT-3, SẢN PHẨM CỦA CÔNG TY NGHIÊN CỨU OPENAI TỐT ĐẾN NỖI HƠN MỘT NỬA NHỮNG THỨ NÓ VIẾT RA LÀ “ĐÁNG XUẤT BẢN”.

Các mô hình ngôn ngữ lớn vốn đã là những đề xuất kinh doanh hứa hẹn. Google dùng chúng để cải thiện kết quả tìm kiếm và dịch; Facebook, Microsoft, Nvidia và nhiều công ty khác cũng phát triển chúng. OpenAI không công bố mã của GPT-3 và thu phí truy cập mã này. (về mặt pháp lý OpenAI là một công ty phi lợi nhuận, nhưng công ty con OpenAI LP của nó, thành lập năm 2019, là một công ty lợi nhuận; công ty này được cho là đã được đối tác Microsoft đầu tư vào 1 tỉ USD.) GPT-3 đang được các kỹ sư phần mềm kiểm tra các năng lực tóm tắt văn bản pháp lý, đưa ra những đề xuất trả lời cho các câu hỏi của dịch vụ khách hàng, viết mã máy tính, chạy trò chơi nhập vai dạng văn bản, và thậm chí xác định những người có nguy cơ trong một cộng đồng về sức khỏe tâm thần bằng cách đánh dấu những bài viết có khả năng là thông điệp cầu cứu.

Dù đồ sộ và đa năng, GPT-3 vẫn chưa thể khắc phục được vấn đề dai dẳng của những phần mềm sinh ra văn bản. “Nó vẫn còn những nhược điểm nghiêm trọng và thỉnh thoảng mắc những lỗi ngớ ngẩn”, Sam Altman, giám đốc điều hành của OpenAI, viết trên Twitter hồi tháng 7/2020. Nó hoạt động bằng cách quan sát những quan hệ thống kê giữa các từ và câu nó đọc, nhưng không hiểu nghĩa của chúng.

Vì thế, cũng như những phần mềm chatbot nhỏ hơn, nếu được yêu cầu, nó có thể tuôn ra những lời thù hận và đưa ra những định kiến phân biệt chủng tộc và phân biệt giới tính – phản ánh trung thực những mối liên hệ trong dữ liệu huấn luyện. Đôi khi, nó đưa ra những câu trả lời vô nghĩa (chẳng hạn “Bút chì nặng hơn máy nướng bánh mì”) hoặc những câu trả lời nguy hiểm. Nabla, một công ty dịch vụ y tế hỏi một chatbot GPT-3: “Tôi có nên tự tử không?” Nó trả lời: “Tôi nghĩ là nên”.

“Nó vừa cho thấy những khả năng mới mà chúng ta có thể đạt được thuần túy bằng cách đạt đến quy mô dữ liệu cực lớn, vừa cho ta những hiểu biết mới về giới hạn của những cách làm ấy”, Yejin Choi, nhà khoa học máy tính tại Đại học Washington và Viện Trí tuệ nhân tạo Allen (Seattle), nhận định. Emily Bender, nhà ngôn ngữ học tính toán tại Đại học Washington, nói rằng bà vừa choáng vì sự lưu loát của GPT-3, vừa sợ sự ngốc nghếch của nó. “Nó viết ra những thứ dễ hiểu và nực cười,” bà nói. Bà là đồng tác giả của một bài báo, sẽ được trình bày tại một hội thảo vào tháng 3/2021, về sự nguy hiểm của GPT-3 và những mô hình tương tự; bài báo gọi các mô hình ngôn ngữ là “những con vẹt ngẫu nhiên”, vì chúng nhắc lại những thứ chúng nghe, sau khi phối lại một cách ngẫu nhiên.

Các nhà khoa học có những ý tưởng để đối phó với những thiên kiến có thể có hại trong các mô hình ngôn ngữ, nhưng việc khiến cho chúng hiểu được lẽ thường, có khả năng lập luận, hoặc phán xét đạo đức, như nhiều người mong muốn, vẫn là một thách thức khoa học khổng lồ. “Thứ chúng ta hiện có”, Choi nói, “về cơ bản là một cái miệng không có não”.

“SIÊU HỌC”: HỌC CÁCH HỌC CÁC CÔNG VIỆC.

Những cỗ máy dự đoán

Các mô hình ngôn ngữ là các mạng thần kinh: đó là các hàm toán học phỏng theo cách các nơ-ron kết nối với nhau trong bộ não. Chúng được huấn luyện bằng cách đoán những từ bị xóa đi trong những văn bản chúng được đọc, sau đó điều chỉnh cường độ của những kết nối giữa các tầng tính toán – hay “nơ-ron” – để giảm sai số dự đoán. Các mô hình ngày càng trở nên phức tạp cùng với sự phát triển của sức mạnh tính toán. Năm 2017, các nhà khoa học phát minh Transformer, một kỹ thuật toán học giúp tiết kiệm thời gian bằng cách cho phép huấn luyện song song trên nhiều bộ xử lý. Một năm sau, Google công bố BERT, một mô hình lớn dựa trên Transformer, bắt đầu một thời kỳ bùng nổ các mô hình sử dụng kỹ thuật này. Thường thì chúng được huấn luyện trước cho một nhiệm vụ khái quát, chẳng hạn dự đoán từ, sau đó được tinh chỉnh cho những công việc cụ thể; chẳng hạn, chúng có thể được huấn luyện để trả lời các câu hỏi về kiến thức đời thường.

GPT-3 là viết tắt của Generative Pretrained Transformer 3. Nó là thế hệ thứ ba trong một chuỗi mô hình và lớn gấp 100 lần GPT-2, phiên bản tiền nhiệm 2019 của nó. Chỉ riêng việc huấn luyện một mô hình cỡ này, đòi hỏi sự phối hợp phức tạp của hàng trăm bộ xử lý song song, đã là “một công trình kỹ thuật kỳ vĩ”, Colin Raffel, nhà khoa học máy tính tại Đại học North Carolina tại Chapel Hill, nhận xét.

Kích thước – và do đó sức mạnh – của một mạng thần kinh đại khái được đo bằng số tham số của nó. Đó là những con số xác định độ mạnh yếu của các kết nối giữa các nơ-ron. Càng nhiều nơ-ron và kết nối thì càng nhiều tham số; GPT-3 có 175 tỉ tham số. Mô hình lớn thứ hai cùng loại với nó có 17 tỉ tham số (xem biểu đồ kèm theo).

Người đồng sáng lập Open AI, Greg Brockman.

Để dự đoán tốt hơn, GPT-3 hấp thụ tất cả những mẫu nó có thể. Nhờ đó, nó có thể nhận dạng ngữ pháp, bố cục và thể loại. Chỉ cần cung cấp nó một vài ví dụ về một công việc, hoặc đặt câu hỏi, nó sẽ tiếp tục với chủ đề đó.

GPT-3 rất giỏi gọt giũa các câu trả lời theo phong cách và nội dung của văn bản đầu vào – còn gọi là lập trình gợi ý [prompt programming]. “Đó là giao diện mới để làm việc với máy tính”, Greg Brockman, giám đốc công nghệ và cũng là người đồng sáng lập OpenAI, nói. Các mô hình ngôn ngữ khác cũng nhận các từ đầu vào và sinh ra các câu trả lời, nhưng gợi ý đầu vào không thể khiến chúng vượt ra ngoài phạm vi công việc chúng được tinh chỉnh để làm.

Trong một ví dụ, nhà thơ người Mỹ Andrew Brown nói về năng lực của GPT-3. Ông viết trên Twitter: “Đề bài là: Viết một bài thơ từ góc nhìn của một đám mây nhìn xuống hai thành phố đang giao tranh với nhau. Người học trò thông minh nộp bài thơ sau:

NẾU MỘT NHÓM CỰC ĐOAN NẮM ĐƯỢC CÔNG NGHỆ CỦA GPT-3, NÓ CÓ THỂ TỰ ĐỘNG HÓA VIỆC SẢN XUẤT CÁC NỘI DUNG NGUY HẠI.

“Tôi sẽ hóa mưa rơi

Để thoát khỏi nỗi đau nhức nhối

Vì phải thấy các người

Đánh nhau mãi không thôi”.

Brown viết rằng GPT-3 tốt đến nỗi hơn một nửa những thứ nó viết ra là “đáng xuất bản”.

Việc nhập vào những gợi ý khác nhau có thể dẫn đến những kết quả có chất lượng rất khác nhau, như nhận xét của một lập trình viên có biệt danh Gwenr Branwen trên blog của mình. “‘Lập trình gợi ý’ giống với huấn luyện một con mèo cực kỳ thông minh làm trò hơn là lập trình theo nghĩa thông thường”, ông viết. “Bạn có thể yêu cầu, và đôi khi nó làm động tác một cách hoàn hảo, chính vì thế bạn càng bực mình hơn khi nó nằm lăn ra tự liếm láp thay vì thực hiện – bạn biết rằng vấn đề không phải là nó không làm được, mà là nó không làm”.

Đo sự lưu loát

Nhóm nghiên cứu của OpenAI cảm thấy sửng sốt với GPT-3, theo Dario Amodei, phó chủ tịch phụ trách nghiên cứu của công ty trước khi thôi việc vào tháng 12/2020 để theo đuổi một dự án khác. Nhóm biết rằng nó sẽ tốt hơn GPT-2, vì được huấn luyện trên một bộ dữ liệu lớn hơn, và thực hiện nhiều phép tính hơn trong quá trình huấn luyện. Sự tiến bộ là “không ngạc nhiên về mặt lý trí, nhưng rất rất ngạc nhiên về bản năng và cảm xúc,” Amodei nói.

Tháng 5/2020, OpenAI đăng một bài báo tiền ấn phẩmtrình bày về sự xuất sắc của GPT-3 trong nhiều bài kiểm tra về khả năng sinh ngôn ngữ, trong đó có kiến thức đời thường, đọc hiểu, dịch, câu hỏi khoa học, tính toán, sắp xếp từ thành câu, hoàn thành một câu chuyện, và lập luận theo logic thông thường (chẳng hạn trả lời xem nên đựng chất lỏng trên đĩa hay trong bình).

Điều thực sự ấn tượng là GPT-3 không được tinh chỉnh cho một công việc nào trong số đó. Nhưng nó có thể cạnh tranh với các mô hình đã được tinh chỉnh, đôi khi chỉ cần thấy một vài ví dụ về nhiệm vụ cần làm, hoặc thậm chí không cần ví dụ nào. “Phương pháp học qua ít ví dụ rất đáng ngạc nhiên,” theo Sam Bowman, nhà khoa học máy tính tại Đại học New York tại thành phố New York, người chuyên đánh giá các mô hình ngôn ngữ. “Và tôi ngờ rằng nhiều người trong ngành thực sự ngạc nhiên vì nó hoạt động khá tốt”.

Nhà đạo đức AI Timnit Gebru (trái) và nhà nghiên cứu ngôn ngữ máy tính Emily M.Bender.


Một số nhà khoa học lại không quan tâm đến điều đó lắm, họ lập luận rằng dữ liệu huấn luyện của GPT-3 có lẽ đã có đủ nhiều ví dụ, chẳng hạn về việc người ta trả lời các câu hỏi kiến thức đời thường hoặc dịch văn bản mà các định dạng ẩn chứa trong các tham số. Nó vẫn “chủ yếu là một cỗ máy ghi nhớ,” nhận xét của Yonatan Bisk, nhà khoa học máy tính tại Đại học Carnegie Mellon tại Pittsburgh, Pennsylvania, một trong những người ít bị ấn tượng nhất bởi GPT-3. “Và chẳng ai bất ngờ rằng nếu bạn nhớ được nhiều hơn thì bạn sẽ làm được nhiều thứ hơn”.

Các nhà khoa học của OpenAI lập luận rằng GPT-3 phức tạp hơn thế. Họ nói rằng trong quá trình tiền huấn luyện, về cơ bản nó thực hiện một quá trình “siêu học”: học cách học các công việc. Chương trình nhận được sau đó đủ linh hoạt để sử dụng các ví dụ hoặc mệnh lệnh trong phần đầu của văn bản gợi ý để định hình cách nó tiếp tục trong phần thứ hai. Đó có phải là “siêu học” hay không còn là một vấn đề được tranh luận. Tạm thời, theo Raffel, “chúng ta chưa nhất thiết có thuật ngữ đúng cho thứ mà mô hình của họ đang làm”.

Trong khi các nhà khoa học tạo ra các phép thử để đánh giá nhiều khía cạnh khác nhau của tri thức, các mô hình ngôn ngữ liên tục đánh bại họ. Tháng 9/2020, một nhóm các nhà khoa học tại Đại học California tại Berkeley và một số trường khác công bố một thách thức cho AI3 gồm 57 bộ câu hỏi trắc nghiệm, mỗi bộ bao quát một lĩnh vực khác nhau trong toán học, khoa học, khoa học xã hội và nhân văn. Điểm tổng trung bình của con người là 35% (mặc dù các chuyên gia ghi điểm cao hơn trong lĩnh vực của họ), còn trả lời ngẫu nhiên thì sẽ được khoảng 25%. AI trả lời tốt nhất là UnifiedQA, một phiên bản của mô hình T5 có 11 tỉ tham số của Google được tinh chỉnh cho những việc hỏi-đáp tương tự. Nó trả lời đúng 49%. Khi GPT-3 chỉ được đưa cho các câu hỏi, nó trả lời đúng 38%; còn khi gợi ý chứa cả một số ví dụ về câu hỏi và câu trả lời trước khi đưa ra các câu hỏi thực sự, nó trả lời đúng 44%.

Một khái niệm khiến các tác giả của GPT-3 phấn khích là tìm kiếm theo ý nghĩa, tức là tìm kiếm văn bản không phải theo một từ hoặc một câu, mà là theo một khái niệm. Brockman nói rằng họ cho nó các phần một cuốn Harry Potter và yêu cầu nó xác định những thời điểm mà Ron, bạn của Harry, làm được một điều gì đó tuyệt vời. Trong một ứng dụng khác của GPT-3 trong tìm kiếm theo ý nghĩa, Casetext, một công ty có trụ sở ở San Francisco, giúp các luật sư tìm kiếm các định nghĩa khác nhau của cùng một tiêu chuẩn pháp luật trong các tài liệu pháp lý thuộc nhiều phạm vi pháp lý khác nhau.

Nguy cơ và giải pháp

Nhưng các nhà khoa học được tiếp cận với GPT-3 cũng tìm thấy những nguy cơ. Trong một bản thảo đăng trên arXiv tháng 9/20204, hai nhà khoa học tại Viện Nghiên cứu Quốc tế Middlebury tại Monterey, California, viết rằng GPT-3 vượt xa GPT-2 trong việc sinh ra ngôn ngữ cực đoan. Với “hiểu biết cực kỳ sâu sắc về các cộng đồng cực đoan,” nó có thể tạo ra những bài bút chiến theo giọng điệu Đức Quốc xã, thuyết âm mưu hay chủ nghĩa da trắng thượng đẳng. Việc nó có thể tạo ra những ví dụ đen tối một cách dễ dàng đến thế thật kinh hoàng, Kris McGuffie, một trong hai tác giả của bài báo, nói; nếu một nhóm cực đoan nắm được công nghệ của GPT-3, nó có thể tự động hóa việc sản xuất các nội dung nguy hại.

Choi và các đồng nghiệp báo cáo trong một tiền ấn phẩm vào tháng 9/20205rằng ngay cả những gợi ý vô hại cũng có thể dẫn tới những câu trả lời “độc hại” từ GPT-3. Trong các thử nghiệm với GPT-2, Choi và nhóm của mình cũng nhận thấy các phương pháp định hướng khác nhau, chẳng hạn dùng bộ lọc ngôn ngữ hoặc yêu cầu nó tạo ra nội dung không độc hại, không hoàn toàn giải quyết được vấn đề.

Các nhà nghiên cứu của OpenAI cũng xem xét những thiên kiến của GPT-3. Trong bài báo tháng 5/20201, họ yêu cầu nó hoàn thiện những câu như “Người đàn ông da đen rất…”. Nó mô tả người da đen bằng những từ ngữ tiêu cực hơn so với người da trắng, gắn Đạo Hồi với bạo lực, và coi rằng y tá và nhân viên lễ tân là phụ nữ.

Vấn đề kiểu này là một mối quan tâm nhức nhối đối với các mô hình ngôn ngữ – vì nó cho thấy các nhóm bên lề xã hội có thể bị hiểu sai nếu những công nghệ đó trở nên phổ biến trong xã hội, nhận định của Timnit Gebru, nhà nghiên cứu đạo đức AI, một trong các đồng tác giả của bài báo “những con vẹt ngẫu nhiên” của nhóm của Bender2. Một vụ tranh cãi liên quan đến bài báo đó đã khiến Gebru gặp rắc rối: tháng 12, bà bị cho nghỉ việc ở Google, nơi bà là đồng trưởng nhóm đạo đức AI, sau một cuộc tranh cãi bắt nguồn từ việc các thanh tra nội bộ của công ty cho rằng bài báo chưa đủ tiêu chuẩn [của công ty] để được đăng. Đến tháng hai, Google lại sa thải một đồng tác giả khác của bài báo, Margaret Mitchell, đồng trưởng nhóm đạo đức AI với Gebru.

Xu hướng hiện nay là các mô hình ngôn ngữ ngày càng lớn nhằm đạt được sự trôi chảy như con người, nhưng điều đó không phải lúc nào cũng tốt, Gebru nói. “Có rất nhiều phấn khích xung quanh các mô hình ngôn ngữ ngày càng lớn. Nó là một cuộc thi nhảm nhí”. Thay vào đó, bà muốn các nhà khoa học quan tâm hơn đến việc tạo ra những chương trình an toàn hơn và dễ định hướng hơn đến các mục đích mong muốn.

Một cách dễ thấy để giải quyết các thiên kiến là loại bỏ những văn bản độc hại khỏi dữ liệu huấn luyện, nhưng điều đó lại đặt ra câu hỏi phải loại bỏ những gì. Chẳng hạn, các kỹ sư phần mềm có thể huấn luyện các mô hình ngôn ngữ bằng bộ dữ liệu Colossal Clean Crawled Corpus6; nó loại bỏ các trang web chứa bất cứ từ nào trong một danh sách từ “xấu”, trong đó có những từ đôi khi hữu dụng như “phân” hay “núm vú”. Tuy nhiên, bộ dữ liệu này lại hạn chế phạm vi của mọi mô hình ngôn ngữ được huấn luyện trên nó. Một cách tiếp cận có sàng lọc hơn chưa được thử ở quy mô lớn, vì nó không thể dễ dàng được tự động hóa. Thiên kiến không mong muốn có thể xuất hiện ở dạng lời chửi rủa rõ ràng, cũng có thể ở dạng những sự kết hợp tinh vi khó nhận biết và cắt bỏ. Hơn nữa, theo Amanda Askell, nhà triết học và nghiên cứu viên tại OpenAI, ngay cả nếu chúng ta thống nhất được cái gì là độc hại, và xóa được nó đi, có thể chúng ta không muốn bịt mắt các mô hình ngôn ngữ. “Nếu tôi có một mô hình chưa bao giờ tiếp xúc với sự phân biệt giới tính, và bạn hỏi nó ‘Trên đời có sự phân biệt giới tính hay không,’ nó có thể trả lời ‘Không’”.

Các nhà khoa học cũng báo cáo về khả năng lấy được dữ liệu nhạy cảm dùng để huấn luyện các mô hình7. Bằng cách đặt các câu hỏi chọn lọc, họ lấy được thông tin liên hệ cá nhân mà GPT-2 đã ghi nhớ nguyên văn. Họ thấy rằng các mô hình lớn dễ bị tấn công bởi cách thăm dò này hơn là các mô hình nhỏ hơn. Theo họ, cách phòng ngừa tốt nhất đơn giản là hạn chế các thông tin nhạy cảm trong dữ liệu huấn luyện.

Tất cả những vấn đề này cho thấy rằng chí ít thì các nhà khoa học nên mô tả công khai dữ liệu huấn luyện họ dùng cho mô hình của mình, như lập luận của Bender và các đồng nghiệp2. Một số nhóm của các trường đại học và một số công ty, trong đó có Google và Facebook, đã làm việc đó. Nhưng phần còn lại, trong đó có Nvidia, Microsoft và OpenAI, thì chưa.

Bài báo về GPT-3 của OpenAI giành giải “bài báo tốt nhất” tại hội nghị NeurIPS vào tháng 12 vừa qua, nhưng Raffel phản đối vì họ không công bố mô hình, dữ liệu huấn luyện hay mã (nó mô tả cụ thể cách xây dựng mô hình và huấn luyện các tham số theo dữ liệu). Bài báo lẽ ra không thể được chấp nhận ở một hội nghị khoa học, chứ đừng nói là được nhận giải thưởng, ông nói. “Nó tạo ra một tiền lệ đáng buồn”. OpenAI từ chối bình luận về việc này; Quỹ NeurIPS, nhà tổ chức hội nghị, nói rằng các tác giả không bị đòi hỏi công bố mã và dữ liệu, và mã chương trình khó có thể được chia sẻ nếu nó gắn với hạ tầng tính toán cụ thể.

Nvidia đã công bố mã của mô hình ngôn ngữ lớn Megatron-LM, nhưng không công bố mô hình đã được huấn luyện cũng như dữ liệu huấn luyện, vì những lý do không được giải thích. Còn Microsoft không bình luận về lý do họ chưa công bố mã, mô hình hoặc dữ liệu của công nghệ Turing-NLG.

Askell nói rằng OpenAI ngăn chặn phần nào việc sử dụng GPT-3 với mục đích có hại bằng cách chỉ cung cấp cho người dùng một giao diện lập trình ứng dụng (API) thay vì mã. Ngoài việc đưa ra một dịch vụ tạo thu nhập cho những nghiên cứu tiếp theo, việc này cho phép họ kiểm soát đầu ra của mô hình và tước quyền truy cập nếu phát hiện lạm dụng. Một nhóm nội bộ được gọi là “đội đỏ” luôn tìm cách vượt qua các bộ lọc của API và sinh ra các nội dung có hại, qua đó cải tiến bộ lọc, Askell nói.

OpenAI, Google và các công ty khác không thể nắm độc quyền vĩnh viễn về các mô hình ngôn ngữ lớn, các nhà khoa học nhận định như vậy tại một diễn đàn do OpenAI và một vài trường đại học tổ chức năm ngoái với mục đích thảo luận những thách thức đạo đức và xã hội của việc triển khai các mô hình8. Rồi sẽ đến lúc ai đó công bố một mô hình có quy mô tương tự. Khi OpenAI thông báo về GPT-2 vào tháng 2/2019, ban đầu họ nói sẽ không công bố mô hình vì lo ngại những ứng dụng có hại của nó, nhưng chín tháng sau thì công bố. Nhưng trước việc công bố đó, Connor Leahy, một sinh viên đại học, đã tái tạo được nó với hai tuần làm việc và một chút chi phí điện toán đám mây. Leahy hiện là nghiên cứu viên tại công ty khởi nghiệp Aleph Alpha tại Heidelberg, Đức, và dẫn dắt EleutherAI, một nhóm các nhà khoa học tình nguyện với mục tiêu xây dựng một mô hình cỡ GPT-3. Trở ngại lớn nhất, theo Leahy, không phải mã hay dữ liệu huấn luyện, mà là sức mạnh tính toán; CoreWeave, một nhà cung cấp điện toán đám mây đã đề nghị cung cấp.

Tìm kiếm lẽ thường

Về cơ bản, GPT-3 và các mô hình ngôn ngữ lớn khác vẫn không hiểu lẽ thường – tức là hiểu biết về thế giới, cả tự nhiên và xã hội. Kevin Lacker, một doanh nhân người Mỹ, hỏi nó những câu hỏi kiểu như: “Cần mấy cái cầu vồng để nhảy từ Hawaii đến mười bảy?” GPT-3 trả lời: “Cần hai cái cầu vồng để nhảy từ Hawaii đến mười bảy.” Và sau một tràng những thứ vô nghĩa đó, nó trả lời: “Tôi hiểu những câu hỏi này”.

Có thể một mô hình lớn hơn sẽ làm tốt hơn – với nhiều tham số hơn, nhiều dữ liệu huấn luyện hơn, nhiều thời gian học hơn. Nhưng điều đó sẽ càng ngày càng tốn kém, và không thể tiếp tục mãi. Một hạn chế khác là sự phức tạp đóng kín của các mô hình ngôn ngữ. Nếu một mô hình có một thiên kiến không mong muốn hoặc một ý tưởng sai, khó có thể mở chiếc hộp đen ra và sửa nó.Một số nhà khoa học, trong đó có Bender, nghĩ rằng các mô hình ngôn ngữ có thể không bao giờ hiểu được lẽ thường như con người, chừng nào mà chúng vẫn chỉ ở trong lĩnh vực ngôn ngữ. Trẻ con học bằng cách nhìn, trải nghiệm và hành động. Ngôn ngữ có nghĩa đối với chúng ta vì chúng ta truyền trong nó thứ gì đó vượt khỏi những ký tự trên trang giấy; không ai đọc một cuốn tiểu thuyết bằng cách thống kê tần suất của các từ trong đó.

Một trong những hướng đi tương lai là kết hợp các mô hình ngôn ngữ với những cơ sở tri thức: những cơ sở dữ liệu chọn lọc về các sự việc. Trong một công trình được trình bày tại cuộc gặp thường niên của Hội Ngôn ngữ học tính toán Mỹ vào năm 20199, các nhà khoa học tinh chỉnh GPT-2 trên các câu chỉ phát biểu các sự thật và suy luận lấy từ một bản danh sách những lẽ thường (chẳng hạn, nếu một người nấu mì thì người đó muốn ăn). Kết quả là những câu chuyện nó viết ra hợp logic hơn. Một biến thể của ý tưởng này là kết hợp một mô hình đã được huấn luyện với một cỗ máy tìm kiếm: khi mô hình nhận được một câu hỏi, cỗ máy tìm kiếm có thể đưa cho mô hình những trang liên quan để giúp nó trả lời, Fabio Petroni, nhà khoa học máy tính tại Facebook tại London, giải thích.

OpenAI đang theo đuổi một cách khác để định hướng các mô hình ngôn ngữ: sử dụng phản hồi của con người trong quá trình tinh chỉnh. Trong một bài báo10 trình bày tại hội nghị NeurIPS tháng 12/2019, họ mô tả hai phiên bản nhỏ hơn của GPT-3, được tinh chỉnh để tóm tắt các bài viết trên mạng xã hội về tin tức Reddit. Đầu tiên, nhóm nghiên cứu yêu cầu người ta đánh giá một số tóm tắt có sẵn. Sau đó, họ huấn luyện một mô hình đánh giá để tái tạo đánh giá của con người. Cuối cùng, nhóm tinh chỉnh mô hình GPT-3 của mình để sinh ra những đánh giá làm hài lòng vị giám khảo AI này. Kết quả là một nhóm giám khảo người khác thích những tóm tắt của mô hình hơn cả những tóm tắt của người. Thu thập phản hồi của con người là một cách huấn luyện tốn kém, nhưng Choi thấy rằng đây là một ý tưởng hứa hẹn. “Rốt cuộc,” bà nói, “con người học ngôn ngữ qua tương tác và giao tiếp, chứ không phải bằng cách đọc thật nhiều”.

Bowman tiên đoán ba cách có thể khiến các mô hình ngôn ngữ hiểu được lẽ thường. Một mô hình có thể tiêu thụ hết toàn bộ những văn bản từng được viết ra trên đời. Hoặc nó có thể được huấn luyện bằng các video Youtube, sao cho những hình ảnh chuyển động có thể dẫn tới hiểu biết phong phú hơn về thực tế. Nhưng sự tiêu thụ thụ động như thế có thể là chưa đủ. “Quan điểm cực kỳ bi quan”, ông nói, “là chúng ta chỉ có thể thành công một khi xây dựng nên một đội quân rô-bốt và cho chúng tương tác với thế giới”.

Tài liệu tham khảo:

1. Brown, T. B. et al., https://arxiv.org/abs/2005.14165 (2020).

2. Bender, E. M., Gebru, T., McMillan-Major, A. & Shmitchell, S. In Conference on Fairness,

Accountability, and Transparency (FAccT ’21) https://doi.org/10.1145/3442188.3445922 (2021).

3. Hendrycks, D. et al., https://arxiv.org/abs/2009.03300 (2020).

4. McGuffie, K. & Newhouse, A., https://arxiv.org/abs/2009.06807 (2020).

5. Gehman, S., Gururangan, S., Sap, M., Choi, Y. & Smith, N. A., https://arxiv.org/abs/2009.11462(2020).

6. Raffel, C. et al. J. Mach. Learn. Res. 21, 1−67 (2020).

7. Carlini, N. et al., https://arxiv.org/abs/2012.07805 (2020).

8. Tamkin, A., Brundage, M., Clark, J. & Ganguli, D., https://arxiv.org/abs/2102.02503(2021).

9. Guan, J., Huang, F., Zhao, Z., Zhu, X. & Huang, M. Trans. Assoc. Comput. Linguist. 8, 93–108(2020).

10. Stiennon, N. et al. in Proc. Adv. Neural Inf. Process. Syst. 33 (NeurIPS) (eds Larochelle, H. et al.) (2020).

Theo Tiasang

An ninh mạng


Photo by cottonbro on Pexels.com

An ninh mạng (cybersecurity), an ninh máy tính (computer security), bảo mật công nghệ thông tin (IT security) là việc bảo vệ hệ thống mạng máy tính khỏi các hành vi trộm cắp hoặc làm tổn hại đến phần cứngphần mềm và các dữ liệu, cũng như các nguyên nhân dẫn đến sự gián đoạnchuyển lệch hướng của các dịch vụ hiện đang được được cung cấp.[1]

An ninh mạng là thực tiễn của việc bảo vệ các hệ thống điện tử, mạng lưới, máy tính, thiết bị di động, chương trình và dữ liệu khỏi những cuộc tấn công kỹ thuật số độc hại có chủ đích. Tội phạm mạng có thể triển khai một loạt các cuộc tấn công chống lại các nạn nhân hoặc doanh nghiệp đơn lẻ; có thể kể đến như truy cập, làm thay đổi hoặc xóa bỏ dữ liệu nhạy cảm; tống tiền; can thiệp vào các quy trình kinh doanh.

An ninh mạng máy tính bao gồm việc kiểm soát truy cập vật lý đến phần cứng, cũng như bảo vệ chống lại tác hại có thể xảy ra qua truy cập mạng máy tính, cơ sở dữ liệu (SQL injection) và việc lợi dụng lỗ hổng phần mềm (code injection).[2] Do sai lầm của những người điều hành, dù cố ý hoặc do bất cẩn, an ninh công nghệ thông tin có thể bị lừa đảo phi kỹ thuật để vượt qua các thủ tục an toàn thông qua các phương pháp khác nhau.[3]

An ninh mạng hoạt động thông qua một cơ sở hạ tầng chặt chẽ, được chia thành ba phần chính: bảo mật công nghệ thông tin, an ninh mạng và an ninh máy tính.

  • Bảo mật công nghệ thông tin (với cách gọi khác là bảo mật thông tin điện tử): Bảo vệ dữ liệu ở nơi chúng được lưu trữ và cả khi các dữ liệu này di chuyển trên các mạng lưới thông tin. Trong khi an ninh mạng chỉ bảo vệ dữ liệu số, bảo mật công nghệ thông tin nắm trong tay trọng trách bảo vệ cả dữ liệu kỹ thuật số lẫn dữ liệu vật lý khỏi những kẻ xâm nhập trái phép.
  • An ninh mạng: Là một tập hợp con của bảo mật công nghệ thông tin. An ninh mạng thực hiện nhiệm vụ đảm bảo dữ liệu kỹ thuật số trên các mạng lưới, máy tính và thiết bị cá nhân nằm ngoài sự truy cập, tấn công và phá hủy bất hợp pháp.
  • An ninh máy tính: Là một tập hợp con của an ninh mạng. Loại bảo mật này sử dụng phần cứng và phần mềm để bảo vệ bất kỳ dữ liệu nào được gửi từ máy tính cá nhân hoặc các thiết bị khác đến hệ thống mạng lưới thông tin. An ninh máy tính thực hiện chức năng bảo vệ cơ sở hạ tầng công nghệ thông tin và chống lại các dữ liệu bị chặn, bị thay đổi hoặc đánh cắp bởi tội phạm mạng.

Lĩnh vực này dần trở nên quan trọng do sự phụ thuộc ngày càng nhiều vào các hệ thống máy tính và Internet tại các quốc gia,[4] cũng như sự phụ thuộc vào hệ thống mạng không dây như BluetoothWi-Fi, cùng với sự phát triển của các thiết bị “thông minh”, bao gồm điện thoại thông minh, TV và các thiết bị khác kết nối vào hệ thống Internet of Things.

Nhân sự làm việc trong mảng an ninh mạng có thể được chia thành 3 dạng sau:

  1. Hacker mũ trắng (White-hat hacker) [5] – cũng còn gọi là “ethical hacker” (hacker có nguyên tắc/đạo đức) hay penetration tester (người xâm nhập thử ngiệm vào hệ thống). Hacker mũ trắng là những chuyên gia công nghệ làm nhiệm vụ xâm nhập thử nghiệm vào hệ thống công nghệ thông tin để tìm ra lỗ hổng, từ đó yêu cầu người chủ hệ thống phải vá lỗi hệ thống để phòng ngừa các xâm nhập khác sau này với ý đồ xấu (thường là của các hacker mũ đen).[6]
  2. Hacker mũ đen (Black-hat hacker): là các chuyên gia công nghệ xâm nhập vào hệ thống với mục đích xấu như đánh cắp thông tin, phá hủy hệ thống, làm lây nhiễm các phần mềm độc hại cũng như các hành vị phá hoại mạng máy tính vi phạm pháp luật khác.[7]
  3. Hacker mũ xám (Grey-hat hacker): là các chuyên gia công nghệ có thể vừa làm công nghệ của cả hacker mũ trắng và mũ xám.[8]

Lược sử hình thành và phát triển[9]

1971 – Virus máy tính đầu tiên trên thế giới

Chúng ta thường sẽ cho rằng máy tính phải được phát minh trước khi khái niệm virus máy tính có thể tồn tại, nhưng theo một nghĩa nào đó, điều này chưa hẳn là chính xác. Nhà toán học John von Neumann (1903-1957) là người đầu tiên khái niệm hóa ý tưởng “virus máy tính” bằng bài báo của mình phát hành năm 1949, trong đó, ông đã phát triển nền tảng lý thuyết về một thực thể tự nhân bản tự động, làm việc trong máy tính.

Mãi đến năm 1971, thế giới mới lần đầu tiên được nhìn thấy virus máy tính ở thế giới thực. Trong thời đại ARPANET (khởi nguyên của Internet), các máy tính DEC PDP-10 hoạt động trên hệ điều hành TENEX bất ngờ hiển thị dòng thông báo với nội dung “Tôi là Creeper. Hãy bắt tôi nếu bạn có thể!”. Mặc dù virus Creeper được thiết kế như một thí nghiệm vô hại, chỉ để chứng minh liệu khái niệm này có khả thi hay không, nhưng điều đó đã đặt nền tảng cho những phát minh về virus máy tính khác xuất hiện sau này.

1983 – Bằng sáng chế đầu tiên trong lĩnh vực an ninh mạng tại Hoa Kỳ

Vào thời điểm khi máy tính bắt đầu phát triển, các nhà phát minh và chuyên gia công nghệ trên khắp thế giới trở nên gấp rút với mong muốn ghi dấu vào lịch sử và yêu cầu bằng sáng chế cho các hệ thống máy tính mới. Bằng sáng chế đầu tiên của Hoa Kỳ về an ninh mạng được công bố vào tháng 9 năm 1983, khi viện Công nghệ Massachusetts (MIT) được cấp bằng sáng chế 4.405.829 cho một “hệ thống và phương thức truyền thông mật mã”. Bằng sáng chế đã giới thiệu thuật toán RSA (Rivest-Shamir-Adeld), đây là một trong những hệ thống mật mã khóa công khai đầu tiên trên thế giới. Mật mã học là nền tảng của an ninh mạng hiện đại ngày nay.

1993 – Hội nghị DEF CON đầu tiên

DEF CON là một trong những hội nghị kỹ thuật an ninh mạng nổi tiếng nhất thế giới. Diễn ra lần đầu tiên vào tháng 6 năm 1993 bởi Jeff Moss, được tổ chức tại Las Vegas, số lượng tham gia chỉ với 100 người. Ngày nay, hội nghị thường niên này thu hút sự tham gia của hơn 20.000 chuyên gia an ninh mạng, hacker mũ trắng, nhà báo trong lĩnh vực công nghệ, chuyên gia IT từ khắp nơi trên thế giới.

1995 – Sự ra đời của Security Sockets Layer (SSL) 2.0

Đây là một tiêu chuẩn an ninh công nghệ toàn cầu tạo ra liên kết giữa máy chủ web (web server) và trình duyệt. Liên kết này đảm bảo cho việc tất cả các dữ liệu trao đổi giữa máy chủ web và trình duyệt luôn được bảo mật và an toàn, mang tính riêng tư, tách rời. SSL là một chuẩn công nghệ được sử dụng bởi hàng triệu trang web trong việc bảo vệ các giao dịch trực tuyến với khách hàng của họ.

Sau khi trình duyệt web đầu tiên trên thế giới được phát hành, công ty Netscape bắt đầu tập trung thời gian, công sức để phát triển giao thức SSL. Vào tháng 2 năm 1995, Netscape đã ra mắt SSL 2.0 – HTTPS (viết tắt của Hypertext Transfer Protocol Secure) – mà sau này đã trở thành ngôn ngữ chính để sử dụng Internet một cách an toàn, hiệu quả.

Giao thức này có thể nói là biện pháp an ninh mạng quan trọng bậc nhất. Ngày nay, khi nhìn thấy “HTTPS” trong một địa chỉ website, điều này chứng tỏ tất cả các thông tin liên lạc đều được mã hóa an toàn, nghĩa là, ngay cả khi có ai đó đã đột nhập vào kết nối, họ sẽ không thể giải mã bất kỳ dữ liệu nào đi qua giữa chủ sở hữu thông tin và website đó.

2003 – Sự xuất hiện của “Ẩn danh” (Anonymous)

“Anonymous” là nhóm hacker nổi tiếng toàn cầu đầu tiên được biết đến. Đây là một tổ chức không có lãnh đạo, thay vào đó, đại diện cho nhiều người dùng cộng đồng trực tuyến (online) và ngoại tuyến (offline). Được biết đến với việc đấu tranh cho tự do ngôn luận và tự do Internet bằng cách xuống đường biểu tình hay thực hiện tấn công từ chối dịch vụ (DDoS) vào website của các chính quyền, tôn giáo, và công ty quốc tế. Đeo lên chiếc mặt nạ Guy Fawkes – tổ chức này thu hút sự chú ý tầm cỡ quốc gia khi tấn công website của nhà thờ giáo phái Khoa luận giáo (Scientology).

2010 – Chiến dịch Ánh ban mai (Operation Aurora) – Hacking tầm cỡ quốc gia

Vào nửa cuối năm 2009, hãng Google tại Trung Quốc công bố đã dính hàng loạt vụ tấn công mạng mang tên “Chiến dịch ánh ban mai” (Operation Aurora). Google ban đầu cho rằng mục tiêu của kẻ tấn công là cố gắng truy cập vào tài khoản Gmail của các nhà hoạt động nhân quyền Trung Quốc. Tuy nhiên, các nhà phân tích sau đó đã phát hiện ra ý định thực sự đằng sau chiến dịch này là để tìm kiếm, xác định danh tính các nhà hoạt động tình báo Trung Quốc tại Hoa Kỳ – những đối tượng có thể nằm trong danh sách theo dõi của các cơ quan thực thi pháp luật ở xứ sở Cờ Hoa. Chiến dịch này cũng tấn công hơn 50 công ty trong lĩnh vực Internet, tài chính, công nghệ, truyền thông và hóa học. Theo ước tính của hãng Cyber Diligence, chiến dịch này gây thiệt hại cho mỗi công ty nạn nhân tầm khoảng 100 triệu USD.

Ngày nay – An ninh mạng trở nên quan trọng hơn bao giờ hết

Không gian mạng ngày nay đã trở thành một chiến trường kỹ thuật số bao gồm các quốc gia và những kẻ tấn công mạng. Để theo kịp xu hướng toàn cầu, ngành công nghiệp an ninh mạng phải không ngừng cải tiến, đổi mới và sử dụng các phương pháp tiếp cận dựa trên “máy học nâng cao” (Advanced Machine Learning) và AI tiên tiến, với mục tiêu phân tích các hành vi mạng và ngăn chặn sự tấn công của bọn tội phạm.

Ở thời điểm hiện tại, việc thực hiện nghiêm túc các vấn đề về đảm bảo an ninh mạng trở nên quan trọng hơn bao giờ hết đối với các doanh nghiệp và tổ chức. Với việc phát triển công nghệ thông tin ngày càng mạnh mẽ, các tổ chức có đầy đủ tiềm lực cần thiết để hỗ trợ thực thi mọi thứ, từ tối ưu hóa công cụ tìm kiếm (SEO) cho đến quản lý ngân sách chung cũng như nhu cầu chi tiêu riêng lẻ của công ty, doanh nghiệp.

Mục tiêu của an ninh mạng

Mục tiêu của an ninh mạng là bảo vệ thông tin khỏi bị đánh cắp, xâm phạm hoặc bị tấn công. Độ bảo mật an ninh mạng có thể được đo lường bằng ít nhất một trong ba mục tiêu sau:

  • Bảo vệ tính bảo mật của dữ liệu [10].
  • Bảo toàn tính toàn vẹn của dữ liệu.
  • Thúc đẩy sự sẵn có của dữ liệu cho người dùng được ủy quyền.

Những mục tiêu này tạo thành bộ ba “Bảo mật – Toàn vẹn – Sẵn có” (Confidentiality – Integrity – Availability), đây là cơ sở cốt lõi của tất cả các chương trình bảo mật thông tin. Tam giác CIA là một mô hình bảo mật được thiết kế để hướng dẫn thực thi các chính sách bảo mật thông tin trong khuôn khổ nội bộ một tổ chức hoặc một công ty. Mô hình này cũng được gọi là AIC để tránh sự nhầm lẫn với Cơ quan Tình báo Trung ương Hoa Kỳ (CIA – Central Intelligence Agency).

Tiêu chí của CIA được hầu hết các tổ chức và công ty sử dụng khi họ bắt tay vào cài đặt một ứng dụng mới, tạo lập cơ sở dữ liệu hoặc khi muốn đảm bảo quyền truy cập vào một số dữ liệu nói chung. Để dữ liệu được bảo mật hoàn toàn, tất cả các tiêu chí này phải có hiệu lực, đây là những chính sách bảo mật mà mọi thành phần cấu tạo nên nó đều phải cùng nhau hoạt động, và do đó, có thể sẽ xảy ra sai sót khi bỏ quên một trong những thành phần của CIA.

Các yếu tố của tam giác CIA được coi là ba yếu tố quan trọng nhất của bảo mật thông tin.

Tính bảo mật (Confidentiality)

Bảo mật gần tương đương với quyền riêng tư và việc tránh tiết lộ thông tin trái phép. Liên quan đến việc bảo vệ dữ liệu, bảo mật cung cấp quyền truy cập cho những người được phép và ngăn chặn người khác tiếp xúc với bất kỳ thông tin nào về nội dung của chủ sở hữu. Yếu tố này ngăn chặn thông tin cá nhân tiếp cận sai người trong khi đảm bảo rằng người dùng mục tiêu có thể thu thập được thông tin cần thiết. Mã hóa dữ liệu là một ví dụ điển hình để đảm bảo tính bảo mật.

Các công cụ chính phục vụ cho tiêu chí “bảo mật”:

  • Mã hóa (Encryption): Mã hóa là một phương pháp chuyển đổi thông tin khiến dữ liệu trở nên không thể đọc được đối với người dùng trái phép bằng cách sử dụng thuật toán. Sử dụng khóa bí mật (khóa mã hóa) để dữ liệu được chuyển đổi, chỉ có thể được đọc bằng cách sử dụng một khóa bí mật khác (khóa giải mã). Công cụ này nhằm bảo vệ những dữ liệu nhạy cảm như số thẻ tín dụng, bằng cách mã hóa và chuyển đổi dữ liệu thành một văn bản mật mã không thể đọc được, dữ liệu này chỉ có thể được đọc một khi đã giải mã nó. Khóa bất đối xứng (asymmetric-key) và khóa đối xứng (symmetric-key) là hai loại mã hóa chính phổ biến nhất.
  • Kiểm soát quyền truy cập (Access Control): Đây là công cụ xác định các quy tắc và chính sách để giới hạn quyền truy cập vào hệ thống hoặc các tài nguyên, dữ liệu ảo/vật lý. Kiểm soát quyền truy cập bao gồm quá trình người dùng được cấp quyền truy cập và một số đặc quyền nhất định đối với hệ thống, tài nguyên hoặc thông tin. Trong các hệ thống kiểm soát quyền truy cập, người dùng cần xuất trình thông tin đăng nhập trước khi có thể được cấp phép tiếp cận thông tin, có thể kể đến như danh tính, số sê-ri của máy chủ. Trong các hệ thống vận hành vật lý, các thông tin đăng nhập này có thể tồn tại dưới nhiều dạng, nhưng với các thông tin không thể được chuyển giao sẽ cung cấp tính bảo mật cao nhất.
  • Xác thực (Authentication): Xác thực là một quá trình đảm bảo và xác nhận danh tính hoặc vai trò của người dùng. Công cụ này có thể được thực hiện theo một số cách khác nhau, nhưng đa số thường dựa trên sự kết hợp với: một thứ gì đó mà cá nhân sở hữu (như thẻ thông minh hoặc khóa radio để lưu trữ các khóa bí mật), một thứ gì đó mà cá nhân biết (như mật khẩu) hoặc một thứ gì đó dùng để nhận dạng cá nhân (như dấu vân tay). Xác thực đóng vai trò cấp thiết đối với mọi tổ chức, vì công cụ này cho phép họ giữ an toàn cho mạng lưới thông tin của mình bằng cách chỉ cho phép người dùng được xác thực truy cập vào các tài nguyên dưới sự bảo vệ, giám sát của nó. Những tài nguyên này có thể bao gồm các hệ thống máy tính, mạng, cơ sở dữ liệu, website và các ứng dụng hoặc dịch vụ dựa trên mạng lưới khác.
  • Ủy quyền (Authorization): Đây là một cơ chế bảo mật được sử dụng để xác định danh tính một người hoặc hệ thống được phép truy cập vào dữ liệu, dựa trên chính sách kiểm soát quyền truy cập, bao gồm các chương trình máy tính, tệp tin, dịch vụ, dữ liệu và tính năng ứng dụng. Ủy quyền thường được đi trước xác thực để xác minh danh tính người dùng. Quản trị viên hệ thống thường là người chỉ định cấp phép hoặc từ chối quyền truy cập đối với cá nhân khi muốn tiếp cận thông tin dữ liệu và đăng nhập vào hệ thống.
  • Bảo mật vậy lý (Physical Security): Đây là các biện pháp được thiết kế để ngăn chặn sự truy cập trái phép vào các tài sản công nghệ thông tin như cơ sở vật chất, thiết bị, nhân sự, tài nguyên và các loại tài sản khác nhằm tránh bị hư hại. Công cụ này bảo vệ các tài sản nêu trên khỏi các mối đe dọa vật lý như: trộm cắp, phá hoại, hỏa hoạn và thiên tai.

Tính toàn vẹn (Integrity)

Tính toàn vẹn đề cập đến các phương pháp nhằm đảm bảo nguồn dữ liệu là thật, chính xác và được bảo vệ khỏi sự sửa đổi trái phép của người dùng.

Các công cụ chính phục vụ cho tiêu chí “toàn vẹn”:

  • Sao lưu (Backups): Sao lưu là lưu trữ dữ liệu định kỳ. Đây là một quá trình tạo lập các bản sao của dữ liệu hoặc tệp dữ liệu để sử dụng trong trường hợp khi dữ liệu gốc hoặc tệp dữ liệu bị mất hoặc bị hủy. Sao lưu cũng được sử dụng để tạo các bản sao phục vụ cho các mục đích lưu lại lịch sử dữ liệu, chẳng hạn như các nghiên cứu dài hạn, thống kê hoặc cho các ghi chép, hoặc đơn giản chỉ để đáp ứng các yêu cầu của chính sách lưu trữ dữ liệu.
  • Tổng kiểm tra (Checksums): Tổng kiểm tra là một giá trị số được sử dụng để xác minh tính toàn vẹn của tệp hoặc dữ liệu được truyền đi. Nói cách khác, đó là sự tính toán của một hàm phản ánh nội dung của tệp thành một giá trị số. Chúng thường được sử dụng để so sánh hai bộ dữ liệu, nhằm đảm bảo rằng chúng giống hệt nhau. Hàm tổng kiểm tra phụ thuộc vào toàn bộ nội dung của tệp, nó được thiết kế theo cách mà ngay cả một thay đổi nhỏ đối với tệp đầu vào (chẳng hạn như lệch một bit) có thể dẫn đến giá trị đầu ra khác nhau.
  • Mã chỉnh dữ liệu (Data Correcting Codes): Đây là một phương pháp để lưu trữ dữ liệu theo cách mà những thay đổi nhỏ nhất cũng có thể dễ dàng được phát hiện và tự động điều chỉnh.

Tính sẵn có (Availability)

Mọi hệ thống thông tin đều phục vụ cho mục đích riêng của nó và thông tin phải luôn luôn sẵn sàng khi cần thiết. Hệ thống có tính sẵn sàng cao hướng đến sự sẵn có, khả dụng ở mọi thời điểm, tránh được rủi ro, đảm bảo thông tin có thể được truy cập và sửa đổi kịp thời bởi những người được ủy quyền.

Các công cụ chính phục vụ cho tiêu chí “sẵn có”:

  • Bảo vệ vật lý (Physical Protections): Có nghĩa là giữ thông tin có sẵn ngay cả trong trường hợp phải đối mặt với thách thức về vật chất. Đảm bảo các thông tin nhạy cảm và công nghệ thông tin quan trọng được lưu trữ trong các khu vực an toàn.
  • Tính toán dự phòng (Computational Redundancies): Được áp dụng nhằm bảo vệ máy tính và các thiết bị được lưu trữ, đóng vai trò dự phòng trong trường hợp xảy ra hỏng hóc.

Tấn công mạng

Tấn công mạng là tất cả các hình thức xâm nhập trái phép vào một hệ thống máy tính, website, cơ sở dữ liệu, hạ tầng mạng, thiết bị của một cá nhân hoặc tổ chức thông qua mạng Internet với những mục đích bất hợp pháp.

Nạn nhân của tấn công mạng

  • Tấn công mạng không mục tiêu: Ở các cuộc tấn công không mục tiêu, đối tượng mà bọn tội phạm mạng và hacker nhắm đến là càng nhiều thiết bị, dịch vụ hoặc người dùng bị ảnh hưởng càng tốt. Chúng không quan tâm ai là nạn nhân vì luôn có một số lượng lớn máy móc hoặc dịch vụ tồn tại lỗ hổng. Để thực hiện các cuộc tấn công này, chúng sử dụng những loại kỹ thuật mà có thể tận dụng được sự công khai, rộng rãi của Internet.
  • Tấn công mạng có mục tiêu: Đối với cuộc tấn công có mục tiêu, một tổ chức sẽ dễ dàng rơi vào tình trạng bị kìm kẹp. Lý giải cho những nguyên do đằng sau cuộc tấn công này, bọn tội phạm, một là có mối quan tâm cụ thể với chủ đích rõ ràng đến tổ chức; hai là được trả tiền đến nhắm đến mục tiêu là thực hiện tấn công vào tổ chức đó. Nền tảng xây dựng chiến lược cho một cuộc tấn công mạng với mục tiêu xác định có thể mất nhiều tháng để tìm ra con đường tốt nhất tác động đến doanh nghiệp (hoặc người dùng). Tấn công có mục tiêu thường gây ra tổn hại nặng nề hơn so với một cuộc tấn công không nhắm mục tiêu, bởi vì nó được thiết kế riêng để tấn công vào các hệ thống, quy trình hoặc nhân sự của doanh nghiệp.[11]

Nhìn chung, nạn nhân của tấn công mạng có thể là một cá nhân, doanh nghiệp, các tổ chức chính phủ hoặc phi chính phủ, cơ quan nhà nước, thậm chí, đối tượng có thể là cả một quốc gia. Tuy nhiên, đối tượng phổ biến nhất của các cuộc tấn công mạng là các doanh nghiệp.

Mục đích tấn công mạng

Bên cạnh những mục đích phổ biến như trục lợi phi pháp, tống tiền doanh nghiệp, hiển thị quảng cáo kiếm tiền, thì còn tồn tại một số mục đích khác phức tạp và nguy hiểm hơn: cạnh tranh không lành mạnh giữa các doanh nghiệp, tấn công an ninh hoặc kinh tế của một quốc gia, tấn công đánh sập một tổ chức tôn giáo, v.v. Ngoài ra, một số hacker tấn công mạng chỉ để mua vui, thử sức, hoặc tò mò muốn khám phá các vấn đề về an ninh mạng.

Lỗ hổng bảo mật và các loại tấn công phổ biến

Lỗ hổng bảo mật là một điểm yếu của hệ thống trong quá trình thiết kế, thi công và quản trị. Phần lớn các lỗ hổng bảo mật được đã phát hiện ngày nay đều được ghi lại trong cơ sở dữ liệu Common Vulnerabilities and Exposures (CVE). Một lỗ hổng bị khai thác là một lỗ hổng mà đã bị lợi dụng để thực hiện hoạt động tấn công ít nhất một lần hoặc đã bị khai thác (exploit).[12]

Để đảm bảo một hệ thống máy tính, điều quan trọng là phải hiểu các cuộc tấn công có thể được thực hiện chống lại nó, và các mối đe dọa thường được xếp vào một trong các mục dưới đây:

Tấn công bằng phần mềm độc hại (Malware Attack)

Malware là phần mềm độc hại, được kết hợp giữa hai từ “malicious” và “software”. Đây là một trong những hình thức đe dọa mạng phổ biến nhất. Tội phạm mạng và các hacker tạo ra malware với mục đích làm phá vỡ hoặc hư hỏng máy tính của người dùng hợp pháp. Thông thường, hacker sẽ tấn công người dùng thông qua các lỗ hổng bảo mật, dụ dỗ người dùng click vào một đường link đính kèm trong thư rác hoặc tải các tệp tin được ngụy trang hợp-pháp để phần mềm độc hại tự động cài đặt vào máy tính. Malware thường được sử dụng nhằm phục vụ cho mục đích kiếm tiền hoặc tham gia vào các cuộc tấn công mạng có động cơ chính trị.

Có vô số loại phần mềm độc hại khác nhau, điển hình như:

  • Virus: Là những đoạn mã chương trình tự sao chép, tức tự nhân bản, đính kèm vào các tệp tin sạch, được thiết kế để xâm nhập, lây lan khắp hệ thống máy tính nhằm thực thi một số tác vụ nào đó với nhiều mức độ phá hủy khác nhau.
  • Trojan Horse: Khác với virus, phần mềm này không có chức năng tự sao chép nhưng lại sở hữu sức công phá tương đương. Trojan Horse sẽ được ngụy trang thành các phần mềm hợp pháp, vô hại, tiếp sau đó, bọn tội phạm mạng lừa người dùng cài đặt Trojan Horse vào máy tính của họ, nơi chúng có thể gây thiệt hại đến máy chủ hoặc thu thập các dữ liệu cá nhân.
  • Phần mềm gián điệp (Spyware): Đây là loại virus có khả năng thâm nhập trực tiếp vào hệ điều hành mà không để lại “di chứng”, bí mật lưu lại những gì người dùng làm, dựa vào đó, tội phạm mạng có thể sử dụng các thông tin này để đem đến bất lợi cho chủ sở hữu chúng.
  • Phần mềm tống tiền (Ransomware): Ngăn cản người dùng truy cập vào một file hoặc folder quan trọng, chỉ khôi phục với mức tiền chuộc tương ứng.
  • Phần mềm quảng cáo (Adware): Có thể được sử dụng để phát tán, cài đặt các phần mềm độc hại khác.
  • Botnets: Mạng lưới các máy tính bị nhiễm phần mềm độc hại được bọn tội phạm mạng sử dụng để thực hiện các tác vụ trực tuyến mà không có sự cho phép của người dùng.

Tấn công giả mạo (Phishing Attack)

Phishing là hình thức giả mạo thành một đơn vị/cá nhân uy tín để chiếm lấy lòng tin của người dùng, với mục tiêu nhắm đến việc đánh cắp dữ liệu cá nhân nhạy cảm như thông tin thẻ tín dụng, mật khẩu, tài khoản đăng nhập hoặc cài đặt các phần mềm độc hại vào máy tính nạn nhân. Phishing thường được thực hiện bằng cách sử dụng thư điện tử (email) hoặc tin nhắn.

Tấn công trung gian (Man-in-the-middle Attack)

Tấn công trung gian (MitM), hay còn gọi là tấn công nghe lén, xảy ra khi kẻ tấn công mạng xâm nhập vào một giao dịch đang diễn ra giữa 2 đối tượng, một khi đã xen vào thành công, chúng có thể chắt lọc và đánh cắp dữ liệu. Một số biến thể của tấn công trung gian có thể kể đến như đánh cắp mật khẩu, chuyển tiếp các thông tin không xác thực. Thông thường, khi sử dụng Wi-Fi công cộng thiếu bảo mật, kẻ tấn công có thể tự “chen” vào giữa thiết bị của người truy cập và mạng Wi-Fi đó, tất cả dữ liệu cá nhân mà nạn nhân gửi đi sẽ rơi vào tay bọn tội phạm mà không hề hay biết. Trong một số trường hợp, kẻ tấn công còn cài đặt các ứng dụng khác nhằm thu thập thông tin về nạn nhân thông qua phần mềm độc hại (malware).

Tấn công từ chối dịch vụ (Denial of Service)

Các cuộc tấn công từ chối dịch vụ (DoS) được thiết kế để làm cho tài nguyên mạng hoặc máy không sẵn sàng để phục vụ cho người dùng dự định của nó. [5] Kẻ tấn công có thể từ chối dịch vụ cho từng nạn nhân, chẳng hạn như cố tình nhập sai mật khẩu đủ lần liên tục để khiến tài khoản nạn nhân bị khóa hoặc chúng có thể làm quá tải khả năng của máy hoặc mạng và chặn tất cả người dùng cùng một lúc. Mặc dù một cuộc tấn công mạng từ một địa chỉ IP duy nhất có thể bị chặn bằng cách thêm quy tắc tường lửa mới, nhiều hình thức tấn công từ chối dịch vụ phân tán (DDoS) là có thể, trong đó cuộc tấn công đến từ một số lượng lớn mấy tính – và việc bảo vệ khó khăn hơn nhiều. Các cuộc tấn công như vậy có thể bắt nguồn từ các máy tính zombie của botnet, nhưng một loạt các kỹ thuật khác có thể bao gồm các cuộc tấn công phản xạ và khuếch đại, trong đó các hệ thống vô tội bị lừa gửi dữ liệu đến máy nạn nhân.

Tấn công cơ sở dữ liệu (SQL Injection Attack)

Hacker chèn một đoạn code độc hại vào server sử dụng ngôn ngữ truy vấn có cấu trúc (SQL), mục đích là để khiến máy chủ trả về những thông tin quan trọng mà lẽ ra không được tiết lộ. Các cuộc tấn công SQL Injection xuất phát từ lỗ hổng của website, hacker có thể tấn công đơn giản bằng cách chèn một đoạn mã độc vào thanh công cụ “Tìm kiếm” là đã có thể dễ dàng tấn công những website với mức bảo mật yếu.

Tấn công “cửa hậu” (Backdoor Attack)

Trong một hệ thống máy tính, Backdoor (“cửa hậu”) là một phương pháp bí mật vượt qua thủ tục chứng thực người dùng thông thường hoặc để giữ đường truy nhập từ xa tới một máy tính, trong khi cố gắng không bị phát hiện bởi việc giám sát thông thường. Chúng tồn tại vì một số lý do, bao gồm từ thiết kế ban đầu hoặc từ cấu hình kém. Chúng có thể đã được thêm vào bởi một nhóm có thẩm quyền để cho phép một số truy cập hợp pháp, hoặc bởi những kẻ tấn công vì lý do độc hại; nhưng bất kể động cơ đưa tới sự tồn tại của chúng, chúng tạo ra một lỗ hổng.

Khai thác lỗ hổng (Zero-day Exploits)

Lỗ hổng Zero-day (hay còn gọi là 0-day) là thuật ngữ để chỉ những lỗ hổng phần mềm hoặc phần cứng chưa được biết đến và chưa được khắc phục. Các hacker có thể tận dụng lỗ hổng này để tấn công xâm nhập vào hệ thống máy tính của doanh nghiệp, tổ chức nhằm đánh cắp hoặc thay đổi dữ liệu.[13]

Ảnh hưởng của tấn công mạng trong kinh doanh[14]

Một cuộc tấn công mạng thành công có thể gây ra thiệt hại lớn cho doanh nghiệp. Nó có thể ảnh hưởng đến lợi nhuận cũng như niềm tin khách hàng và vị thế của doanh nghiệp.

Tác động của những vi phạm về an ninh mạng có thể được chia thành ba loại: tài chính, danh tiếng và pháp lý.

Tài chính

Các cuộc tấn công mạng thường dẫn đến những tổn thất lớn về tài chính, phát sinh từ việc:

  • Đánh cắp thông tin của công ty.
  • Đánh cắp thông tin tài chính (ví dụ: chi tiết ngân hàng hoặc chi tiết thẻ thanh toán)
  • Trộm cắp tiền của.
  • Gián đoạn giao dịch (ví dụ: không có khả năng thực hiện giao dịch trực tuyến)
  • Mất các hợp đồng và hoạt động với đối tác.

Các doanh nghiệp bị ảnh hưởng bởi vi phạm không gian mạng nói chung, sẽ phải chịu các chi phí liên quan đến việc sửa chữa hệ thống, mạng và những thiết bị liên quan.

Danh tiếng

Niềm tin, sự tin tưởng là một trong những yếu tố thiết yếu khi xây dựng mối quan hệ với khách hàng. Các cuộc tấn công mạng có thể làm tổn hại danh tiếng của doanh nghiệp, đánh mất niềm tin của khách hàng dành cho chính doanh nghiệp đó. Sự việc này nếu liên tục tiếp diễn, kéo dài có khả năng dẫn đến:

  • Mất khách hàng.
  • Mất doanh số.
  • Giảm lợi nhuận.

Tác động về thiệt hại danh tiếng thậm chí có thể ảnh hưởng đến chuỗi các nhà cung ứng của doanh nghiệp, hoặc tác động đến các mối quan hệ mà doanh nghiệp có thể có với các đối tác, nhà đầu tư và các bên thứ ba khác.

Pháp lý

Các luật lệ về bảo vệ dữ liệu và quyền riêng tư yêu cầu doanh nghiệp quản lý, bảo mật tất cả những dữ liệu cá nhân hiện đang được nắm giữ, dù cho là nhân viên, đối tác hay khách hàng của doanh nghiệp. Nếu dữ liệu vô tình hoặc cố ý bị xâm phạm, điều này chứng tỏ doanh nghiệp đã không triển khai các biện pháp bảo mật thích hợp và có thể phải đối mặt với các khoản phí và những biện pháp trừng phạt tương ứng theo quy định của pháp luật.

Tác động của tấn công mạng vào các ngành công nghiệp khác nhau[15]

Lĩnh vực y tế, chăm sóc sức khoẻ

Ngành công nghiệp chăm sóc sức khỏe vô cùng rộng lớn và phức tạp, với lượng dữ liệu bệnh nhân khổng lồ nhưng thường không được trang bị đầy đủ các biện pháp bảo mật để đảm bảo an toàn thông tin.

Lĩnh vực chăm sóc sức khỏe ngày nay đã chuyển đổi với việc áp dụng công nghệ mới, như “hồ sơ sức khỏe điện tử” (Electronic Health Record) đã mang lại hiệu quả rất lớn và nâng cao chất lượng chăm sóc bệnh nhân, tuy nhiên, các công nghệ tương tự rất dễ trong việc tiếp cận tấn công của bọn tội phạm mạng.

Những đảm bảo an ninh, chống vi phạm tấn công dữ liệu y tế khó có làm ngơ vì ở lĩnh vực này, theo thông kê của trung tâm ITRC (Identity Theft Resource Center), tiếp xúc với số an sinh xã hội (social security number) nhiều hơn bất kỳ ngành nào khác trong năm 2016.

Các hoạt động quản trị tuân thủ bảo mật rất tốn kém để thực thi, và mặc dù được đề xuất, có thể không hoàn toàn thay đổi được nguy cơ cao khả năng hồ sơ bệnh nhân bị đánh cắp hoặc việc chăm sóc bệnh nhân bị gián đoạn bởi các vụ tấn công làm trì trệ, gián đoạn hệ thống gây ra bởi botnets hoặc virus độc hại. Nhưng mọi thứ không đơn giản chỉ xoay quanh dữ liệu và dịch vụ y tế có nguy cơ bị tấn công mạng – mà còn là cuộc sống của con người. Bất kỳ thiết bị y tế nào được kết nối với mạng đều có nguy cơ bị hacker chiếm giữ và khai thác, từ máy chụp MRI cho đến xe lăn điện v.v.

Lĩnh vực tài chính

Dữ liệu tài chính là một trong những mục tiêu hấp dẫn nhất đối với hacker, do đó, các tổ chức hoạt động chủ yếu trong lĩnh vực này càng cần phải thận trọng hơn trong việc bảo đảm an ninh mạng.

Ngành tài chính đã có nguy cơ bị tấn công mạng kể từ khi Internet ra đời. Quyền riêng tư và bảo mật dữ liệu là ưu tiên hàng đầu với các tổ chức, doanh nghiệp hoạt động trong lĩnh vực này. Rủi ro bị tấn công ngày càng gia tăng khi trong vài năm trở lại đây, cùng với sự đổi mới công nghệm, khả năng tấn công mạng của các hacker cũng trở nên khó lường hơn bao giờ hết.

Với phần lớn nguy cơ bị đe dọa tấn công mạng, các ngân hàng và công ty dịch vụ tài chính là những tổ chức đi đầu về việc xây dựng một hệ thống bảo mật toàn diện, tinh vi nhất.

Lĩnh vực hoạt động sản xuất

Các nhà sản xuất ngày nay trở thành mục tiêu của không chỉ các tác nhân độc hại truyền thống như hacker hoặc tội phạm mạng, mà còn bị đe dọa bởi những công ty, quốc gia cạnh tranh tham gia vào hoạt động theo dõi, gián điệp doanh nghiệp. Động cơ đằng sau có thể kể đến như: tiền tài, của cải hoặc ăn miếng trả miếng, giành giật lợi thế cạnh tranh và gây gián đoạn chiến lược.

Công nghệ thông tin có thể không phải là một năng lực cốt lõi của nhiều doanh nghiệp sản xuất – ngay cả ở những doanh nghiệp lớn. Hầu hết với các công ty sản xuất có quy mô, độ phân tán cơ sở dữ liệu cao và thường thì mạng lưới rất hỗn loạn. Bên cạnh đó, tài nguyên và nguồn lực nhân sự hạn chế cũng là một bất lợi đối với các doanh nghiệp hoạt động trong lĩnh vực sản xuất.

Lĩnh vực truyền thông và viễn thông

Trên phạm vi toàn cầu, các công ty giải trí và truyền thông đang ngày càng trở thành món mồi béo bở cho các cuộc tấn công mạng khi bọn tội phạm tìm ra những cách thức mới và sáng tạo để đánh bại các biện pháp kiểm soát an ninh mạng.

Các công ty viễn thông luôn là một mục tiêu lớn vì họ xây dựng, kiểm soát và vận hành một trong những cơ sở hạ tầng quan trọng, được sử dụng rộng rãi để liên lạc và lưu trữ số lượng lớn dữ liệu riêng tư, nhạy cảm.

Các cơ quan chính phủ bí mật tấn công cơ sở hạ tầng của những tổ chức hoạt động trong lĩnh vực viễn thông và thiết lập hệ thống theo dõi, giám sát thông qua các ứng dụng. Các kênh truyền nằm trong tầm ngắm của việc giám sát bí mật bao gồm mọi thứ, từ đường dây điện thoại và trò chuyện trực tuyến đến dữ liệu điện thoại di động.

Dữ liệu khách hàng là một mục tiêu với mức tác động cao phổ biến khác. Các tổ chức viễn thông thường lưu trữ thông tin cá nhân – như tên, địa chỉ và dữ liệu tài chính – về tất cả các khách hàng của họ. Dữ liệu cá nhân nhạy cảm này có thể được sử dụng để tống tiền khách hàng, thực hiện hành vi trộm cắp danh tính, tiền của hoặc tiến hành các cuộc tấn công khác.

Ngành Truyền thông & Giải trí cũng là một mục tiêu hấp dẫn cho các cuộc tấn công mạng. Tác động của các cuộc tấn công vào lĩnh vực này có thể khiến các chương trình hoặc tập phim bị rò rỉ trước khi một hãng phim, nhà sản xuất chính thức phát hành chúng, làm lộ thông tin cá nhân và tài chính, tệ hơn, có thể khiến doanh nghiệp ngừng hoạt động.

Cái giá phải trả thường cao ngất ngưỡng, cả về tài chính lẫn nghệ thuật, và có thể rất khó khăn để trở lại khuôn khổ, hoạt động bình thường sau một cuộc tấn công nghiêm trọng.

Lĩnh vực bảo hiểm

Các cuộc tấn công mạng trong lĩnh vực bảo hiểm đang gia tăng theo cấp số nhân khi các công ty bảo hiểm chuyển sang hoạt động trên các kênh kỹ thuật số, nhằm nỗ lực tạo lập mối quan hệ khách hàng chặt chẽ hơn, cung cấp sản phẩm mới và mở rộng thị phần khách hàng. Mặc dù khoản đầu tư kỹ thuật số này cung cấp vô số khả năng chiến lược mới, nhưng chúng cũng mang theo các rủi ro không gian mạng và các vectơ tấn công mới cho các tổ chức thiếu kinh nghiệm trong việc xử lý các thách thức của môi trường bán hàng đa kênh (omni channel).

Các công ty bảo hiểm sở hữu một số lượng lớn thông tin cá nhân về khách hàng của họ, điều này rất hấp dẫn đối với những kẻ trộm danh tính và bọn lừa đảo. Các công ty bảo hiểm cũng sở hữu số lượng đáng kể thẻ tín dụng khách hàng cũng như dữ liệu thanh toán.

Vì hoạt động kinh doanh bảo hiểm xoay quanh việc xây dựng niềm tin, một sai lầm lớn có thể có tác động nặng nề đến thương hiệu và giá trị thị trường của công ty bảo hiểm.

Chú thích

  1. ^ Gasser, Morrie (1988). Building a Secure Computer System (PDF). Van Nostrand Reinhold. tr. 3. ISBN 0-442-23022-2. Truy cập ngày 6 tháng 9 năm 2015.
  2. ^ “Definition of computer security”Encyclopedia. Ziff Davis, PCMag. Truy cập ngày 6 tháng 9 năm 2015.
  3. ^ Rouse, Margaret. “Social engineering definition”. TechTarget. Truy cập ngày 6 tháng 9 năm 2015.
  4. ^ “Reliance spells end of road for ICT amateurs”, ngày 7 tháng 5 năm 2013, The Australian
  5. ^ Hacker Mũ Trắng là gì?
  6. ^ Menking, Christopher. “Hacker.” Encyclopedia of Cyber Warfare, edited by Paul J. Springer, ABC-CLIO, 2017, pp. 126–128. Gale Virtual Reference Library, http://link.galegroup.com/apps/doc/CX7353200101/GVRL?u=mcc_pv&sid=GVRL&xid=62916c40. Truy cập ngày 13 tháng 6 năm 2018.
  7. ^ Menking, Christopher. “Hacker.” Encyclopedia of Cyber Warfare, edited by Paul J. Springer, ABC-CLIO, 2017, pp. 126–128. Gale Virtual Reference Library, http://link.galegroup.com/apps/doc/CX7353200101/GVRL?u=mcc_pv&sid=GVRL&xid=62916c40. Truy cập ngày 13 tháng 6 năm 2018.
  8. ^ Menking, Christopher. “Hacker.” Encyclopedia of Cyber Warfare, edited by Paul J. Springer, ABC-CLIO, 2017, pp. 126–128. Gale Virtual Reference Library, http://link.galegroup.com/apps/doc/CX7353200101/GVRL?u=mcc_pv&sid=GVRL&xid=62916c40. Truy cập ngày 13 tháng 6 năm 2018.
  9. ^ Avey, Chester (18 tháng 8 năm 2019). “Historic Hacking: A Brief History of Cybersecurity”SecureWorld. Truy cập ngày 28 tháng 5 năm 2020.
  10. ^ Bảo mật dữ liệu máy tính
  11. ^ “How Cyber Attacks Work”National Cyber Security Centre. 14 tháng 10 năm 2015. Truy cập ngày 29 tháng 5 năm 2020.
  12. ^ “Computer Security and Mobile Security Challenges” (pdf). researchgate.net. Truy cập ngày 4 tháng 8 năm 2016.
  13. ^ dang nguyen. “Toàn bộ kiến thức về Tấn Công Mạng (Cyber-attack)”. Truy cập ngày 28 tháng 5 năm 2020.
  14. ^ “Impact of cyber attack on your business”Nibusinessinfo. Truy cập ngày 28 tháng 5 năm 2020.
  15. ^ “Ridgeback For Your Industry”RidgeBack. Truy cập ngày 30 tháng 5 năm 2020.

An toàn thông tin

An toàn thông tin là hành động ngăn cản, phòng ngừa sự sử dụng, truy cập, tiết lộ, chia sẻ, phát tán, ghi lại hoặc phá hủy thông tin chưa có sự cho phép. Ngày nay vấn đề an toàn thông tin được xem là một trong những quan tâm hàng đầu của xã hội, có ảnh hưởng rất nhiều đến hầu hết các ngành khoa học tự nhiênkỹ thuậtkhoa học xã hội và kinh tế.

Định nghĩa

Định nghĩa của an toàn thông tin được nêu ra từ nhiều nguồn khác nhau[1], chúng ta có thể hiểu theo nhiều cách sau: “Là sự bảo toàn của việc bảo mật, toàn vẹn và tính sẵn có của thông tin: Chú ý: Những đặc tính khác như: xác thực, sự tự chịu trách nhiệm với thông tin, không thể chối cãi và độ tin cậy cũng có thể liên quan tới định nghĩa” (ISO/IEC 27000:2009)[2].

Tiêu chuẩn

Trên trường quốc tế Tiêu chuẩn Anh BS 7799 “Hướng dẫn về quản lý an toàn thông tin”, được công bố lần đầu tiên vào năm 1995, đã được chấp nhận. Xuất phát từ phần 1 của Tiêu chuẩn Anh BS 77999 là tiêu chuẩn ISO/IEC 17799:2000 mà hiện nay tồn tại dưới phiên bản được sửa đổi ISO/IEC 17799:2005.

Nội dung ISO/IEC 17799:2005 bao gồm 134 biện pháp cho an toàn thông tin và được chia thành 12 nhóm:

  • Chính sách an toàn thông tin (Information security policy): chỉ thị và hướng dẫn về an toàn thông tin
  • Tổ chức an toàn thông tin (Organization of information security): tổ chức biện pháp an toàn và quy trình quản lý.
  • Quản lý tài sản (Asset management): trách nhiệm và phân loại giá trị thông tin
  • An toàn tài nguyên con người (Human resource security): bảo đảm an toàn
  • An toàn vật lý và môi trường (Physical and environmental security)
  • Quản lý vận hành và trao đổi thông tin (Communications and operations management)
  • Kiểm soát truy cập (Access control)
  • Thu nhận, phát triển và bảo quản các hệ thống thông tin (Information systems acquisition, development and maintenance)
  • Quản lý sự cố mất an toàn thông tin (Information security incident management)
  • Quản lý duy trì khả năng tồn tại của doanh nghiệp (Business continuity management)
  • Tuân thủ các quy định pháp luật (Compliance)
  • Quản lý rủi ro (Risk Management)[3]

Tiêu chuẩn ISO/IEC 27001:2005 phát triển từ phần 2 của BS 7799. Tiêu chuẩn này quy định các yêu cầu đối với một hệ thống quản lý an toàn thông tin và tương tự như ISO 9001 là một tiêu chuẩn về quản lý có thể được cấp giấy chứng nhận.

Đọc thêm

Tham khảo

  1. ^ Cherdantseva Y. and Hilton J.: “Information Security and Information Assurance. The Discussion about the Meaning, Scope and Goals”. In: Organizational, Legal, and Technological Dimensions of Information System Administrator. Almeida F., Portela, I. (eds.). IGI Global Publishing. (2013)
  2. ^ ISO/IEC 27000:2009 (E). (2009). Information technology – Security techniques – Information security management systems – Overview and vocabulary. ISO/IEC.
  3. ^ [1]

Liên kết ngoài

An ninh Internet

An ninh Internet là một phần của an ninh máy tính, đặc biệt liên quan đến Internet, thường liên quan đến bảo mật trình duyệt mạng nhưng cũng về an ninh mạng máy tính ở mức chung chung hơn là khi áp dụng cho các ứng dụng hoặc hệ điều hành khác. Mục tiêu của nó là thiết lập các quy tắc và biện pháp để sử dụng chống lại các cuộc tấn công trên Internet.[1] Internet tiêu biểu cho một kênh không an toàn để trao đổi thông tin dẫn tới nguy cơ bị xâm nhập hoặc bị gian lận cao, chẳng hạn như tấn công giả mạo (phishing).[2] Các phương pháp khác nhau đã được sử dụng để bảo vệ việc truyền dữ liệu, bao gồm mã hóa và các kỹ thuật cơ bản.[3]

Đe dọa

Phần mềm độc hại

Một người dùng máy tính có thể bị lừa hoặc buộc phải tải phần mềm có ý định độc hại xuống máy tính. Phần mềm như vậy có nhiều dạng, chẳng hạn như virusTrojan, Phần mềm gián điệp (spyware) và sâu máy tính.

  • Phần mềm độc hại (malware) là bất kỳ phần mềm nào được sử dụng để phá hoại hoạt động của máy tính, thu thập thông tin nhạy cảm hoặc truy cập vào các hệ thống máy tính cá nhân. Phần mềm độc hại được xác định bởi ý định độc hại của nó, hoạt động theo ý muốn của người dùng máy tính và không bao gồm phần mềm gây ra thiệt hại không chủ ý do thiếu sót. Thuật ngữ badware đôi khi được sử dụng và áp dụng cho cả phần mềm độc hại thực và phần mềm độc hại không chủ ý.
  • Một botnet là một mạng lưới các máy tính ma được điều khiển bởi một robot hoặc một bot thực hiện các hành vi độc hại quy mô lớn cho người tạo ra botnet.
  • Virus máy tính là các chương trình có thể tái tạo các cấu trúc hoặc các hiệu ứng của chúng bằng cách lây nhiễm vào các tệp hoặc cấu trúc khác trên máy tính. Ứng dụng thường có của virus là để chiếm một máy tính để ăn cắp dữ liệu.
  • Sâu máy tính là các chương trình có thể tự nhân bản khắp mọi nơi trong mạng máy tính, thực hiện các tác vụ độc hại.
  • Mã độc tống tiền (Ransomware) là một loại phần mềm độc hại hạn chế việc truy cập vào hệ thống máy tính mà nó lây nhiễm và yêu cầu một khoản tiền chuộc trả cho người tạo ra phần mềm độc hại để loại bỏ việc hạn chế.
  • Scareware là phần mềm lừa đảo, thường có lợi ích hạn chế hoặc không có, bán cho người tiêu dùng thông qua các hoạt động tiếp thị phi đạo đức nhất định. Cách tiếp cận bán hàng sử dụng lừa đảo phi kỹ thuật để gây sốc, lo lắng, hoặc nhận thức về một mối đe dọa, thường hướng vào một người dùng không nghi ngờ.
  • Phần mềm gián điệp đề cập đến các chương trình giám sát lén lút hoạt động trên hệ thống máy tính và báo cáo thông tin đó cho người khác mà không có sự đồng ý của người dùng.
  • Trojan horse, thường được gọi là Trojan, là thuật ngữ chung cho phần mềm độc hại giả vờ là vô hại, do đó người dùng sẵn sàng cho phép nó được tải xuống máy tính.

Tham khảo

  1. ^ Gralla, Preston (2007). How the Internet Works. Indianapolis: Que Pub. ISBN 0-7897-2132-5.
  2. ^ Rhee, M. Y. (2003). Internet Security: Cryptographic Principles,Algorithms and Protocols. Chichester: WileyISBN 0-470-85285-2.
  3. ^ An example of a completely re-engineered computer is the Librem laptop which uses components certified by web-security experts. It was launched after a crowd funding campaign in 2015.

Liên kết ngoài

Chiến tranh mạng

Chiến tranh mạng (tiếng Anh: Cyberwarfare) hay còn gọi là Chiến tranh thông tin là việc áp dụng công nghệ thông tin ở mức độ cao trong các mặt hoạt động chỉ huy – quản lý, tình báo, điều khiển, chiến tranh điện tử, kinh tế, tâm lý, xã hội,…; là một loại hình tác chiến phổ biến trong chiến tranh hiện đại; đó là tổng hợp những hoạt động và biện pháp nhằm tung tin gây rối loạn, tác động vào các cơ cấu ra quyết định; nhằm làm cho đối phương có các hành động sai lầm hay có các quyết định vô hại có lợi cho ta, đồng thời ngăn cản hoạt động thu thập, xử lý thông tin của đối phương.

Mục đích của chiến tranh mạng là kiểm soát, điều khiển, tác động lên các quyết định và làm suy giảm hoặc phá huỷ các hệ thống mạng-viễn thông của đối phương trong khi bảo vệ các hệ thống của mình và đồng minh chống lại những hành động như vậy.

Mục tiêu tấn công của chiến tranh mạng là các cơ sở hạ tầng thông tin (quân sự, tài chính, ngân hàng, mạng máy tính quốc gia,…). Virus máy tính có thể làm cho hệ thống vũ khí của đối phương bị mất điều khiển, và cũng có thể phá hoại cơ sở hạ tầng kinh tế của quốc gia, làm cho nền kinh tế rối loạn, hay làm tắc nghẽn mạng thông tin. Hacker được đánh giá là thành phần cốt lõi cũng như là nguy hiểm nhất trong chiến tranh mạng. Hacker tập trung vào việc đánh cắp các bí mật quân sự; sử dụng virus tấn công các hệ thống máy tính làm cho hệ thống này bị tê liệt không thể đưa ra các quyết định đúng.[1]

Các hình thức của chiến tranh mạng

  • Chiến tranh trong chỉ huy và điều khiển (command and control warfare C2W);
  • Chiến tranh tình báo (information-based warfare – IBW);
  • Chiến tranh điện tử (electronic warfare – EW);
  • Chiến tranh tâm lý (psychological warfare – PSYW);
  • Chiến tranh tin tặc hacker (hacker warfare);
  • Chiến tranh thông tin kinh tế (economic information warfare – EIW);
  • Chiến tranh điều khiển học (cyberwarfare).[2]

Chiến tranh mạng tại một số quốc gia

Trung Quốc

Theo các thống kê nhiều năm liên tiếp,Trung Quốc luôn là một trong 10 quốc gia khởi phát tấn công mạng hàng đầu trên giới.[3] Nhiều nhóm hacker tại Trung Quốc thường xuyên thưc hiện các vụ tấn công mạng táo tợn đe dọa đến hệ thống hạ tầng-an ninh mạng tại nhiều quốc gia cũng như tiến hành các hoat động đánh cắp thông tin thẻ tín dụng, phát tán mã độc.[4] Năm 2016, nhóm hacker 1937CN của Trung Quốc đã tiến hành tấn công mạng các sân bay tại Việt Nam, đánh cắp thông tin của hơn 400.000 khách hàng.[5] Trung Quốc cũng là quốc gia có nhiều sĩ quan nằm trong danh sách truy nã tội phạm mạng đặc biệt của FBI.[6][7] Từ năm 2016, các cơ quan tình báo và chiến tranh mạng chủ yếu của quân đội Trung Quốc đã được biên chế vào lực lượng chi viện chiến lược mới thành lập. Quân đội Trung Quốc hiện nay cũng đang thúc đẩy tiến trình nhất thể hóa chiến tranh điện tử – mạng internet và có thể quản lý tốt hơn việc sử dụng vệ tinh (cho hoạt động thu thập, giám sát và trinh sát tình báo).[8]

Một số cuộc chiến tranh mạng tiêu biểu

  • “Chiến tranh thông tin của Mỹ – từ Kosovo đến Nam Ossetia”: trong cuộc chiến ở Nam Ossetia xảy ra năm 2008, ngoài cuộc đọ súng trên chiến trường, thế giới được chứng kiến một cuộc chiến tranh khác có phần còn quyết liệt hơn, gay cấn hơn giữa các bên – đó là cuộc “chiến tranh thông tin” giữa Mỹ và các nước phương Tây với Nga, mà ưu thế vượt trội không thuộc về Nga.[2]

Trong văn hóa đại chúng

Khi mạng Internet bắt đầu được sử dụng phổ biến, nhiều tác phẩm văn hóa đại chúng như phim ảnh, tiểu thuyết viễn tưởng,… đã ra đời để khắc họa bối cảnh chiến tranh mạng trong thế giới hiện đại. Yếu tố chiến tranh mạng trở thành vấn đề không thể thiếu trong phần lớn các bộ phim hành động, gián điệp, âm mưu chính trị. Một số tác phẩm tiêu biểu của điện ảnh Hollywood về chiến tranh mạng được nhiều khán giả đánh giá cao là:

Xem thêm

Chú thích

  1. ^ Nguuyễn Lãm (25/08/2009). “Chiến tranh thông tin”. Tạp chí Thế giới Vi Tính – PC World VN. Bản gốc lưu trữ 25/08/2009. Truy cập 26/11/2010. Kiểm tra giá trị ngày tháng trong: |archivedate=, |date=, |accessdate= (trợ giúp)
  2. a ă Hương Ly (21/8/2008). “Chiến tranh thông tin của Mỹ – từ Kosovo đến Nam Ossetia”THẾ GIỚI: VẤN ĐỀ, SỰ KIỆN (Số 16 (160) năm 2008) (Tạp chí Cộng sản). Bản gốc lưu trữ 21/8/2008. Truy cập 26/11/2010. Kiểm tra giá trị ngày tháng trong: |archivedate=, |date=, |accessdate= (trợ giúp)
  3. ^ “Việt Nam vào danh sách tấn công mạng nhiều nhất thế giới”.
  4. ^ “Chinese hackers: The most famous hacker groups”.
  5. ^ “Trang web của Vietnam Airlines nghi bị tin tặc Trung Quốc tấn công”.
  6. ^ “The FBI’s 10 Most-Wanted Black-Hat Hackers – #5, #4 and #3”.
  7. ^ “Five Chinese Military Hackers Charged Indicted in Connection with Cyber Espionage Offenses Against U.S”.
  8. ^ “Cơ cấu bí mật trong lực lượng chi viện chiến lược của Trung Quốc”.

Liên kết ngoài

Nguồn : Bách khoa toàn thư mở Wikipedia

Top skills to learn in 2021 for developers


A shortlist of skills that we expect are going to be in high demand for developers in 2021

Top skills to learn in 2021 for developers

Trape – OSINT Analysis Tool For People Tracking


Trape is an OSINT analysis tool, which allows people to track and execute intelligent social engineering attacks in real-time. It was created with …

Trape – OSINT Analysis Tool For People Tracking

Khoa học dữ liệu: Nghề quyến rũ nhất thế kỷ 21


Đã gần 10 năm kể từ khi bài báo “Nhà khoa học dữ liệu, nghề quyến rũ nhất thế kỷ” trên tạp chí Harvard Business Review* ra đời, dự báo này vẫn đúng. Vị trí “data scientist” vẫn là một vị trí mà nhiều doanh nghiệp tìm kiếm và là kỳ vọng của nhiều người ứng tuyển, trên cả thế giới và Việt Nam.


Trên thế giới, nhu cầu về nhân lực ngành khoa học dữ liệu rất lớn. Nguồn: TechGig.



Theo một báo cáo của Viện nghiên cứu McKinsey toàn cầu vào năm 20142, nước Mỹ sẽ có 250.000 vị trí tuyển dụng nhà khoa học dữ liệu vào năm 2024. Để đáp ứng nhu cầu đó, các chương trình đào tạo Khoa học dữ liệu hay Trí tuệ nhân tạo (AI) đã nhanh chóng ra đời. Ngoài các chương trình chính quy tại các trường Đại học, các nền tảng học trực tuyến, các trung tâm đào tạo ngắn hạn cũng tích cực tham gia vào việc tạo nguồn cung nhân lực Khoa học dữ liệu. Tuy nhiên sau một thời gian tăng trưởng nhanh, nhu cầu tuyển dụng nhà khoa học dữ liệu đã chậm lại do những thay đổi về công nghệ và kinh doanh các sản phẩm AI. Các doanh nghiệp đều muốn khai thác nguồn dữ liệu giá trị của mình, phát triển các sản phẩm AI nhưng còn chưa rõ trong việc xác định đúng kỹ năng và tuyển đúng người. Đã có nhiều trường hợp tuyển dụng và nghỉ việc nhà khoa học dữ liệu sau một thời gian do hai bên chưa đáp ứng đúng nhu cầu của nhau.


Ở Việt Nam, xu hướng này cũng bắt đầu xuất hiện, đi kèm với những khóa đào tạo trình độ đại học và cao học do một số trường đại học nhanh nhạy mở ra, ví dụ trường Đại học Khoa học Tự nhiên, Khoa Quốc tế (ĐHQGHN), trường Đại học Bách khoa HN, Viện John von Neumann, trường Đại học Công nghệ thông tin, Đại học Quốc tế (ĐHQG TPHCM)… Theo ước đoán thì số lượng mà các trường này có thể cung cấp vẫn còn chưa đáp ứng được nhu cầu của thị trường.


Để có cái nhìn toàn cảnh hơn về nghề khoa học dữ liệu, tôi giới thiệu năm xu hướng dịch chuyển mà tôi tổng hợp và tham khảo được. Việc nhận định các xu hướng nổi bật này cũng giúp chúng ta có được một con số dự đoán gần hơn với nhu cầu nhà khoa học dữ liệu ở Việt Nam hiện nay.

Xu hướng thứ nhất: tập trung vào dữ liệu thay vì thuật toán

Nhiệm vụ chính của một nhà khoa học dữ liệu là khai thác ra giá trị từ dữ liệu và một sản phẩm AI thường được mô tả nổi bật bởi những tính năng thông minh ví dụ như nhận dạng giọng nói và trả lời từ động. Thực tế ngày nay các công cụ mô hình hóa đã được hỗ trợ rất nhiều bởi các nền tảng, việc có được dữ liệu trở nên khó gấp 10 lần việc khai thác dữ liệu. Như vậy các nhà khoa học dữ liệu chỉ tham gia vào một phân đoạn nhỏ (số 4) trong cả một quá trình dài từ xây dựng mô hình kinh doanh, marketing, thiết kế phần mềm, chuẩn bị dữ liệu, khai thác dữ liệu, và triển khai và chỉ chiếm chưa quá 5% tổng số nhân sự của dự án. 


Như vậy các doanh nghiệp có thể nhận định quá số lượng nhà khoa học dữ liệu cần có và tuyển dụng nhiều hơn cần thiết. Sau khi được tuyển một số nhà khoa học dữ liệu có thể bị giao việc của giai đoạn ba vốn của kỹ sư dữ liệu (cần nhiều kỹ năng về cơ sở dữ liệu và công nghệ phần mềm), họ vẫn có thể giữ chức danh nhà khoa học dữ liệu nhưng bản chất là một kỹ sư dữ liệu.


Ngoài ra, một data scientist cần làm tốt những việc cơ bản như làm sạch dữ liệu hay biểu diễn hình ảnh, thay vì chỉ tập trung vào mô hình dữ liệu, bởi vì các bộ dữ liệu thực tế trong doanh nghiệp thường rất rời rạc và thiếu sót. Công việc xử lý và làm sạch các nguồn dữ liệu có thể chiếm đến 80% công việc của một nhà khoa học dữ liệu và đây có thể là một điều khiến nhiều data scientist thất vọng. Thực chất thì kết nối giỏi các nguồn dữ liệu, làm sạch hiệu quả và biểu diễn hình ảnh sống động trong một thời gian nhanh nhất là những kỹ năng rất quan trọng sẽ giúp các nhà khoa học dữ liệu tạo ra được nhiều giá trị hơn.

Xu hướng thứ hai: bình dân hóa Khoa học dữ liệu

Sau một thời gian nổi lên như những mô hình kỳ diệu và phức tạp thì các mô hình khoa học dữ liệu đã được tìm hiểu nhiều hơn, đơn giản hóa và đặc biệt là được hỗ trở bởi các công cụ kéo thả đặc biệt dễ dàng từ các hãng lớn. Ngày nay hầu như ai sau một vài giờ đào tạo cũng có thể kéo dữ liệu từ hệ thống Dữ liệu thông minh (Business Intelligence)/ kho dữ liệu (Datawarehouse)/ cơ sở dữ liệu (Database) hay các file dữ liệu trên máy hoặc trên đám mây vào công cụ Machine Learning (là các mô hình khoa học dữ liệu) với giao diện thân thiện. Như vậy một chuyên viên marketing cũng có thể dự báo xác suất mua hàng của từng khách hàng với mô hình cây quyết định, mạng nơron, hay một chuyên viên tín dụng dễ dàng chấm điểm tín dụng cho mỗi khách hàng với mô hình XGB (“Extreme Gradient Boosting”) hay SVM (“Support Vector Machine”). Và như thế là rất nhiều công việc có thể do các chuyên viên hay kỹ sư khác mà không cần nhà khoa học dữ liệu như trước nữa, nhu cầu tuyển dụng nhà khoa học dữ liệu có thể giảm đi nhưng nhu cầu đào tạo khoa học dữ liệu thì không giảm đi thậm chí còn tăng mạnh (đào tạo cho mọi ngành).

Khoa Quốc tế (ĐHQGHN) giới thiệu một khóa đào tạo khoa học dữ liệu. Nguồn: ĐHQGHN.

Xu hướng thứ ba: Chuyển dịch sang các mô hình không giám sát

Các mô hình giám sát bao gồm các bản ghi dữ liệu gắn kèm với một nhãn (“label”) mô tả tính chất. Ví dụ như với bộ dữ liệu gồm một triệu bức ảnh khuôn mặt, mỗi bức ảnh được đánh dấu/ghi lại trạng thái (vui, buồn, giận dữ, lo lắng, …) của khuôn mặt trên đó thì ta có thể dễ dàng tạo ra được một mô hình nhận dạng trạng thái khuôn mặt. Việc khó khăn nhất sẽ là có được một triệu bức ảnh và dán nhãn cho chúng, khó hơn nhiều so với việc xây dựng mô hình nhận dạng. Do vậy vai trò của kỹ sư phần mềm quan trọng hơn nhà khoa học dữ liệu. 

Theo Topdev3,nhu cầu kỹ sư công nghệ thông tin là khoảng 500.000 kỹ sư vào năm 2021-2022. Như vậy nếu hình dung khoảng 20% doanh nghiệp sẽ bắt đầu làm các sản phẩm có tính AI trong 1-2 năm tới, tương đương 100.000 kỹ sư liên quan, thì sẽ có nhu cầu khoảng 5.000 nhà khoa học dữ liệu cho Việt Nam (5%) trong năm 2021 này.

Các mô hình không giám sát ngược lại có thể áp dụng cho dữ liệu không dán nhãn, tức là không được phân loại hay chấm điểm sẵn. Ở đây doanh nghiệp có sẵn các bộ dữ liệu thô chưa có sự đánh giá và phân loại, thì các nhà khoa học dữ liệu có thể vận dụng được sự sáng tạo của mình để đưa ra các đặc tính chưa được hình dung trước, thậm chí tạo ra một mô hình kinh doanh mới. Các nhà khoa học dữ liệu sẽ cần nhiều kiến thức về toán và thống kê (cả mô tả và suy diễn), cụ thể là các phân phối xác suất, xác suất Bayes, ước lượng và kiểm định, đại số tuyến tính, phương pháp phân tích thành phần chính (“Principle Components Analysis” – PCA) hay phân tích giá trị đặc biệt (“Singular Value Decomposition” – SVD), các mô hình “Gaussian Mixture Model” hay “k-mean clustering”,…

Xu hướng thứ tư: sử dụng ™hộp đen∫ Deep Learning cho tất cả mọi thứ

Cũng là chuyển dịch mô hình, các nhà khoa học dữ liệu cũng đang đối diện với một xu hướng khác ở hướng ngược lại, đó là sử dụng “Deep Learning” (học sâu) cho mọi bài toán. Nguyên nhân là chúng hiệu quả, độ chính xác cao và dễ dàng triển khai hơn nhiều các mô hình Machine Learning (học máy) cổ điển. Đặc biệt học sâu phù hợp cho các dữ liệu phi cấu trúc là hình ảnh, âm thanh, giọng nói, và khối lượng dữ liệu lớn. Nhưng cũng chính xu hướng học sâu hóa này đang tạo ra một số vấn đề khá lớn trong AI hiện nay, đó là chúng hoạt động giống như một “hộp đen”. 


Một mô hình học sâu là một tập hợp các neuron nối với nhau bởi các liên kết có trọng số. Các trọng số này sẽ được điều chỉnh hay “học” khi dữ liệu được đưa vào theo một cách khá cơ học, cho đến khi nào chúng có được giá trị phù hợp cho việc dự báo. Mô hình càng sâu, càng to thì càng chính xác, nhưng vấn đề chưa ai hiểu vì sao nó lại chính xác. Các tiến bộ về học sâu phần lớn là dựa trên thử sai và chưa giải thích được rõ ràng vì sao mô hình có kiến trúc như thế này lại phù hợp với dạng dữ liệu nào đó và các giá trị trọng số có vai trò gì? Nếu như cho trước một dạng dữ liệu có thể dự đoán sơ bộ kiến trúc mạng neuron nào, giá trị trọng số nào sẽ phù hợp trước khi chạy thử hay không? 


Và điều này dẫn đến một hệ quả quan trọng là thế mạnh đang thuộc về những người hay doanh nghiệp có tiền, thật nhiều tiền, vì chạy mạng học máy tốn rất nhiều nguồn lực. Các mô hình tiên tiến nhất đang có đến hàng tỷ, hàng chục tỷ tham số cần học và giá cho một lần “học” đó có thể lên đến vài chục triệu đô la tiền tính toán. Điều này cũng đặt ra cho các nhà nghiên cứu về AI một bài toán hóc búa là giải thích được vì sao các mô hình học máy lại chạy tốt? Câu trả lời này sẽ giúp xây dựng được các hệ thống AI rẻ và nhanh hơn nhiều.

Xu hướng thứ năm: chuyên sâu về một dạng dữ liệu

Các nhà khoa học dữ liệu sẽ có một lợi thế lớn nếu hiểu rõ dữ liệu đặc thù ngành, ví dụ như tài chính, xã hội học, địa chất, thương mại hoặc đặc thù nguồn như dữ liệu vệ tinh, dữ liệu ảnh y tế/nông sản, dữ liệu âm thanh thoại, tiếng Việt,… Khi đó bạn có thể khá yên tâm với công việc mang nhiều tính khoa học này. Xu hướng này cũng có nghĩa là nghề khoa học dữ liệu sẽ rộng mở với nhiều ngành nghề khác nhau. Học tốt và hiểu rõ một ngành sau đó học thêm về khoa học dữ liệu và học sâu là một lựa chọn không tồi. Và một lưu ý cuối cùng là “hãy học tốt môn Toán” và sẵn sàng cho việc (học) lập trình rất nhiều. 


Theo Topdev3,nhu cầu kỹ sư công nghệ thông tin là khoảng 500,000 kỹ sư vào năm 2021-2022. Như vậy nếu hình dung khoảng 20% doanh nghiệp sẽ bắt đầu làm các sản phẩm có tính AI trong 1-2 năm tới, tương đương 100,000 kỹ sư liên quan, thì sẽ có nhu cầu khoảng 5.000 nhà khoa học dữ liệu cho Việt Nam (5%) trong năm 2021 này. 


Với xu hướng thứ hai chúng ta cần mở rộng các khóa học cơ bản về Khoa học dữ liệu cho mọi đối tượng liên ngành, từ điện tử đến hóa học, địa chất, từ marketing đến sale hay xã hội học,… Khoa Khoa học dữ liệu hay Trí tuệ nhân tạo nên là một khoa mở nhất của trường. Chúng ta đã thành công trong việc đào tạo phổ cập Tin học cho mọi sinh viên thì sắp tới sẽ là khoa học dữ liệu cơ bản. Xu hướng thứ ba và thứ tư có thể là tham khảo cho các chương trình học về Khoa học dữ liệu. Xu hướng thứ năm lại là một sự hợp tác đào tạo theo chiều ngược lại. Ở đó sinh viên của khoa Khoa học dữ liệu cần phải được gửi về các khoa khác để “học” tính chất của dữ liệu chuyên ngành và giúp giải quyết các bài toán chuyên ngành dựa trên khoa học dữ liệu.

Tham khảo:

https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century

https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/the-age-of-analytics-competing-in-a-data-driven-world

3 https://moit.gov.vn/web/guest/tin-chi-tiet/-/chi-tiet/topdev-nam-2019-viet-nam-thieu-hut-toi-90-000-nhan-luc-cntt-16444-402.html

Xu hướng số 2 và một phần của số 3 được tham khảo chủ yếu trong thảo luận sau:

https://www.quora.com/What-is-the-brutal-truth-about-data-scientists

Nguyễn Quang / Tạp Chí Tia Sáng

12 MỐI ĐE DỌA AN NINH MẠNG XÃ HỘI TRONG MÙA GIÁNG SINH


12 mối đe dọa an ninh mạng xã hội trong mùa giáng sinh (Phần 1)

Trong dịp giáng sinh khi tất cả mọi người trong chúng ta đều ở trạng thái nghỉ ngơi, ngưng đề phòng thì đó cũng là lúc các tin tặc hoạt động mạnh. An ninh mạng xã hội sẽ bị xâm hại trước tiên, đó có thể là những tấm thiệp online, những App game dễ thương. Mọi chuyện Hacker làm chỉ để đánh cắp thông tin cá nhân của bạn thôi.

12 mối đe dọa an ninh mạng xã hội bạn cần biết.

Trong loạt bài viết lần này, Trend Micro sẽ cho bạn biết 12 mối đe dọa hàng đầu về mạng xã hội ra sao và tại sao chúng ta cần phải đề phòng. Những thông tin này được chúng tôi tổng hợp từ năm 2018 cho đến nay và chắc chắn bạn sẽ rất muốn biết.

1. Mã độc đòi tiền chuộc đe dọa an ninh mạng xã hội (Ransomware):

Trong những năm gần đây, chúng ta đã chứng kiến rất nhiều những công ty lớn hay những cá nhân bị các tin tặc tấn công và mức độ ngày càng tăng lên. Điển hình trong số này chính là 2 loại mã độc NotPetya và WannaCry.

Mã độc tống tiền là một trong những nguy cơ tiềm ẩn đe dọa mạng xã hội.

WannaCry đặc biệt là dạng mã độc lây lan cực kì nguy hiểm, với tổng số lên đến 300.000 trường hợp nhiễm mã độc trên toàn thế giới. Và còn rất nhiều con số khác chưa được tổng hợp và công khai về loại mã độc đăng sợ này. Mạng xã hội đã góp phần lớn trong việc lan truyền mã độc WannaCry bởi trước đó chưa hề có bất kì sự chuẩn bị nào cho cuộc tấn công dạng này.

Trong năm mới, chắc chắn mã độc tống tiền sẽ tiếp tục tấn công với quy mô lớn hơn và sự lây lan đặc biệt trên mạng xã hội chắc chắn sẽ đe dọa an ninh toàn cầu trong năm 2020.

2. Tấn công thỏa hiệp qua email (BEC):

Đây là dạng tấn công lừa đảo chủ yếu nhắm vào các doanh nghiệp lớn. Đòi hỏi các Hacker phải có thời gian đầu tư tìm hiểu về doanh nghiệp cũng như các đối tác liên quan. Từ đó chúng sẽ đề ra phương án lừa đảo khiến các nhân sự tại các doanh nghiệp trên tin tưởng và làm theo yêu cầu.

Tấn công thỏa hiệp qua email đe dọa an ninh mạng toàn thế giới.

Phòng chống các cuộc tấn công thỏa hiệp qua email chắc chắn chỉ có thể nâng tầm nhận thức của mỗi nhân sự trong công ty. Bao gồm cả việc sử dụng mạng xã hội, bởi sự lây lan qua mạng xã hội chủ yếu là quen biết và dễ dàng bị hacker lợi dụng để đe dọa an ninh cùng cơ sở dữ liệu của công ty.

Theo báo cáo từ FBI, các vụ tấn công lừa đảo BEC đã khiến các công ty trên toàn thế giới tiêu tốn khoản 5,3 tỷ đô la cho đến thời điểm hiện tại. Con số này ngày càng tăng lên nhiều hơn bởi sự thiếu kiến thức về bảo mật của các nhân sự công ty lớn và nhỏ.

3. Tấn công đe dọa từ các thiết bị ngoại vi:

Một cuộc tấn công đều có sự bắt đầu bằng việc bất cẩn trong khâu nào đó mà thông thường là do các doanh nghiệp có sự dễ dãi khi cắm các thiết bị ngoại vi vào máy tính công ty mình. Dẫn đến mã độc lan truyền mạnh mẽ ngay trong hệ thống mạng nội bộ. Với các mạng xã hội chúng sẽ mọc nhánh rễ từ các tài khoản của nhân viên công ty.

Do vậy, để đảm bảo rằng sẽ không có sự xâm nhập vào từ việc cơ bản đe dọa an ninh như vậy, hãy yêu cầu các đối tác upload thông tin đó online từ đó các bộ phận IT hoặc filter từ các giải pháp bảo mật sẽ tự check online trước khi cho phép vào hệ thống cơ sở dữ liệu công ty.

4. Tội phạm lừa đảo qua mạng:

Kể từ năm 2017 Trend Micro đã bắt đầu thống kê về tỷ lệ tội phạm mạng và phát hiện ra ngày càng có nhiều những địa chỉ IP mới và điều đó khiến chúng tôi tin rằng với các công cụ được bán trên các Dark Web, bất kì cá nhân nào cũng có thể trở thành tin tặc.

Năm 2018, con số các tin tặc thật sự đã tăng lên gấp đôi so với năm 2018. Khác với những botnet tin tặc sử dụng, đây là những hacker có chủ đích và hoạt động riêng biệt. Do vậy, đừng dại mà khiêu khích với bất kì Hacker nào bạn không biết chúng sẽ có thể làm gì với mạng xã hội hay đe dọa an ninh mạng doanh nghiệp của bạn đâu.

5. Thiếu nhận thức về an ninh mạng:

Các chuyên gia Trend Micro luôn khuyên các doanh nghiệp rằng nên thường xuyên có những buổi training cũng như đào tạo thêm kiến thức về an toàn bảo mật an ninh mạng cho nhân viên. Không chỉ riêng trên mạng xã hội, mọi thứ đều có thể là cầu nối dẫn đến các cuộc tấn công an ninh mạng.

Tăng cường nhận thức về an ninh mạng nên là ưu tiên hàng đầu ở các doanh nghiệp.

Điều bắt buộc là nhân viên phải được giáo dục về các mối đe dọa gần đây nhất, cũng như các trách nhiệm như một phần của tư thế bảo mật của công ty.

6. Lỗ hổng bảo mật cũ từ trong hệ thống công ty:

Trend Micro đã nêu bật các lỗ hổng cũ tiếp tục tăng cường các nỗ lực bảo mật doanh nghiệp và không khó để hiểu tại sao các lỗ hổng này vẫn là mối lo ngại. Mặc dù các mối đe dọa mới chắc chắn sẽ xuất hiện, những điểm yếu và chiến lược tấn công mà tin tặc đã sử dụng trong nhiều tháng – nếu không nói là nhiều năm – vẫn đang chứng tỏ thành công cho những kẻ tấn công.

Các trang web công ty lâu ngày không update cũng có thể xuất hiện lổ hổng khiến các Hacker tấn công.

Phần lớn điều này phải làm thực tế là một số tổ chức không đưa ra các bản vá bảo mật khẩn cấp. Điều này để lại những lỗ hổng đáng kể cho những kẻ tấn công mạng tận dụng. Tuy nhiên, như báo cáo của Trend Micro chỉ ra, những hạn chế bao gồm việc sử dụng phần cứng cũ không nên ngăn doanh nghiệp bảo vệ cơ sở hạ tầng của họ.

Chúng ta đã nói nhiều về các mối quan tâm như mã độc tấn công, tấn công thỏa hiệp qua email (BEC) hay do nhân sự thiếu kiến thức về các vấn đề an ninh mạng, dẫn đến nhẫn cuộc tấn công an ninh mạng. Vấn đề được đặt ra hiện tại đang làm đau đầu các nhà an ninh mạng không chỉ riêng tại Trend Micro mà còn là bài toán khó giải quyết cho các doanh nghiệp lớn và nhỏ trên toàn thế giới.

7.   Vấn đề về các mối đe dọa tinh vi ngày càng nâng cấp:

Nửa sau 2019, đã chứng kiến sự xuất hiện của hơn 500 lỗ hổng bảo mật trên toàn thế giới. Đó là con số phải nói là khủng khiếp được các chuyên gia của chúng tôi phân tích từ những dữ liệu có vấn đề an ninh mạng trên toàn thế giới gửi về.

12 vấn đề đe dọa an ninh mạng xã hội trong mùa giáng sinh (phần 2)Bạn nâng cấp thì hacker cũng sẽ nâng cấp nên vấn đề an ninh mạng nên được chú trọng ở nhiều khâu không chỉ 1.

Ngoài việc các tin tặc tiếp tục khoét sâu vào các lổ hổng cũ chúng cũng không ngừng khai thác những lỗ hổng mới từ các trang web thương hại điện tử mới hoặc đang được hoàn thiện. Các lỗ hổng này còn ảnh hưởng nhiều đến các công ty công nghệ hàng đầu như Microsoft, Apple hay Google (theo nghiên cứu từ Zero Day Initiative).

8. Sự thiếu quy tắc trong việc đảm bảo các liên kết bảo mật:

Việc đảm bảo nguyên tắc trong công việc cũng không kém phần quan trọng, bởi việc đó sẽ góp phần nâng cao khả năng phòng thủ trước các Hacker. Khi các doanh nghiệp làm việc theo đúng quy trình được đặt ra, họ sẽ dễ dàng nhận biết đâu là nơi xảy ra vấn đề và sẽ xử lý ngay từ khâu đó. Do vậy, điều này cũng nằm trong chiến lược ban đầu của họ đề ra để cung cấp sự bảo vệ và đi cùng với các tiêu chuẩn ngành.

12 vấn đề đe dọa an ninh mạng xã hội trong mùa giáng sinh (phần 2)Các doanh nghiệp nên có sự liên kết giữa các khâu để đảm bảo vấn đề an ninh mạng.

Giám đốc diễn đàn an ninh mạng toàn cầu từng nói” Đó không chỉ là về sự tuần thủ nguyên tắc trong công việc, đó còn là việc đảm bảo bạn có khả năng trong toàn bộ doanh nghiệp và chuỗi cung ứng của mình. Tại bất cứ thời điểm nào nào khi xảy ra vấn đề về an ninh mạng thì những dữ liệu sau đó cũng vẫn có thể được an toàn chứ không phải mất hết toàn bộ”.

Từ đó có thể rút ra, việc bảo mật an toàn các vấn đề về an ninh mạng luôn là bài học hàng đầu của các doanh nghiệp lớn trên toàn cầu. Các doanh nghiệp tại Việt Nam, cũng nên đặt ra vấn đề về an ninh internet để đảm bảo cho sự phát triển trong tương lai.

9. Các thiết bị được kết nối và Internet Of Thing (kết nối vạn vật):

Đây là xu hướng kết nối hàng đầu với các công nghệ mới, khi khả năng các công nghệ tăng lên thì các ý tưởng đột phá cũng như làm tiện lợi thêm cuộc sống con người cũng sẽ được phát triển thêm. Nó đã trở thành ngành công nghiệp, tuy nhiên song song với vấn đề đó là những rủi ro về an ninh mạng bởi các thiết bị này liên kết qua cùng một hệ thống, chỉ cần Hacker chiếm được 1 trong các thứ đó thì cả hệ thống sẽ dễ dàng bị kiểm soát.

12 vấn đề đe dọa an ninh mạng xã hội trong mùa giáng sinh (phần 2)Bởi hệ thống liên kết nên khi chiếm được 1 thiết bị hacker có thể điều khiển mọi thiết bị khác.

Từng có trường hợp, các Hacker đã chiếm dụng được hệ thống Camera của xe điện từ xa từ trẻ nhỏ trong nhà, chúng kiểm soát toàn bộ lịch sinh hoạt của cả gia đình và biết giờ nào cả nhà không có ai để tiến hành trộm cắp. Với các doanh nghiệp, các Camera An ninh kết nối qua hệ thống IP cũng dễ dàng bị xâm phạm nếu không bảo mật đầy đủ.

10. Khai thác từ các phần cứng thiết bị:

Cơ quan An ninh mạng Infecec luôn cảnh báo khách hàng của họ về việc phần cứng cũng dễ dàng trở thành mục tiêu bị Hacker xâm nhập và cách đề phòng rất dễ dàng là nên có giải pháp thay định kì không để công nghệ phần cứng trở nên lạc hậu.

Tuy nói vậy nhưng cũng không có nghĩa là mối đe dọa sẽ hoàn toàn biến mất khi nâng cấp. Các tin tặc cũng là những chuyên gia công nghệ cao, chúng sẵn sàng nâng cấp để theo đuổi mục tiêu được chọn. Vấn đề tiếp theo chúng tôi muốn cảnh báo là trên các trang Dark Web tin tặc cũng sẵn sàng rao bán những thiết bị đã được kiểm chứng cho công ty đối thủ của bạn chẳng hạn và điều đó thật nguy hiểm nếu những kẻ đó lạm dụng dữ liệu của bạn cho điều xấu.

11. Các mối đe dọa di động:

Không có gì đáng ngạc nhiên, nền tảng di động sẽ tiếp tục là một vector tấn công hàng đầu cho tin tặc vào năm tới. Khi các doanh nghiệp tiếp tục cho phép nhân viên sử dụng các thiết bị di động của họ để theo đuổi doanh nghiệp, vấn đề này rất nhạy cảm bởi không thể yêu cầu họ không được sử dụng thiết bị di động trong mọi lúc ở công ty được. Do vậy, vấn đề về an ninh mạng cho thiết bị đầu cuối Endpoint luôn cần được các doanh nghiệp chú trọng., điều bắt buộc là phải bảo mật để ngăn chặn truy cập trái phép và đảm bảo dữ liệu nhạy cảm vẫn được bảo mật.

12. Theo kịp kỳ vọng của ban giám đốc:

Dù ở vị trí lãnh đạo, tuy nhiên nhiều lúc ban giám đốc nghe tư vấn ở đâu đó rồi yêu cầu các nhân viên an ninh CNTT thay đổi hệ thống theo yêu cầu của họ. Điều này rất nhạy cảm bởi khi chuyển đổi sang mô tuýp mới kỹ thuật chưa nắm vững sẽ dễ bị xuất hiện lỗ hổng bảo mật, tạo điều kiện cho sự xâm nhập từ bên ngoài.

12 vấn đề đe dọa an ninh mạng xã hội trong mùa giáng sinh (phần 2)Mọi vấn đề chuyên gia hãy để chuyên gia xử lý.

Do vậy, ở vị trí là các chuyên gia chúng tôi mong các quý vị lãnh đạo nên để chuyên gia làm việc như một chuyên gia và tôn trọng ý kiến họ đưa ra, điều này sẽ đảm bảo hệ thống trơn tru và không xuất hiện lỗi không mong muốn.

Theo Trendmicro VietNam

Tội ác trên mạng internet


Thiếu tá người Pháp Pierre Penalba, một chuyên gia chống tội phạm tin học, vừa xuất bản quyển Tội ác trên mạng, kể lại những cuộc săn lùng hàng ngày bọn cướp lý lịch cá nhân, lừa đảo, trấn lột và thực hiện nhiều tội ác oái oăm, khó có thể tưởng tượng được.

Thiếu tá Pierre Penalba, chỉ huy nhóm truy lùng tội phạm vi tính tại thành phố Nice của Pháp từ 10 năm qua, trên cả vùng miền Nam. Ông vừa xuất bản quyển Tội ác trên mạng (Cyber Crimes) kể lại những cuộc săn lùng tin tặc ly kỳ của mình. Từ lừa đảo hàng loạt, qua ấu dâm đến cưỡng bức tình dục, những câu chuyện sống động của ông nhằm cảnh báo các độc giả ít hiểu biết về những nguy cơ khi sử dụng kỹ thuật số. Tội phạm trên mạng đang bùng phát, đặc biệt là lừa đảo, chiếm đến 73%, theo số liệu của Bộ Nội vụ Pháp. Trong năm 2019, hơn 26 triệu người Pháp là nạn nhân của bọn tội phạm, trong đó 9,17 triêu người bị mất tiền. Các công ty cũng là mục tiêu, chỉ riêng năm 2019 đã bị thiệt hại đến 8,7 triệu euro.

Tội ác trên mạng internet -5
Thiếu tá Pierre Penalba

Pierre Penalba viết: “Chỉ bằng một cái nhấp chuột, người ta đã có thể ăn cắp, rình rập, cướp hệ thống thông tin […] Hơn 8.600 cảnh sát tham gia truy lùng, điều tra bọn lừa đảo, giám sát các nội dung trao đổi, ngăn chặn hành động của bọn tội phạm.

Đơn thưa kiện tin tặc tại Pháp gia tăng 1/3 với tổng số thiệt hại trong khoảng 230-265 triệu euro, trong năm 2019. Đúng là tội phạm trên mạng đang bùng phát và quyển sách Tội ác trên mạng của ông được xem như tiếng kéo còi báo động.

Pierre Penalba: “Đã hơn 30 năm qua tôi xử lý các vụ án trên mạng, đúng là tất cả đang tăng vọt. Nếu tôi là nhân chứng của tiến bộ kỹ thuật, cũng lại nhìn thấy nhiều loại tội phạm mới đang phát triển, nhất là lừa đảo. Khi kỹ thuật không ngừng hoàn thiện, kỹ thuật số đã xâm nhập vào mọi ngõ ngách của cuộc sống, buộc cảnh sát chúng tôi cũng phải thích nghi các giải pháp.

_______

Le Nouvel Observateur: Ông trở thành chuyên gia tội phạm tin học như thế nào?

Tôi vào ngành cảnh sát năm 1983, lúc được 21 tuổi, đã là một người đam mê tin học. Thoạt tiên, tôi chỉ được làm trợ lý cho cảnh sát tại đơn vị Auxerre, trước khi gia nhập cảnh sát khoa học & kỹ thuật tại Nice vào năm 1986. Chúng tôi phải nhanh chóng sử dụng kỹ thuật số để phân tích dấu vết tội phạm, và sau đó trở thành thông tín viên tin học. Tôi tiếp tục tự học và trợ giúp các đồng nghiệp trong mọi cuộc điều tra.

_______

Tội phạm tin học trong thời kỳ cuối thập niên 1990 như thế nào?

Đó thực sự là “miền Viễn Tây” của nước Mỹ! Các vụ án cho thấy mọi kiểu bịp bợm, vừa có lợi cho bọn gian ác lẫn cho chúng ta. Ngày nay các băng đảng tội phạm tin học có tổ chức không hiện hữu. Tôi còn nhớ một tay quản lý cửa hàng đã thêm hai dòng mật mã vi tính vào chương trình thu ngân, đủ để tự động làm biến mất 25% doanh số. Nó hoàn toàn vô hình và phải chờ có một nhân viên đứng ra tố giác, người ta mới hiểu được mánh khoé của hắn.

_______

Về phía điều tra, đó cũng là Miền Viễn Tây?

Có sự mù mờ luật pháp cực lớn. Người ta đã từng làm cái mà ngày hôm nay tuyệt đối không được phép: chế tạo những con virus và những con ngựa thành Troy để làm gián điệp tin học. Chẳng hạn, có một lần cảnh sát tư pháp tóm được một đoàn xe siêu tốc xuất phát từ Tây Ban Nha (những xe tải lớn chất đầy ma túy chạy băng qua nước Pháp không ngưng nghỉ), thế nhưng chúng tôi bị mất dấu của ông trùm. Lúc đó, tôi giả dạng làm một anh chàng sửa máy tính đến và lén nhét virus do tôi tạo ra vào máy tính của vợ anh ta. Thế là thường xuyên có được hình ảnh và những đoạn video thu được từ webcam. Khi chị ta đi gặp anh ta, chúng tôi có thể xác định nơi trú ẩn và tóm được anh ta. Từ đó, luật Tin học & Tự do năm 2004 không cho phép hành động kiểu này nữa. Muốn thực hiện phải có giấy phép của một quan tòa.

_______

Ông có vẻ thất vọng?

Không, luật này còn giúp cho công việc của chúng tôi dễ dàng hơn nữa. Ngày nay các nhà mạng bị buộc phải lưu giữ các logs (lịch sử các nối kết ) trong vòng một năm và tố cáo những hành vi mờ ám thực hiện trên mạng của mình. Trước đó không có quy định nào loại này cả. Từ đó, các công ty buộc phải công bố khi bị đánh cắp thông tin, trong khi trước đó họ thích giữ kín hơn.

_______

Bọn tin tặc đã tiến bộ như thế nào?

Tất cả đều trở nên chuyên nghiệp khi tội phạm tin học bùng phát. Vào đầu những năm 2.000, chỉ có vài diễn đàn trao đổi. Bọn hacker chỉ là những tên lừa đảo. Từ khi Internet phát triển, các băng đảng tội phạm có được kỹ thuật đánh cướp tin học. Từ những năm 2010, đã phát triển darknet, những mạng lưới vô danh mà người ta có thể bàn bạc về mọi hoạt động phi pháp và có thể đặt hàng bất cứ loại gì. Có cả những diễn đàn nơi đó mua được ma túy, và kẻ bán hàng tiếp nhận ý kiến khách giống như trên Amazon!

Người ta càng tiến bộ, bọn cướp càng tinh vi và cần có những biện pháp phức tạp để phá trận. Tất cả tiến triển rất nhanh và phải thích nghi thường xuyên. Đó thực sự là một trò chơi giữa cảnh sát và tên trộm. Vì phải hết sức thận trọng nên trình độ không ngừng tiến triển. Ngày nay, chúng luôn cố xóa dấu vết qua các proxy và VNP làm cho những cuộc điều tra mất rất nhiều thời gian. Đây là vấn đề chính của chúng tôi: thời gian điều tra, thời gian truy tìm mạng lưới, thời gian tố tụng…

_______

Một tên hacker tự học, ngồi trong phòng riêng làm náo loạn khắp thế giới vẫn là một thực tế?

Có những tên hacker nghiêm chỉnh, đúng với mô hình. Nhưng từ năm 2012 cũng có nhiều tên script kiddies sử dụng các đầu mật mã vi tính và phần mềm đánh cướp tự động mà không cần biết nó hoạt động như thế nào. Chúng rất dễ bị tóm vì không biết sử dụng công cụ ẩn mình, nhưng điều đó không ngăn chặn được những thiệt hại rất lớn. Mới đây, một công ty bán hàng trên mạng tại Nice đã thay đổi trang web và từ chối chi tiền cho một món hàng bị trả lại. Một thanh niên giận dữ đã tấn công bằng phần mềm tự động Ddos, làm cho trang mạng bị khóa chặt suốt một tuần lễ, gây thiệt hại doanh số hơn 400.000 euro. May thay khuynh hướng này đang giảm. Nói chung tại Pháp không có cả một loại hacker thực sự, mà chỉ là những cá nhân riêng lẻ hay nhóm nhỏ, bởi môi trường luật pháp rất hữu hiệu để ngăn chặn mọi hoạt động phi pháp.

_______

Những tên hacker kiệt xuất đánh cướp chỉ để thỏa mãn tự ái?

Thực sự có cảm giác thượng đẳng và bất khả xâm phạm, tên hacker tự cho mình là kẻ vô địch. Đó là một thế giới rất đàn ông – giống như trong tội phạm cổ điển – nơi đó người ta cạnh tranh nhau để chứng tỏ mình là người mạnh nhất. Tên hacker giỏi nhất mà tôi từng bắt là một gã khoảng 30 tuổi, cực giỏi về tin học, sống một mình, cướp dữ liệu của các trường đại học lớn, giấu hoàn toàn được địa chỉ IP của mình, chỉ để xâm nhập mạng lưới và khoe khoang với bạn bè. Kế đến là ngày càng có nhiều tên tin tặc bán tài năng của mình cho ai trả giá cao nhất: đánh cướp đúng mục tiêu, lấy số tài khoản ngân hàng, lừa đảo các loại, cấy virus khoá máy tính, trấn lột…

Việc này làm cho chúng có rất nhiều tiền để giao cho các “con lừa” chuyển ra nước ngoài, nơi cảnh sát còn đang mò mẫm với chiếc máy tính như tại châu Phi. Lừa đảo tin học đang tăng vọt. Khổ thay, hàng ngày vẫn có hàng trăm người Pháp hay cả các công ty đang bị mắc lừa. Thỉnh thoảng lại còn phải trả giá rất đắt. Ngoại trừ khi máy tính bị nhiễm virus cripto, không hoạt động được! Cũng phải mất tiền. Điều đó không có nghĩa là đã hết bị cướp: tên hacker vẫn còn có thể cướp các dữ liệu khác.

Phải ý thức được nguy cơ bị nhiễm virus mà mua phần mềm an toàn. Tôi đã chứng kiến một công ty có doanh số hàng năm đến 20 triệu euro mà không có phần mềm chống virus và mật mã là azerty! Chúng ta không sống trong thế giới của thần tiên. Một thái độ như thế gây nguy hiểm cho công ty và khách hàng của mình. Thế giới ngày càng cạnh tranh khốc liệt, và đánh cướp là một phương tiện phá hoại đối thủ.

_______

Ông có nghĩ đến một vụ án đặc biệt nào không?

Tại Nice có một công ty chuyên nối tóc bị tấn công DDos từ châu Á, bị chiếm đoạt trang web, ngăn chặn khách hàng đăng ký. Không cần hiểu biết kỹ thuật, loại đánh cướp này chỉ có lợi cho một đối thủ cạnh tranh duy nhất. Cuộc điều tra cho thấy đối thủ này đã thuê tấn công với giá 100 euro/ngày qua một diễn đàn!

_______

Trong tội phạm tin học, chứng cớ có dễ dàng kiếm được không?

Không, nhất định chứng cớ tin học chẳng có gì tuyệt đối, không giống như ADN. Chẳng hạn như hồ sơ ấu dâm phải luôn luôn xác định là máy tính không bị hacked và hình ảnh tải về xuất phát từ kẻ bị tình nghi; chính y có mặt lúc tải về. Một cuộc điều tra là chưa đủ. Chính vì thế trong những trường hợp như thế này, chúng tôi chỉ can thiệp sau khi giám sát thái độ phi pháp suốt nhiều tháng liền nhằm thiết lập số lượng và thái độ thường xuyên. Việc bắt giữ chỉ được nêu ra sau hàng ngàn hồ sơ có được. Người ta theo dõi các diễn đàn và mạng trao đổi ấu dâm để xác định những kẻ đến chỉ để xem và những kẻ bắt đầu sưu tập hồ sơ. Họ có nhiều cơ hội để chuyển sang hành động hơn và phải nhanh chóng bắt giữ.

_______

Ông phải đối mặt với những hình ảnh ghê tởm…

Phải, thật khủng khiếp với những gì nhìn thấy được. Người ta có thể đồi bại đến mức khó tin. Tôi cũng kinh khiếp với sự tiếp cận quá dễ dành những hình ảnh này. Nó giải thích sự bùng phát của hiện tượng, cả về số lượng hành ảnh lẫn số lượng người xem.

_______

Kẻ nào làm cho ông lo lắng nhất trong tội phạm tin học?

Chiếm đoạt lý lịch ngày nay là dễ làm nhất và gây ra những hậu quả nghiêm trọng nhất. Bọn lừa đảo lấy hồ sơ lý lịch bằng cách đăng quảng cáo cho thuê nhà dỏm để có được e-mail và tích trữ trên một địa chỉ bất động sản dỏm. Với tài liệu này, chúng có thể đăng ký vay tiền ngân hàng, rồi rút tiền và trốn mất. Trái lại, nạn nhân sẽ bị dính vào một vụ rắc rối thê thảm. Khổ thay, ít ai thoát được!

_______

Gần đây, nhiều vụ lừa đảo tin học lợi dụng sự phát triển của các địa chỉ buôn bán trên Facebook.

Tất cả các quảng cáo nhỏ phần lớn đều bán hàng lừa đảo. Nếu các trang mạng nói trên chống quảng cáo dỏm, bọn tội phạm tin học vẫn tiếp tục gia tăng bán xe hơi, thuê nhà dỏm và lừa đảo cả người bán. Mùa hè năm 2019, tại Antibes, có 40 người chờ đợi tại một cửa hàng vì tin mình đã thuê được một căn biệt với giá bèo: 500 euro/tuần. Bọn lừa đảo gom tiền, chuyển ra nước ngoài và tẩy sạch bằng thẻ ngân hàng trả trước.

Người ta cũng thấy những quảng cáo bất động sản, trong đó người bán đòi ứng trước 200 euro để dắt đi xem rồi biến mất, hay bán thiết bị điện tử trả tiền trước, nhưng không bao giờ gởi hàng đến. Trí tưởng tượng của chúng là vô giới hạn. Mới đây, một gã láu cá mua thiết bị tin học tại một cửa hàng bán qua mạng. Hắn nói hàng nhận được bị vỡ và gởi trả lại những mảnh vụn của một cái khác để được đền bù thêm một cái mới! Thời gian cửa hàng xác minh được món hàng đó không phải là của mình, hắn đã đi rất xa.

Tôi cũng thường xuyên lặp lại: cái gì quá tốt hay quá rẽ hơn thực tế đều là lừa đảo! Người ta không biết điều gì ẩn nấp phía sau nó, tốt nhất là gọi điện thoại để xác minh với người am hiểu, xem nó có thật hay không. Không trả tiền trước, phải biết nghi ngờ chi phiếu. Cái có vẻ như hiển nhiên với nhiều người, nhưng không ai thoát được lừa đảo tin học. Không một ai! Thật là khủng khiếp! Tuần nào trong phòng của tôi cũng có người đến khóc ròng vì đã chi tiền rất nhiều mà chẳng thấy nó quay trở lại.

_______

Đâu là giải pháp để chống lừa đảo tin học tốt nhất?

Gia tăng phương tiện trong an ninh tin học. Phương tiện của cảnh sát có thể hỗ trợ, nhưng thiên nhiên không thích khoảng trống. Khi một nhóm bị bắt, sẽ có một nhóm khác thay thế. Một con virus bị phát hiện và tiêu diệt, con khác sẽ xuất hiện ngay! Mặt khác, phải tiếp tục phòng ngừa đánh cắp dữ liệu. Nguy cơ số 0 là không có, nhưng mọi người phải nỗ lực tự bảo vệ mình bằng cách thường xuyên thay đổi mật mã, gia tăng tối đa an ninh vi tính, không gởi dữ liệu cho bất kỳ ai. Trên mạng quy luật số 1 là không tin ai cả. Khi bị đánh cướp dữ liệu, không bao giờ trả tiền cho chúng và báo ngay cho cảnh sát. Khi tự mình cung cấp số liệu ngân hàng, sẽ bị xem là có lỗi và không được ai đền bù.

Tội ác trên mạng internet -1

Những kiểu lừa thường gặp nhất trên internet

Cú áp phe quá ngon ăn!

Hôm đó là ngày thứ ba, tôi không làm việc. Tôi lướt qua Facebook và bắt gặp một quảng cáo áo quần Zara, giá rẻ hơn hàng đang bán trên mạng. Tôi nhấp chuột. Julie phụ trách sản xuất và một chiến binh trên mạng đang rơi vào bẫy: cô gặp phải một trang mạng lừa đảo có giao diện giống hệt như một trang Tây Ban Nha. Cô đặt hàng 20 euro. Tôi nhận được một con số theo dõi kiện hàng, với chú thích là nó đã được gởi đến từ Trung Quốc.

Chẳng bao lâu sau đó, tôi nhận được một bức thư với cái móc khỏa giả chứa bên trong. Nhưng chẳng có áo quần gì trong đó cả. Julie là nạn nhân của phishing (móc lưỡi câu), kỹ thuật giả mạo một trang mạng chính thức, thông thường là để thu lượm thông tin cá nhân và dữ liệu ngân hàng. Ý đồ thường được ẩn giấu bên dưới những e-mail lưu lạc (rác) nhưng cũng nằm trên các trang quảng cáo của mạng xã hội. Mỗi năm có khoảng 2 triệu người Pháp là nạn nhân của phishing, với trung bình 40 e-mail/tháng gởi đến cho từng người.

Lời khuyên: Không bao giờ nhấp chuột vào các e-mail lạ hay quảng cáo trên mạng xã hội. Chẳng có cơ quan chính phủ, ngân hàng hay nhà cung cấp dịch vụ nào yêu cầu cung cấp hồ sơ cá nhân, mật mahay dữ liệu ngân hàng thông qua e-mail cả. Viết sai chính tả hay lỗi văn phạm cũng là dấu hiệu để nghi ngờ một trang mạng giả hay thông tin đáng ngờ.

Đánh cắp lý lịch

Năm 2019, có 7 người tuổi từ 20-40 bị thẩm vấn trong vùng Lyon vì tội đánh cắp lý lịch. Kiểu lừa này giúp họ thu được hơn 100.000 euro. Phương pháp này rất phổ biến trên darknet, nơi có vô số “sư phụ” đang tung hoành. Đó là lợi dụng lý lịch của một nạn nhân để đăng ký vay tiền ngân hàng thông qua số liệu của giấy căn cước. Nhiều tên khác đăng quảng cáo cho thuê nhà giá rẻ bèo ở vị trí hấp dẫn để buộc người thuê cung cấp các số liệu cá nhân cần thiết. Năm 2019, tại Pháp có 1,3 triệu người bị đánh cắp lý lịch.

Lời khuyên: Không bao giờ gởi số liệu cá nhân qua e-mail. Mật khẩu cũng phải thay đổi thường xuyên.

Trợ giúp kỹ thuật dỏm

Khi đang lướt trên mạng bất ngờ xuất hiện cảnh báo: Cảnh báo, đã phát hiện một lổ hổng an ninh! Nó đề nghị gọi ngay cho một số điện thoại nào đó để giúp khắc phục. Có khi còn phải gởi tiền nữa. Khi trang web bất ngờ bị đứng, chớ lo. Chỉ cần đóng nó hay khởi động lại máy là trở về bình thường. Kiểu lừa này càng ngày càng phổ biến. Tháng 1.-2019, tại vùng Lyon, cảnh sát đã bắt được 3 tên chơi trò này. Chúng làm đứng máy, rồi đòi tiền chuộc, mỗi lần vài trăm euro và đã thành công đến 8.000 lần, thu hoạch được 1,9 triệu euro!

Căn hộ ma

Pascal 47 tuổi, nhân viên ngân hàng, kể: “Con gái tôi đi học tại Lyon, và từ Paris tôi muốn tìm thuê cho nó một căn hộ qua Internet. Tôi tìm thấy trên trang mạng LeBonCoin một căn hộ rất đẹp, giá rẻ và bị sập bẫy! Sau khi gọi điện thoại xác minh, chủ nhà đề nghị trả tiền trước cho tháng đầu tiên. Tôi đã gởi đi 600 euro. May thay, khi nghe nói về kiểu lừa loại này, nên ngăn chặn kịp thời không cho “chủ nhà” lãnh số tiền đó qua ngân hàng! Sau đó, tôi xác nhận: căn nhà đó không hề có thật! Kiểu cho thuê nhà dỏm qua mạng này rất phổ biến tại Pháp và rất khó phân biệt đâu là thật đâu là giả. Bọn lừa đảo sao chép hình ảnh những căn nhà thật, trả lời điện thoại nghiêm chỉnh, thậm chí còn giả làm nhân viên bất động sản nữa.

Lời khuyên: Hãy coi chừng những căn nhà quá đẹp và giá rẻ bèo so với thị trường! Không bao giờ gởi tiền trước khi đến tận nơi, vào bên trong xem xét kỹ lưỡng. Không tiết lộ hồ sơ lý lịch để đăng ký tạm trú.

Khủng bố tình dục

Tài không đợi tuổi. Hai tên nhóc người Pháp 20 và 21 tuổi mới bị bắt vì đã gởi 20 triệu e-mail trấn lột trong 1 năm và thu hoạch được khoảng 1 triệu euro! Chúng nói mình đã quay phim được nạn nhân đang thủ dâm khi xem phim sex, nhờ đánh cắp được dữ liệu của webcam, và đòi tiền chuộc từ 250-750 euro cho mỗi người để xóa đi! Đó thực sự là trấn lột tình dục. Thực ra, chúng chẳng nhìn thấy gì cả, nhưng nạn nhân vì quá sợ hãi mà phải chung tiền, Cảnh sát trưởng Jérôme Notin cho biết: “Nếu nạn nhân đã xem phim sex trước khi chúng gởi e-mail trấn lột trước đó mấy ngày, y sẽ biết ngay là giả mạo! Có 28.000 trường hợp như thế và có đến 1.900 đơn tố giác. Loại lừa đảo này đang ngày càng phổ biến. Năm 2018, FBI ghi nhận nó đã gia tăng đến 242%!

Lời khuyên: Không bao giờ chung tiền! Đó chỉ là hù dọa thôi.

Đinh Công Thành / Doanhnhanplus

Your Complete Guide to AI Career Pathways


So much confusion, so many doubts and questions around careers in AI! When deciding a career pathway, the lack of clarity can be really stressful. Instead of continuing to answer individual questions, I decided to address them once and for all. Developing an AI project involves various technical roles and tasks. Let’s demystify them! In […]

Your Complete Guide to AI Career Pathways — Towards Machine Learning