[Data] Khai mỏ vàng dữ liệu


Cuộc đua số hóa đang tạo ra nguồn dữ liệu khổng lồ để đưa nền kinh tế Việt Nam trở thành nền kinh tế số.

Trong một buổi phỏng vấn từ năm 2016, Giám đốc Tầm nhìn của Microsoft, ông Dave Coplin đã đưa ra một mệnh đề mà sau này được phổ biến rộng khắp bởi báo chí thế giới: “Dữ liệu sẽ là nhiên liệu mới cho tương lai. Khi có đủ dữ liệu, mọi thứ sẽ thay đổi”. Một năm ngay sau đó, tờ The Economist càng nhấn mạnh tầm quan trọng của dữ liệu còn hơn cả dầu mỏ: “Cho dù bạn đang chạy bộ, xem tivi hay tham gia giao thông, mọi hoạt động đều tạo ra dấu vết kỹ thuật số – nhiên liệu cho những nhà máy chưng cất dữ liệu tinh”.

GDP MỚI CỦA QUỐC GIA

5 năm đã trôi qua và viễn cảnh trên đã trở thành hiện thực. Dữ liệu không có gì mới, chúng ta vốn đã sử dụng nó từ hàng ngàn năm nay. Nhưng phải đến gần đây, với sự bùng nổ của những cảm biến thông minh, băng thông internet mạnh mẽ, vi xử lý giá rẻ, điện thoại được phổ cập, những cách xử lý dữ liệu mới, IPv6…  thì mọi hoạt động của con người mới được số hóa gần như trọn vẹn như vậy.

Dữ liệu đã trở thành món hàng giá trị nhất trên thị trường, là động lực chính giúp đưa bộ ngũ công ty lớn nhất thế giới – Facebook, Apple, Microsoft, Amazon và Alphabet (Google) – vượt mốc vốn hóa 1.000 tỉ USD. Dữ liệu mang lại cho họ quyền lực ngang bằng với các quốc gia, buộc chính phủ các nước liên tục tổ chức các phiên điều trần, nhằm hạn chế tầm ảnh hưởng của những gã khổng lồ này.

Nếu phải đưa ra một ví dụ để chứng minh quyền lực của những tập đoàn công nghệ lớn đến thế nào, hãy nhìn vào ngày ra mắt iOS 14.5. Một thay đổi nhỏ trong cách phân phối dữ liệu của Apple đã đủ làm chao đảo toàn bộ thế giới internet, có thể quét sạch gần hết những ứng dụng nhỏ.

Và với tiềm lực khổng lồ của mình, không có gì lạ khi người ta gọi dữ liệu (data) là GDP mới (Gross Data Product) của quốc gia. Nếu tận dụng tốt, các nước có thể mở rộng không ngừng đường biên giới của mình và thu hút được những công dân ưu tú nhất gia nhập.

Việt Nam có mức tăng cao nhất ở Đông Nam Á, khoảng 41%,  về số lượng người tiêu dùng kỹ thuật số mới trong đại dịch.
Việt Nam có mức tăng cao nhất ở Đông Nam Á, khoảng 41%, về số lượng người tiêu dùng kỹ thuật số mới trong đại dịch.

IBM chia dữ liệu ra làm 8 loại: Địa điểm (GPS), Môi trường (nhiệt độ, sức gió), Máy móc (dữ liệu tạo ra khi máy móc tương tác với nhau), Cơ thể (huyết áp, nhịp tim), Sự kiện (một trận bóng), Tính chất (màu sắc, độ sáng), Cử động (chiều và hướng một chiếc xe đạp đang chạy) và Định hướng (chiếc điện thoại đang úp hay đang lật).

Mỗi loại dữ liệu sẽ được sử dụng cho một mục đích khác nhau. Như dữ liệu về màu sắc và độ sáng của một điểm màu sẽ được sử dụng để đồng bộ với màu sắc và độ sáng của điểm màu bên cạnh, tạo nên một đoạn phim quảng cáo ở quảng trường. Hay kết hợp dữ liệu địa điểm và cử động của một chiếc xe để đưa ra các hướng dẫn giao thông trong Google Maps.

“Theo thống kê, trung bình mỗi người tạo ra 1,7 GB dữ liệu một ngày”, ông Lê Hồng Minh, Tổng Giám đốc VNG, cho biết. “Đó là nguồn dữ liệu vô cùng lớn, nhưng cũng như dầu thô, dữ liệu thô không có giá trị. Quan trọng là phải thu thập, phân tích và xử lý dữ liệu như thế nào”, ông nói thêm. Theo ông Minh, 99% dữ liệu hiện ở dạng thô, chỉ 1% được xử lý để tạo ra giá trị. Trong 1% này, phần lớn do các doanh nghiệp đa quốc gia trên thế giới xử lý. Các nguồn dữ liệu tại Việt Nam cũng rời rạc, không liên thông và trùng lặp. Người dùng không biết thông tin của mình đang bị ai thu thập và thu thập để làm gì.

Trên thực tế, IBM cũng đã chỉ ra trong toàn bộ những dữ liệu đó, một dữ liệu được cho là chất lượng khi nó phục vụ tốt cho quá trình ra chiến lược của công ty hay một đất nước. Ngược lại, những dữ liệu không chất lượng là khi nó dư thừa, trùng lặp, sai lệch, hoặc bị nhiễu – trong nhiều trường hợp lỗi nằm ở khâu thu thập, trong nhiều trường hợp khác lỗi nằm ở khâu phân tích.

Đôi khi dù thu thập đúng số liệu, nhưng sử dụng nó không chính xác cũng gây ra thiệt hại lớn. Mội sai lầm thường gặp khi đánh giá hiệu suất của nhân viên là sử dụng KPI thiên về những chỉ số quá khứ, khiến những người thật sự đóng góp vào sự phát triển tương lai của công ty bị đánh giá thấp – như hoạt động tận tình tư vấn khách hàng hay những đóng góp thầm lặng cho công việc chung sẽ khó lòng thể hiện trên KPI.

Theo nghiên cứu của Gartner, thiệt hại trung bình do dữ liệu kém chất lượng gây ra là khoảng 9,7 triệu USD mỗi năm. Nhận biết được điều này, 1/3 chuyên viên phân tích dữ liệu đã báo cáo rằng họ dành 40% thời gian để kiểm chứng dữ liệu thu thập được trước khi làm bất cứ điều gì khác, theo Forrester.

Giả sử bạn đang sử dụng một đồng hồ thông minh chạy hệ điều hành Android để theo dõi tình trạng sức khỏe, bao gồm nhịp tim, nhiệt độ cơ thể, tình trạng giấc ngủ và độ đều đặn của hơi thở. Hằng ngày, chiếc đồng hồ này sẽ thu thập dữ liệu về sức khỏe của bạn, phân tích những bệnh lý tiềm năng để cảnh báo sớm nhất có thể.

Đồng thời, chiếc đồng hồ cũng gửi những thông tin về sức khỏe của bạn cho ngành công nghiệp dược phẩm, để họ xác định tình trạng sức khỏe chung của toàn dân số, qua đó xác định những sản phẩm cần được phát triển trong tương lai. Chiếc đồng hồ cũng liên kết với một sàn thương mại điện tử và cả trang Facebook cá nhân của bạn, từ đó bạn sẽ nhận được những quảng cáo cá nhân hóa, nhắm thẳng vào tình trạng sức khỏe cũng như thói quen sinh hoạt của mình.

Theo một cách như vậy, dòng dữ liệu luôn luân chuyển từ nền tảng này sang nền tảng khác, giúp cỗ máy kinh tế vận hành hiệu quả. Hãy thử tưởng tượng xem liệu thế giới ngày nay sẽ kém tiện nghi như thế nào, nếu bạn không thể liên kết dữ liệu từ chiếc thẻ tín dụng của mình với ứng dụng đặt đồ ăn, hoặc nếu không thể sử dụng dữ liệu từ Facebook để đăng nhập mọi loại ứng dụng khác. Một mẩu dữ liệu được tạo ra ở một ứng dụng, sẽ được lan truyền đến những ứng dụng khác, từ đó vang vọng ra khắp mọi ngóc ngách trên internet.

Phân tích sâu hơn về các bên tham gia trong nền kinh tế dữ liệu, IBM đã chỉ ra 2 người chơi chính: Người sản xuất dữ liệu và Người trình diễn dữ liệu. Người sản xuất dữ liệu là khởi đầu của tất cả, họ là những ứng dụng, nền tảng, phần mềm thu thập dữ liệu từ người dùng, rồi bán cho những doanh nghiệp khác, có thể là để quảng cáo, để phân tích xu hướng, hoặc để cải thiện trải nghiệm người dùng. Theo dữ liệu từ năm 2014, Công ty Nghiên cứu thị trường IDC báo cáo: “50,6% doanh nghiệp châu Á – Thái Bình Dương muốn tạo ra doanh thu từ việc bán dữ liệu của họ”.

Người trình diễn dữ liệu sẽ đảm nhận khâu đầu ra, sử dụng dữ liệu để tương tác với khách hàng. Bloomberg là nhà trình diễn dữ liệu tiên phong của thế giới. Từ những năm 1980, ấn phẩm điện tử của họ đã cung cấp cho độc giả những thông tin thời gian thực về thị trường tài chính, tin tức trong ngày, giá hàng hóa… Họ cũng sử dụng những bảng biểu và màu sắc giúp việc đọc dữ liệu trở nên dễ dàng hơn. Theo các nghiên cứu, chính việc trình bày dữ liệu một cách trực quan đã thúc đẩy lòng trung thành của người tiêu dùng và tăng doanh thu đáng kể cho doanh nghiệp.

Ngoài 2 người chơi chính này, còn các bên trung gian khác cũng tham gia vào nền kinh tế dữ liệu, bao gồm: Người tổng hợp dữ liệu, Người phân tích ý nghĩa và Chủ sở hữu nền tảng. Tất cả tạo nên một chuỗi giá trị mới, nơi dữ liệu khách hàng nằm ở trung tâm, còn mọi hoạt động vận hành kinh doanh sẽ nằm ở vòng ngoài, tương tác với nhau thông qua dữ liệu ở giữa.

Sẽ không còn mô hình nụ cười của Stan Shih – phân chia rõ ràng các khâu từ thiết kế, sản xuất, bán hàng theo một đường tuyến tính. Thay vào đó, các doanh nghiệp sẽ trực tiếp tương tác với khách hàng để biết phải sản xuất cái gì, chuẩn bị những nguyên liệu gì, phân phối và bán lẻ ra sao. Tất cả sẽ trở nên bình đẳng trong chuỗi giá trị nếu biết tận dụng dữ liệu.

VẠCH XUẤT PHÁT CỦA VIỆT NAM

Trong một nền kinh tế xưa cũ, quốc gia nào sở hữu càng nhiều doanh nghiệp lớn mạnh thì sẽ càng hùng mạnh. Nhưng trong một nền kinh tế dữ liệu, quốc gia nào sản sinh ra càng nhiều dữ liệu chất lượng sẽ càng hùng mạnh. 

Theo báo cáo nghiên cứu của McKinsey, 4 yếu tố quan trọng nhất để đánh giá tiềm lực dữ liệu của quốc gia là: (1) Khối lượng dữ liệu, (2) Số lượng người dùng, (3) Khả năng truy cập và (4) Độ phức tạp của dữ liệu. Theo đó, một quốc gia càng có khối lượng dữ liệu lớn, nhiều người dùng, độ mở của dữ liệu cao và chất lượng dữ liệu tinh vi phức tạp thì quốc gia càng có lợi thế trong bức tranh kinh tế dữ liệu toàn cầu.

Nền kinh tế số của Việt Nam được dự báo sẽ tăng lên 52 tỉ USD vào năm 2025.
Nền kinh tế số của Việt Nam được dự báo sẽ tăng lên 52 tỉ USD vào năm 2025.

Không có gì bất ngờ khi McKinsey xếp Mỹ, Anh và Trung Quốc là 3 quốc gia hàng đầu trong nền kinh tế dữ liệu. Trong đó, Trung Quốc có tiềm lực rất lớn. Tuy nhiên, nước này xếp thứ 3 vì khả năng truy cập dữ liệu xếp gần cuối thế giới. Trong bảng xếp hạng này, McKinsey đã bỏ qua Việt Nam. Đây không phải lần đầu, năm 2019, khi Harvard Business Review (HBR) công bố Chỉ số Dễ dàng kinh doanh số (Ease of Doing Digital Business – EDDB), có 5 quốc gia Đông Nam Á được xếp hạng gồm Singapore (hạng 13), Thái Lan (hạng 33), Philippines (hạng 34), Malaysia (hạng 36), Indonesia (hạng 41), nhưng lại không có Việt Nam.

Lý do được đưa ra là Việt Nam không có một bộ dữ liệu nhất quán về các chỉ số và các con số thống kê. Tuy nhiên, không cần đến McKinsey hay HBR, việc nước ta thiếu nền tảng cho một nền kinh tế dữ liệu có thể được thấy rõ trong những lĩnh vực trụ cột như khó khăn trong thống kê GDP, chuyển đổi số quản lý chính phủ chưa toàn diện, thiếu trầm trọng những thống kê khoa học và các chính sách thúc đẩy sự minh bạch dữ liệu chưa phát huy hiệu quả. Đây đều là những vấn đề cấp thiết, cần phải được giải quyết nếu không muốn bị tụt hậu trong một nền kinh tế mới.

Tuy nhiên, Việt Nam đang định hướng trở thành một nền kinh tế số, kéo theo đó là nhiều chính sách để thúc đẩy xu hướng này. Theo nghiên cứu của Google, Temasek và Bain, nền kinh tế số của Việt Nam được dự báo sẽ tăng lên 52 tỉ USD vào năm 2025, tăng 29% hằng năm so với năm 2020. Từ năm 2016 đến nửa đầu năm 2020, các nhà đầu tư đã rót 1,9 tỉ USD vào lĩnh vực trực tuyến của Việt Nam. Ông Ralf Matthaes, Giám đốc Điều hành của Infocus Mekong Research, nhận định: “Việt Nam đang ở giai đoạn đầu trở thành một xã hội số hóa với dân số trẻ yêu thích công nghệ. Vì vậy, các công ty đang hào hứng cung cấp những dịch vụ này”.

Nhóm các nhà đầu tư do Alibaba và Baring Private Equity Asia dẫn đầu đang rót 400 triệu USD cho 5,5% cổ phần trong chi nhánh bán lẻ của Tập đoàn Masan tại Việt Nam. Là một phần của thỏa thuận được công bố ngày 18.5, Masan sẽ hợp tác với Lazada, đơn vị thương mại điện tử Đông Nam Á của Alibaba. M-Service JSC – một công ty khởi nghiệp Việt Nam được Goldman Sachs Group rót vốn, hỗ trợ vận hành ứng dụng thanh toán MoMo – vào tháng 1 đã huy động được hơn 100 triệu USD từ một nhóm các nhà đầu tư, trong đó có Warburg Pincus. Sàn thương mại điện tử Tiki vừa huy động thành công thêm 130 triệu USD trong vòng huy động vốn mới nhất mà dẫn đầu là công ty quản lý quỹ đầu tư tư nhân Northstar Group…

Có thể thấy, khối doanh nghiệp tư nhân Việt Nam lại được đánh giá rất cao trong việc bắt kịp xu thế dữ liệu. Dân số trẻ của Việt Nam cũng đang nắm bắt nhanh chóng xu hướng dữ liệu của thế giới. Với 45 triệu người thuộc thế hệ Millennials (18-38 tuổi) và 70% dân số sử dụng internet, lượng dữ liệu người Việt tạo ra trên các nền tảng lớn của thế giới như Facebook, YouTube, TikTok là vô cùng khổng lồ. Đây là thị trường béo bở thu hút các tập đoàn công nghệ toàn cầu gia nhập.

Các ngành nghề liên quan tới dữ liệu như công nghệ thông tin, phân tích dữ liệu, khoa học dữ liệu, đặc biệt là ứng dụng các mô hình hồi quy trong marketing đang là những ngành nóng nhất ở Việt Nam, thu hút nhiều sinh viên theo học và cả nhân sự trái ngành theo đuổi.

Những startup công nghệ Việt ngày càng được đánh giá cao. Theo báo cáo kinh tế số e-Conomy SEA năm 2020 của Google, VNPay đã tiếp bước VNG trở thành kỳ lân (được định giá từ 1 tỉ USD trở lên) thứ 2 của Việt Nam. MoMo, Tiki và Sendo là những ứng cử viên sáng giá khác cho cuộc đua 1 tỉ USD này. Cả 3 hiện đã huy động thành công trên 100 triệu USD.

Tất cả tạo nên một bức tranh cực kỳ năng động cho nền kinh mới của Việt Nam. Tuy nhiên, để thật sự làm chủ được xu hướng mới này, rất cần sự đồng hành và phối hợp từ khối Nhà nước lẫn tư nhân. Bài toán ngay trước mắt là xây dựng được một hệ thống dữ liệu thống kê chất lượng và dễ truy cập trên toàn quốc.

Theo Nhịp Cầu Đầu Tư

Thể thao thời công nghệ phân tích


Đâu là bản hợp đồng ấn tượng nhất của CLB Manchester City trong năm qua? Không phải một ngôi sao lừng lẫy nào cả, mà đó là chuyên gia phân tích dữ liệu Laurie Shaw!

Hãng tin BBC không hề quá lời khi đưa ra nhận định đó. Phân tích dữ liệu ngày càng trở thành một nội dung không thể thiếu của thế giới thể thao.

Ảnh: wyscout.com

Bùng nổ công nghệ

Khi đại dịch bùng lên ở châu Âu một năm trước, người ta đã bắt đầu nói về vai trò của các thiết bị công nghệ. 

Vào lúc các giải đấu bị hủy bỏ hàng loạt, những chuyến tập huấn ngày càng xa vời, và ngay cả việc ra sân tập luyện như bình thường cũng trở nên khó khăn, các thiết bị công nghệ trở thành thứ cứu vãn VĐV.

Với một thiết bị GPS, các VĐV dễ dàng đo được hiệu suất tập luyện, kiểm soát luôn cả những thông số kỹ thuật như nhịp tim, để xây dựng dữ liệu và kế hoạch tập luyện.

 Những thiết bị GPS còn là nền tảng để những môn như xe đạp, chạy bộ tổ chức các giải đấu ảo. VĐV chỉ cần kết nối thiết bị của mình với hệ thống giải đấu là có thể tham dự, thi đấu và so sánh thành tích. 

Tất cả đã trở thành bình thường mới một năm qua, dù cách đây chưa lâu, những điều đó nghe như viễn tưởng.

“Khi chúng tôi thành lập công ty cách đây 12 năm, công nghệ này còn rất sơ khai. Mọi người không hiểu vì sao chúng tôi lại phải phức tạp hóa vấn đề với việc tập luyện như vậy. Suy nghĩ khi đó là mỗi CLB đều có đội ngũ đông đảo các HLV với nhiều vai trò khác nhau. Tại sao phải sử dụng quá nhiều thiết bị nữa?” – ông Sean O’Connor, người đồng sáng lập Công ty phân tích dữ liệu thể thao STATSports, nói.

STATSports có trụ sở tại Bắc Ireland, được xem là một trong những công ty phân tích dữ liệu thể thao hàng đầu thế giới hiện nay. Rất nhiều CLB ở Premier League sử dụng phần mềm của họ. 

Vào năm 2018, công ty đạt thỏa thuận trị giá 1,2 tỉ USD với Giải bóng đá nhà nghề Mỹ (MLS) để cung cấp thiết bị kỹ thuật cho các CLB của giải trong thời hạn 5 năm.

Năm 2020, công ty phát triển phần mềm Sonra 3.0 cho phép các đội xem dữ liệu gần như ngay lập tức từ iPad hoặc Apple Watch (AAPL), để ngay cả trong trận đấu, ở thời gian thực, VĐV và HLV có thể nhận phản hồi và điều chỉnh chiến thuật.

Tốc độ, thời gian, quãng đường di chuyển thật ra chỉ là những thông số cơ bản nhất mà STATSports hay các công ty công nghệ tương tự cung cấp. Để phân tích dữ liệu trong bóng đá còn rất nhiều chỉ số phức tạp khác.

“Những VĐV ưu tú luôn muốn biết tại sao họ chưa giỏi bằng đối thủ dù tập luyện như nhau. Và chúng tôi phải cung cấp cho họ những thiết bị có thể đo lường điều đó” – Tom Allen, người đứng đầu đội ngũ phân tích dữ liệu của CLB Arsenal từ năm 2017, cho biết.

Đo đếm mọi thứ mọi nơi

Một trong những dụng cụ phổ biến nhất trong phân tích dữ liệu bóng đá là theo dõi quang học. Thiết bị này được sử dụng để chụp lại vị trí của mỗi cầu thủ trên sân 25 lần một giây, từ đó đưa ra phân tích liên quan đến việc cầm bóng, sự di chuyển của đối thủ và đồng đội. 

Sự xuất hiện của những thủ môn chơi bóng bằng chân điêu luyện như ter Stegen có đóng góp lớn của công nghệ dữ liệu thể thao. Ảnh: Barca Blaugranes

Theo dõi quang học là thứ không thể thiếu trong các trận đấu. Bởi chúng ta cũng biết, không một HLV, hay kể cả là nguyên ban huấn luyện nào có thể bao quát toàn bộ sân đấu.

Phản xạ tự nhiên khiến gần như tất cả mọi người thường chỉ dõi theo trái bóng, hay cụ thể hơn là người đang cầm bóng. Cần đến công nghệ để xác định bước di chuyển của 21 cầu thủ còn lại trên sân.

Giống như chiến thuật, hệ thống phân tích dữ liệu trận đấu cũng được chia ra làm hai mảng tấn công và phòng ngự. Ở mảng tấn công, các thiết bị đo đạc dữ liệu về tỉ lệ chuyền bóng, dứt điểm, các pha phối hợp, tốc độ lên bóng…; trong khi với phòng ngự là khoảng cách tối ưu giữa các hậu vệ, khả năng kiểm soát bóng, hiệu quả không chiến, tranh chấp, kỹ năng chống phản công…

Đó là các thiết bị theo dõi từ ngoài sân. Còn ngay trên sân bóng, cầu thủ có thể mang thiết bị đo chỉ số cá nhân của họ như lực sút bóng, độ bền thể lực, tốc độ chạy, nhịp tim… 

“Không bao giờ được phép đánh giá thấp giá trị của dữ liệu và các nhà phân tích – Trevor Watkins, người đứng đầu mảng thể thao của Công ty luật Pinsent Masons và là cựu chủ tịch CLB Bournemouth, nói – Những nhà phân tích dữ liệu ngày nay nắm vai trò lớn trong bóng đá. HLV Arsene Wenger là một trong những người tiên phong trong việc kết nối với lĩnh vực này”.

Cũng như điền kinh hay đạp xe, tầm quan trọng của các thiết bị đo đạc và phân tích dữ liệu càng được nhấn mạnh khi đại dịch xuất hiện. 

Những rào cản về giãn cách xã hội khiến các đội bóng không thể triển khai chương trình tập luyện như thường lệ, và họ cần đến sự phân tích từ xa hơn bao giờ hết.

Theo Grand View Research, ngành công nghiệp phân tích thể thao có thể trị giá 4,6 tỉ đôla vào năm 2025, với công nghệ đã bắt đầu lan xuống tận cấp độ nghiệp dư. 

Các công ty như Catapult của Úc (cũng có khách hàng ở Premier League) và STATSports đã phát triển các hệ thống nhắm vào thị trường thể thao đại chúng này.

Trong mảng đào tạo trẻ, đất dụng võ của công nghệ phân tích dữ liệu càng hứa hẹn hơn. Đại dịch khiến công tác tuyển trạch trực tiếp gặp rất nhiều khó khăn, nên giống như việc theo dõi cầu thủ tập luyện tại nhà, giờ các CLB có thể “xem giò cẳng” những cầu thủ trẻ mục tiêu dựa trên tổng hợp và phân tích dữ liệu.

Quan trọng hơn, khi phải làm việc với số lượng lớn cầu thủ, giá trị của công nghệ cũng tăng theo. Thực tế là với dữ liệu quá lớn, hệ thống sàng lọc công nghệ chắc chắn sẽ hiệu quả hơn đội ngũ tuyển trạch là người.

Đo trên sân tập, trong trận đấu, trong công tác tuyển trạch, và giờ người ta còn kỳ vọng công nghệ đo được cả… tương lai. Duncan Alexander, người đứng đầu Công ty Stat Perform tin rằng các hệ thống công nghệ sẽ sớm đưa ra được nhận định gần như chuẩn xác nhất về phong độ của cầu thủ và thậm chí là kết quả các trận đấu.

Một ví dụ, mốt thời thượng của bóng đá hiện đại là các thủ môn không chỉ giỏi bắt bóng mà còn phải biết cầm bóng, tranh chấp, phòng ngự từ xa, thậm chí là triển khai tấn công, như Manuel Neuer, Marc-André ter Stegen, Alisson, Ederson… có cơ sở quan trọng là phân tích dữ liệu. 

Trước trận đấu, ban huấn luyện sẽ xem xét khả năng di chuyển của đối phương để đưa ra chỉ đạo hợp lý cho thủ môn của mình.

Dữ liệu thống kê không phải là tất cả trong bóng đá, nhưng nó mang lại một kết quả gần đúng, và quan trọng hơn, nó cho thấy một thế giới thể thao luôn luôn vận động để thay đổi.

HUY ĐĂNG / TTCT

Big Data hiểu bạn hơn cả người tình và bố mẹ


8h30 sáng 9/11, Michal Kosinski thức giấc trong khách sạn Sunnehus ở Zurich, Thụy Sĩ. Nhà khoa học 34 tuổi đến để báo cáo trong hội thảo về hiểm nguy của Big Data và cái gọi là “cách mạng số”. Anh đi khắp thế giới để trình bày những báo cáo này, bởi anh là chuyên gia hàng đầu trong lĩnh vực psychometrics – ngành tâm lý học dựa trên phân tích dữ liệu. Bật TV xem, anh chợt hiểu: quả bom đã phát nổ. Donald Trump đã được bầu làm tổng thống Mỹ, bất chấp dự báo của các nhà xã hội học.

Kosinski xem tin về thắng lợi của Trump hồi lâu, xem kết quả bầu cử các bang khác nhau. Trong anh xuất hiện nghi ngờ rằng những gì đang xảy ra có liên quan đến công trình khoa học của mình. Anh thở dài rồi tắt TV.

a26d9c0c6b06c0b26b6434f13ceb70-8509-5599
Thành công của Trump trong cuộc bầu cử Tổng thống thứ 45 ở Mỹ là câu chuyện mới nhất của Big Data. Ảnh: Yahoo.

Cũng ngày hôm đó, một công ty nhỏ chưa ai nghe tên ở thủ đô London của Anh đã gửi đi thông cáo báo chí: “Chúng tôi lấy làm kinh ngạc vì phương pháp truyền thông dựa trên dữ liệu có tính cách mạng của mình đã góp phần đáng kể vào chiến thắng của Donald Trump”. Thông cáo được ký bởi một người tên là Alexander Nix. Anh này 41 tuổi, người Anh và lãnh đạo Công ty Cambridge Analytica. Nix luôn mặc vét, đeo cặp kính thời trang, với mái tóc quăn sáng màu chải ra sau gáy.

Kosinski trầm tư, Nix bóng mượt và Trump ngoác cười – người thứ nhất đã làm cho cách mạng số khả thi, người thứ hai thực hiện nó, và nhờ nó mà người thứ ba đã giành thắng lợi.

Big Data nguy hiểm đến mức nào?

Ngày nay, bất cứ ai không sống trên Mặt trăng 5 năm vừa qua đều quen với thuật ngữ Big Data. Thuật ngữ đó còn có nghĩa là tất cả những gì ta làm, trên mạng hay offline, đều để lại dấu vết số. Mua bằng thẻ, tìm trên Google, dạo chơi với điện thoại trong túi, từng like trên mạng xã hội – tất cả đều được lưu lại. Một thời gian dài không ai hình dung có thể sử dụng các dữ liệu ấy làm gì, chắc chỉ trừ trường hợp kiểu trên Facebook bỗng hiện quảng cáo thuốc bởi vì trước đó ta vào Google gõ câu “hạ huyết áp”. Cũng không ai biết Big Data sẽ là gì đối với nhân loại – hiểm họa lớn hay thành tựu vĩ đại? Nhưng từ ngày 9/11, chúng ta đã biết câu trả lời. Đằng sau chiến dịch tranh cử của Trump trên mạng, và đằng sau chiến dịch ủng hộ Brexit là cùng một công ty chuyên nghiên cứu Big Data: Cambridge Analytica (CA) và Giám đốc Nix. Ai muốn hiểu bản chất của những cuộc bỏ phiếu đó (và bản chất của cả những sự kiện sắp xảy ra), cần bắt đầu từ sự kiện năm 2014 ở Đại học Cambridge, Vương quốc Anh. Hay cụ thể hơn là ở bộ môn Psychometrics của Kosinski.

Psychometrics, đôi khi gọi là psychography, là một phương pháp đo nhân cách. Trong tâm lý học hiện đại, phổ biến nhất là phương pháp OCEAN (từ chữ cái đầu của 5 chiều đo). Vào những năm 1980, có hai nhà tâm lý học đã chứng minh là mỗi người có thể được đo bằng 5 chiều. Đó là Big Five: độ mở đối với trải nghiệm (Openness ), sự tận tâm (Conscientiousness), sự hướng ngoại (Extraversion), sự dễ chịu (Agreeableness) và sự nhạy cảm (Neuroticism).  Trên cơ sở những số đo ấy có thể hiểu chính xác bạn là ai, bạn có mong muốn và nỗi sợ hãi nào, và cuối cùng là bạn sẽ hành xử như thế nào. Trở ngại chính là việc thu thập dữ liệu: Để hiểu được một người, cần phải điền bảng hỏi khổng lồ. Nhưng rồi xuất hiện Internet, rồi Facebook, rồi Kosinski.

Năm 2008, sinh viên Michal Kosinski từ Ba Lan bắt đầu cuộc sống mới ở trường Đại học Cambridge danh tiếng của nước Anh, Trung tâm Psychometrics, phòng thí nghiệm Cavendish – phòng thí nghiệm đầu tiên trên thế giới về môn này. Với cộng sự, anh đã sáng tạo và đưa app MyPersonality vào sử dụng trên Facebook. Người dùng được đề nghị điền một bảng hỏi lớn (kiểu: “khi bị stress, bạn có dễ mất kiểm soát? Bạn có xu hướng phê phán người khác?) để biết hồ sơ nhân cách của mình, còn các tác giả sẽ có được những dữ liệu cá nhân vô giá. Thay vì chỉ nhận được vài chục bộ dữ liệu của nhau, họ đã nhận được dữ liệu của hàng trăm, nghìn rồi triệu người dùng. Bằng cách đó, hai nghiên cứu sinh đã thu hoạch được vụ mùa dữ liệu lớn chưa từng có trong lịch sử nghiên cứu tâm lý.

maxresdefault.jpg
Michal Kosinski. Ảnh: Youtube.

Quá trình mà Kosinski và các cộng sự phát triển trong mấy năm tương đối đơn giản. Thứ nhất, người dùng nhận được một bảng hỏi online. Từ câu trả lời, các nhà khoa học tính ra những phẩm chất của họ. Tiếp theo, Kosinski và nhóm nghiên cứu các hành động của họ: Like và re-post trên Facebook, và giới tính, độ tuổi và nơi ở. Qua đó nhóm thu được các liên kết. Từ kỹ thuật phân tích đơn giản các dữ liệu trên mạng có thể cho ra những kết luận bất ngờ. Ví dụ, nếu một người đàn ông là fan của page mỹ phẩm MAC, khả năng lớn là đồng tính. Ngược lại, anh ta rất nam tính nếu là fan của ban nhạc hiphop Wu-Tang Clan ở New York. Fan của Lady Gaga khả năng lớn là người hướng ngoại, còn kẻ hay like các post mang tính triết lý thì hướng nội.

Nhóm Kosinski liên tục hoàn thiện mô hình của mình. Năm 2012, Kosinski chứng minh rằng chỉ cần phân tích 68 like trên Facebook là đủ xác định màu da của người dùng (xác suất 95%), khả năng đồng tính (88%) và thiên hướng ủng hộ đảng Dân chủ hay Cộng hòa Mỹ (85%). Quá trình còn tiến xa hơn: Mức độ thông minh, thiên kiến tôn giáo, mức độ nghiện rượu, thuốc lá hay ma túy.  Dữ liệu thậm chí cho phép xác định là cha mẹ đối tượng có ly dị trước khi người này trưởng thành hay không. Mô hình hiệu quả đến mức cho phép đoán được câu trả lời của đối tượng cho một số câu hỏi. Say sưa vì thành quả, Kosinski tiến tiếp: nhanh chóng, mô hình cho phép chỉ với việc phân tích 10 like đã hiểu nhân cách đối tượng tốt hơn đồng nghiệp của họ, sau 70 like – tốt hơn cả bạn thân, sau 150 – hơn cả bố mẹ, sau 300 – hơn cả bạn tình. Nếu nghiên cứu nhiều hành động hơn thì có thể biết về đối tượng hơn cả chính họ. Vào ngày Kosinski công bố bài báo về mô hình của mình, anh nhận được hai cuộc gọi: Khiếu nại và mời làm việc. Cả hai đều từ Facebook.

Chỉ dành cho bạn bè

Người dùng có thể chọn cho post của mình là public (mở – ai cũng có thể xem được) hay private (kín) trên Facebook, trường hợp sau thì chỉ có một số người nhất định có thể xem. Nhưng đó không là trở ngại cho nhóm thu thập dữ liệu. Kosinski luôn yêu cầu người dùng Facebook đồng ý cho sử dụng dữ liệu cá nhân nếu họ muốn tham gia các bài test.

Nhưng câu chuyện không chỉ dừng lại ở các like, Kosinski và nhóm có thể đánh giá đối tượng dựa trên Big Five thông qua hình ảnh đại diện và những ảnh họ đưa lên mạng xã hội. Hay có thể theo số lượng friend: Chỉ số tốt cho khả năng hướng ngoại! Nhưng ngay cả khi không ở trên mạng, chúng ta cũng lưu vết. Sensor chuyển động trong điện thoại cho thấy ta có vung tay khi dùng nó hay không, hay di chuyển xa cỡ nào (cái này liên quan đến mức độ ổn định của cảm xúc). Như Kosinski nhận xét, điện thoại là một bảng hỏi tâm lý học khổng lồ, mà chúng ta điền hàng ngày, vô tình hay hữu ý. Đặc biệt quan trọng, điều này có ích cho cả chiều ngược lại, không chỉ cho phép lập chân dung tâm lý của người dùng, mà còn cho phép tìm kiếm những người có chân dung cần thiết. Ví dụ, những ông bố lo lắng, những kẻ hướng nội giận dữ, hay những người ngả theo đảng Dân chủ nhưng còn lưỡng lự bỏ phiếu. Về bản chất, đó là hệ thống tìm kiếm con người.

Càng ngày Kosinski càng hiểu cả tiềm năng lẫn nguy cơ của công trình của mình.

Anh luôn coi Internet là món quà của Thượng đế. Luôn muốn “quay lại”, “chia sẻ”. Đấy là linh hồn của thế hệ mới, là khởi đầu của kỷ nguyên mới không biên giới vật lý. Nhưng điều gì sẽ xảy ra nếu có ai đó sử dụng hệ thống tìm kiếm này để chi phối con người? Anh bắt đầu đưa các lời cảnh báo vào tất cả các công trình do mình công bố. Cảnh báo rằng phương pháp của anh “có thể tạo ra nguy hiểm cho đời sống, tự do hay thậm chí tính mạng mọi người”. Nhưng dường như không ai hiểu hậu quả có thể là gì.

Cùng thời điểm, đầu năm 2014, một phó giáo sư trẻ có tên Alexander Kogan tìm đến Kosinski. Ông ấy đại diện cho một công ty quan tâm đến phương pháp của Kosinski. Đề án là sử dụng psychometrics để phân tích 10 triệu người dùng Mỹ trên Facebook. Khách hàng không tiết lộ mục đích, vì lý do bảo mật. Ban đầu Kosinski đồng ý, bởi dù sao việc đó cũng đem lại khoản tiền lớn cho viện của anh, nhưng rồi anh lại trì hoãn. Cuối cùng, anh cũng yêu cầu Kogan tiết lộ tên công ty: SCL – Strategic Communications Laboratories. Anh thử vào Google tìm hiểu – “chúng tôi là công ty toàn cầu chuyên về quản lý các chiến dịch tranh cử” – website của công ty ghi, và chào dịch vụ tiếp thị dựa trên tâm lý và logic. Những trò ảo thuật làm ảnh hưởng kết quả bầu cử. Kosinski lướt qua các trang của website, nghĩ mung lung về việc công ty này sẽ làm gì ở Mỹ.

Tuy nhiên, khi đó Kosinski chưa biết, đằng sau SCL là một hệ thống công ty phức tạp, liên quan đến thiên đường thuế: sau này được Hồ sơ Panama và Wikileaks tiết lộ. Một phần của hệ thống đó phải chịu trách nhiệm về khủng hoảng ở các nước đang phát triển, phần khác đã giúp NATO xây dựng phương pháp chi phối tâm lý người dân Afghanistan. Một trong những công ty con của SCL chính là Cambridge Analytica (CA), một công ty nhỏ nhưng nguy hiểm, đã tổ chức các chiến dịch trên Internet để ủng hộ Brexit và Trump.

Kosinski không biết về điều đó nhưng cũng cảm thấy có gì đó không ổn. Tìm hiểu thêm, anh biết rằng Kogan đã thành lập một công ty bí mật giao dịch với SCL. Từ tài liệu mà Das Magazine có, có thể suy ra rằng SCL nhận được các thông tin về phương pháp của Kosinski là từ tay Kogan. Đột nhiên, Kosinski nhận ra rằng Kogan có thể sao chép hoặc dựng lại hệ thống của anh, để rồi bán lại cho các chuyên gia chính trị học của SCL. Nhà khoa học trẻ ngay lập tức ngừng hợp tác với Kogan và thông báo với lãnh đạo viện. Mâu thuẫn xuất hiện trong viện, ảnh hưởng đến uy tín tổ chức. Kogan chuyển sang Singapore, lấy vợ và bắt đầu tự xưng là tiến sỹ Spectre (nhân vật truyện tranh). Kosinski sang Mỹ và bắt đầu làm ở Stanford.

Trong hơn một năm sau đó, mọi thứ yên bình; nhưng đến tháng 11/2015, lãnh tụ phái cấp tiến ủng hộ Brexit Nigel Farage tuyên bố là website của ông ấy bắt đầu làm việc với một công ty chuyên về Big Data, chính là CA. Năng lực cốt lõi của công ty này là tiếp thị chính trị (political marketing) kiểu mới, còn được gọi là microtargeting, trên nền tảng phương pháp OCEAN.

Kosinski bắt đầu nhận được nhiều thư tín – dựa trên các từ Cambridge, OCEAN và Analytica, nhiều người nghĩ rằng anh có liên quan. Nhưng thật ra chỉ đến lúc đó anh mới biết đến sự tồn tại của công ty này. Lo sợ, anh tìm hiểu website của họ. Ác mộng đã thành hiện thực: phương pháp của anh đã được sử dụng vào cuộc chơi chính trị lớn.

Vào tháng 7, sau trưng cầu dân ý về Brexit với việc nước Anh rời EU, những lời nguyền rủa bắt đầu hướng về anh. “Hãy nhìn xem, ông đã làm gì!”. Mỗi lẫn như vậy, Kosinski lại phải tự bào chữa và chứng minh rằng mình không liên quan gì đến công ty kia.

Hết Brexit lại Trump

Mười tháng trôi qua. Vào ngày 19/9, chiến dịch tranh cử tổng thống Mỹ đang ở cao trào. Phòng họp khách sạn Grant Hyatt ở New York với tông màu xanh đậm tràn đầy tiếng guitar – ban nhạc Creedence Clearwater Revival đang chơi bài Bad Moon Rising. Đó là Concordia summit, một dạng diễn đàn kinh tế thế giới thu nhỏ. Những người quyền lực nhất trên thế giới đều có mặt. “Xin chào mừng Alexander Nix, giám đốc Cambridge Analytica”, khán phòng vang lên một giọng nữ dễ chịu. Trên sân khấu xuất hiện người đàn ông cao trong bộ vest sẫm màu. Im lặng bao trùm khán phòng. Nhiều người khi đó đã biết, đứng trước họ là chuyên gia số mới của Trump. “Sắp tới các bạn sẽ gọi tôi là Mr. Brexit”, Trump đã viết trên Twitter của mình một cách bí hiểm vài tuần trước. Quả thật, các nhà phân tích chính trị khi đó đã viết về sự tương đồng giữa chương trình của Trump và của những kẻ muốn tách Anh ra khỏi EU. Và chỉ số ít là biết mối liên quan giữa Trump và công ty CA vô danh kia.

GettyImages-607814904.jpg
Alexander Nix, Giám đốc Cambridge Analytica, trong buổi trình bày tại khách sạn Hyatt.

Đến khi đó, chiến dịch số của Trump chỉ dựa trên một người: Brad Parscale. Một tay tiếp thị hăng hái và sáng lập viên một start-up thất bại, anh này đã làm cho Trump một website đơn giản giá 1.500 USD. Trump ở tuổi 70 khó mà được gọi là người của kỷ nguyên số – trên bàn của ông ấy chẳng có máy tính. Có lần trợ lý đã tiết lộ, thậm chí ông còn không dùng email. Bản thân cô trợ lý này đã dạy ông dùng điện thoại, và từ đó ông dùng nó để đổ dòng suy nghĩ của mình lên Twitter.

Hillary Clinton, ngược lại, thừa kế từ Obama, tổng thống đầu tiên của mạng xã hội. Bà ấy có danh sách địa chỉ của đảng Dân chủ, hàng triệu subscriber, ủng hộ của Google và Dreamworks. Tháng 6, khi Trump thuê CA, nhiều người nhăn mặt. Thuê những kẻ ngoại quốc mặc vest và chẳng hiểu biết gì về đất nước này? Thật ư?

“Thật vinh dự khi được kể cho quý vị về sức mạnh của Big Data và psychometrics trong chiến dịch tranh cử”, Nix phát biểu tại hội nghị. Sau lưng anh ấy là slide với logo của hãng: hình bộ não được vẽ dạng lưới như bản đồ. “Chỉ vài tháng trước, Ted Cruz là một trong những ứng viên lẹt đẹt nhất”, anh chàng tóc vàng nói với giọng Anh. “Chỉ có 40% cử tri biết tên ông ta”. Tất cả khán giả nhớ lại câu chuyện về sự bứt phá nhanh chóng của Thượng nghị sỹ Cruz, có lẽ là hiện tượng khó lý giải nhất trong cuộc đua. Người cạnh tranh nguy hiểm cuối cùng của Trump trong nội bộ đảng Cộng hòa dường như xuất hiện từ không khí.

“Vậy thì chuyện gì đã xảy ra?”, Nix hỏi. Vào cuối 2014, CA tham gia chiến dịch tranh cử của Mỹ chính là trong tư cách cố vấn của Ted Cruz, người được tỷ phú Robert Mercer tài trợ. Trước đó, Nix khẳng định, chiến dịch tranh cử được thực hiện theo các tiêu chí nhân khẩu học: “Một ý tưởng ngu ngốc, nếu suy nghĩ về nó một cách nghiêm túc: tất cả phụ nữ nhận cùng một thông điệp, vì họ cùng giới tính; tất cả người gốc Phi nhận một thông điệp khác, căn cứ vào chủng tộc”. Cách thức tài tử như vậy cũng được Clinton sử dụng: chia xã hội thành những nhóm đồng nhất, do các nhà xã hội học tư vấn. Chính là những người mà đến phút cuối vẫn dự là bà sẽ thắng.

Đến đây, Nix chuyển sang slide sau: năm khuôn mặt, tương ứng với năm chiều đo của Big Five. “Ở Cambridge Analytica, chúng tôi đã phát triển mô hình cho phép tính toán được nhân cách mỗi công dân trưởng thành của Mỹ”, Nix nói tiếp. Khán phòng im lặng tuyệt đối. Kết quả tiếp thị của CA dựa trên 3 nền tảng: phân tích tâm lý học hành vi theo OCEAN (behavioral science), nghiên cứu Big Data (Data analytics), và quảng cáo hướng mục tiêu (Addressable Ad Tech). Kỹ thuật cuối có nghĩa là quảng cáo cá nhân hóa, được xây dựng theo tính cách của từng cá thể người dùng.

Nix giải thích thành thực về chuyện công ty anh ấy làm điều đó thế nào (bài nói chuyện được up trên YouTube). Công ty này mua dữ liệu cá nhân từ tất cả các nguồn có thể. Ở Mỹ, có thể mua được bất kỳ dữ liệu cá nhân nào. Nếu bạn muốn biết, ví dụ phụ nữ Do Thái sống ở đâu, có thể mua cơ sở dữ liệu. Sau đó, CA tích hợp dữ liệu đó với danh sách những người ủng hộ đảng Cộng hòa và dữ liệu like/re-post trên Facebook  và hồ sơ cá nhân theo phương pháp OCEAN sẵn sàng. Từ trong mớ dữ liệu số bỗng hiên ra những hình người với nỗi sợ, ý định và mối quan tâm của riêng mình và cả địa chỉ nơi ở.

Quy trình y hệt mô hình của Kosinski. CA cũng sử dụng các bài test IQ và những app nhỏ để nhận được những like có giá trị từ người dùng Facebook. Và công ty của Nix làm ra thứ mà Kosinski đã cảnh báo: “Chúng tôi có sơ đồ tâm lý của tất cả công dân Mỹ, 220 triệu người. Trung tâm điều khiển của chúng tôi trông thế này, xin chú ý”, Nix nói và lật slide. Trên màn hình hiện ra bang Iowa, nơi Ted Cruz thu được một số lượng phiếu lớn bất ngờ trong bầu cử sơ bộ (primaries). Trên bản đồ có hàng trăm nghìn chấm nhỏ: đỏ và xanh, theo màu đảng. Nix chọn tiêu chí. Đảng Cộng hòa, và các điểm xanh biến mất. Những người chưa quyết bầu cho ai, số điểm ít hơn. Đàn ông, ít hơn nữa, và cứ thế. Cuối cùng, hiện ra tên của một người: với tuổi, địa chỉ, các mối quan tâm, thiên kiến chính trị. Nhưng CA gửi thông điệp gì cho những con người cụ thể này?

Trong một slide khác, Nix lấy luật về sở hữu súng làm ví dụ: “Với những người hay lo sợ, có mức độ nhạy cảm (Neuroticism) cao thì chúng tôi giới thiệu súng như công cụ bảo đảm an toàn. Bên trái, quý vị thấy hình bàn tay kẻ đạo chích đang đập cửa sổ. Còn bên phải là hình người đàn ông cầm súng đang cùng con trai đi trên cánh đồng trong hoàng hôn. Rõ là đi săn vịt. Tranh này là dành cho những người bảo thủ giàu có và hướng ngoại”.

Cản trở bầu cho Clinton như thế nào?

Bản chất đầy mâu thuẫn của Trump, tính phi nguyên tắc và hệ quả là số lượng lớn các loại thông điệp khác nhau bỗng trở nên hữu ích cho ông ta: mỗi cử tri nhận được một thông điệp riêng. “Trump hành xử như một thuật toán cơ hội lý tưởng, hoàn toàn chỉ dựa trên phản ứng của công chúng”, nhà toán học Cathy O’Neil nhận xét vào tháng 8.

Đúng ngày tranh luận thứ ba giữa Trump và Clinton, đội của Trump đã gửi vào mạng xã hội (chủ yếu là Facebook) hơn 175 nghìn thông điệp. Chúng chỉ khác nhau ở những chi tiết rất nhỏ, nhằm phù hợp nhất với tâm lý của người nhận cụ thể: tiêu đề, tiêu đề phụ, màu nền, ảnh và video. Cách làm tỉ mỉ như vậy khiến cho thông điệp nhận được sự đồng cảm của những nhóm cư dân nhỏ nhất, như Nix giải thích cho Das Magazine: “Bằng cách đó chúng tôi có thể vươn đến tận làng, khu phố hay ngôi nhà cần thiết, thậm chí là từng người”. Khu Little Haiti ở Maiami nhận được thông tin về việc quỹ Clinton từ chối tham gia khắc phục hậu quả động đất ở Haiti, để thuyết phục người dân thôi bỏ phiếu cho bà. Đó là một mục tiêu nữa: giữ những cử tri của Clinton khỏi hòm phiếu, “đè bẹp” lựa chọn của họ, như lời của một cộng sự của Trump. Thứ gọi là các “post đen” trên Facebook cũng được dùng: những thông báo được trả tiền xuất hiện giữa các bản tin, chỉ dành cho những nhóm người cụ thể. Ví dụ, người Mỹ gốc Phi được xem những post có video trong đó Clinton so sánh đàn ông da màu với thú ăn thịt.

20161024-WP-CambridgeAnalytica-014414774
CEO Cambridge Analytic tại văn phòng.

“Bọn trẻ nhà tôi sẽ không bao giờ hiểu tại sao lại có những tấm biển quảng cáo với nội dung như nhau cho tất cả mọi người”, Nix kết thúc bài trình bày ở hội nghị, cám ơn cử tọa và rời sân khấu.

Khó có thể nói xã hội Mỹ bị tác động đến mức nào bởi các chuyên gia của Trump tại một thời điểm cụ thể, vì họ không sử dụng các kênh truyền thống mà dùng mạng xã hội và truyền hình cáp. Và trong khi đội Clinton, hành động theo chỉ dẫn của các nhà xã hội học, đang mơ ngủ, thì ở San Antonio, nơi đóng bản doanh số của Trump, đã xuất hiện, theo lời của phóng viên Bloomberg, đại bản doanh thứ hai. Chỉ có hơn chục người, nhóm Cambridge Analytic nhận của Trump 100.000 USD vào tháng 7, thêm 250.000 USD tháng 8, và tháng 9 thêm 5 triệu USD. Nix tính rằng tổng thù lao dịch vụ là 15 triệu USD.

Ngay cả các chương trình khác cũng rất cấp tiến. Từ tháng 7, các tình nguyện viên của Trump đã nhận được app cho phép biết được thiên kiến chính trị và loại nhân cách của cư dân nhà này hay nhà khác. Theo đó, những tình nguyện viên, tuyên truyền viên điều chỉnh hội thoại của mình với người dân. Phản hồi của người dân lại được họ ghi ngược vào app đó, và dữ liệu chuyển thẳng về trung tâm phân tích của CA.

Công ty xác định ra 32 loại tính cách tâm lý của dân Mỹ, tập trung ở 17 bang. Và như Kosinski đã phát hiện, rằng đàn ông thích mỹ phẩm MAC thì hầu như chắc chắn là đồng tính, CA chứng minh rằng những kẻ trung thành với ô tô Mỹ hẳn nhiên là ngả theo Trump. Hơn nữa, những phát kiến như vậy giúp bản thân Trump hiểu những thông điệp nào dùng ở đâu thì tốt nhất. Quyết định của đại bản doanh về việc tập trung vào Michigan và Wisconsin vào những tuần cuối cùng là dựa trên phân tích dữ liệu. Ứng viên trở thành mô hình để áp dụng hệ thống.

CA làm gì ở châu Âu?

Nhưng thực sự psychometrics ảnh hưởng mức nào đến kết quả bầu cử? CA tỏ ra không vội vã trong việc chứng minh hiệu quả chiến dịch của mình. Hoàn toàn có khả năng sẽ không có câu trả lời. Nhưng dù sao, có một sự thật là nhờ CA mà Ted Cruz từ số không đã trở thành đối thủ nguy hiểm của Trump ở vòng sơ bộ. Hay sự thật về tăng trưởng số phiếu của cử tri nông thôn. Hay mức độ tích cực của cử tri gốc Phi giảm. Cả việc Trump chi ít tiền như vậy cũng có thể nói lên hiệu quả của phương pháp cá nhân hóa. Hay là việc ông ấy dành 3/4 ngân sách quảng cáo vào không gian số. Facebook trở thành vũ khí hoàn hảo và trợ thủ đắc lực nhất trong bầu cử, như một trong cộng sự Trump viết trên Twitter. Nhân tiện, đảng phái “Giải pháp khác cho nước Đức” có nhiều fan trên Facebook hơn hai đảng dẫn đầu cộng lại.

Ngoài ra, không thể khẳng định là các nhà xã hội học, chuyên gia thống kê đã thua trong cuộc bầu cử vì dự đoán sai. Ngược lại, các chuyên gia thống kê đã thắng, nhưng chỉ những ai dùng phương pháp tiên tiến nhất. Trò đùa của lịch sử: Trump luôn phê phán ngành khoa học này, nhưng rốt cuộc thẳng là nhờ nó.

Kẻ chiến thắng thứ hai – Công ty CA. Chủ của Breitbart News, cái loa chính của phe bảo thủ, Steve Bannon là thành viên HĐQT của công ty. Mới đây, ông ấy được bổ vào vị trí chiến lược gia của Trump. Marion Le Pen, thủ lĩnh “Mặt trận nhân dân” Pháp cũng đã mừng vui loan báo về quan hệ hợp tác với hãng. Theo Nix, công ty đang được rất nhiều khách hàng trên thế giới quan tâm. Có cả từ Thụy Sĩ và Đức.

Kosinski theo dõi những chuyện này từ phòng mình ở Stanford. Sau bầu cử Mỹ, mọi thứ trong trường bị đảo lộn. Để đáp trả, Kosinski sử dụng vũ khí sắc bén nhất trong những thứ mà một nhà nghiên cứu có thể có: phân tích khoa học. Cùng với cộng sự Sandra Matz, anh đã thực hiện một loạt test, mà kết quả sẽ sớm được công bố. Một vài trong số đó, được nhà khoa học chia sẻ với Das Magazine, gây sốc. Ví dụ, kỹ thuật xác định mục tiêu bằng tâm lý, tương tự với những gì CA dùng, làm tăng số click vào quảng cáo trên Facebook lên 60%. Còn xác suất của việc sau khi xem các quảng cáo đã được cá nhân hóa người dùng sẽ có hành động (mua gì đó hay bỏ phiếu cho ai đó) thì tăng 1.400%.

Ngày nay thế giới đã đảo ngược: Brexit xảy ra, còn Trump sắp lãnh đạo nước Mỹ. Tất cả khởi đầu từ một người đã muốn cảnh báo chúng ta về hiểm họa. Hằng ngày, anh lại nhận được vô vàn trách móc qua hộp thư. “Không. Tôi không có lỗi”, Kosinski nói. “Không phải tôi là người chế tạo bom, tôi chỉ chỉ ra rằng chúng tồn tại”.

 

Phan Phương Đạt (dịch từ bản tiếng Nga của The Insider)

Theo Chungta.vn

Best Corporate Security Blog


refer: http://www.securitybloggersnetwork.com

security1

Other nominees:

McAfee Blog: click here

CloudFlare Blog: click here

SecureWorks Blog: click here

Solutionary Minds Blog: click here

Kaspersky Lab Securelist Blog: click here

Veracode Blog: click here

Trend Micro Blog: click here

AND THE WINNER IS:

Naked Security Blog: click here

Best Security Podcast

Other nominees:

Liquidmatrix Security Digest: click here

EuroTrashSecurity: click here

SANS Internet Storm Center: click here

Southern Fried Security: click here

Risky Business: click here

Sophos Security Chet Chat: click here

And the winner is:

Paul Dotcom: click here

The Most Educational Security Blog

Other nominees:

BH Consulting’s Security Watch Blog: click here

Security Uncorked Blog: click here

Dr. Kees Leune’s Blog: click here

Securosis Blog: click here

Social-Engineer.org Blog: click here

Critical Watch Blog: click here

The Security Skeptic Blog: click here

The New School of Information Security Blog: click here

And the winner is:

Krebs On Security: click here

The Most Entertaining Security Blog

Other nominees:

Packet Pushers Blog: click here

Securosis Blog: click here

Errata Security Blog: click here

Naked Security Blog: click here

Uncommon Sense Security Blog: click here

PSilvas Blog: click here

And the winner is:

J4VV4D’s Blog: click here

The Blog That Best Represents The Security Industry

Other nominees:

SpiderLabs Anterior Blog: click here

1 Raindrop Blog: click here

Naked Security Blog: click here

The Firewall (Forbes) Blog: click here

Threat Level (Wired) Blog: click here

Securosis Blog: click here

Michael Peters Blog: click here

And the winner is:

Krebs On Security Blog: click here

The Single Best Blog Post or Podcast Of The Year

Other nominees:

The Epic Hacking of Mat Honan and Our Identity Challenge: click here

Application Security Debt and Application Interest Rates: click here

Why XSS is serious business (and why Tesco needs to pay attention): click here

Levelling up in the real world: click here

Secure Business Growth, Corporate Responsibility with Ben Tomhave: click here

And the winner is:

Meet The Hackers Who Sell Spies The Tools To Crack Your PC (And Get Paid Six-Figure Fees): click here

The Security Bloggers Hall Of Fame

The other nominees are:

Richard Bejtlich

Gunnar Peterson

Naked Security Blog

Wendy Nather

And the winner is:

Jack Daniel

%d bloggers like this: