Tại sao dữ liệu thay thế đang thay đổi ngành tài chính?

Dữ liệu thay thế (Alternative data), hiểu một cách đơn giản, là các bộ dữ liệu phi truyền thống – khác biệt với báo cáo tài chính hay số liệu kinh tế vĩ mô thông thường – được các nhà đầu tư khai thác nhằm định hình và tối ưu hóa chiến lược đầu tư của mình.

Phạm vi của loại dữ liệu này rất rộng, bao gồm: dữ liệu giao dịch thẻ tín dụng, dữ liệu từ thiết bị di động, dữ liệu cảm biến IoT, hình ảnh vệ tinh, phân tích tâm lý trên mạng xã hội, đánh giá sản phẩm của người dùng, dữ liệu thời tiết, lưu lượng truy cập website, tần suất sử dụng ứng dụng, và cả dữ liệu ESG (đánh giá về Môi trường, Xã hội và Quản trị doanh nghiệp). Ngoài ra, một số nhà cung cấp chuyên biệt còn theo dõi các thông tin đặc thù hơn như lịch trình chuyến bay chuyên cơ của lãnh đạo doanh nghiệp, các hợp đồng chính phủ đã ký kết, hay thậm chí là hoạt động giao dịch cổ phiếu của các thành viên Quốc hội.

Sự phát triển nhanh chóng của lĩnh vực dữ liệu thay thế được minh chứng qua các số liệu ấn tượng: Số lượng nhà cung cấp đã tăng vọt hơn 20 lần trong ba thập kỷ qua. Nếu năm 1990 chỉ có khoảng 20 nhà cung cấp, thì ngày nay con số này đã vượt mốc 400, theo báo cáo từ Hiệp hội Quản lý Đầu tư Thay thế (AIMA) phối hợp cùng công ty fintech SS&C.

Hiện tại, theo báo cáo của AIMA và một khảo sát độc lập từ Bank of America, ước tính có khoảng một nửa số công ty đầu tư đã và đang tích hợp dữ liệu thay thế vào quy trình phân tích của mình. Con số này dự kiến sẽ còn tiếp tục gia tăng khi ngày càng nhiều định chế tài chính đầu tư mạnh mẽ vào công nghệ mới. Thực tế, một khảo sát khác do AIMA thực hiện cùng Simmons & Simmons và Seward & Kissel chỉ ra rằng, 34% các nhà quản lý quỹ phòng hộ (hedge fund) tham gia khảo sát xác nhận công ty họ đang tích cực đầu tư vào việc khai thác nguồn dữ liệu này.

Trong cuộc đua không ngừng nghỉ nhằm tìm kiếm “alpha” – lợi thế cạnh tranh độc quyền giúp tạo ra lợi nhuận vượt trội so với thị trường – không có nguồn dữ liệu nào bị xem là quá xa lạ hay phức tạp, miễn là nó có khả năng cung cấp những tín hiệu (signals) hữu ích, có thể chuyển hóa thành hành động đầu tư hiệu quả.

1. Dữ liệu Thay thế là gì?

Như đã đề cập, dữ liệu thay thế là những thông tin được thu thập từ các nguồn phi truyền thống, được các công ty đầu tư khai thác để tìm kiếm lợi thế cạnh tranh trên thị trường. Do các nhà cung cấp liên tục tìm tòi, khám phá những nguồn dữ liệu mới lạ, chưa được khai thác rộng rãi, nên danh mục các loại dữ liệu thay thế cũng không ngừng được mở rộng và biến đổi.

Lấy ví dụ, những trang web mới nổi chuyên theo dõi và công bố các giao dịch cổ phiếu của thành viên Quốc hội (cùng các tài khoản TikTok giúp lan tỏa thông tin này) thực chất cũng là một dạng dữ liệu thay thế – về bản chất không khác mấy so với việc theo dõi các hợp đồng chính phủ, một mảng đã được công nhận trong hệ sinh thái dữ liệu thay thế.

2. Các loại Dữ liệu Thay thế Phổ biến.

Các ngân hàng và tổ chức tài chính có thể tiếp cận dữ liệu thay thế từ vô số nguồn. Dưới đây là một số loại hình phổ biến và có tính ứng dụng cao trong lĩnh vực đầu tư:

2.1. Lưu lượng Truy cập Web và Mức độ sử dụng Ứng dụng.

Việc một ứng dụng phần mềm đang thu hút hay đánh mất người dùng có ý nghĩa gì? Lượng truy cập vào các website thuộc một ngành hàng cụ thể bỗng dưng tăng đột biến báo hiệu điều gì? Câu trả lời cho những câu hỏi này, dựa trên dữ liệu về lưu lượng truy cập web và ứng dụng, mang lại giá trị phân tích to lớn cho các nhà giao dịch (traders). Vì vậy, không có gì đáng ngạc nhiên khi các dịch vụ phân tích web và ứng dụng đã trở thành những công cụ thiết yếu trong kho vũ khí dữ liệu thay thế của giới đầu tư.

Một ví dụ điển hình trong lĩnh vực này là SimilarWeb. Công ty cung cấp các bộ dữ liệu phân tích chi tiết, có thể truy cập qua giao diện người dùng hoặc API trực tiếp, bao phủ khoảng 1 tỷ website và 8 triệu ứng dụng trên toàn cầu. Tháng 5 năm 2021, SimilarWeb đã trở thành công ty dữ liệu thay thế đầu tiên thực hiện IPO thành công, với mục tiêu mở rộng tệp khách hàng ra ngoài phạm vi các quỹ phòng hộ – những khách hàng tiên phong nhận ra giá trị của họ.

2.2. Phân tích Tâm lý Xã hội và Đánh giá Sản phẩm.

Tương tự như cách các chuyên gia marketing sử dụng công cụ “lắng nghe mạng xã hội” (social listening) để đánh giá nhận thức thương hiệu, các công ty đầu tư cũng phân tích dữ liệu mạng xã hội như một yếu tố quan trọng khi đánh giá tiềm năng cổ phiếu. Chẳng hạn, nhà cung cấp Thinknum sở hữu bộ dữ liệu “Facebook Followers”, theo dõi số lượt “thích”, lượt check-in và các chỉ số tương tác khác trên Facebook của hơn 130.000 công ty, với dữ liệu lịch sử kéo dài hơn 8 năm. Thinknum cũng cung cấp các bộ dữ liệu tương tự cho nhiều mạng xã hội khác.

Bên cạnh đó, đánh giá sản phẩm từ người dùng trực tuyến cũng là nguồn thông tin giá trị, hỗ trợ các quyết định mua, bán hay nắm giữ cổ phiếu. Kênh truyền thông Business of Business của Thinknum từng chỉ ra một ví dụ: trước khi giá cổ phiếu Peloton lao dốc gần 15% sau vụ thu hồi sản phẩm máy chạy bộ, số lượng đánh giá trực tuyến chứa các từ khóa tiêu cực như “kinh khủng”, “tồi tệ”, “kém”, “dở”, “hỏng” đã tăng vọt từ 3 lượt (năm 2019) lên 31 lượt. Đây chính là một tín hiệu bán tiềm năng cho những nhà đầu tư nhạy bén, biết theo dõi và có khả năng đưa ra quyết định dựa trên tín hiệu đó.

2.3. Hình ảnh Vệ tinh.

Ngay từ năm 2009, hình ảnh vệ tinh đã chứng tỏ tiềm năng như một công cụ phân tích tài chính độc đáo. Theo tạp chí The Atlantic, công ty khởi nghiệp RS Metrics (vào thời điểm đó) đã sử dụng dữ liệu vệ tinh thu thập trong 3 năm để kiểm chứng giả thuyết lâu đời của Sam Walton, nhà sáng lập Walmart: số lượng xe hơi trong bãi đậu phản ánh trực tiếp doanh thu của cửa hàng.

Mặc dù sự bùng nổ của thương mại điện tử đã làm bức tranh phức tạp hơn, các nhà cung cấp hình ảnh vệ tinh vẫn liên tục tìm ra những ứng dụng mới mang lại lợi ích cho giới tài chính, ví dụ như giám sát tình trạng phá rừng (ảnh hưởng đến nguồn cung gỗ) hay theo dõi các thảm họa thiên nhiên có thể làm gián đoạn chuỗi cung ứng toàn cầu. Xu hướng này được dự báo sẽ còn phát triển mạnh mẽ, đặc biệt khi các công ty như SpaceX và OneWeb đang đẩy mạnh việc phóng hàng loạt vệ tinh mới lên quỹ đạo.

2.4. Dữ liệu Định vị (Geolocation).

Thông tin về địa điểm di chuyển của người tiêu dùng mang giá trị to lớn. Cụ thể hơn, dữ liệu GPS ẩn danh và tổng hợp từ điện thoại di động có thể hé lộ những xu hướng di chuyển và hành vi tiêu dùng trên quy mô lớn. Giá trị này càng được khẳng định khi nhà cung cấp dữ liệu định vị SafeGraph ghi nhận doanh thu kỷ lục và sự quan tâm tăng vọt từ các tổ chức tài chính trong năm 2020 – giai đoạn mà các mô hình di chuyển truyền thống bị xáo trộn mạnh mẽ bởi đại dịch.

Trước đây, dữ liệu định vị có thể không được đánh giá cao bằng các nguồn dữ liệu cảm biến khác như hình ảnh vệ tinh. Tuy nhiên, khi các quy luật di chuyển thông thường bị phá vỡ, nhu cầu phân tích dữ liệu GPS của Phố Wall lại gia tăng đáng kể.

2.5. Theo dõi Chuyên cơ (Jet Tracking).

Tháng 4 năm 2019, một chiếc chuyên cơ riêng chở đại diện của tập đoàn dầu khí Occidental hạ cánh xuống Omaha, Nebraska để gặp tỷ phú Warren Buffett. Tin tức về chuyến thăm này, nhờ công ty dữ liệu thay thế Quandl (chuyên theo dõi các chuyến bay tư nhân), đã nhanh chóng được lan truyền trong giới tài chính, vượt ra ngoài phạm vi của Chủ tịch và CEO Berkshire Hathaway.

Các khách hàng quỹ phòng hộ của Quandl, được cho là trả phí lên đến hơn 100.000 USD/năm cho những thông tin “tình báo” dạng này, đã có được lợi thế sớm. Vài ngày sau, khi Buffett công bố khoản đầu tư 10 tỷ USD vào Occidental, giá cổ phiếu công ty này đã tăng vọt, minh chứng cho giá trị của thông tin mà Quandl cung cấp.

Kể từ đó, lĩnh vực “thông tin tình báo hàng không doanh nghiệp” (corporate aviation intelligence), theo cách gọi của Quandl, ngày càng trở nên phổ biến. Thậm chí, Quiver Quantitative, một nền tảng dữ liệu thay thế miễn phí ra mắt năm 2020 với mục tiêu trang bị cho nhà đầu tư cá nhân những lợi thế thông tin tương tự như Phố Wall, hiện cũng cung cấp công cụ theo dõi chuyên cơ riêng của các công ty một cách công khai.

3. Lợi ích của Dữ liệu Thay thế.

Dữ liệu thay thế ngày càng thu hút sự quan tâm lớn trong lĩnh vực tài chính, và các tổ chức đầu tư cũng như doanh nghiệp đều tìm cách khai thác tối đa những lợi ích tiềm năng mà nguồn dữ liệu này mang lại.

Phân tích Chi tiết và Sâu sắc hơn: Khác với việc chỉ dựa vào báo cáo tài chính truyền thống, dữ liệu thay thế cung cấp thêm nhiều điểm dữ liệu (data points), giúp mang đến cái nhìn đa chiều và sâu sắc hơn về hiệu quả hoạt động thực tế của một công ty. Ví dụ, những đánh giá tích cực trực tuyến hay số lượt khách hàng ghé thăm cửa hàng hàng ngày có thể phản ánh mức độ trung thành của khách hàng – một yếu tố mà nhà đầu tư có thể bỏ qua nếu chỉ phân tích dựa trên các số liệu tài chính thuần túy.

Quyết định được Củng cố bởi Dữ liệu Lịch sử: Nhà đầu tư luôn tìm kiếm cơ sở vững chắc cho các quyết định của mình. Dữ liệu thay thế, với kho dữ liệu lịch sử phong phú, đáp ứng hiệu quả nhu cầu này. Bằng cách phân tích xu hướng và kết quả quá khứ, các tổ chức có thể xây dựng mô hình dự báo về hiệu suất tương lai của doanh nghiệp trong những điều kiện tương tự. Cách tiếp cận này không chỉ nâng cao xác suất thành công cho các khoản đầu tư mà còn cung cấp khả năng nhận diện sớm rủi ro, giúp tránh rót vốn vào những công ty có dấu hiệu suy yếu.

Đầu tư và Hợp tác Kinh doanh Hiệu quả hơn: Nguồn dữ liệu thay thế đa dạng cho phép các công ty đánh giá sâu hơn về đối tác tiềm năng, từ đó xác định các cơ hội hợp tác chiến lược hiệu quả. Việc phân tích các yếu tố như thị trường mục tiêu, phân khúc khách hàng, hay danh mục sản phẩm thành công giúp nhận diện điểm tương đồng và cả những khía cạnh mà hai bên có thể bổ trợ cho nhau. Điều này tạo cơ sở để xây dựng những mối quan hệ hợp tác thực sự mang lại lợi ích song phương.

Tăng cường Mối quan hệ với Khách hàng: Phân tích dữ liệu từ đánh giá trực tuyến, lưu lượng truy cập web hay phân khúc khách hàng giúp doanh nghiệp hiểu rõ hơn về tệp khách hàng mục tiêu cũng như cảm nhận thực tế của họ về sản phẩm/dịch vụ. Dựa trên những hiểu biết này, ban lãnh đạo có thể điều chỉnh chiến lược thương hiệu, tối ưu hóa sản phẩm và triển khai các sáng kiến nhằm nâng cao trải nghiệm, qua đó xây dựng hình ảnh tích cực và củng cố mối quan hệ với khách hàng.

Tạo dựng Lợi thế Cạnh tranh trên Thị trường: Dữ liệu thay thế cung cấp khả năng tiếp cận thông tin gần với thời gian thực, tạo ra lợi thế cạnh tranh đáng kể trong môi trường đầu tư biến động. Khi định giá cổ phiếu thay đổi liên tục và các yếu tố thị trường có thể tác động nhanh chóng đến cả những công ty đang hoạt động tốt, khả năng phân tích và ra quyết định tức thời dựa trên dữ liệu mới nhất giúp nhà đầu tư tránh được những sai lầm tốn kém và duy trì vị thế dẫn trước so với các đối thủ chỉ dựa vào nguồn dữ liệu truyền thống.

4. Hạn chế của Dữ liệu Thay thế.

Tuy nhiên, bên cạnh những lợi ích hấp dẫn, việc khai thác dữ liệu thay thế cũng đi kèm một số hạn chế và rủi ro mà các tổ chức cần nhận thức và cân nhắc kỹ lưỡng.

Chất lượng Không nhất quán: Sự đa dạng về nguồn gốc và định dạng của dữ liệu thay thế dẫn đến tính không nhất quán về chất lượng. Việc thiếu các tiêu chuẩn chung hay cơ quan quản lý chính thức khiến việc kiểm soát chất lượng trở nên thách thức. Do đó, các bộ dữ liệu này có thể chứa lỗi, không đầy đủ, hoặc thiếu sự chuẩn hóa, dẫn đến những phân tích sai lệch hoặc không bao quát hết các rủi ro tiềm ẩn. Ví dụ, nếu dữ liệu giao dịch không lọc được hoạt động gian lận, nó có thể làm sai lệch đánh giá về doanh thu hoặc hoạt động kinh doanh, ảnh hưởng tiêu cực đến quyết định của nhà đầu tư.

Thiếu Minh bạch và Nguy cơ Mất Lòng tin: Là một lĩnh vực tương đối mới, quy trình thu thập và sử dụng dữ liệu thay thế đôi khi thiếu tính minh bạch, khiến khách hàng và công chúng khó hiểu rõ cách thông tin của họ đang được xử lý. Việc theo dõi dữ liệu nhạy cảm như vị trí GPS hay hoạt động trực tuyến, đặc biệt nếu không có sự đồng ý rõ ràng hoặc thông báo đầy đủ, có thể làm xói mòn nghiêm trọng lòng tin của người tiêu dùng đối với doanh nghiệp. Rủi ro này càng gia tăng nếu việc thu thập và sử dụng dữ liệu không tuân thủ các nguyên tắc đạo đức.

Quan ngại về Quyền riêng tư và Bảo mật: Mối lo ngại hàng đầu xoay quanh dữ liệu thay thế chính là rủi ro về quyền riêng tư và bảo mật. Bản chất của nhiều loại dữ liệu này là thông tin cá nhân nhạy cảm, nếu bị rò rỉ hoặc sử dụng sai mục đích có thể gây tổn hại lớn cho người dùng. Các tổ chức khai thác dữ liệu thay thế phải tuyệt đối tuân thủ các quy định pháp luật về quyền riêng tư (như GDPR, CCPA, và luật pháp tại Việt Nam), đồng thời đáp ứng kỳ vọng ngày càng cao của công chúng về bảo mật thông tin. Bất kỳ sự vi phạm nào, dù vô tình hay cố ý, đều có thể dẫn đến hậu quả pháp lý nghiêm trọng và khiến chiến lược dữ liệu của công ty phản tác dụng.

Rủi ro về Sai lệch và Phân biệt đối xử: Ngay cả khi mục tiêu là chính đáng, như phát triển sản phẩm/dịch vụ cá nhân hóa, việc dựa quá nhiều vào dữ liệu thay thế, đặc biệt là các thông tin nhân khẩu học nhạy cảm, có thể vô tình dẫn đến sai lệch hoặc thậm chí là phân biệt đối xử. Nếu các mô hình phân tích không được thiết kế và kiểm tra cẩn thận, chúng có thể học và khuếch đại những định kiến sẵn có trong dữ liệu, dẫn đến các quyết định bất lợi cho một số nhóm người dựa trên giới tính, chủng tộc, tôn giáo,… Điều này không chỉ gây tổn hại trực tiếp cho người tiêu dùng mà còn tạo ra các bộ dữ liệu và mô hình sai lệch, tiếp tục ảnh hưởng tiêu cực đến các quyết định trong tương lai.

Khả năng Dữ liệu bị Thao túng: Một rủi ro khác là khả năng dữ liệu thay thế bị cố tình thao túng. Khi nhận thức được rằng những dữ liệu này đang được sử dụng để đánh giá, các cá nhân hoặc tổ chức có thể tìm cách “tô hồng” dữ liệu về mình nhằm trục lợi. Ví dụ, một công ty có thể dùng nhiều cách để chỉ hiển thị các đánh giá trực tuyến tích cực, hoặc một cá nhân có thể “làm sạch” hồ sơ mạng xã hội của mình để tạo dựng hình ảnh đáng tin cậy hơn khi xin vay vốn. Điều này làm giảm tính khách quan và độ tin cậy của nguồn dữ liệu.

5. Sử dụng Dữ liệu Thay thế có An toàn không?

Câu trả lời phụ thuộc phần lớn vào cách thức dữ liệu được xử lý và áp dụng. Dữ liệu thay thế chỉ thực sự an toàn khi các tổ chức và cá nhân triển khai các biện pháp kiểm soát và thẩm định (due diligence) cần thiết trước khi đưa vào sử dụng. Bản thân dữ liệu có thể chứa sai sót hoặc không phù hợp cho một mục đích cụ thể. Tuy nhiên, rủi ro lớn hơn thường đến từ việc thiếu các quy trình kiểm soát thích hợp, khiến việc áp dụng dữ liệu trở nên kém an toàn và tiềm ẩn nhiều vấn đề.

Để nâng cao tính an toàn và độ tin cậy, các tổ chức cần xây dựng quy trình làm việc khoa học và áp dụng các phương pháp thực hành tốt nhất (best practices) trong việc thu thập, xử lý và khai thác dữ liệu thay thế.

6. Khai thác Giá trị Hữu ích từ Dữ liệu Thay thế.

Một trong những sự kiện quan trọng thúc đẩy sự phát triển của dữ liệu thay thế chính là “cơn địa chấn định lượng” (quant quake) năm 2007, theo nhận định của Yin Luo (Phó Chủ tịch Nghiên cứu Định lượng, Wolfe Research) trên MarketWatch. Vào thời điểm đó, nhiều quỹ phòng hộ định lượng (“quants”) cùng lúc nắm giữ các vị thế tương tự nhau, dẫn đến việc bán tháo đồng loạt khi thị trường biến động, gây ra thua lỗ nặng nề. Sự kiện này cho thấy sự nguy hiểm của việc quá phụ thuộc vào các mô hình và dữ liệu giống nhau, từ đó thúc đẩy nhu cầu tìm kiếm các nguồn dữ liệu độc đáo, khác biệt nhằm phá vỡ ‘tâm lý đám đông’ và tạo ra lợi thế riêng.

Chỉ một năm sau ‘cơn địa chấn’, quỹ MarketPsy Long-Short (nay đã đóng cửa) tiên phong tích hợp dữ liệu tâm lý mạng xã hội vào mô hình đầu tư. Vài năm sau đó, theo Deloitte, một quỹ phòng hộ lớn tại London cũng bắt đầu triển khai chiến lược đầu tư dựa trên nghiên cứu năm 2010 về mối liên hệ tiềm năng giữa ‘tâm trạng’ trên Twitter và chỉ số Dow Jones. Làn sóng này tiếp tục lan tỏa, số lượng nhà cung cấp dữ liệu thay thế tăng nhanh chóng, và không lâu sau, các quỹ phòng hộ theo trường phái cơ bản (fundamental hedge funds) cũng bắt đầu khám phá con đường mà giới ‘quants’ đã tiên phong.

6.1. Dữ liệu Thô (Raw) và Dữ liệu Tổng hợp (Aggregated).

Dữ liệu thay thế thường được cung cấp dưới hai dạng chính: dữ liệu tổng hợp và dữ liệu thô, thường qua nguồn cấp API trực tiếp. Dữ liệu tổng hợp thường có chi phí thấp hơn, đã được xử lý và cấu trúc hóa sẵn, giúp việc tích hợp vào các mô hình đầu tư trở nên dễ dàng hơn. Tuy nhiên, chính vì tính phổ biến và được chuẩn hóa sẵn, tiềm năng tạo ra alpha (lợi thế cạnh tranh độc đáo) từ dữ liệu tổng hợp thường bị hạn chế hơn.

Hơn nữa, dữ liệu tổng hợp thường thiếu chiều sâu. Gene Ekster (CEO, Alternative Data Group & Giáo sư, NYU) nhận định: “Bạn mất đi khả năng thực sự đào sâu và khai thác dữ liệu theo những cách độc đáo riêng của mình.”

Dữ liệu tổng hợp cũng tiềm ẩn nguy cơ sai lệch lựa chọn (selection bias), tức là không phản ánh đúng bức tranh toàn cảnh. Việc xác định và khắc phục các sai sót này càng trở nên khó khăn khi “hầu hết các kỹ thuật và phương pháp luận của các nhà cung cấp trung gian là hệ thống hộp đen (black-box), không cho phép khách hàng kiểm toán, từ đó làm trầm trọng thêm các lỗi tổng hợp do thiếu tính minh bạch,” theo Ekster.

Mức độ ‘khắc nghiệt’ của ‘hộp đen’ này có thể thấy rõ qua trường hợp của Lululemon. Vài năm trước, do lỗi kỹ thuật, tên thương hiệu trong báo cáo của một số cửa hàng bị ghi thành ‘Lu*lulemon’. Các công cụ tổng hợp dữ liệu, do không nhận diện được từ khóa biến thể này, đã diễn giải sai rằng doanh số sụt giảm nghiêm trọng. Điều này, theo Ekster, đã dẫn đến việc nhiều nhà đầu tư đặt lệnh bán khống (short bets) – một quyết định tai hại khi Lululemon sau đó công bố kết quả kinh doanh quý rất tốt.

“Nếu bạn sở hữu dữ liệu thô,” Ekster giải thích, “bạn đã có thể nhìn ra vấn đề, tránh được sai lầm đó và thậm chí giao dịch ngược lại để kiếm lời.”

Vì những lý do trên, nguồn cấp dữ liệu thô thường được đánh giá cao hơn nhiều. Tuy nhiên, dữ liệu thô hoàn toàn chưa qua xử lý (đôi khi được gọi là ‘data exhaust’ – dữ liệu thải) lại đòi hỏi nguồn lực và công sức làm sạch, chuẩn hóa rất lớn trước khi có thể khai thác giá trị.

6.2. Giải quyết Thách thức “Gắn thẻ Ticker”.

Giải pháp lý tưởng là nguồn cấp dữ liệu thô qua API trực tiếp, nhưng được đi kèm với các quy trình xử lý, cấu trúc và gắn thẻ tự động hóa tối đa. Tuy nhiên, việc ‘ánh xạ thực thể’ (entity mapping) và ‘gắn thẻ ticker’ (ticker tagging) – tức là liên kết chính xác các tham chiếu đa dạng (tên công ty, thương hiệu, bí danh, thậm chí lỗi chính tả hay cách nói bóng gió) về đúng mã chứng khoán (ticker) và tên pháp nhân – là một thách thức kỹ thuật lớn.

Ví dụ, hệ thống cần nhận biết ‘Verizon’ chính là ‘VZ’ hoặc ‘Verizon Communications Inc.’, hay thậm chí hiểu được một dòng tweet mỉa mai có lỗi chính tả như ‘that’s powerfull’ đang ám chỉ Verizon để đưa vào phân tích tâm lý. Điều này đòi hỏi các công nghệ AI và xử lý ngôn ngữ tự nhiên rất tinh vi.

Thách thức không chỉ dừng lại ở mã ticker. Nhiều nhà quản lý quỹ còn yêu cầu dữ liệu phải được ánh xạ tới các mã định danh khác như CUSIP (mã chứng khoán Bắc Mỹ) hoặc ISIN (mã định danh chứng khoán quốc tế).

Trong số các nhà cung cấp dữ liệu thay thế hàng đầu hiện nay, Thinknum được Gene Ekster đánh giá là một trong những đơn vị xử lý tốt thách thức về gắn thẻ và ánh xạ. Boris Spiwak, Giám đốc Marketing của Thinknum, chia sẻ: “Thị trường đang có nhu cầu lớn về cái gọi là dữ liệu tham chiếu (referential data) – khả năng liên kết tất cả các cách đề cập khác nhau đến một thực thể, công ty hay chứng khoán về một định danh duy nhất, tạo thuận lợi cho việc phân tích. Và tôi nghĩ tất cả chúng tôi [trong ngành] đều đang nỗ lực tìm ra cách tốt nhất để làm điều đó.”

Thinknum cung cấp tới 35 bộ dữ liệu khác nhau cho mỗi công ty họ theo dõi, từ dữ liệu mạng xã hội, tin tuyển dụng, đến các thông tin đặc thù hơn như tồn kho xe hơi, tốc độ mở cửa hàng bán lẻ, lưu lượng truy cập web khách sạn, hay giá sản phẩm theo địa điểm. Mặc dù phần lớn thông tin này là công khai (ví dụ, ai cũng có thể thử quét dữ liệu Glassdoor để tìm hiểu xu hướng tuyển dụng), nhưng giá trị thực sự nằm ở khả năng xử lý, ánh xạ và cung cấp dữ liệu tham chiếu đã được gắn thẻ một cách hệ thống qua nguồn cấp trực tiếp.

6.3. Xác thực: Đảm bảo Dữ liệu Thực sự Đáng giá.

Việc rút ngắn thời gian từ lúc thu thập đến lúc có thể phân tích dữ liệu là vô cùng quan trọng. Tuy nhiên, nhiều nhà cung cấp trung gian lại chạy theo ‘số lượng hơn chất lượng’, cung cấp các bộ dữ liệu tổng hợp có độ phủ ticker rộng nhưng chưa chắc đã mang lại thông tin sâu sắc thực sự.

“Thách thức hiện nay là làm sao biết một bộ dữ liệu có thực sự giá trị hay không? Có thể mất 6 tháng R&D (nghiên cứu & phát triển), mà bạn lại phải mua dữ liệu trước. Bạn không thể biết nó sẽ tạo ra bao nhiêu alpha cho đến rất lâu sau đó,” Ekster chỉ ra.

Neuravest (tiền thân là Lucena Research) là một ví dụ về công ty tập trung giải quyết ‘vấn đề nan giải’ này. Họ hợp tác với các nhà cung cấp dữ liệu thay thế chọn lọc, thực hiện quy trình xác thực (validation) nghiêm ngặt trước khi cung cấp dữ liệu cho khách hàng hoặc tích hợp vào các mô hình đầu tư học máy (machine-learning). Dữ liệu thô được đưa vào hệ thống của Neuravest, trải qua quá trình đánh giá thông qua ‘báo cáo đánh giá chất lượng dữ liệu’ (data qualification report) với nhiều điểm kiểm tra chi tiết trước khi được phê duyệt để sử dụng trong mô hình.

Sau khi vượt qua bước xác thực, dữ liệu sẽ được làm sạch (scrubbed), gắn thẻ ticker và chuẩn hóa (normalized). Từ đó, các mô hình mới được xây dựng để tạo ra những luận điểm đầu tư có thể kiểm chứng lại hiệu quả trong quá khứ (back-testable).

Nhưng mấu chốt nằm ở bước đầu tiên – chứng minh được rằng bộ dữ liệu đó thực sự ‘đáng giá’ để đầu tư thời gian và công sức. Mục tiêu là “xác định những bộ dữ liệu nào phù hợp cho các kịch bản đầu tư cụ thể, và thực sự cung cấp chúng như đặt sẵn trên đĩa bạc cho khách hàng, để họ không phải vật lộn với việc mua sắm, đánh giá, thuê chuyên gia định lượng hay xây dựng cơ sở hạ tầng phức tạp,” Erez Katz, Đồng sáng lập và CEO của Neuravest, nhấn mạnh.

7. Các Phương pháp Tốt nhất để Sử dụng Dữ liệu Thay thế.

Để khai thác hiệu quả và bền vững giá trị từ dữ liệu thay thế, các tổ chức cần xây dựng và tuân thủ một bộ các phương pháp thực hành tốt nhất trong toàn bộ quy trình.

Đánh giá Kỹ lưỡng Mục đích và Rủi ro: Trước hết, cần xác định rõ ràng mục đích sử dụng dữ liệu thay thế và đánh giá cẩn trọng các rủi ro tiềm ẩn, bao gồm cả nguy cơ tiết lộ thông tin nhạy cảm hoặc vi phạm quyền riêng tư, dù là trong nội bộ hay khi chia sẻ ra bên ngoài. Ngay cả với những dữ liệu tưởng chừng vô hại, việc lường trước các khả năng bị lạm dụng hoặc sử dụng sai mục đích sẽ giúp tổ chức đưa ra quyết định sáng suốt về việc có nên sử dụng nguồn dữ liệu đó hay không, và nếu có thì trong phạm vi nào.

Xây dựng Hạ tầng Công nghệ và Năng lực Phân tích: Khi đã quyết định sử dụng dữ liệu thay thế, bước thiết yếu tiếp theo là đảm bảo có đủ hạ tầng công nghệ (tech stack) và năng lực nhân sự để thu thập, lưu trữ, xử lý, phân tích và khai thác hiệu quả nguồn dữ liệu này. Điều này bao gồm việc lựa chọn các nền tảng, công cụ phù hợp và cân nhắc ứng dụng AI/Học máy (Machine Learning) để tự động hóa các quy trình, nâng cao hiệu suất phân tích.

Ưu tiên Bảo mật Thông tin và Quyền riêng tư: Do dữ liệu thay thế thường chứa thông tin nhạy cảm, việc tăng cường các biện pháp an ninh mạng là tối quan trọng để bảo vệ dữ liệu và duy trì lòng tin của khách hàng cũng như công chúng. Các tổ chức cần đầu tư vào các giải pháp bảo mật tiên tiến như tường lửa thế hệ mới, hệ thống bảo vệ điểm cuối toàn diện (endpoint protection), các chương trình chống phần mềm độc hại, mã hóa dữ liệu và kiểm soát truy cập chặt chẽ để củng cố hệ thống phòng thủ.

Đảm bảo Tính Minh bạch và Công bằng: Khi chia sẻ những phân tích hoặc kết quả thu được từ dữ liệu thay thế, cần đảm bảo tính minh bạch và công bằng. Việc che giấu thông tin quan trọng hoặc chỉ chia sẻ có chọn lọc cho một số ít đối tượng (ví dụ: nhà đầu tư lớn) có thể gây tổn hại nghiêm trọng đến lòng tin của công chúng và tạo ra sự bất bình đẳng trên thị trường.

Theo dõi và Đánh giá Kết quả Liên tục: Cần thiết lập cơ chế theo dõi và đánh giá định kỳ tác động của việc sử dụng dữ liệu thay thế đối với hiệu quả hoạt động và kết quả đầu tư. Kết quả đánh giá này là cơ sở để ban lãnh đạo đưa ra quyết định về việc tiếp tục, điều chỉnh hay ngừng các hoạt động liên quan. Ở góc độ rộng hơn, việc chia sẻ (một cách phù hợp và có chọn lọc) những kinh nghiệm và bài học thành công/thất bại có thể giúp cộng đồng đầu tư cùng phát triển và nâng cao hiểu biết chung về lĩnh vực này.

8. Tương lai của Dữ liệu Thay thế.

Ngay cả khi công nghệ cung cấp dữ liệu ngày càng phát triển với các nguồn cấp có cấu trúc tốt và bộ dữ liệu được chuẩn hóa, vai trò của các nhà phân tích tài chính và chuyên gia dữ liệu lành nghề vẫn là không thể thay thế. Các quỹ đầu tư cơ bản sử dụng dữ liệu thay thế để bổ sung, kiểm chứng cho các giả thuyết đầu tư sẵn có, trong khi giới ‘quants’ tích hợp chúng vào các mô hình phức tạp cùng với vô số dữ liệu truyền thống khác. Nói cách khác, dữ liệu thay thế sẽ luôn là một gia vị quan trọng, chứ không thể thay thế toàn bộ bữa tiệc phân tích đầu tư.

Đây cũng là cơ sở để nhiều chuyên gia phản biện lại quan điểm cho rằng việc một bộ dữ liệu trở nên phổ biến đồng nghĩa với việc tiềm năng tạo alpha sẽ suy giảm (diminishing alpha), đặc biệt là với dữ liệu thô. Gene Ekster lập luận: “Nếu bạn đưa cùng một bộ dữ liệu thô cho 20 quỹ và nhà phân tích khác nhau, họ sẽ nghĩ ra 20 cách khác nhau để kiếm tiền từ nó. Theo nghĩa đó, sẽ không có sự suy giảm alpha (alpha decay).”

Erez Katz (Neuravest) cũng đồng tình, nhấn mạnh tầm quan trọng của chuyên môn sâu về lĩnh vực (subject matter expertise) và tư duy đổi mới: “Bạn cần những người có kỹ năng phân tích sắc bén, nhưng đồng thời phải là người am hiểu sâu sắc về thị trường tài chính, về các yếu tố có thể dịch chuyển thị trường, và có khả năng tư duy vượt ra ngoài những lối mòn hay ‘kiến thức đám đông’ thông thường.”

Tác giả: Trần Ninh Giang


Nguồn tham khảo: What Is Alternative Data and Why Is It Changing Finance? | Built In


Bạn đang xem bài viết:
Tại sao dữ liệu thay thế đang thay đổi ngành tài chính?
Link https://vnlibs.com/tai-chinh/tai-sao-du-lieu-thay-the-dang-thay-doi-nganh-tai-chinh.html