[ad_1]
Công cụ chính của nhà khoa học dữ liệu trong giao dịch là gì? Câu trả lời công bằng (và hiển nhiên) là một chiếc máy tính, vì nó xử lý dữ liệu nhanh hơn nhiều so với khả năng của chúng ta. Hãy tưởng tượng bạn đang cố gắng thực hiện bất kỳ tác vụ nào liên quan đến dữ liệu mà không có dữ liệu, với — thở hổn hển — bút chì và giấy bên cạnh, vẽ bằng tay vô số bảng biểu, đồ thị và các phép tính cho những gì bạn biết sẽ chỉ mất vài giây trên máy tính. Khá an toàn khi nói rằng khoa học dữ liệu ngày nay sẽ không tồn tại nếu không có máy tính.
Cho rằng máy tính là các công cụ thiết yếu cần có để thực hiện khoa học dữ liệu, bạn sẽ mong đợi rằng công việc này đòi hỏi sự hiểu biết về cách thức hoạt động của máy tính. Suy cho cùng, thật khó để thực hiện công việc ngay khi bạn không hiểu các công cụ của mình. Tuy nhiên, đối với nhà khoa học dữ liệu đầy tham vọng, họ rất dễ bỏ qua việc dành thời gian xây dựng kiến thức nền tảng xung quanh lĩnh vực này.
Và điều đó có thể hiểu được. Các chủ đề lý thuyết trong toán học, khoa học máy tính và kỹ thuật thường được xếp vào vai trò của mục tiêu học tập thứ cấp vì chúng không mang lại lợi ích ngay lập tức (hoặc có thể tuyển dụng ngay lập tức, một cách trung thực) như các mục tiêu học tập tập trung vào ứng dụng hơn như Python, Tensorflow hoặc Amazon Internet Dịch vụ. Tại sao một nhà khoa học dữ liệu mới chớm nở lại không tập trung vào những loại chủ đề mang lại những cải thiện ngay lập tức, có thể đo lường được về kỹ năng và hiểu biết như được thể hiện qua danh mục dự án đang phát triển nhanh chóng của họ?
Đó là một nơi tốt để bắt đầu hành trình khoa học dữ liệu của bạn, nhưng việc tìm hiểu khía cạnh lý thuyết hơn của giao dịch có thể giúp bạn vượt qua giai đoạn bắt đầu đó và thực hiện bước tiếp theo. Đó là mục đích của bài viết này (và hy vọng là nhiều bài viết khác): để giới thiệu cho bạn nền tảng lý thuyết làm nền tảng cho các công nghệ bạn sử dụng hàng ngày trong khoa học dữ liệu.
Tuyệt vời, bây giờ phần giới thiệu đã xong, chúng ta có thể chuyển sang nội dung thú vị. Chúng tôi sẽ bắt đầu bằng một câu hỏi mà bạn có thể đã suy ngẫm, dù chỉ một thời gian ngắn: tại sao máy tính lại sử dụng hệ nhị phân? Tôi sẽ đặt dòng cuối cùng lên phía trước và nói với bạn: đó là vì nếu không làm vậy sẽ không hiệu quả. Mục đích của bài viết này là để giải thích Tại sao nó không hiệu quả.
Nếu bạn đã biết nhị phân là gì, vui lòng bỏ qua phần này. Nếu không, đây là dành cho bạn!
Hãy tưởng tượng chúng ta gặp phải sự sống thông minh ngoài hành tinh. Giả sử họ có 3 ngón tay, thay vì 5 ngón trên mỗi bàn tay. Làm sao họ có thể đếm được? Chúng ta có các chữ số từ 1 đến 9, nhưng sau đó, chúng ta lặp chữ số đầu tiên về 0 và mở chữ số tiếp theo ở số 1 để tạo ra 10. Nhưng những người bạn ngoài hành tinh của chúng ta có thể cho rằng điều đó chẳng có ý nghĩa gì – họ có thể mở chữ số tiếp theo ở số 6 , vì chúng chỉ có 6 ngón tay, trong khi chúng ta có 10. Bạn có bắt đầu thấy giá trị vị trí mà chúng ta gán cho các số là tùy ý như thế nào không? Nếu con người sinh ra không có 10 ngón tay thì có lẽ chúng ta sẽ không đếm theo cách mình làm. Thay vì bắt đầu một chữ số mới ở số 10, chúng ta có thể viết 6, 2, 16, 46 hoặc bất kỳ số nào khác, miễn là chúng ta có một ký hiệu duy nhất cho mỗi giá trị. Hãy so sánh xem người ngoài hành tinh sẽ tính như thế nào so với chúng ta. Các giá trị trong mỗi hàng đều bằng nhau:
Chúng tôi gọi những hệ thống số mới này là hệ thống số cơ sở “X”, trong đó X là giá trị mà bạn chuyển sang một chữ số mới. Ví dụ: hệ thống số của chúng tôi là hệ thống số cơ sở 10 vì mỗi chữ số đạt tối đa trước 10. Những người bạn ngoài hành tinh của chúng ta sẽ có hệ thống số cơ sở 6 vì số của họ đạt tối đa trước 6. Máy tính hoạt động trong hệ thống số cơ sở 2, được gọi là hệ nhị phân . Hãy áp dụng logic đếm tương tự mà chúng ta đã áp dụng cho hệ cơ số 6 của người ngoài hành tinh cho hệ nhị phân.
Nếu điều đó có ý nghĩa với bạn, bạn sẽ hiểu hệ nhị phân hoạt động như thế nào. Không quá đáng sợ, tôi hy vọng! Nhiều người cảm thấy lo lắng vì họ nghe nó được gọi là “ngôn ngữ”, nhưng hệ nhị phân chỉ là một hệ thống số khác và hoạt động giống như hệ thống cơ số 10 quen thuộc của chúng ta. Về cơ bản, số học hoạt động theo cách tương tự như trong hệ thống của chúng tôi.
Giống như các số của chúng ta có thể được biểu diễn dưới dạng tổng lũy thừa của 10, số nhị phân có thể được biểu diễn dưới dạng tổng lũy thừa của 2. Cách tốt nhất để giải thích là thông qua một ví dụ. (Xin lưu ý, số nhị phân thường được biểu thị bằng cách đặt 0b trước số đó. Đó là cách tôi sẽ biểu thị chúng trong phần tiếp theo của bài viết này).
Ở cơ sở 10,
Tương tự, ở cơ sở 2,
Thực hiện các phép tính tổng đó, chúng ta thấy ob1101 = 13. Đây là một cách dễ dàng để chuyển đổi từ hệ nhị phân sang cơ số 10.
Bây giờ chúng ta đã hiểu cơ bản về cách hoạt động của hệ nhị phân, chúng ta có thể giải quyết câu hỏi trọng tâm của bài viết này. Tại sao máy tính biểu diễn thông tin ở dạng nhị phân? Không phải vì đó là cách duy nhất mà máy tính có thể biểu diễn thông tin – đó là một quan niệm sai lầm phổ biến. Một số máy tính đầu tiên, chẳng hạn như ENIAC, là máy tính cơ sở 10. Trên thực tế, có ba lý do chính khiến máy tính hiện đại sử dụng hệ nhị phân để biểu diễn thông tin.
Một lý do khác khiến chúng tôi sử dụng hệ thống nhị phân là chúng đơn giản hơn các hệ thống khác. Nói một cách đơn giản, nó dễ dàng hơn và cần ít thành phần vật lý hơn để chỉ biểu thị 2 trạng thái (0 hoặc 1). Để hiểu lý do tại sao lại như vậy, bạn cần hiểu rằng các hệ thống kỹ thuật số như máy tính là… à… kỹ thuật số. Điều đó có nghĩa là họ sử dụng phần cứng hoạt động bằng cách sử dụng các biểu diễn số rời rạc thay vì liên tục. Như bạn có thể nhớ trong lớp toán, các số rời rạc là số nguyên ( 0, 1, -4, v.v.) và số liên tục là số nguyên và mọi phần thập phân ở giữa ( 0 1, -4, .2, -.2343, và mọi giá trị bạn có thể nghĩ đến ở giữa). Tuy nhiên, máy tính là hệ thống thực sự hoạt động bằng điện, thường sử dụng mức điện áp để biểu diễn thông tin. Điện áp là một giá trị liên tục (bạn có thể có 3,22682393 volt). Tuy nhiên, máy tính của chúng ta là máy tính kỹ thuật số – nó chỉ biết cách vận hành bằng cách sử dụng các giá trị rời rạc. Bằng cách nào đó, chúng ta phải xây dựng một hệ thống sử dụng giá trị (điện áp) liên tục để biểu diễn hệ thống kỹ thuật số. Chúng tôi thực hiện điều này bằng cách đặt dải điện áp tương đương với giá trị kỹ thuật số. Dưới đây là một ví dụ về thiết lập như vậy:
Các mạch hoạt động theo phạm vi của hình trên sẽ coi bất kỳ mức điện áp nào trong khoảng từ 0 đến 2 V là 0b0, từ 4V đến 6 V là 0b1, và bất kỳ mức điện áp nào khác sẽ cho chúng ta biết rằng hệ thống đang bị rối. Lưu ý bao gồm một vùng chuyển tiếp ở giữa. Nếu bạn không quen nghĩ về các hệ vật lý, có vẻ lạ khi chúng ta có vùng chuyển tiếp – có vẻ như chúng ta có thể đi ngay từ 0 đến 1. Tuy nhiên, trong các hệ vật lý, chúng ta cần xây dựng một ranh giới có lỗi, nếu không hệ thống của chúng ta sẽ mỏng manh hơn nhiều so với mức cần thiết (hoặc lẽ ra). Không cần nhảy hố thỏ, chúng ta xây dựng vùng chuyển tiếp vào logic của mình vì các mạch kỹ thuật số được cấu tạo từ các cổng logic và cổng logic cần không gian để bật và tắt. Khi nó chặn dòng chảy, thường có một dải điện áp giữa thấp và cao nơi cổng “gần như” bật. Việc duy trì trong phạm vi này thực sự có thể làm hỏng các thành phần, vì vậy chúng tôi xây dựng một vùng chuyển tiếp trong đó chúng tôi không để các thành phần nghỉ ngơi.
Hãy tưởng tượng nếu chúng ta muốn xây dựng một hệ thống cơ sở 3. Sau đó, bạn sẽ phải thêm một trạng thái khác:
Việc thêm một trạng thái khác đương nhiên đòi hỏi nhiều thành phần phần cứng hơn. Điều đó làm cho việc thiết kế một hệ thống sử dụng hệ thống cao hơn cơ sở 2 vốn đã phức tạp hơn về mặt phần cứng (cả thiết kế và số lượng thành phần). Đây thực sự là gốc rễ của lý do tại sao máy tính sử dụng hệ nhị phân. Tuy nhiên, tôi sẽ chú ý đến hai nhánh đặc biệt quan trọng của việc sử dụng điện toán cao hơn cơ sở 2.
Hãy dành một giây để xác định năng lượng điện. Phương trình thực sự đơn giản:
Trong đó P là công suất (Watts), I là dòng điện (Amps), R là điện trở (Ohms) và V là điện áp (Voltz). Khi bạn tăng điện áp cho mỗi mức logic mới, bạn sẽ tăng mức tiêu thụ điện năng cho toàn bộ thiết bị theo cấp số nhân, giả sử điện trở không đổi (một giả định hợp lý trong hầu hết các trường hợp). Tiêu thụ nhiều điện năng hơn đồng nghĩa với việc chi nhiều tiền hơn để chạy thiết bị, đây là lý do chính khiến bạn nên tránh sử dụng các hệ thống này trong hầu hết các trường hợp.
Bạn đã bao giờ chạm vào mặt sau của máy tính xách tay sau khi nó đã làm việc chăm chỉ trong một hoặc hai giờ chưa? Có lẽ bạn cảm thấy rất nóng. Nhiệt độ quá cao là kẻ thù của thiết bị điện tử và việc tránh sản xuất nó là ưu tiên hàng đầu của các kỹ sư. Xét phương trình nhiệt lượng:
Trong đó Q là nhiệt (Joules), t là thời gian (giây), R và I là điện trở và dòng điện. Mỗi thành phần mới mà bạn sử dụng trong mạch điện sẽ tiêu thụ nhiều dòng điện hơn để hoạt động. Điều đó, đến lượt nó, làm tăng nhiệt.
Trong bài viết này, chúng tôi đã đề cập đến lý do tại sao máy tính sử dụng nhị phân (ngoài việc giới thiệu nhị phân là gì). Chúng tôi biết điều đó không hiệu quả và chúng tôi đã nghiên cứu cơ chế giải thích tại sao lại như vậy, đưa ra các khái niệm như điện áp, dòng điện và công suất. Chúng tôi thấy rằng việc sử dụng các hệ thống số khác trong điện toán sẽ yêu cầu chúng tôi thể hiện nhiều trạng thái hơn bằng mạch logic kỹ thuật số của mình. Ngược lại, điều đó đòi hỏi nhiều năng lượng hơn và các thành phần mạch điện hơn đồng thời tạo ra nhiều nhiệt hơn, tất cả những điều mà các kỹ sư và người tiêu dùng đều muốn tránh.
Nhưng chúng tôi chưa thực sự đề cập đến Làm sao máy tính thực sự thể hiện thông tin này – chúng tôi vừa nói rằng nó sử dụng mạch kỹ thuật số để làm việc đó. Trong một số bài viết tiếp theo, chúng ta sẽ khám phá câu hỏi này một cách đầy đủ hơn. Tôi sẽ cố gắng giải thích cách hoạt động của các mạch logic kỹ thuật số – bắt đầu từ mức thấp nhất có thể, chất bán dẫn. Nếu bạn quan tâm đến điều đó, hãy theo dõi nhé! Giống như trong bài viết này, tôi sẽ cố gắng nhắm mục tiêu đến bạn, những nhà khoa học dữ liệu mới chớm nở, mà không cho rằng bạn biết các khái niệm kỹ thuật điện làm nền tảng cho công nghệ này.
Hy vọng rằng, cho dù bạn là nhà khoa học dữ liệu mới hay đã thành danh, bạn sẽ thấy bài viết này thú vị. Mặc dù phần cứng máy tính không hẳn là một khái niệm về khoa học dữ liệu hay học máy, nhưng đây là những công cụ phục vụ công việc của chúng ta và tôi nghĩ việc phát triển sự hiểu biết cơ bản về chúng là điều đáng giá. Nếu bạn đồng ý và thấy bài viết này thú vị, xin hẹn gặp lại bạn lần sau!
(1) R. Palaniappan, Thiết kế hệ thống kỹ thuật số (2011), https://dvikan.no/ntnu-studentserver/kompendier/digital-systems-design.pdf
[ad_2]
Source link