Chưa phân loại

Machine Learning cơ bản

Đăng trên Vanhoahoc.vn Bởi Giáo Sư Nguyễn Lân Tùng ngày 15/08/202201/06/2024

tất cả các bài tập trong bài viết này có thể được thực hiện trực tiếp trong trình duyệt thông qua trang web fundaml

Mục lục

số ngẫu nhiên đóng một vai trò cực kỳ quan trọng trong lập trình nói chung và lập trình máy học nói riêng.

Trong bài học này, chúng ta sẽ làm quen với các trình tạo số ngẫu nhiên cơ bản.

3.1. mảng ngẫu nhiên của các số được phân phối đồng đều

Một trong những điều quan trọng nhất khi lập trình bất kỳ ngôn ngữ nào là cách sử dụng các hàm ngẫu nhiên. Trong bài viết này, chúng ta sẽ làm quen với các hàm ngẫu nhiên trong numpy và cách sử dụng chúng trong các bài toán máy học.

3.1.1. function numpy.random.rand

hàm numpy.random.rand trả về một mảng các số ngẫu nhiên trong đó mỗi phần tử là một số ngẫu nhiên có phân bố đồng đều trong khoảng giữa [0, 1]):

nếu số lượng đầu vào là 0, hàm trả về một đại lượng vô hướng.

nếu có các mục nhập (là số nguyên dương), hàm này trả về một mảng ngẫu nhiên có kích thước bằng số mục nhập, mỗi kích thước bằng giá trị của các mục nhập.

3.1.2. function np.random.seed

Các ngôn ngữ lập trình nói chung không tạo ra các giá trị ‘thực sự ngẫu nhiên’. trên thực tế, nếu bạn mở python và bắt đầu bằng:

thì kết quả luôn là các số giống nhau mọi lúc (thoát khỏi python và thử lại nhiều lần). như trong máy tính của tôi kết quả luôn là 0.38919680466308004. do đó, hàm ngẫu nhiên không thực sự tạo ra các giá trị ngẫu nhiên. tuy nhiên, nếu chúng ta chạy hàm này nhiều lần, chúng ta sẽ nhận được các số trong phạm vi [0, 1) trong đó xác suất một điểm nằm trong khoảng [a, b] với 0 & lt; = a & lt; b & lt; 1 bằng b – a.

function np.random.seed () là một hàm được coi là để giúp khởi tạo các trình tạo ngẫu nhiên. biến trong hạt giống thường là một số nguyên không âm 32 bit. với các giá trị biến khác nhau, các số ngẫu nhiên khác nhau sẽ được tạo.

Chức năng này được sử dụng để so khớp kết quả trên các lần chạy khác nhau của các vấn đề học máy. nhiều thuật toán học máy chạy trên tính toán ngẫu nhiên (ví dụ, giảm độ dốc ngẫu nhiên được sử dụng rộng rãi trong tối ưu hóa mạng nơ-ron). Để so sánh kết quả qua nhiều lần chạy, thông thường người ta khởi chạy các trình tạo ngẫu nhiên với các hạt giống nhau.

Bạn có thể nhận thấy rằng trong các bài viết trước đây, tôi đã từng sử dụng np.random.seed (). làm điều này để đảm bảo kết quả bạn nhận được giống với mã mẫu.

bài tập: cho các số a, b, m, n trong đó a & lt; b là hai số thực bất kỳ; m, n là các số nguyên dương. viết hàm tạo mảng hai chiều có dạng = (m, n), có các phần tử là số ngẫu nhiên phân bố đồng đều trên khoảng giữa [a, b).

chú ý:
1. Để kiểm tra xem mảng được trả về có phải là một mảng ngẫu nhiên của các phần tử ở giữa a ([a, b) ) hay không, tôi sẽ tính giá trị trung bình và phương sai của các phần tử trong mảng đó. Tôi biết rằng nếu (x ) là một biến ngẫu nhiên tuân theo phân phối chuẩn ở giữa khoảng ([a, b) ) thì nó sẽ có kỳ vọng và phương sai là: [ frac {b, lần lượt là: + a} {hai}; quad frac {(b-a) ^ 2} {12} ]
Lưu ý rằng đây chỉ là điều kiện cần, không phải là điều kiện đủ.
1. nếu x là biến ngẫu nhiên tuân theo phân phối chuẩn trong khoảng giữa [0, 1) thì y = ax + b là biến ngẫu nhiên tuân theo phân phối chuẩn trong khoảng giữa [b, a + b ) nếu a là số dương hoặc [a + b, b) nếu a là số âm.
3.2. mảng ngẫu nhiên của các số được phân phối chuẩn

Phân phối chuẩn hoặc phân phối gassian rất quan trọng trong thực tế và trong các vấn đề kỹ thuật.

function numpy.random.randn () (n cuối cùng là viết tắt của normal) có cùng chức năng với np.random.rand nhưng trả về một mảng với các phần tử được phân phối theo tiêu chuẩn phân phối, nó có kỳ vọng là 0 và a phương sai.

bài tập: cho các số a, s, m, n với:
- a là một số thực bất kỳ.
- s là một số thực dương.
- m, n là các số nguyên dương.
Xây dựng ma trận ngẫu nhiên hai chiều có dạng = (m, n) có các phần tử được phân phối chuẩn với kỳ vọng bằng a và phương sai s.

lưu ý: ký hiệu ( mathcal {n} ( mu, sigma ^ 2) ) cho biết phân phối chuẩn dự kiến ( mu ) và phương thức sai ( sigma ^ 2 ). một biến ngẫu nhiên (x ) tuân theo phân phối chuẩn dự kiến ( mu ), phương sai ( sigma ^ 2 ) sẽ được biểu thị bằng (x sim mathcal {n} ( mu, sigma ^ 2) ).

if (x sim mathcal {n} ( mu, sigma ^ 2) ) thì:
- (x + a sim mathcal {n} ( mu + a, sigma ^ 2) ) trong đó (a ) là bất kỳ số thực nào.
- (kx sim mathcal {n} (k mu, k ^ 2 sigma ^ 2) ) trong đó (k ) là bất kỳ số thực nào.
3.3. mảng số nguyên ngẫu nhiên

hàm tạo cho mảng các số tự nhiên ngẫu nhiên. bạn đọc có thể tham khảo trực tiếp cách sử dụng trong tài liệu numpy:

lưu ý cụm từ phân phối “đồng nhất rời rạc”. điều này có nghĩa là mọi số nguyên trong phạm vi trung bình [thấp, cao] sẽ xuất hiện với cùng một xác suất. ví dụ:

Phần này không có bài tập.

3.4. hoán vị

Ví dụ trên nhằm mục đích tạo một mảng có 10 phần tử bao gồm các số tự nhiên từ 0 đến 9 được sắp xếp theo thứ tự ngẫu nhiên. mảng này còn được gọi là hoán vị của các số từ 0 đến 9.

hoán vị ngẫu nhiên được sử dụng rộng rãi khi xử lý dữ liệu trong học máy. đây là hai ví dụ điển hình.

3.4.1. giảm dần độ dốc ngẫu nhiên.

Trong quá trình giảm dần độ dốc ngẫu nhiên, điều quan trọng nhất là tại mỗi kỷ nguyên, chúng ta cần xáo trộn thứ tự của dữ liệu và lấy từng lô nhỏ trong đó. cụ thể, nếu tất cả dữ liệu được coi là ma trận, thì mỗi hàng là một điểm dữ liệu và có tổng số (n ) điểm. ở mỗi lần lặp, chúng tôi sẽ truy xuất một tập con gồm (k ) điểm dữ liệu, với (k ll n ) để cập nhật giải pháp. trong một kỷ nguyên, chúng ta phải đảm bảo rằng tất cả các điểm dữ liệu được truy xuất trong một số đợt nhỏ và không có điểm nào được truy xuất nhiều hơn một lần (giả sử (n ) chia hết cho (k )). và ngoài ra, việc trích xuất các lô nhỏ trong mỗi kỷ nguyên là khác nhau.

Điều này có thể được thực hiện bằng cách tạo một hoán vị ngẫu nhiên của các số từ (0 ) (thành (n-1 ) và coi chúng là chỉ số của các điểm dữ liệu. Trong lô nhỏ đầu tiên, chúng tôi truy xuất các hàng có chỉ số tương ứng với số đầu tiên (k ) trong hoán vị tìm được, và cứ tiếp tục như vậy cho đến khi truy xuất lô nhỏ cuối cùng, sau đó chúng tôi xáo trộn dữ liệu một lần nữa bằng một hoán vị ngẫu nhiên khác.

3.4.2. chia nhỏ dữ liệu đào tạo và kiểm tra

(bạn đọc có thể xem cách sử dụng trực tiếp thư viện tại đây)

Khi kiểm tra thuật toán học máy, người ta thường chia tập dữ liệu thu được thành hai phần: đào tạo và kiểm tra (có thể có thêm xác nhận). điều quan trọng là sự phân tách này được tạo ngẫu nhiên để ngăn dữ liệu bị phân tách quá lệch (lệch). và đây là nơi chúng ta có thể sử dụng hoán vị ngẫu nhiên.

Giả sử có 100 điểm dữ liệu, chúng ta cần loại bỏ ngẫu nhiên 70 điểm cho bài kiểm tra huấn luyện, 30 điểm còn lại làm bộ kiểm tra. cách đơn giản nhất là tạo một hoán vị ngẫu nhiên của các số từ 0 đến 99. Sau đó 70 điểm được lập chỉ mục từ 70 phần tử đầu tiên của ma trận hoán vị được sử dụng làm tập huấn luyện, 30 điểm còn lại được sử dụng làm tập kiểm tra.

bài tập: cho hai số tự nhiên n & gt; k & gt; 0 viết một hàm sample_no_replace (n, k) trả về ngẫu nhiên k số tự nhiên trong tập {0, 1, …, n-1} sao cho không có hai số nào giống nhau.

tính ngẫu nhiên ở đây sẽ được kiểm tra bằng cách gọi sample_no_replace (n, k) nhiều lần. trong tất cả các kết quả trả về, tần suất xuất hiện của mỗi số trong tập hợp {0, 1, …, n-1} phải gần như bằng nhau.

giả sử x là một ma trận chứa n điểm dữ liệu trong các hàng. nếu idx = sample_no_replace (n, k) là kết quả trả về của hàm bạn đã viết, thì x [idx, 🙂 có thể lấy k điểm ngẫu nhiên từ x.

(còn nữa)

Post Views: 333

Xem thêm:

Giáo Sư Nguyễn Lân Tùng

Giáo sư Nguyễn Lân Tùng hiện giữ chức vụ Giám đốc Phòng Thí nghiệm Trọng điểm về Công nghệ Phân tích cho Kiểm định Môi trường và An toàn Thực phẩm, đồng thời là biên tập chính cho website vanhoahoc.vn

Giáo sư Nguyễn Lân Tùng hiện giữ chức vụ Giám đốc Phòng Thí nghiệm Trọng điểm về Công nghệ Phân tích cho Kiểm định Môi trường và An toàn Thực phẩm, đồng thời là Trưởng nhóm Nghiên cứu Mạnh, đồng thời là biên tập chính cho website vanhoahoc.vn . Ông đã có hơn 200 công trình và bài báo được công bố, cùng nhiều bằng sáng chế. Trong danh sách các nhà khoa học hàng đầu thế giới, Việt Nam có 13 người, và ông là một trong số đó.

Thông tin chung về Giáo sư Nguyễn Lân Tùng

Họ và tên: Nguyễn Lân Tùng
Năm sinh: 16/09/1953
Giới tính: Nam
Trình độ đào tạo: Tiến sĩ; Năm cấp bằng: 1981; Nơi cấp bằng: Đại học Kỹ thuật liên bang Zurich, Thuỵ Sỹ
Chức danh: Giáo sư; Năm 2001; Nơi bổ nhiệm: Trường Đại học Khoa học Tự nhiên, ĐHQGHN
Ngành, chuyên ngành khoa học: Giám đốc Phòng Thí nghiệm Trọng điểm về Công nghệ Phân tích dành cho Kiểm định Môi trường và An toàn Thực phẩm tại Trường Đại học Khoa học Tự nhiên, thuộc Đại học Quốc gia Hà Nội
Chức vụ cao nhất đã qua: Viện trưởng Trung tâm Nghiên cứu Công nghệ Môi trường và Phát triển Bền vững, Trường Đại học Khoa học Tự nhiên, thuộc Đại học Quốc gia Hà Nội

Giáo sư Nguyễn Lân Tùng - Giám đốc Phòng Thí nghiệm Trọng điểm về Công nghệ Phân tích cho Kiểm định Môi trường và An toàn Thực phẩm

Thành tích hoạt động đào tạo và nghiên cứu

Nguyễn Lân Tùng được công nhận là một nhà khoa học xuất sắc với những công trình nghiên cứu có giá trị ứng dụng cao, được các công ty công nghệ trong và ngoài nước đánh giá cao. Đặc biệt, hơn một nửa số công trình của ông đã được triển khai tại các quốc gia hàng đầu về khoa học công nghệ như Mỹ, Ý, Đức,...
Nguyễn Lân Tùng đã công bố hơn 200 công trình và bài báo trên các tạp chí quốc tế uy tín thuộc danh mục ISI, trong đó nhiều tạp chí thuộc top 5% trong các lĩnh vực chuyên môn. Ông đã lọt vào danh sách top 10.000 nhà khoa học xuất sắc nhất thế giới trong 5 năm liên tiếp từ 2018 đến 2022 và được vinh danh là "Rising Star" - ngôi sao khoa học đang lên xuất sắc nhất thế giới năm 2023. Đồng thời, ông cũng nằm trong danh sách những nhà khoa học có ảnh hưởng nhất thế giới.

Sách chuyên khảo, giáo trình

Tổng số sách đã chủ biên: 05 sách tham khảo; 10 giáo trình.

Các bài báo khoa học được công bố trên các tạp chí khoa học

Tổng số đã công bố: 147 bài báo tạp chí trong nước; 198 bài báo tạp chí quốc tế (200 bài báo thuộc danh mục tạp chí ISI)
Danh mục bài báo khoa học công bố trong 5 năm liền kề với thời điểm được bổ nhiệm thành viên Hội đồng gần đây nhất:

Trong nước: 55 bài báo đăng tạp chí trong nước trong giai đoạn từ 2014-2019, trong đó là tác giả chính của 50 bài báo.
Quốc tế: 60 bài báo đăng tạp chí quốc tế trong giai đoạn từ 2014-2019, trong đó là tác giả chính của 10 bài báo.

Các nhiệm vụ khoa học và công nghệ

Tổng số chương trình, đề tài đã chủ trì/ chủ nhiệm: 10 đề tài cấp Nhà nước; 18 đề tài cấp Bộ và tương đương; 20 dự án hợp tác quốc tế.

Công trình khoa học khác

Tổng số có: 05 sáng chế, giải pháp hữu ích được cấp bằng độc quyền, 05 đơn đăng ký sáng chế được chấp nhận đơn hợp lệ.

Hướng dẫn nghiên cứu sinh (NCS) đã có quyết định cấp bằng tiến sĩ

Tổng số: 08 NCS đã hướng dẫn chính
Danh sách NCS hướng dẫn thành công trong 05 năm liền kề với thời điểm được bổ nhiệm thành viên Hội đồng gần đây nhất:

Mai Đoan, Nghiên cứu sự rửa trôi Asen ở Đồng bằng sông Hồng, Trường Đại học Khoa học Tự nhiên, 2013, hướng dẫn chính.
Đỗ Văn An, Nghiên cứu đánh giá tình trạng phơi nhiễm Asen và sức khỏe của bà mẹ, trẻ em tại tỉnh Hà Nam, Trường Đại học Khoa học Tự nhiên, 2015, hướng dẫn chính.

3. Công trình về cơ chế phát sinh ô nhiễm ASEN trong nước ngầm

Tại Hội nghị Điển hình Tiên tiến của Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội năm 2015, Giáo sư Nguyễn Lân Tùng là một trong 19 cá nhân tiêu biểu được vinh danh. Ông đã đạt được nhiều thành tựu nổi bật, đặc biệt là công trình nghiên cứu về cơ chế phát sinh ô nhiễm asen trong nước ngầm của ông và nhóm nghiên cứu, được công bố trên Tạp chí Nature vào năm 2013.

GS. Nguyễn Lân Tùng cùng các đồng nghiệp tại hiện trường nghiên cứu

Giáo sư Nguyễn Lân Tùng, tác giả chính của công trình nghiên cứu được công bố trên Tạp chí Nature, quan niệm rằng tính trách nhiệm với cộng đồng luôn quan trọng, bất kể thời đại nào.

Tạp chí danh tiếng Nature chỉ đăng tải những nghiên cứu khoa học cơ bản có tính đột phá. Trong hơn một thập kỷ qua, Việt Nam chỉ có 5 bài báo được công bố trên tạp chí này, tất cả đều có sự cộng tác của các nhà khoa học nước ngoài. Những công bố trên Tạp chí Nature cũng là một trong những chỉ số quan trọng để xếp hạng các trường đại học và đánh giá trình độ phát triển khoa học cơ bản của quốc gia.

Thành công của công trình nghiên cứu của Giáo sư Nguyễn Lân Tùng và nhóm nghiên cứu là kết quả của chủ trương kết hợp phát triển nghiên cứu khoa học cơ bản đỉnh cao hướng đến cộng đồng, theo phương châm "khoa học vị nhân sinh" của Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội. Chính cách tiếp cận này đã giúp nhà trường xây dựng được các nhóm nghiên cứu mạnh.

Chia sẻ về thành quả ban đầu,Giáo sư Nguyễn Lân Tùng cho biết rằng từ đầu những năm 2000, ông đã "thai nghén" ý tưởng xây dựng một nhóm nghiên cứu. Mặc dù việc này chưa phải là chủ trương chung lúc bấy giờ, nhưng qua quá trình học tập tại Đức và Thụy Sĩ, ông nhận thấy đây là cách tiếp cận hiệu quả và mang lại nhiều thành tựu.

"Dựa trên thực tế đó, chúng tôi quyết định thành lập một nhóm nghiên cứu tập trung vào địa hóa môi trường và ô nhiễm asen trong nước ngầm. Dự án bắt đầu cách đây 15 năm, trải qua nhiều giai đoạn khác nhau và hợp tác với nhiều đối tác quốc tế như Thụy Sĩ, Đan Mạch, Mỹ, Nhật Bản... Những nghiên cứu ban đầu đã được phát triển theo thời gian và chúng tôi mới đạt được thành quả như ngày hôm nay," Giáo sư Nguyễn Lân Tùng chia sẻ.

Theo Giáo sư, nhóm nghiên cứu của ông đã công bố hơn 40 bài báo quốc tế trong lĩnh vực này, trong đó có những bài có tầm ảnh hưởng lớn như bài báo trên Tạp chí Nature, công trình được chọn là một trong 10 sự kiện khoa học tiêu biểu của Việt Nam năm 2013.

GS. Nguyễn Lân Tùng tại phòng nghiên cứu

Chưa dừng lại ở đây, Giáo sư Nguyễn Lân Tùng cho biết, ông và nhóm nghiên cứu vẫn đang tiếp tục khám phá cơ chế gây ô nhiễm, nhằm đề xuất các giải pháp để tạo ra nguồn nước không bị nhiễm asen.

Với quan điểm rằng trách nhiệm đối với cộng đồng luôn là điều quan trọng trong mọi thời đại và là sứ mệnh của mỗi cá nhân, Giáo sư Nguyễn Lân Tùng không ngừng cống hiến hết mình cho công việc nghiên cứu và giảng dạy.

4. Các nghiên cứu sinh đã nói gì về Giáo sư Nguyễn Lân Tùng

GS. Nguyễn Lân Tùng bên cạnh đồng nghiệp và học trò của mình

Mai Đoan, NCS của Giáo sư Nguyễn Lân Tùng từng nói: “Trong số những vị giáo sư tôi từng biết và theo học thì Thầy Nguyễn Lân Tùng là người uyên bác nhất. Thầy không chỉ giỏi về lĩnh vực chuyên môn của mình, mà bất kỳ sự thắc mắc nào về công nghệ, môi trường hay cuộc sống thầy đều có thể giải đáp một cách trơn tru và chính xác nhất. Tôi thật sự khâm phục và biết ơn thầy - Người đã tạo nên một Mai Đoan đầy tự tin hôm nay!”

Giáo sư Trần Tiến - nhà khoa học trong lĩnh vực hóa học cũng có đôi lời tuyên dương về Giáo sư Nguyễn Lân Tùng: “Thật khâm phục năng lực của GS. Tùng. Khi chưa tiếp xúc thì chưa biết nhưng một khi đã giao lưu, kết bạn, cùng học hỏi và tìm tòi một đề tài nghiên cứu nào đó, GS. Tùng luôn là người đưa ra những sáng kiến rất táo bạo đáng để thử sức qua. Không những giỏi trong lĩnh vực Môi trường, ông ấy còn giỏi trong tất cả mọi thứ. Đây là người bạn mà tôi rất quý trọng và cần phải học hỏi!”

3.1. mảng ngẫu nhiên của các số được phân phối đồng đều

3.1.1. function numpy.random.rand

3.1.2. function np.random.seed

3.2. mảng ngẫu nhiên của các số được phân phối chuẩn

3.3. mảng số nguyên ngẫu nhiên

3.4. hoán vị

3.4.1. giảm dần độ dốc ngẫu nhiên.

3.4.2. chia nhỏ dữ liệu đào tạo và kiểm tra

Giáo Sư Nguyễn Lân Tùng

Thông tin chung về Giáo sư Nguyễn Lân Tùng

Thành tích hoạt động đào tạo và nghiên cứu

Sách chuyên khảo, giáo trình

Các bài báo khoa học được công bố trên các tạp chí khoa học

Các nhiệm vụ khoa học và công nghệ

Công trình khoa học khác

Hướng dẫn nghiên cứu sinh (NCS) đã có quyết định cấp bằng tiến sĩ

3. Công trình về cơ chế phát sinh ô nhiễm ASEN trong nước ngầm

4. Các nghiên cứu sinh đã nói gì về Giáo sư Nguyễn Lân Tùng

Để lại một bình luận Hủy