Hỏi đáp

Giới thiệu về Support Vector Machine (SVM)

Đăng trên Vanhoahoc.vn Bởi Giáo Sư Nguyễn Lân Tùng ngày 16/12/202231/05/2024

svm là một thuật toán giám sát có thể được sử dụng để phân loại hoặc đệ quy. Nhưng nó chủ yếu được sử dụng để phân loại. Trong thuật toán này, chúng tôi vẽ dữ liệu dưới dạng các điểm n chiều (trong đó n là số đối tượng địa lý bạn có) và giá trị của mỗi đối tượng địa lý sẽ là một phần của liên kết. Sau đó, chúng tôi thực hiện khám phá “siêu phẳng” của các lớp được phân vùng. Siêu phẳng được hiểu đơn giản là một đường thẳng có thể chia một lớp thành hai phần độc lập.

Vectơ hỗ trợ được hiểu đơn giản là quan sát các đối tượng trên bản đồ tọa độ và máy vectơ hỗ trợ là ranh giới tốt nhất để phân chia hai loại.

Ở trên, chúng ta đã thấy sự phân chia siêu phẳng. Vậy làm thế nào để chúng ta định nghĩa “cách vẽ – định nghĩa siêu phẳng”. Chúng tôi sẽ tuân theo các tiêu chuẩn sau:

Xác định đúng siêu phẳng (tình huống 1):

Có 3 siêu kênh (a, b và c). Bây giờ là làn đường vượt chính xác cho nhóm ngôi sao và vòng tròn.

Quy tắc đầu tiên chọn một siêu đường và chọn một siêu phẳng phân cách tốt nhất hai lớp. Trong ví dụ này dòng b.

Xác định đúng siêu phẳng (tình huống 2):

Ở đây ta cũng có 3 đường siêu phẳng (a, b, c) thỏa mãn quy tắc 1.

Giới thiệu về Support Vector Machine (SVM)

Quy tắc thứ hai là xác định khoảng cách tối đa từ điểm gần nhất của một lớp nhất định đến siêu phẳng. Khoảng cách này được gọi là “lề”, như thể hiện trong hình bên dưới, trong đó khoảng cách lề lớn nhất là đường c. Hãy nhớ rằng nếu bạn chọn sai siêu kênh có lề thấp hơn, rất có thể bạn sẽ xác định sai lớp cho dữ liệu của mình sau này khi dữ liệu tăng lên.

Xác định đúng siêu phẳng (tình huống 3):

Sử dụng các nguyên tắc trên để chọn một siêu phẳng cho:

Giới thiệu về Support Vector Machine (SVM)

Có thể một số người sẽ chọn hàng b vì nó có lợi nhuận cao hơn hàng a, nhưng không phải vậy vì quy tắc đầu tiên sẽ là quy tắc #1 và chúng ta cần chọn siêu phẳng để phân tích các lớp riêng lẻ. Vì vậy, con đường a là sự lựa chọn chính xác.

Chúng ta có thể phân loại hai lớp (tình huống 4) không?

Tiếp theo các bạn xem hình bên dưới, bạn không thể chia thành 2 layer riêng biệt bằng 1 dòng, tạo ra một phần chỉ có các ngôi sao và một vùng chỉ có các dấu chấm.

Giới thiệu về Support Vector Machine (SVM)

Ở đây, người ta sẽ chấp nhận rằng các ngôi sao bên ngoài được coi là nhiều ngôi sao bên ngoài hơn, svm có các thuộc tính cho phép bỏ qua các ngoại lệ và tìm siêu phẳng có giới hạn lớn nhất. Vì vậy, có thể nói rằng svm có khả năng chấp nhận ngoại lệ mạnh mẽ.

Tìm siêu phẳng chia thành các lớp (Tình huống 5)

Trong ví dụ bên dưới, không tìm thấy siêu phẳng tương đối nào để phân chia các lớp, vậy làm thế nào để svm chia dữ liệu thành hai lớp riêng biệt? Cho đến nay chúng ta mới chỉ nghiên cứu các đường thẳng siêu phẳng.

Giới thiệu về Support Vector Machine (SVM)

svm có thể giải quyết vấn đề này, nó rất đơn giản, nó có thể được giải quyết bằng cách thêm một tính năng, ở đây chúng tôi thêm tính năng z = x^2+ y^2. Dữ liệu lúc này sẽ được chuyển đổi trên trục x và z như sau

Giới thiệu về Support Vector Machine (SVM)

Trong biểu đồ trên, những điểm chính cần xem xét là: • Tất cả dữ liệu trên trục z sẽ dương vì nó là tổng bình phương của x và y • Trên biểu đồ, vòng tròn màu đỏ xuất hiện càng nhiều thì y càng lớn. gần trục x, z càng nhỏ => gần trục x hơn trong đồ thị (z,x) trong svm, dễ dàng có một siêu phẳng tuyến tính được chia thành hai lớp, nhưng câu hỏi đặt ra là liệu nó có là cần thiết để chúng tôi thêm tính năng phân đoạn thủ công này. Không, bởi vì svm có một kỹ thuật gọi là thủ thuật hạt nhân, đây là một tính năng thấm sâu vào không gian đầu vào và biến nó thành không gian nhiều chiều hơn, tức là nó không chia vấn đề thành các vấn đề riêng biệt, những tính năng này được gọi là hạt nhân. Tóm lại, nó thực hiện một số chuyển đổi dữ liệu phức tạp và sau đó tìm ra cách phân chia dữ liệu dựa trên các nhãn hoặc đầu ra được xác định trước của chúng tôi.

Giới thiệu về Support Vector Machine (SVM)

margin là khoảng cách từ siêu phẳng đến hai điểm dữ liệu gần nhất tương ứng với bộ phân loại. Trong ví dụ về táo và lê do người bán đặt, lề là khoảng cách giữa que và hai quả táo và lê gần nhất. Điều quan trọng ở đây là phương pháp svm luôn cố gắng tối đa hóa lề này, do đó thu được một siêu phẳng có khoảng cách xa nhất từ quả táo và quả lê. Do đó, svm giảm thiểu việc phân loại sai các điểm dữ liệu mới được giới thiệu

Để tìm lời giải của svm, chúng ta trực tiếp sử dụng thư viện sklearn.

Chúng ta sẽ sử dụng hàm ***sklearn.svm.svc*** tại đây. Các bài toán thực tế thường dùng thư viện libsvm viết bằng c, có apis cho python và matlab.

là một kỹ thuật phân loại khá phổ biến và máy vectơ hỗ trợ có nhiều ưu điểm, bao gồm khả năng tính toán hiệu quả trên các tập dữ liệu lớn. Bạn có thể liệt kê thêm lợi ích của phương pháp này, ví dụ:

Xử lý không gian số chiều cao: Máy vector hỗ trợ là công cụ tính toán không gian số chiều cao hiệu quả, đặc biệt phù hợp với bài toán phân loại văn bản và phân tích ý kiến có kích thước cực lớn.
Tiết kiệm bộ nhớ: Vì chỉ một tập hợp con các điểm được sử dụng trong đào tạo thực tế và ra quyết định trên các điểm dữ liệu mới, nên chỉ những điểm cần thiết mới được lưu trữ trong bộ nhớ tại thời điểm quyết định.
Tính linh hoạt – Việc phân loại thường phi tuyến tính. Khả năng ứng dụng hạt nhân mới cho phép linh hoạt giữa các phương pháp tuyến tính và phi tuyến tính, dẫn đến hiệu suất phân loại được cải thiện.

Nhược điểm:

Vấn đề mang tính số cao: Nếu số thuộc tính (p) của tập dữ liệu lớn hơn nhiều so với số dữ liệu (n) thì svm cho kết quả kém.
Xác suất không rõ ràng: việc phân loại svm chỉ cố gắng chia đối tượng thành hai lớp được phân tách bằng siêu phẳng svm. Điều này không tính đến khả năng một thành viên xuất hiện trong một nhóm. Tuy nhiên, hiệu quả của việc phân loại có thể được xác định theo khái niệm lề từ các điểm dữ liệu mới đến siêu phẳng phân lớp mà chúng ta đã thảo luận ở trên.

Kết luận: Support Vector Machines là một phương pháp hiệu quả để giải quyết các vấn đề về phân loại dữ liệu. Nó là một công cụ hiệu quả để giải quyết các vấn đề như xử lý ảnh, phân loại văn bản và phân tích ý kiến. Một trong những điều làm cho svm trở nên hiệu quả là việc sử dụng kernel, làm cho phương thức truyền không gian trở nên linh hoạt hơn.

https://machinelearningcoban.com/2017/04/09/smv/
https://en.wikipedia.org/wiki/support_vector_machine
https://medium.com/machine-learning-101/chapter-2-svm-support-vector-machine-theory-f0812effc72

Post Views: 195

Xem thêm:

Giáo Sư Nguyễn Lân Tùng

Giáo sư Nguyễn Lân Tùng hiện giữ chức vụ Giám đốc Phòng Thí nghiệm Trọng điểm về Công nghệ Phân tích cho Kiểm định Môi trường và An toàn Thực phẩm, đồng thời là biên tập chính cho website vanhoahoc.vn

Giáo sư Nguyễn Lân Tùng hiện giữ chức vụ Giám đốc Phòng Thí nghiệm Trọng điểm về Công nghệ Phân tích cho Kiểm định Môi trường và An toàn Thực phẩm, đồng thời là Trưởng nhóm Nghiên cứu Mạnh, đồng thời là biên tập chính cho website vanhoahoc.vn . Ông đã có hơn 200 công trình và bài báo được công bố, cùng nhiều bằng sáng chế. Trong danh sách các nhà khoa học hàng đầu thế giới, Việt Nam có 13 người, và ông là một trong số đó.

Thông tin chung về Giáo sư Nguyễn Lân Tùng

Họ và tên: Nguyễn Lân Tùng
Năm sinh: 16/09/1953
Giới tính: Nam
Trình độ đào tạo: Tiến sĩ; Năm cấp bằng: 1981; Nơi cấp bằng: Đại học Kỹ thuật liên bang Zurich, Thuỵ Sỹ
Chức danh: Giáo sư; Năm 2001; Nơi bổ nhiệm: Trường Đại học Khoa học Tự nhiên, ĐHQGHN
Ngành, chuyên ngành khoa học: Giám đốc Phòng Thí nghiệm Trọng điểm về Công nghệ Phân tích dành cho Kiểm định Môi trường và An toàn Thực phẩm tại Trường Đại học Khoa học Tự nhiên, thuộc Đại học Quốc gia Hà Nội
Chức vụ cao nhất đã qua: Viện trưởng Trung tâm Nghiên cứu Công nghệ Môi trường và Phát triển Bền vững, Trường Đại học Khoa học Tự nhiên, thuộc Đại học Quốc gia Hà Nội

Giáo sư Nguyễn Lân Tùng - Giám đốc Phòng Thí nghiệm Trọng điểm về Công nghệ Phân tích cho Kiểm định Môi trường và An toàn Thực phẩm

Thành tích hoạt động đào tạo và nghiên cứu

Nguyễn Lân Tùng được công nhận là một nhà khoa học xuất sắc với những công trình nghiên cứu có giá trị ứng dụng cao, được các công ty công nghệ trong và ngoài nước đánh giá cao. Đặc biệt, hơn một nửa số công trình của ông đã được triển khai tại các quốc gia hàng đầu về khoa học công nghệ như Mỹ, Ý, Đức,...
Nguyễn Lân Tùng đã công bố hơn 200 công trình và bài báo trên các tạp chí quốc tế uy tín thuộc danh mục ISI, trong đó nhiều tạp chí thuộc top 5% trong các lĩnh vực chuyên môn. Ông đã lọt vào danh sách top 10.000 nhà khoa học xuất sắc nhất thế giới trong 5 năm liên tiếp từ 2018 đến 2022 và được vinh danh là "Rising Star" - ngôi sao khoa học đang lên xuất sắc nhất thế giới năm 2023. Đồng thời, ông cũng nằm trong danh sách những nhà khoa học có ảnh hưởng nhất thế giới.

Sách chuyên khảo, giáo trình

Tổng số sách đã chủ biên: 05 sách tham khảo; 10 giáo trình.

Các bài báo khoa học được công bố trên các tạp chí khoa học

Tổng số đã công bố: 147 bài báo tạp chí trong nước; 198 bài báo tạp chí quốc tế (200 bài báo thuộc danh mục tạp chí ISI)
Danh mục bài báo khoa học công bố trong 5 năm liền kề với thời điểm được bổ nhiệm thành viên Hội đồng gần đây nhất:

Trong nước: 55 bài báo đăng tạp chí trong nước trong giai đoạn từ 2014-2019, trong đó là tác giả chính của 50 bài báo.
Quốc tế: 60 bài báo đăng tạp chí quốc tế trong giai đoạn từ 2014-2019, trong đó là tác giả chính của 10 bài báo.

Các nhiệm vụ khoa học và công nghệ

Tổng số chương trình, đề tài đã chủ trì/ chủ nhiệm: 10 đề tài cấp Nhà nước; 18 đề tài cấp Bộ và tương đương; 20 dự án hợp tác quốc tế.

Công trình khoa học khác

Tổng số có: 05 sáng chế, giải pháp hữu ích được cấp bằng độc quyền, 05 đơn đăng ký sáng chế được chấp nhận đơn hợp lệ.

Hướng dẫn nghiên cứu sinh (NCS) đã có quyết định cấp bằng tiến sĩ

Tổng số: 08 NCS đã hướng dẫn chính
Danh sách NCS hướng dẫn thành công trong 05 năm liền kề với thời điểm được bổ nhiệm thành viên Hội đồng gần đây nhất:

Mai Đoan, Nghiên cứu sự rửa trôi Asen ở Đồng bằng sông Hồng, Trường Đại học Khoa học Tự nhiên, 2013, hướng dẫn chính.
Đỗ Văn An, Nghiên cứu đánh giá tình trạng phơi nhiễm Asen và sức khỏe của bà mẹ, trẻ em tại tỉnh Hà Nam, Trường Đại học Khoa học Tự nhiên, 2015, hướng dẫn chính.

3. Công trình về cơ chế phát sinh ô nhiễm ASEN trong nước ngầm

Tại Hội nghị Điển hình Tiên tiến của Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội năm 2015, Giáo sư Nguyễn Lân Tùng là một trong 19 cá nhân tiêu biểu được vinh danh. Ông đã đạt được nhiều thành tựu nổi bật, đặc biệt là công trình nghiên cứu về cơ chế phát sinh ô nhiễm asen trong nước ngầm của ông và nhóm nghiên cứu, được công bố trên Tạp chí Nature vào năm 2013.

GS. Nguyễn Lân Tùng cùng các đồng nghiệp tại hiện trường nghiên cứu

Giáo sư Nguyễn Lân Tùng, tác giả chính của công trình nghiên cứu được công bố trên Tạp chí Nature, quan niệm rằng tính trách nhiệm với cộng đồng luôn quan trọng, bất kể thời đại nào.

Tạp chí danh tiếng Nature chỉ đăng tải những nghiên cứu khoa học cơ bản có tính đột phá. Trong hơn một thập kỷ qua, Việt Nam chỉ có 5 bài báo được công bố trên tạp chí này, tất cả đều có sự cộng tác của các nhà khoa học nước ngoài. Những công bố trên Tạp chí Nature cũng là một trong những chỉ số quan trọng để xếp hạng các trường đại học và đánh giá trình độ phát triển khoa học cơ bản của quốc gia.

Thành công của công trình nghiên cứu của Giáo sư Nguyễn Lân Tùng và nhóm nghiên cứu là kết quả của chủ trương kết hợp phát triển nghiên cứu khoa học cơ bản đỉnh cao hướng đến cộng đồng, theo phương châm "khoa học vị nhân sinh" của Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội. Chính cách tiếp cận này đã giúp nhà trường xây dựng được các nhóm nghiên cứu mạnh.

Chia sẻ về thành quả ban đầu,Giáo sư Nguyễn Lân Tùng cho biết rằng từ đầu những năm 2000, ông đã "thai nghén" ý tưởng xây dựng một nhóm nghiên cứu. Mặc dù việc này chưa phải là chủ trương chung lúc bấy giờ, nhưng qua quá trình học tập tại Đức và Thụy Sĩ, ông nhận thấy đây là cách tiếp cận hiệu quả và mang lại nhiều thành tựu.

"Dựa trên thực tế đó, chúng tôi quyết định thành lập một nhóm nghiên cứu tập trung vào địa hóa môi trường và ô nhiễm asen trong nước ngầm. Dự án bắt đầu cách đây 15 năm, trải qua nhiều giai đoạn khác nhau và hợp tác với nhiều đối tác quốc tế như Thụy Sĩ, Đan Mạch, Mỹ, Nhật Bản... Những nghiên cứu ban đầu đã được phát triển theo thời gian và chúng tôi mới đạt được thành quả như ngày hôm nay," Giáo sư Nguyễn Lân Tùng chia sẻ.

Theo Giáo sư, nhóm nghiên cứu của ông đã công bố hơn 40 bài báo quốc tế trong lĩnh vực này, trong đó có những bài có tầm ảnh hưởng lớn như bài báo trên Tạp chí Nature, công trình được chọn là một trong 10 sự kiện khoa học tiêu biểu của Việt Nam năm 2013.

GS. Nguyễn Lân Tùng tại phòng nghiên cứu

Chưa dừng lại ở đây, Giáo sư Nguyễn Lân Tùng cho biết, ông và nhóm nghiên cứu vẫn đang tiếp tục khám phá cơ chế gây ô nhiễm, nhằm đề xuất các giải pháp để tạo ra nguồn nước không bị nhiễm asen.

Với quan điểm rằng trách nhiệm đối với cộng đồng luôn là điều quan trọng trong mọi thời đại và là sứ mệnh của mỗi cá nhân, Giáo sư Nguyễn Lân Tùng không ngừng cống hiến hết mình cho công việc nghiên cứu và giảng dạy.

4. Các nghiên cứu sinh đã nói gì về Giáo sư Nguyễn Lân Tùng

GS. Nguyễn Lân Tùng bên cạnh đồng nghiệp và học trò của mình

Mai Đoan, NCS của Giáo sư Nguyễn Lân Tùng từng nói: “Trong số những vị giáo sư tôi từng biết và theo học thì Thầy Nguyễn Lân Tùng là người uyên bác nhất. Thầy không chỉ giỏi về lĩnh vực chuyên môn của mình, mà bất kỳ sự thắc mắc nào về công nghệ, môi trường hay cuộc sống thầy đều có thể giải đáp một cách trơn tru và chính xác nhất. Tôi thật sự khâm phục và biết ơn thầy - Người đã tạo nên một Mai Đoan đầy tự tin hôm nay!”

Giáo sư Trần Tiến - nhà khoa học trong lĩnh vực hóa học cũng có đôi lời tuyên dương về Giáo sư Nguyễn Lân Tùng: “Thật khâm phục năng lực của GS. Tùng. Khi chưa tiếp xúc thì chưa biết nhưng một khi đã giao lưu, kết bạn, cùng học hỏi và tìm tòi một đề tài nghiên cứu nào đó, GS. Tùng luôn là người đưa ra những sáng kiến rất táo bạo đáng để thử sức qua. Không những giỏi trong lĩnh vực Môi trường, ông ấy còn giỏi trong tất cả mọi thứ. Đây là người bạn mà tôi rất quý trọng và cần phải học hỏi!”

Hỏi đáp

Giới thiệu về Support Vector Machine (SVM)

Giáo Sư Nguyễn Lân Tùng

Thông tin chung về Giáo sư Nguyễn Lân Tùng

Thành tích hoạt động đào tạo và nghiên cứu

Sách chuyên khảo, giáo trình

Các bài báo khoa học được công bố trên các tạp chí khoa học

Các nhiệm vụ khoa học và công nghệ

Công trình khoa học khác

Hướng dẫn nghiên cứu sinh (NCS) đã có quyết định cấp bằng tiến sĩ

3. Công trình về cơ chế phát sinh ô nhiễm ASEN trong nước ngầm

4. Các nghiên cứu sinh đã nói gì về Giáo sư Nguyễn Lân Tùng

Bài Viết cùng chủ đề

Thăn nội là gì – Khám phá hương vị tinh túy từ thịt bò Mỹ

Prepreg là gì? Tìm hiểu về vật liệu composite tiên tiến

Voiceless sound Là Gì – Khám phá âm vô thanh và âm hữu thanh trong tiếng Anh

Slut là gì – Khám Phá Ý Nghĩa Đằng Sau Từ Ngữ Gây Tranh Cãi

Tranh Chấp Là Gì? – Khám Phá Những Khía Cạnh Quan Trọng Của Tranh Chấp

Điêu khắc microblading là gì? Khám phá phương pháp làm đẹp chân mày hiện đại