Chương 7: Giá trị riêng và Vector riêng (Eigenvalues and Eigenvectors)
Đây là phần cốt lõi và cao cấp nhất của môn học, nơi chúng ta chuyển từ việc xem xét toán tử tác động lên toàn bộ không gian sang việc phân tích "DNA" của chính toán tử đó. Chúng ta sẽ đi tìm những vector "đặc biệt"—những vector tiết lộ hành vi cơ bản nhất của một phép biến đổi tuyến tính. Việc hiểu các vector này là chìa khóa để chéo hóa ma trận và giải quyết vô số bài toán trong vật lý, kỹ thuật và khoa học dữ liệu.
Không gian con bất biến (Invariant Subspaces)
1. Động lực / Vấn đề cần giải quyết:
Một toán tử tuyến tính có thể tác động lên không gian một cách rất phức tạp. Để hiểu nó, một chiến lược hiệu quả là chia không gian thành các không gian con nhỏ hơn và xem tác động lên từng phần như thế nào. Vấn đề là, một không gian con có thể bị "đẩy" ra khỏi chính nó, làm cho việc phân tích trở nên khó khăn. Do đó, chúng ta muốn tìm những không gian con "ổn định"—những không gian con mà không thể "thoát ra" được.
2. Khái niệm, Cách hiểu đơn giản:
Một invariant subspace (không gian con bất biến) đối với toán tử là một "căn phòng" đặc biệt trong không gian . Nếu bạn lấy bất kỳ vector nào trong căn phòng này và áp dụng phép biến đổi , kết quả vẫn sẽ nằm gọn trong chính căn phòng đó. không thể "dịch chuyển" các vector ra khỏi không gian con này.
3. Định nghĩa toán học:
Cho là một linear operator. Một subspace của được gọi là bất biến (invariant) đối với nếu với mọi , ta có .
4. Ví dụ và Phản ví dụ:
- Ví dụ:
Kernelcủa một toán tử, , luôn là mộtinvariant subspace(vì biến mọi thứ trong đó thành , và cũng nằm trong ).Imagecủa một toán tử, , cũng luôn là mộtinvariant subspace.- Xét phép quay trong quanh trục z. Trục z và mặt phẳng xy đều là các
invariant subspace.
- Phản ví dụ:
- Xét được biểu diễn bởi ma trận (phép
shear). Trục x (span của ) là mộtinvariant subspace. Tuy nhiên, trục y (span của ) không phải làinvariant subspacevì không nằm trên trục y.
- Xét được biểu diễn bởi ma trận (phép
5. Ý nghĩa hình học, hoặc ý nghĩa nào đó:
Invariant subspace là chìa khóa để "phân rã" một toán tử. Nếu ta có thể viết trong đó mỗi là bất biến đối với , thì ma trận của đối với một cơ sở phù hợp sẽ có dạng khối đường chéo. Điều này giúp đơn giản hóa việc nghiên cứu toán tử phức tạp bằng cách nghiên cứu các toán tử đơn giản hơn trên các không gian con.
6. Ứng dụng trong Machine Learning, Deep Learning, hoặc AI:
- PageRank Algorithm: Thuật toán PageRank của Google mô hình hóa web như một chuỗi Markov khổng lồ. Nó tìm kiếm một phân phối xác suất ổn định, chính là
eigenvectorchính của ma trận chuyển. Không gian con sinh bởieigenvectornày là mộtinvariant subspace1-chiều. Toàn bộ không gian các phân phối xác suất sẽ hội tụ về không gian con bất biến này sau nhiều lần lặp.
Eigenvalue và Eigenvector
1. Động lực / Vấn đề cần giải quyết:
Các invariant subspace đơn giản nhất có thể là gì? Đó là các không gian 1-chiều. Một không gian con 1-chiều (một đường thẳng đi qua gốc tọa độ) bất biến đối với có nghĩa là chỉ có thể "co giãn" các vector trên đường thẳng đó chứ không thể làm chúng chệch khỏi đường thẳng. Vector khác không nằm trên đường thẳng đó chính là eigenvector, và hệ số co giãn chính là eigenvalue. Tìm ra chúng chính là tìm ra các "trục tự nhiên" của phép biến đổi.
2. Khái niệm, Cách hiểu đơn giản:
Một eigenvector của một toán tử là một vector "đặc biệt" mà khi bị toán tử tác động lên, nó không bị đổi phương, chỉ bị co giãn hoặc co lại (và có thể bị lật ngược chiều). Eigenvalue tương ứng chính là hệ số co giãn đó. Chúng là những thành phần cơ bản nhất, tiết lộ hành vi cốt lõi của một phép biến đổi tuyến tính.
3. Định nghĩa toán học:
Cho một linear operator . Một vô hướng được gọi là một eigenvalue của nếu tồn tại một vector , sao cho:
Vector được gọi là một eigenvector tương ứng với eigenvalue .
- Mối liên hệ: là một
eigenvaluecủa khi và chỉ khi toán tử không phải là đơn ánh, tức là .
4. Ví dụ và Phản ví dụ:
- Ví dụ:
- Ma trận có
eigenvaluevớieigenvector, vàeigenvaluevớieigenvector.
- Ma trận có
- Phản ví dụ:
- Phép quay trong một góc 90 độ, , không có
eigenvaluehayeigenvectorthực nào (vì không cóvectornào giữ nguyên phương sau khi quay 90 độ). Tuy nhiên, nó cóeigenvaluephức là .
- Phép quay trong một góc 90 độ, , không có
5. Ý nghĩa hình học, hoặc ý nghĩa nào đó:
Eigenvector là các "trục chính" của một phép biến đổi tuyến tính. Eigenvalue cho biết mức độ co giãn dọc theo các trục này. Nếu một toán tử có đủ eigenvector để tạo thành một basis, thì trong hệ tọa độ đó, tác động của toán tử trở nên cực kỳ đơn giản: chỉ là các phép co giãn độc lập dọc theo mỗi trục.
6. Ứng dụng trong Machine Learning, Deep Learning, hoặc AI:
- Principal Component Analysis (PCA):
Eigenvectorcủa ma trận hiệp phương sai của dữ liệu chính là các thành phần chính (principal components). Chúng là các hướng trong không gian dữ liệu mà dữ liệu có phương sai lớn nhất.Eigenvaluetương ứng cho biết lượng phương sai được giữ lại theo mỗi hướng. - Graph Embeddings: Các kỹ thuật như
Spectral Embeddingbiểu diễn các nút trong một đồ thị dưới dạng cácvector. Tọa độ của cácvectornày thường được lấy từ cáceigenvectorcủa ma trận Laplacian của đồ thị, giúp nắm bắt cấu trúc kết nối của đồ thị.
Đa thức đặc trưng (Characteristic Polynomial)
1. Động lực / Vấn đề cần giải quyết:
Định nghĩa của eigenvalue () mang tính lý thuyết. Làm thế nào để tìm ra chúng một cách có hệ thống bằng các công cụ tính toán? Chúng ta cần một phương trình mà nghiệm của nó chính là các eigenvalue.
2. Khái niệm, Cách hiểu đơn giản:
Characteristic polynomial là một đa thức đặc biệt được xây dựng từ một ma trận. Điều kỳ diệu là các nghiệm của đa thức này chính xác là các eigenvalue của ma trận đó. Việc tìm eigenvalue trừu tượng được chuyển thành một bài toán đại số quen thuộc: tìm nghiệm của một đa thức.
3. Định nghĩa toán học:
Đối với một ma trận vuông kích thước , characteristic polynomial của là:
Các eigenvalue của chính là các nghiệm của phương trình đặc trưng .
4. Ví dụ và Phản ví dụ:
- Ví dụ:
- Với , .
- Nghiệm của là và , chính là các
eigenvalue.
- Phản ví dụ:
Characteristic polynomialchỉ được định nghĩa cho các toán tử trên không gian hữu hạn chiều (vì nó dựa vào định thức của ma trận).
5. Ý nghĩa hình học, hoặc ý nghĩa nào đó:
Characteristic polynomial mã hóa rất nhiều thông tin quan trọng về toán tử, không chỉ các eigenvalue. Ví dụ, hệ số của luôn là , và số hạng tự do là . Định lý Cayley-Hamilton còn cho thấy một mối liên hệ sâu sắc hơn: mọi ma trận đều là "nghiệm" của chính đa thức đặc trưng của nó.
6. Ứng dụng trong Machine Learning, Deep Learning, hoặc AI:
- Stability Analysis of Dynamic Systems: Trong các hệ thống động lực được mô tả bởi các phương trình sai phân hoặc vi phân tuyến tính, sự ổn định của hệ thống phụ thuộc vào các
eigenvaluecủa ma trận hệ thống. Hệ thống sẽ ổn định nếu tất cả cáceigenvalueđều nằm trong vòng tròn đơn vị (đối với hệ rời rạc) hoặc có phần thực âm (đối với hệ liên tục).Characteristic polynomiallà công cụ chính để tìm cáceigenvaluenày.
Toán tử chéo hóa được (Diagonalizable Operators)
1. Động lực / Vấn đề cần giải quyết:
Chúng ta đã thấy rằng eigenvector tạo ra các "trục tự nhiên" cho một phép biến đổi. Câu hỏi lý tưởng là: liệu có đủ các trục tự nhiên này để "phủ" khắp không gian không? Nếu có, mọi vector đều có thể được phân tích theo các hướng bất biến này, và tác động của toán tử trở nên cực kỳ đơn giản.
2. Khái niệm, Cách hiểu đơn giản:
Một toán tử là diagonalizable (chéo hóa được) nếu nó có một bộ eigenvector "đủ tốt" để tạo thành một basis cho toàn bộ không gian. "Chéo hóa" có nghĩa là tồn tại một hệ tọa độ (basis gồm các eigenvector) mà trong đó, ma trận biểu diễn cho toán tử chỉ có các số trên đường chéo chính, còn lại là số 0.
3. Định nghĩa toán học:
Một linear operator trên một không gian hữu hạn chiều được gọi là diagonalizable nếu tồn tại một basis của bao gồm toàn bộ các eigenvector của .
Tiêu chuẩn chéo hóa: Một toán tử là diagonalizable khi và chỉ khi đa thức tối tiểu của nó không có nghiệm bội. Một điều kiện đủ đơn giản hơn là nếu nó có eigenvalue phân biệt.
4. Ví dụ và Phản ví dụ:
- Ví dụ:
- Mọi ma trận đối xứng thực đều
diagonalizable. Ma trận làdiagonalizable.
- Mọi ma trận đối xứng thực đều
- Phản ví dụ:
- Ma trận
shearkhôngdiagonalizable. Nó chỉ có mộteigenvaluelà , và không gian riêng tương ứng chỉ có 1 chiều. Không thể tìm được mộtbasiscủa gồm cáceigenvectorcủa .
- Ma trận
5. Ý nghĩa hình học, hoặc ý nghĩa nào đó:
Diagonalization là quá trình tìm ra "hệ tọa độ tự nhiên" nhất của một phép biến đổi. Trong hệ tọa độ này, mọi tác động phức tạp của toán tử (kết hợp của quay, co giãn, trượt) được phân rã thành các hành động đơn giản nhất có thể: chỉ là các phép co giãn độc lập dọc theo các trục tọa độ.
6. Ứng dụng trong Machine Learning, Deep Learning, hoặc AI:
- Markov Chains: Ma trận chuyển của một chuỗi Markov thường có thể chéo hóa được. Chéo hóa ma trận chuyển cho phép tính toán lũy thừa của nó một cách cực kỳ hiệu quả: . Điều này rất quan trọng để tìm phân phối xác suất của chuỗi sau một số lượng lớn các bước, vì việc tính (lũy thừa của ma trận đường chéo) là tầm thường.