Skip to main content

Chương 7: Dãy và Chuỗi hàm (Sequences and Series of Functions)

Sau khi đã thành thạo các công cụ để xử lý dãy và chuỗi các con số, bây giờ chúng ta sẽ nâng mức độ trừu tượng lên một bậc: điều gì sẽ xảy ra khi mỗi số hạng trong dãy của chúng ta không phải là một con số, mà là cả một hàm số? Chương này sẽ khám phá các cách khác nhau mà một dãy các đồ thị có thể "biến hình" để hội tụ về một đồ thị cuối cùng, và những hệ quả sâu sắc của quá trình đó.


Hội tụ điểm (pointwise convergence)

1. Khái niệm, Cách hiểu đơn giản:

Đây là kiểu hội tụ yếu nhất và trực quan nhất. Hãy tưởng tượng bạn có một dãy các hàm số fn(x)f_n(x). Hội tụ điểm có nghĩa là, nếu bạn chọn một điểm xx cố định và cắm một cây kim vào đó, thì dãy các giá trị f1(x),f2(x),f3(x),f_1(x), f_2(x), f_3(x), \dots (chiều cao của các đồ thị tại vị trí cây kim) sẽ hội tụ như một dãy số thông thường. Quá trình này xảy ra tại từng điểm một, một cách độc lập với nhau.

2. Định nghĩa toán học:

Ta nói dãy hàm (fn)(f_n) hội tụ điểm (converges pointwise) đến hàm ff trên một tập hợp SS nếu với mỗi xSx \in S, ta có: limnfn(x)=f(x)\lim_{n \to \infty} f_n(x) = f(x) Về mặt ϵN\epsilon-N, điều này có nghĩa là: với mỗi xSx \in S và mỗi ϵ>0\epsilon > 0, tồn tại một số tự nhiên NN (có thể phụ thuộc vào cả ϵ\epsilonxx) sao cho với mọi nNn \ge N, ta có fn(x)f(x)<ϵ|f_n(x) - f(x)| < \epsilon.

3. Ý nghĩa hình học, hoặc ý nghĩa nào đó:

Về mặt hình học, các đồ thị của fnf_n ngày càng tiến gần đến đồ thị của ff. Tuy nhiên, sự hội tụ này có thể rất "không đều". Một số phần của đồ thị có thể hội tụ rất nhanh, trong khi các phần khác lại hội tụ cực kỳ chậm. Nếu bạn vẽ một "ống" bề rộng 2ϵ2\epsilon xung quanh đồ thị của ff, không có gì đảm bảo rằng toàn bộ đồ thị của fnf_n sẽ nằm trong ống đó tại cùng một thời điểm.

4. Ứng dụng trong Machine Learning, Deep learning, hoặc AI …:

Hội tụ điểm tương ứng với việc một mô hình học máy chỉ học tốt trên tập dữ liệu huấn luyện (training data). Với mỗi điểm dữ liệu huấn luyện xix_i, dãy các dự đoán của mô hình qua các epoch fn(xi)f_n(x_i) sẽ hội tụ về nhãn đúng yiy_i. Tuy nhiên, điều này không đảm bảo bất cứ điều gì về hành vi của mô hình trên các điểm dữ liệu chưa từng thấy nằm giữa các điểm huấn luyện. Một mô hình có thể hội tụ điểm trên tập huấn luyện nhưng lại dao động rất mạnh giữa các điểm đó, dẫn đến hiện tượng overfitting.


Hội tụ đều (uniform convergence) và tiêu chuẩn Cauchy

1. Khái niệm, Cách hiểu đơn giản:

Đây là một kiểu hội tụ "vàng", mạnh mẽ và tốt đẹp hơn nhiều. Thay vì mỗi điểm hội tụ với "tốc độ" riêng của nó, hội tụ đều (uniform convergence) yêu cầu toàn bộ hàm số phải hội tụ cùng một lúc, với cùng một tốc độ. Sai số lớn nhất giữa hàm fnf_n và hàm giới hạn ff trên toàn bộ tập hợp phải tiến về 0. Hãy tưởng tượng một tấm chăn (fnf_n) đang được hạ xuống để phủ lên một chiếc giường (ff). Hội tụ đều có nghĩa là toàn bộ tấm chăn tiến sát đến chiếc giường cùng một lúc.

2. Định nghĩa toán học:

Ta nói dãy hàm (fn)(f_n) hội tụ đều (converges uniformly) đến hàm ff trên tập hợp SS nếu: Với mỗi ϵ>0\epsilon > 0, tồn tại một số tự nhiên NN (chỉ phụ thuộc vào ϵ\epsilon) sao cho với mọi nNn \ge N và với mọi xSx \in S, ta có fn(x)f(x)<ϵ|f_n(x) - f(x)| < \epsilon. Một cách tương đương: limnsupxSfn(x)f(x)=0\lim_{n \to \infty} \sup_{x \in S} |f_n(x) - f(x)| = 0. Tiêu chuẩn Cauchy cho hội tụ đều: Dãy (fn)(f_n) hội tụ đều khi và chỉ khi với mọi ϵ>0\epsilon > 0, tồn tại NN sao cho với mọi m,nNm, n \ge N và với mọi xSx \in S, ta có fn(x)fm(x)<ϵ|f_n(x) - f_m(x)| < \epsilon.

3. Ý nghĩa hình học, hoặc ý nghĩa nào đó:

Ý nghĩa hình học rất đẹp. Nếu bạn vẽ một "ống" có bề rộng 2ϵ2\epsilon xung quanh đồ thị của hàm giới hạn ff, thì hội tụ đều đảm bảo rằng tồn tại một thời điểm NN mà kể từ đó trở đi, toàn bộ đồ thị của các hàm fnf_n (nNn \ge N) sẽ nằm gọn hoàn toàn bên trong chiếc ống đó. Tốc độ hội tụ không phụ thuộc vào vị trí xx bạn đang xét.

4. Ứng dụng trong Machine Learning, Deep learning, hoặc AI …:

Hội tụ đều là mục tiêu lý tưởng của sự tổng quát hóa (generalization) trong học máy. Chúng ta muốn mô hình được huấn luyện fnf_n không chỉ tốt trên các điểm huấn luyện, mà còn phải là một xấp xỉ tốt cho hàm "thật" ff trên toàn bộ không gian dữ liệu. Hội tụ đều đảm bảo rằng sai số của mô hình là nhỏ ở khắp mọi nơi, kể cả trên các điểm dữ liệu mới. Điều này liên quan mật thiết đến việc chứng minh rằng một mô hình có khả năng tổng quát hóa tốt và không bị overfitting.


Các định lý về việc bảo toàn tính chất dưới giới hạn đều

1. Khái niệm, Cách hiểu đơn giản:

Tại sao hội tụ đều lại quan trọng đến vậy? Bởi vì nó "mạnh" đến mức có thể "di truyền" các tính chất tốt đẹp từ dãy hàm (fn)(f_n) cho hàm giới hạn ff.

  • Nếu bạn có một dãy các hàm liên tục (đồ thị liền mạch) và chúng hội tụ đều, thì hàm giới hạn cũng phải liên tục.
  • Nếu bạn có một dãy các hàm khả tích và chúng hội tụ đều, thì tích phân của giới hạn sẽ bằng giới hạn của các tích phân. Hội tụ điểm quá "yếu" và thường làm mất đi các tính chất tốt đẹp này.

2. Định nghĩa toán học:

Giả sử dãy (fn)(f_n) hội tụ đều đến ff trên một tập SS.

  • Bảo toàn tính liên tục: Nếu tất cả các hàm fnf_n đều liên tục trên SS, thì hàm giới hạn ff cũng liên tục trên SS.
  • Bảo toàn tính khả tích: Nếu S=[a,b]S = [a, b] và tất cả các hàm fnf_n đều khả tích Riemann, thì ff cũng khả tích Riemann và: limnabfn(x)dx=ab(limnfn(x))dx=abf(x)dx\lim_{n \to \infty} \int_a^b f_n(x) dx = \int_a^b \left(\lim_{n \to \infty} f_n(x)\right) dx = \int_a^b f(x) dx
  • Bảo toàn tính khả vi: (Điều kiện phức tạp hơn) Nếu (fn)(f_n) hội tụ điểm và dãy các đạo hàm (fn)(f'_n) hội tụ đều, thì ta có thể tráo đổi giới hạn và đạo hàm.

3. Ý nghĩa hình học, hoặc ý nghĩa nào đó:

  • Liên tục: Nếu bạn có một loạt các sợi dây không bị đứt (fnf_n liên tục) và chúng cùng nhau tiến sát đến một hình dạng cuối cùng, thì hình dạng đó cũng phải là một sợi dây không bị đứt.
  • Tích phân: Nếu diện tích dưới các đồ thị fnf_n tiến đến một giá trị nào đó, thì giá trị đó chính là diện tích dưới đồ thị giới hạn ff. Hội tụ đều đảm bảo không có "phần diện tích" nào bị "rò rỉ" ra vô tận trong quá trình lấy giới hạn.

4. Ứng dụng trong Machine Learning, Deep learning, hoặc AI …:

Các định lý này cung cấp nền tảng lý thuyết cho việc phân tích các mô hình phức tạp. Ví dụ, Định lý Xấp xỉ Phổ quát (Universal Approximation Theorem) nói rằng một mạng neural có thể xấp xỉ bất kỳ hàm liên tục nào. Việc chứng minh các phiên bản mạnh của định lý này đòi hỏi phải làm việc với sự hội tụ của các chuỗi hàm (chính là mạng neural). Việc tráo đổi giới hạn và tích phân là cực kỳ quan trọng trong lý thuyết xác suất và thống kê, cho phép chứng minh rằng giá trị kỳ vọng của một chuỗi các biến ngẫu nhiên sẽ hội tụ về giá trị kỳ vọng của biến ngẫu nhiên giới hạn.


Chuỗi lũy thừa (power series)

1. Khái niệm, Cách hiểu đơn giản:

Một chuỗi lũy thừa (power series) về cơ bản là một "đa thức dài vô tận". Giống như các đa thức hữu hạn là công cụ tuyệt vời để xây dựng các hàm đơn giản, chuỗi lũy thừa là một công cụ cực kỳ mạnh mẽ để biểu diễn hoặc xấp xỉ một loạt các hàm quan trọng và phức tạp hơn nhiều, như exe^x, sin(x)\sin(x), cos(x)\cos(x).

2. Định nghĩa toán học:

Một chuỗi lũy thừa tâm tại cc có dạng: n=0an(xc)n=a0+a1(xc)+a2(xc)2+\sum_{n=0}^\infty a_n (x-c)^n = a_0 + a_1(x-c) + a_2(x-c)^2 + \dots Với mỗi chuỗi lũy thừa, tồn tại một bán kính hội tụ (radius of convergence) RR (có thể bằng 00, \infty, hoặc một số dương hữu hạn).

  • Chuỗi hội tụ tuyệt đối khi xc<R|x-c| < R.
  • Chuỗi phân kỳ khi xc>R|x-c| > R.
  • Quan trọng: Chuỗi hội tụ đều trên bất kỳ đoạn đóng nào nằm hoàn toàn bên trong khoảng hội tụ (cR,c+R)(c-R, c+R).

3. Ý nghĩa hình học, hoặc ý nghĩa nào đó:

Một chuỗi lũy thừa là một cách để "xây dựng" một đường cong phức tạp bằng cách cộng dồn các đường cong ngày càng đơn giản hơn (hằng số, đường thẳng, parabol, cubic,...). Mỗi số hạng mới được thêm vào sẽ "hiệu chỉnh" xấp xỉ trước đó để nó khớp với hàm mục tiêu tốt hơn trên một phạm vi rộng hơn.

4. Ứng dụng trong Machine Learning, Deep learning, hoặc AI …:

Đây là nền tảng của chuỗi Taylor, công cụ lý thuyết đằng sau hầu hết các thuật toán tối ưu hóa.

  • Gradient Descent là một phương pháp tối ưu hóa bậc nhất, về cơ bản nó sử dụng hai số hạng đầu tiên của chuỗi Taylor để xấp xỉ hàm mất mát bằng một đường thẳng (hay một mặt phẳng) và đi theo hướng dốc nhất.
  • Các phương pháp tối ưu hóa bậc hai như phương pháp Newton sử dụng ba số hạng đầu của chuỗi Taylor để xấp xỉ hàm mất mát bằng một đường parabol (hay một mặt paraboloid), cho phép thuật toán "nhảy" thẳng đến gần điểm cực tiểu và hội tụ nhanh hơn. Ngoài ra, một số hàm kích hoạt phức tạp như GELU đôi khi được xấp xỉ bằng đa thức (một chuỗi lũy thừa hữu hạn) để tính toán nhanh hơn trên phần cứng chuyên dụng.