Bayesian interpretation of regularization: Difference between revisions

From formulasearchengine
Jump to navigation Jump to search
en>Trappist the monk
m fix CS1 deprecated date parameter errors (test) using AWB
Fixed grammar error
Line 1: Line 1:
{{context|date=June 2012}}
== Nike Free 4.0 V2 Test  der einfach hält beschäftigt .. ==


In [[Computational learning theory|statistical learning theory]], a '''representer theorem''' is any of several related results stating that a minimizer <math>f^{*}</math> of a regularized [[Empirical risk minimization|empirical risk function]] defined over a [[reproducing kernel Hilbert space]] can be represented as a finite linear combination of kernel products evaluated on the input points in the training set data.
In den USA einer von drei Menschen mindestens einmal im Jahr im Alter von 65 oder mehr Leben in der Gemeinschaft fällt. Gesundheit ist [http://www.maennerchor-therwil.ch/images/gelterkinden/deco/banner.asp?f=69-Nike-Free-4.0-V2-Test Nike Free 4.0 V2 Test] ein Zustand Thema. '.' Indiskretionen 'ist alles über Dinge, die Joe und Methos hat in ihrer Vergangenheit, die zurück gekommen sind, um sie zu verfolgen. Sie [http://www.mcaviglia.ch/test/pageflip/test/session.asp?a=80-Nike-Air-Max-Schweiz Nike Air Max Schweiz] wollen über als Problemlöser kommen, sondern als einer, der einfach hält beschäftigt ..<br><br>'Aber es hätte fast das gleiche wie in Tschernobyl, wenn diese Brennelemente undicht.' Wenn das passiert ist, sagt er, und wenn die Winde hatten Süden weht Richtung Tokio, anstelle von Osten über den Pazifik, die Folgen hätte Büro unthinkable.The Premierminister hätte mehr als 30 Millionen Menschen in der Hauptstadt zu evakuieren Bereich haben, erhalten Kitazawa says.Rethinking Abhängigkeit von Kern PowerThe Kommission einen geheimen Bericht zu diesem Worst-Case-Szenario für die damalige Ministerpräsident Naoto Kan vorbereitet durch der Leiter der Japan Atomic Energy Commission.<br><br>Hoffnung, dass Airtel wird reden über Kernfragen beginnen früher als später, anstatt zu versuchen, die Aufmerksamkeit abzulenken .. Und natürlich ist der Punkt, von Hubs, dass sie die Go zu Ort, um Dinge zu tun, anstatt Apps sind. 'Die Quintessenz ist, dass weder Sie noch Ihre Kinder, sollten Mehrfachkombination Medikamente gleichzeitig zu nehmen, ohne zu überprüfen, die Wirkstoffe und [http://www.relax-limousinen.ch/images/umbau/banner.asp?m=11-Michael-Kors-Tasche-Schwarz Michael Kors Tasche Schwarz] Rücksprache mit Ihrem Arzt, zuerst', empfiehlt Sachs ..<br><br>Wenn es geht ab, [http://www.leu-ruesi.ch/pages/inc/Guest.asp?n=50-Nike-Blazer-Vintage Nike Blazer Vintage] ohne zu viel von einem Problem verursacht, können Sie nicht Konto zu halten davon. '. Die WD My Passport Edge-portable Festplatte WD Smartware beinhaltet kontinuierliche und automatische Backup-Software, um eine Kopie von PC-Inhalten der Nutzer zu erstellen, um sicherzustellen, persönliche digitale Dateien gesichert werden und im Falle von Computer-Verlust oder Diebstahl geschützt.<br><br>(Foto: Shangri La Hotel, Accra). Ich möchte über das, was i Spannungseinstellung sollte es auf 4.0 mit Braten meine CPU zu erreichen wissen. Sie können die Ansicht der Kamerarolle nicht ändern. Vor allem, da viele Latinos und weißen Menschen hören R in diesen Tagen, dass die Musik und dominiert die Charts so wouldn reagiert, weil ich in der Regel don Pflege haben aber die Kommentare erinnerte mich daran, dass eine alle schwarzen Guss scheint nur exklusiv mehr als mehr Mainstream-Filme werden.<br><br>Die Batteriestromversorgung der Iris 455 ist der 1500 mAh Vielfalt und wir konnten den Squeeze-out für maximal 6 Stunden und 20 Minuten in unseren Tests, die zwei Stunden Video zwei Stunden Musik und zwei Stunden Sprechzeit. Ich möchte nur wissen, ob es dort oben in den Ball Park meiner Phenom II sein, wenn ich das tun? oder wenn jemand weiß, der jede Art von AMD-oder Windows-Update veröffentlicht, die es besser wird.<ul>
 
 
==Formal Statement==
  <li>[http://erlangga.co.id/forum/newtopic.html http://erlangga.co.id/forum/newtopic.html]</li>
The following Representer Theorem and its proof are due to [[Bernhard Schölkopf|Schölkopf]], Herbrich, and Smola:
 
 
  <li>[http://www.emil86.fr/spip.php?article1/ http://www.emil86.fr/spip.php?article1/]</li>
'''Theorem:''' Let <math>\mathcal{X}</math> be a nonempty set and <math>k</math> a positive-definite real-valued kernel on <math>\mathcal{X} \times \mathcal{X}</math> with corresponding reproducing kernel Hilbert space <math>H_k</math>. Given a training sample <math>(x_1, y_1), \dotsc, (x_n, y_n) \in \mathcal{X} \times \R</math>, a strictly monotonically increasing real-valued function <math>g \colon [0, \infty) \to \R</math>, and an arbitrary empirical risk function <math>E \colon (\mathcal{X} \times \R^2)^m \to \R \cup \lbrace \infty \rbrace</math>, then for any <math>f^{*} \in H_k</math> satisfying
 
 
  <li>[http://ciarcr.org/spip.php?article310/ http://ciarcr.org/spip.php?article310/]</li>
:<math>
 
f^{*} = \operatorname{arg min}_{f \in H_k} \left\lbrace E\left( (x_1, y_1, f(x_1)), ..., (x_n, y_n, f(x_n)) \right) + g\left( \lVert f \rVert \right) \right \rbrace, \quad (*)
  <li>[http://www.film-video-dvd-production.com/spip.php?article6/ http://www.film-video-dvd-production.com/spip.php?article6/]</li>
</math>
 
 
  <li>[http://elec.newroomschat.com/spip.php?article30/ http://elec.newroomschat.com/spip.php?article30/]</li>
<math>f^{*}</math> admits a representation of the form:
 
 
  </ul>
:<math>
f^{*}(\cdot) = \sum_{i = 1}^n \alpha_i k(\cdot, x_i),
</math>
 
where <math>\alpha_i \in \R</math> for all <math>1 \le i \le n</math>.
 
'''Proof:'''
Define a mapping
 
:<math>
\begin{align}
\varphi \colon \mathcal{X} &\to \R^{\mathcal{X}} \\
\varphi(x) &= k(\cdot, x)
\end{align}
</math>
 
(so that <math>\varphi(x) = k(\cdot, x)</math> is itself a map <math>\mathcal{X} \to \R</math>). Since <math>k</math> is reproducing kernel, then
 
:<math>
\varphi(x)(x') = k(x', x) = \langle \varphi(x'), \varphi(x) \rangle,
</math>
where <math>\langle \cdot, \cdot \rangle</math> is the inner product on <math>H_k</math>.
 
Given any <math>x_1, ..., x_n</math>, one can use orthogonal projection to decompose any <math>f \in H_k</math> into a sum of two function, one lying in <math>\operatorname{span} \left \lbrace \varphi(x_1), ..., \varphi(x_n) \right \rbrace</math>, and the other lying in the orthogonal complement:
 
:<math>
f = \sum_{i = 1}^n \alpha_i \varphi(x_i) + v,
</math>
where <math>\langle v, \varphi(x_i) \rangle = 0</math> for all <math>i</math>.
 
The above orthogonal decomposition and the [[Reproducing kernel Hilbert space#The Reproducing Property|reproducing property]] together show that applying <math>f</math> to any training point <math>x_j</math> produces
 
:<math>
f(x_j) = \left \langle \sum_{i = 1}^n \alpha_i \varphi(x_i) + v, \varphi(x_j) \right \rangle = \sum_{i = 1}^n \alpha_i \langle \varphi(x_i), \varphi(x_j) \rangle,
</math>
 
which we observe is independent of <math>v</math>.  Consequently, the value of the empirical risk <math>E</math> in (*) is likewise independent of <math>v</math>. For the second term (the regularization term), since <math>v</math> is orthogonal to <math>\sum_{i = 1}^n \alpha_i \varphi(x_i)</math> and <math>g</math> is strictly monotonic, we have
 
:<math>
\begin{align}
g\left( \lVert f \rVert \right) &= g \left(  \lVert \sum_{i = 1}^n \alpha_i \varphi(x_i) + v \rVert \right) \\
&= g \left( \sqrt{  \lVert \sum_{i = 1}^n \alpha_i \varphi(x_i)  \rVert^2 + \lVert v \rVert^2} \right) \\
&\ge g \left(  \lVert \sum_{i = 1}^n \alpha_i \varphi(x_i) \rVert \right).
\end{align}
</math>
 
Therefore setting <math>v = 0</math> does not affect the first term of (*), while it strictly decreasing the second term. Consequently, any minimizer <math>f^{*}</math> in (*) must have <math>v = 0</math>, i.e., it must be of the form
 
:<math>
f^{*}(\cdot) = \sum_{i = 1}^n \alpha_i \varphi(x_i) = \sum_{i = 1}^n \alpha_i k(\cdot, x_i),
</math>
 
which is the desired result.
 
==Generalizations: Variations on a theme by Kimeldorf and Wahba==
The Theorem stated above is a particular example of a family of results that are collectively referred to as "Representer Theorems"; here we describe several such.
 
The first statement of a Representer Theorem was due to Kimeldorf and Wahba for the special case in which
 
:<math>
\begin{align}
E\left( (x_1, y_1, f(x_1)), ..., (x_n, y_n, f(x_n)) \right) &= \frac{1}{n} \sum_{i = 1}^n (f(x_i) - y_i)^2, \\
g(\lVert f \rVert) &= \lambda \lVert f \rVert^2
\end{align}
</math>
 
for <math>\lambda > 0</math>.  Schölkopf, Herbrich, and Smola generalized this result by relaxing the assumption of the squared-loss cost and allowing the regularizer to be any strictly monotonically increasing function <math>g(\cdot)</math> of the Hilbert space norm.
 
It is possible to generalize further by augmenting the regularized empirical risk function through the addition of unpenalized offset terms.  For example, Schölkopf, Herbrich, and Smola also consider the minimization
 
:<math>
\tilde{f}^{*} = \operatorname{arg min} \left\lbrace E\left( (x_1, y_1, \tilde{f}(x_1)),  ...,  (x_n, y_n, \tilde{f}(x_n)) \right) + g\left( \lVert f \rVert \right) \mid \tilde{f} = f  + h \in H_k \oplus  \operatorname{span} \lbrace \psi_p \mid 1 \le p \le M \rbrace  \right \rbrace, \quad (\dagger)
</math>
 
i.e., we consider functions of the form <math>\tilde{f} = f + h</math>, where <math>f \in H_k</math> and <math>h</math> is an unpenalized function lying in the span of a finite set of real-valued functions <math>\lbrace \psi_p \colon \mathcal{X} \to \R \mid 1 \le p \le M \rbrace</math>. Under the assumption that the <math>m \times M</math> matrix <math>\left( \psi_p(x_i) \right)_{ip}</math> has rank <math>M</math>, they show that the minimizer <math>\tilde{f}^{*}</math> in <math>(\dagger)</math>
admits a representation of the form
 
:<math>
\tilde{f}^{*}(\cdot) = \sum_{i = 1}^n \alpha_i k(\cdot, x_i) + \sum_{p = 1}^M \beta_p \psi_p(\cdot)
</math>
 
where <math>\alpha_i, \beta_p \in \R</math> and the <math>\beta_p</math> are all uniquely determined.
 
The conditions under which a Representer Theorem exists were investigated by Argyriou, Miccheli, and Pontil, who proved the following:
 
'''Theorem:''' Let <math>\mathcal{X}</math> be a nonempty set, <math>k</math> a positive-definite real-valued kernel on <math>\mathcal{X} \times \mathcal{X}</math> with corresponding reproducing kernel Hilbert space <math>H_k</math>, and let <math>R \colon H_k \to \R</math> be a differentiable regularization function. Then given a training sample <math>(x_1, y_1), ..., (x_n, y_n) \in \mathcal{X} \times \R</math> and an arbitrary empirical risk function <math>E \colon (\mathcal{X} \times \R^2)^m \to \R \cup \lbrace \infty \rbrace</math>, a minimizer
 
:<math>
f^{*} =  \operatorname{arg min}_{f \in H_k} \left\lbrace E\left( (x_1, y_1, f(x_1)), ...,  (x_n, y_n, f(x_n)) \right) + R(f) \right \rbrace \quad (\ddagger)
</math>
 
of the regularized empirical risk minimization problem admits a representation of the form
 
:<math>
f^{*}(\cdot) = \sum_{i = 1}^n \alpha_i k(\cdot, x_i),
</math>
 
where <math>\alpha_i \in \R</math> for all <math>1 \le i \le n</math>, if and only if there exists a nondecreasing function <math>h \colon [0, \infty) \to \R</math> for which
 
:<math>
R(f) = h(\lVert f \rVert).
</math>
 
Effectively, this result provides a necessary and sufficient condition on a differentiable regularizer <math>R(\cdot)</math> under which the corresponding regularized empirical risk minimization <math>(\ddagger)</math> will have a Representer Theorem. In particular, this shows that a broad class of regularized risk minimizations (much broader than those originally considered by Kimeldorf and Wahba) have Representer Theorems.
 
==Applications==
Representer theorems are useful from a practical standpoint because they dramatically simplify the regularized empirical risk minimization problem <math>(\ddagger)</math>. In most interesting applications, the search domain <math>H_k</math> for the minimization will be an infinite-dimensional subspace of <math>L^2(\mathcal{X})</math>, and therefore the search (as written) does not admit implementation on finite-memory and finite-precision computers. In contrast, the representation of <math>f^{*}(\cdot)</math> afforded by a representer theorem reduces the original (infinite-dimensional) minimization problem to a search for the optimal <math>n</math>-dimensional vector of coefficients <math>\alpha = (\alpha_1, ..., \alpha_n) \in \R^n</math>; <math>\alpha</math> can then be obtained by applying any standard function minimization algorithm.  Consequently, representer theorems provide the theoretical basis for the reduction of the general machine learning problem to algorithms that can actually be implemented on computers in practice.
 
{{no footnotes|date=June 2012}}
 
==See also==
* [[Mercer's theorem]]
 
==References==
{{reflist}}
<!--- After listing your sources please cite them using inline citations and place them after the information they cite. Please see http://en.wikipedia.org/wiki/Wikipedia:REFB for instructions on how to add citations. --->
*{{cite journal
|first1=Andreas |last1=Argyriou
|first2=Charles A. |last2=Micchelli
|first3=Massimiliano |last3=Pontil
|title=When Is There a Representer Theorem? Vector Versus Matrix Regularizers
|journal=Journal of Machine Learning Research
|volume=10 |issue=Dec |pages=2507&ndash;2529  |year=2009
}}
*{{cite journal
|first1=Felipe |last1=Cucker
|first2=Steve |last2=Smale
|title=On the Mathematical Foundations of Learning
|journal=[[Bulletin of the American Mathematical Society]]
|volume=39 |issue=1 |pages=1&ndash;49 |year=2002
|doi=10.1090/S0273-0979-01-00923-5
|mr=1864085
}}
*{{cite journal
|first1=George S. |last1=Kimeldorf
|first2=Grace |last2=Wahba
|title=A correspondence between Bayesian estimation on stochastic processes and smoothing by splines
|journal=The Annals of Mathematical Statistics
|volume=41 |issue=2 |pages=495&ndash;502 |year=1970
|doi=10.1214/aoms/1177697089
}}
*{{cite journal
  |first1=Bernhard |last1=Schölkopf
|first2=Ralf |last2=Herbrich
|first3=Alex J. |last3=Smola
|title=A Generalized Representer Theorem
|journal=Computational Learning Theory
|volume=2111 |pages=416&ndash;426 |year=2001
|doi=10.1007/3-540-44581-1_27
|series=Lecture Notes in Computer Science
|isbn=978-3-540-42343-0
}}
 
[[Category:Computational learning theory]]
[[Category:Theoretical computer science]]
[[Category:Machine learning]]
[[Category:Hilbert space]]

Revision as of 15:12, 25 February 2014

Nike Free 4.0 V2 Test der einfach hält beschäftigt ..

In den USA einer von drei Menschen mindestens einmal im Jahr im Alter von 65 oder mehr Leben in der Gemeinschaft fällt. Gesundheit ist Nike Free 4.0 V2 Test ein Zustand Thema. '.' Indiskretionen 'ist alles über Dinge, die Joe und Methos hat in ihrer Vergangenheit, die zurück gekommen sind, um sie zu verfolgen. Sie Nike Air Max Schweiz wollen über als Problemlöser kommen, sondern als einer, der einfach hält beschäftigt ..

'Aber es hätte fast das gleiche wie in Tschernobyl, wenn diese Brennelemente undicht.' Wenn das passiert ist, sagt er, und wenn die Winde hatten Süden weht Richtung Tokio, anstelle von Osten über den Pazifik, die Folgen hätte Büro unthinkable.The Premierminister hätte mehr als 30 Millionen Menschen in der Hauptstadt zu evakuieren Bereich haben, erhalten Kitazawa says.Rethinking Abhängigkeit von Kern PowerThe Kommission einen geheimen Bericht zu diesem Worst-Case-Szenario für die damalige Ministerpräsident Naoto Kan vorbereitet durch der Leiter der Japan Atomic Energy Commission.

Hoffnung, dass Airtel wird reden über Kernfragen beginnen früher als später, anstatt zu versuchen, die Aufmerksamkeit abzulenken .. Und natürlich ist der Punkt, von Hubs, dass sie die Go zu Ort, um Dinge zu tun, anstatt Apps sind. 'Die Quintessenz ist, dass weder Sie noch Ihre Kinder, sollten Mehrfachkombination Medikamente gleichzeitig zu nehmen, ohne zu überprüfen, die Wirkstoffe und Michael Kors Tasche Schwarz Rücksprache mit Ihrem Arzt, zuerst', empfiehlt Sachs ..

Wenn es geht ab, Nike Blazer Vintage ohne zu viel von einem Problem verursacht, können Sie nicht Konto zu halten davon. '. Die WD My Passport Edge-portable Festplatte WD Smartware beinhaltet kontinuierliche und automatische Backup-Software, um eine Kopie von PC-Inhalten der Nutzer zu erstellen, um sicherzustellen, persönliche digitale Dateien gesichert werden und im Falle von Computer-Verlust oder Diebstahl geschützt.

(Foto: Shangri La Hotel, Accra). Ich möchte über das, was i Spannungseinstellung sollte es auf 4.0 mit Braten meine CPU zu erreichen wissen. Sie können die Ansicht der Kamerarolle nicht ändern. Vor allem, da viele Latinos und weißen Menschen hören R in diesen Tagen, dass die Musik und dominiert die Charts so wouldn reagiert, weil ich in der Regel don Pflege haben aber die Kommentare erinnerte mich daran, dass eine alle schwarzen Guss scheint nur exklusiv mehr als mehr Mainstream-Filme werden.

Die Batteriestromversorgung der Iris 455 ist der 1500 mAh Vielfalt und wir konnten den Squeeze-out für maximal 6 Stunden und 20 Minuten in unseren Tests, die zwei Stunden Video zwei Stunden Musik und zwei Stunden Sprechzeit. Ich möchte nur wissen, ob es dort oben in den Ball Park meiner Phenom II sein, wenn ich das tun? oder wenn jemand weiß, der jede Art von AMD-oder Windows-Update veröffentlicht, die es besser wird.