\[
-\overline{I(x;y)}=\sum_j \sum_i P(x_i, y_j) \log_2 \frac{P(x_i)P(y_j)}{P(x_i, y_j)}
\]
において,$W=\frac{P(x_i)P(y_j)}{P(x_i, y_j)}$とおくと,
\[
-\overline{I(x;y)}=\sum_j \sum_i P(x_i, y_j) \log_2 W
\]
$\log_2 W \leq \log_2 e\cdot (W-1)$なので,
\begin{eqnarray}
\sum_j \sum_i P(x_i, y_j) \log_2 W &\leq& \sum_j \sum_i P(x_i, y_j) \log_2\cdot(W-1) \\
&&=\sum_j \sum_i P(x_i, y_j) \log_2 e \cdot \frac{P(x_i)P(y_j)}{P(x_i, y_j)} \\
&&\ \ \ \ \ \ \ \ -\sum_j \sum_i P(x_i, y_j) \log_2 e \\
&&=\sum_j \sum_i\log_2e\cdot P(x_i)P(y_j)-\sum_j \sum_i P(x_i, y_j) \log_2 e \\
&&=\log_2 e \sum_j \sum_i \left( P(x_i)P(y_j)- P(x_i, y_j)\right) \\
&&=\log_2\cdot 0 \\
&&=0 \ \ \ \because \sum_iP(x_i)=\sum_jP(y_j)=\sum_j \sum_i P(x_i)P(y_j)=1
\end{eqnarray}
よって,$-\overline{I(x;y)} \leq 0$つまり,
\[
\overline{I(x;y)} \geq 0
\]
となり,平均相互情報量は負にならない.