Feeds:
Posts
Comentários

Posts Tagged ‘Distribuição de sequências (mod 1)’

Hoje iremos discutir a teoria ergodica do fluxo homogêneo A_s no espaço de lattices G(\mathbb{R})/G(\mathbb{Z}) conforme prometido no fim do post anterior. Para isso, vamos começar com algumas definições. Lembramos que na ultima seção do post anterior identificamos o grupo especial afim ASL_2(\mathbb{R}) com o seguinte subgrupo de SL_3(\mathbb{R})

G(\mathbb{R}):=\left\{\left(\begin{array}{ccc}a&b&x\\c&d&y\\ 0&0&1\end{array}\right) : ad-bc=1\right\}

o qual é o produto semi-direto G(\mathbb{R}) = SL_2(\mathbb{R})\ltimes V_2(\mathbb{R}) onde

SL_2(\mathbb{R})\simeq \left\{\left(\begin{array}{ccc}a&b&0\\c&d&0 \\ 0&0&1\end{array}\right)\right\} \textrm{ e } V_2(\mathbb{R})= \left\{\left(\begin{array}{ccc}1&0&x\\ 0&1&y\\ 0&0&1\end{array}\right)\right\}\simeq \mathbb{R}^2.

Além disso, identificamos o espaço de lattices E com G(\mathbb{R})/G(\mathbb{Z}) e definimos

(1) A_s:=\left(\begin{array}{ccc}s&0&0\\ 0&1/s&0 \\ 0&0&1\end{array}\right) \textrm{ e } U(t):=\left(\begin{array}{ccc}1&-2t& -t^2\\ 0&1&t \\ 0&0&1\end{array}\right).

Finalmente, nos concluimos que todas essas identificações reduziam nossa tarefa na prova do seguinte fato (enunciado como teorema 3 no post anterior):

Teorema 0. Para toda f\in C_0(E) vale

\int_0^1 f(A_s\cdot\sigma(t))dt\to\int_E f d\mu_E.

Como ja antecipamos, este resultado sera obtido de um teorema mais geral sobre equidistribuição de horociclos não-lineares. Para enunciar adequadamente este teorema, vamos introduzir a definição:

Definição 1. Uma seção horociclica (ou horociclo) é uma aplicação \sigma:\mathbb{R}\to G(\mathbb{R}) da forma

(2) \sigma(t) = \left(\begin{array}{ccc}1&t& x(t)\\ 0&1&y(t) \\ 0&0&1\end{array}\right)

tal que

\sigma(t+p_0) = \sigma(t)\gamma_0

para algum inteiro p_0\geq 1 e algum elemento \gamma_0\in G(\mathbb{Z}).

Observação 1. Dado um horociclo \sigma existe um inteiro minimal p\geq 1 tal que \sigma(t+p)=\sigma(t)\gamma para algum \gamma\in G(\mathbb{Z}). Este inteiro p é o periodo de \sigma em E=G(\mathbb{R})/G(\mathbb{Z}).

Observação 2. O nome horociclo tem a seguinte motivação: a projeção natural do espaço de lattices E para o espaço de redes B envia uma seção horociclica de E sobre um horociclo (usual) ao redor de um “cusp” de B.

Definição 2. Um horociclo \sigma é dito linear (sobre os racionais) sempre que para todo \alpha,\beta\in\mathbb{Q} tivermos

m\left(\{t\in[0,p]: x(t)=\alpha t+\beta\}\right)>0.

Caso contrario, o horociclo \sigma é dito não-linear.

Observação 3. O comportamento de y(t) não influencia na nossa definição de linearidade.

Observação 4. Um horociclo real-analitico \sigma é linear se e so se x(t)\equiv \alpha t+\beta para algum \alpha,\beta\in\mathbb{Q} ja que toda função real-analitica não-constante possui um conjunto discreto de zeros.

Comparando as equações (1), (2) e utilizando a observação 4, vemos que

\sigma(t):=U(-t/2) := \left(\begin{array}{ccc}1&t& -t^2/4\\ 0&1&-t/2 \\ 0&0&1\end{array}\right)

forma um horociclo não-linear com periodo p=2 e x(t)=-t^2/4. Portanto, o teorema 0 acima segue imediatamente do seguinte fato mais geral:

Teorema 1 (Equidistribuição de horociclos). Seja \sigma:\mathbb{R}\to G(\mathbb{R}) um horociclo não-linear de periodo p. Então, os circulos A_s\cdot\sigma ficam equidistribuidos em E, i.e.,

\lim\limits_{s\to\infty}\frac{1}{p}\int_0^p f(A_s\cdot\sigma(t)) dt = \int_E f(x) d\mu_E(x).

Observação 5. Os ingredientes importantes neste resultado são: a “parte linear” do horociclo ser uma matriz unipotente e o horociclo é não-linear. Com efeito, na prova do teorema 1 iremos usar o fato do horociclo ter parte linear unipotente para aplicar o teorema de Ratner de modo a reduzir a lei de distribuição \mu do horociclo para uma quantidade enumeravel de candidatos (dentre eles \mu_E). Em seguida usamos a não-linearidade para excluir todas as outras possibilidades.

Observação 6. A hipotese do horociclo ser não-linear é essencial: quando o horociclo é linear, o resultado do teorema 1 é falso! Voltaremos nesse ponto apos vermos a prova do teorema.

Com isso, dedicaremos o resto deste post para a demonstração do teorema 1. Para isso, vamos utilizar o seguinte esquema:

  • na proxima seção, revisaremos alguns fatos basicos sobre medidas invariantes e veremos algumas propriedades da medida \mu associada a lei de distribuição de A_s\cdot\sigma(t);
  • em seguida, usaremos o teorema de Ratner para mostrar que temos apenas uma quantidade enumeravel de possibilidades para a lei de distribuição \mu;
  • finalmente, na ultima seção utilizaremos a não-linearidade do horociclo \sigma para provar que a unica possibilidade para a lei de distribuição \mu é \mu=\mu_E, o que terminara a prova do teorema 1.

Agora passamos para a formalização desse programa.

A lei de distribuição de um ”loop”

Dado um ”loop” \sigma:\mathbb{R}/p\mathbb{Z}\to E, denotamos por m(\sigma) a probabilidade natural suportada na imagem de \sigma:

\int_E f dm(\sigma):= \frac{1}{p}\int_0^p f(\sigma(t)) dt

para f\in C_0(E).

Além disso, dado \sigma:\mathbb{R}/p\mathbb{Z}\to E um horociclo não-linear de periodo p, denotamos por \sigma_s:=A_s\cdot\sigma, de modo que o teorema 1 é equivalente ao seguinte resultado:

Teorema 2 (Equidistribuição de horociclos versão 2). Para todo horociclo não-linear \sigma vale

m(\sigma_s) = (A_s)_*m(\sigma)\to \mu_E quando s\to\infty.

Como de costume, aqui a convergência ocorre na topologia fraca-*. Pelo teorema de Banach-Alaoglu, sabemos que m(\sigma_s) possui uma subsequência convergente para uma medida \mu. Em particular, nossa tarefa consiste em mostrar que para tais subsequências sempre temos \mu=\mu_E.

Para isso, consideramos a aplicação D do espaço de lattices E para o espaço de redes B a qual associa para cada elemento g\in E a sua parte linear D(g)\in B, i.e.,

D\left(\begin{array}{ccc}a&b&x\\c&d&y\\ 0&0&1\end{array}\right) := \left(\begin{array}{ccc}a&b&0\\c&d&0\\ 0&0&1\end{array}\right).

Observe que a projeção da medida de Haar \mu_E de E por D é a me- dida de Haar \mu_B de B. Por isso, como um trabalho preliminar na direção de provar que \mu=\mu_E, vamos verificar que a projeção de \mu por D esta correta:

Proposição 1. Temos que D_*\mu=\mu_B.

Prova. A imagem H de D\circ\sigma é um horociclo (no sentido usual) do espaço B. Por outro lado, D envia as orbitas do “fluxo de Teichmuller” A_s (as quais são geodesicas) de E em geodesicas de B e D envia a medida m(\sigma) na medida de Haar \mu_H de H. Finalmente, um argumento simples mostra que o fluxo geodesico de B puxa H para longe das cuspides de B de maneira que H fica equidistribuida (para mais detalhes veja o theorem 2.4 de Elkies e McMullen). Juntando esses fatos, segue que

D_*\mu = \lim (A_s)_*\mu_H = \mu_B.

Isto termina a prova. \square

Observação 7. Uma consequência direta da proposição 1 é que \mu é uma probabilidade em E, i.e., \mu(E)=1. Em particular, a massa das probabilidades m(\sigma_s) é conservada na passagem ao limite. Essa é uma observação não-trivial porque o espaço E é não-compacto!

Como veremos mais tarde, para entrarmos no contexto do teorema de Ratner, precisamos saber que \mu é invariante por um subgrupo unipotente de SL_2(\mathbb{R}). Com esse intuito, introduzimos o grupo

N(t) := \left(\begin{array}{ccc}1&t&0 \\ 0&1&0 \\ 0&0&1\end{array}\right).

Note que este subgrupo unipotente aparece naturalmente em vista da formula D\circ\sigma(t) = N(t) sempre que \sigma(t) é um horociclo. O resultado preparatorio para ficarmos no contexto de Ratner é o seguinte:

Proposição 2. A probabilidade \mu é N(\mathbb{R})-invariante.

Prova. Fixamos \tau\in\mathbb{R}. Consideramos \sigma_s(t)=A_s\cdot\sigma(t) e \eta_s(t) = N_\tau\cdot\sigma_s(t) onde \sigma(t) é um horociclo. Temos que

\sigma_s(t) = \left(\begin{array}{ccc}s&st&sx(t) \\ 0&\frac{1}{s}&\frac{y(t)}{s} \\ 0&0&1\end{array}\right), \eta_s(t)=\left(\begin{array}{ccc}s&st+\frac{\tau}{s}&sx(t)+\frac{\tau y(t)}{s} \\ 0&\frac{1}{s}&\frac{y(t)}{s} \\ 0&0&1\end{array}\right).

Para comparar adequadamente \sigma_s(t) e \eta_s(t), fazemos uma mudança de variaveis para fazer com que as partes lineares fiquem iguais. Mais precisamente, definimos u=\tau/s^2 e consideramos

\rho_s(t):=\eta_s(t-u):=\left(\begin{array}{ccc}s&st&sx(t-u)+s^{-1}\tau y(t-u) \\ 0&1/s&y(t-u) \\ 0&0&1\end{array}\right).

Lembrando que m(\sigma_s)\to\mu, segue que

(3) m(\rho_s) = m(\eta_s)=(N_\tau)_*m(\sigma_s)\to (N_\tau)_*\mu.

Por outro lado, temos que D\circ\rho_s = D\circ\sigma_s, de modo que a distância entre \rho_s e \sigma_s é dada pela distância entre os vetores obtidos da terceira coluna dessas matrizes:

d(\rho_s,\sigma_s)=\left|\left(\begin{array}{c}sx(t-u)+\tau y(t-u)/s \\ y(t-u)/s \\1\end{array}\right) - \left(\begin{array}{c}sx(t)+\tau y(t)/s \\ y(t)/s \\ 1\end{array}\right)\right|

Em seguida, usamos o fato de x(t) ser Lipschitz, y(t) ser limitado e u=\tau/s^2 para obter que

|sx(t) - sx(t-u)|\leq s|x(t)-x(t-u)|\leq O(su)=O(1/s)

e

|y(t)/s - y(t-u)/s|\leq  (|y(t)|+|y(t-u)|)/s=O(1/s).

Portanto, vemos que d(\rho_s,\sigma_s)\to 0 quando s\to\infty. Em particular, segue que \lim m(\rho_s)=\lim m(\sigma_s)=\mu. Juntando isso com (3), obtemos

(N_\tau)_*\mu=\mu

o que encerra a demonstração. \square

Uma vez que ja temos a invariância de \mu pelo subgrupo unipotente N(\mathbb{R}), passaremos a discutir o teorema de Ratner.

Teorema de Ratner e a classificação de \mu

O teorema de Ratner pode ser enunciado assim:

Teorema de Ratner. Sejam \Gamma um subgrupo discreto de um grupo de Lie conexo G e N um subgrupo unipotente. Seja \nu uma probabilidade ergodica N-invariante em G/\Gamma e denote por J o maior subgrupo de G deixando \nu invariante. Então, existe x\in G/\Gamma tal que \nu(J\cdot x)=1. Além disso, \nu é a medida de Haar de J\cdot x e o suporte de \nu é J\cdot x (de modo que J\cdot x é fechado em G/\Gamma).

A importância do teorema de Ratner para o contexto do teorema de Elkies e McMullen fica evidente: sendo \mu invariante pelo subgrupo unipotente N, podemos classificar \mu listando todos os subgrupos fechados de E ja que o teorema de Ratner diz que \mu deve estar suportada na orbita de um tal subgrupo.

Logicamente o teorema de Ratner tem uma bela historia incluindo varias aplicações em ramos diversos da Matematica. Por isso, ficaria impossivel fazer jus a relevância desse teorema numa discussão breve, de modo que recomendamos o leitor interessado numa exposição profunda do assunto (incluindo algumas ideias da prova em casos particulares, motivação heuristica para a validade do enunciado acima e algumas aplicações) os posts publicados no blog do prof. Terence Tao (veja aqui um link para estes posts).

Em todo caso, nos iremos utilizar o teorema de Ratner do seguinte jeito. Denotando por F uma fibra de E\to B, observamos que F é um toro complexo \mathbb{C}/\Lambda. Para cada inteiro n\geq 1 definimos F[n]=\left(\frac{1}{n}\cdot\Lambda\right)/\Lambda\subset F os pontos de ordem n com respeito a estru- tura de grupo de F e denotamos E[n] o subfibrado de E com fibras F[n].

Definição 3. \bigcup E[n] é o conjunto de pontos de torção de E.

Em seguida introduzimos H(\mathbb{R})\subset G o subgrupo de translações horizontais, i.e., translações por vetores da forma (x,0)\in\mathbb{R}^2 e H(r,\varepsilon)\subset G o conjunto de translações por vetores (x,y) da forma |x|<r e |y|<\varepsilon.

O objetivo dessa seção é aplicar o teorema de Ratner para mostrar o seguinte resultado:

Teorema 4 (Classificação de \mu). Temos que \mu=\mu_E ou \mu(H(\mathbb{R})\cdot E[n])>0 para algum n\geq 1.

Infelizmente o teorema 4 não é uma consequência imediata do teorema de Ratner porque não sabemos que \mu é ergodica. Para contornar essa situação, aplicamos o teorema de desintegração ergodica para escrever \mu como uma combinação convexa (”unica”) de medidas ergodicas N(\mathbb{R})-invariantes:

\mu=\int\nu dP(\nu).

Observação 8. Usualmente o teorema de decomposição ergodica é enunciado em espaços compactos. No caso de E (um espaço não-compacto), aplicamos esse teorema para a compactificação com um ponto e restringimos para E.

Em seguida, para cada \nu probabilidade ergodica N(\mathbb{R})-invariante em E definimos

J(\nu):=\{g\in G(\mathbb{R}): g_*\nu=\nu\},

ou seja, J(\nu) é o maior subgrupo de G(\mathbb{R}) deixando \nu invariante. Observe que J(\nu) é fechado e N(\mathbb{R})\subset J(\nu).

Proposição 3. Para quase toda \nu na decomposição ergodica de \mu, temos

D_*\nu=\mu_B \quad \textrm{ e } \quad D(J(\nu))=SL_2(\mathbb{R}).

Prova. Da proposição 1 sabemos que \mu_B = D_*\mu = \int D_*\nu dP(\nu). Como a ação de N(\mathbb{R}) em (B,\mu_B) é ergodica (porque esta ação é o fluxo horociclico em B), segue que D_*\nu=\mu_B para quase toda \nu.

Por outro lado, pelo teorema de Ratner sabemos que \nu esta suportada em uma orbita J(\nu)\cdot x\subset E. Logo,

D(J(\nu))\cdot D(x) = D(J(\nu)\cdot x) = D(\textrm{supp}(\nu)) = \textrm{supp}(D_*\nu).

Como ja vimos que D_*\nu=\mu_B, obtemos

D(J(\nu))\cdot D(x)=\textrm{supp}(\mu_B)=B=SL_2(\mathbb{R})/SL_2(\mathbb{Z}).

Portanto, D(J(\nu))=SL_2(\mathbb{R}). Isso termina a prova. \square

Agora nos relembramos a seguinte proposição sobre ações de SL_2(\mathbb{R}):

Proposição 4. Toda ação afim de SL_2(\mathbb{R}) em \mathbb{R}^k possui pontos fixos.

Prova. Pelo truque unitario de Weyl, esta ação pode ser estendida para uma ação de SL_2(\mathbb{C}) em \mathbb{C}^k. Por outro lado, um ponto fixo p\in\mathbb{C}^k para o grupo compacto SU_2(\mathbb{C}) pode ser construido facilmente (p.ex., tomando a media). Como \mathbb{C}\cdot su_2(\mathbb{C})=sl_2(\mathbb{C}), o ponto p é fixado também pela ação de SL_2(\mathbb{C}) e, a fortiori, pela ação de SL_2(\mathbb{R}). Logo, a parte real de p é o ponto fixo de SL_2(\mathbb{R}) em \mathbb{R}^k desejado. \square

Proposição 5. Se H\subset G(\mathbb{R}) é um subgrupo com D(H)=SL_2(\mathbb{R}), então H=G(\mathbb{R}) ou H é conjugado a SL_2(\mathbb{R}).

Prova. Como D(H)=SL_2(\mathbb{R}), o nucleo K da aplicação D:H\to SL_2(\mathbb{R}) é um subgrupo SL_2(\mathbb{R})-invariante de V_2(\mathbb{R})\simeq \mathbb{R}^2 de modo que temos duas possibilidades:

  • K=V_2(\mathbb{R}): nesse caso, H=G(\mathbb{R});
  • K=\{e\}: nesse caso, temos uma ação afim D^{-1}:SL_2(\mathbb{R})\to H\subset G(\mathbb{R}) = ASL_2(\mathbb{R}) de SL_2(\mathbb{R}) em \mathbb{R}^2, a qual deve possuir um ponto fixo pela proposição 4; conjugando com um elemento adequado de V_2(\mathbb{R}), podemos assumir que este ponto fixo é a origem e H=SL_2(\mathbb{R}).

Isto termina a demonstração. \square

Corolario 1. J(\nu)=G(\mathbb{R}) ou J(\nu)=g\cdot SL_2(\mathbb{R})\cdot g^{-1} para alguma translação horizontal g\in H(\mathbb{R}).

Prova. Como \nu é N(\mathbb{R})-invariante sabemos que N(\mathbb{R})\subset J(\nu). Além disso, pela proposição 3 temos que D(J(\nu))=SL_2(\mathbb{R}). Logo, usando a proposição 5, segue que J(\nu)=G(\mathbb{R}) ou J(\nu)=g\cdot SL_2(\mathbb{R})\cdot g^{-1}. Isso conclui a demonstração. \square

Proposição 6. \nu=\mu_E ou \textrm{supp}(\nu)\subset g\cdot E[n] para algum n\geq 1 inteiro e g\in H(\mathbb{R}).

Prova. Do corolario anterior temos J(\nu)=G(\mathbb{R}) \textrm{ ou } g\cdot SL_2(\mathbb{R})\cdot g^{-1}. No primeiro caso vemos que \nu=\mu_E pela J(\nu)-invariância de \nu. No segundo caso, g^{-1}\textrm{supp}(\nu) = SL_2(\mathbb{R})\cdot x é uma SL_2(\mathbb{R})-orbita fechada em E. Como tais orbitas sempre estão contidas em E[n] para algum n\geq 1, isso encerra a demonstração. \square

Neste ponto, podemos finalizar esta seção dando a demonstração do teorema 4:

Prova do teorema 4. Escremos a decomposição ergodica de \mu como \mu = \int \nu dP(\nu). Pela proposição 6, quase toda componente ergodica \nu de \mu satisfaz: \nu = \mu_E ou \textrm{supp}(\nu)\subset H(\mathbb{R})\cdot E[n] para algum n. Portanto, podemos escrever \mu da seguinte forma:

\mu=a_0\mu_E + \sum\limits_{n=1}^{\infty}a_n\mu_n,

onde \sum\limits_{n=0}^{\infty}a_n=1 e \textrm{supp}(\mu_n)\subset H(\mathbb{R})\cdot E[n]. Em particular, se \mu\neq \mu_E então a_n\neq 0 para algum n\geq 1, donde \mu(H(\mathbb{R})\cdot E[n])>0. Isso termina a prova do teorema. \square

Tendo em vista a classificação de \mu fornecida pelo teorema 4, vemos que o teorema 2 de equidistribuição de horociclos não-lineares segue ao mostrarmos que \mu não enxerga os pontos de torção de E. Esse sera o conteudo da proxima seção.

Não-linearidade e pontos de torção

O teorema principal dessa seção é

Teorema 5. Dados \sigma um horociclo não-linear e \mu um ponto de acumulação das medidas m(A_s\cdot\sigma) (quando s\to\infty) temos

\mu(H(\mathbb{R})\cdot E[n])=0

para todo n\geq 1.

Prova. Dados \varepsilon>0 e r>0, defina

U=H(r,\varepsilon)\cdot E[n]

e

T_s=\{t\in [0,p]: \sigma_s(t)\in U\}.

Afirmamos que

(4) \limsup\limits_{s\to\infty} m(T_s)=O(\varepsilon).

Para computar m(T_s) sera conveniente passar para o recobrimento universal G=G(\mathbb{R}) de E = G/G(\mathbb{Z}). Começamos por notar que E[n] é coberto pela SL_2(\mathbb{R})-orbita de G[n]=\bigcup G[n]^{i,j} onde

G[n]^{i,j}=\left\{\left(\begin{array}{ccc}a&b&\frac{i}{n}a+\frac{j}{n}b \\ c&d& \frac{i}{n}c+\frac{j}{n}d\\ 0&0&1\end{array}\right): ad-bc=1\right\}.

Em particular os pontos de G[n] na mesma fibra de \sigma_s(t) são

\rho_s^{i,j}(t) = \left(\begin{array}{ccc}s&st&\frac{i}{n}s+\frac{j}{n}st \\ 0&s^{-1}& \frac{j}{n}s^{-1}\\ 0&0&1\end{array}\right).

Tomando a métrica Euclideana na terceira coluna das matrizes acima, vemos que T_s = \bigcup T_s^{i,j} onde

T_s^{i,j} = \left\{t: \left(\begin{array}{c}sx(t)\\s^{-1}y(t)\end{array}\right)- \left(\begin{array}{c}\frac{i}{n}s+\frac{j}{n}st\\s^{-1}\frac{j}{n}\end{array}\right)\in H(r,\varepsilon)\right\}.

Em particular, T_s^{i,j}\subset X_s^{i,j}\cap Y_s^{i,j} onde

X_s^{i,j} = \{t: |x(t)-\frac{i}{n}-\frac{j}{n}t|<r/s\}

e

Y_s^{i,j} = \{t: |y(t) - \frac{j}{n}|<\varepsilon s\}.

Neste ponto vamos usar a não-linearidade de \sigma para obter que o conjunto de t com x(t) = \frac{i}{n}+\frac{j}{n}t tem medida zero, de modo que, para cada i,j fixado, temos

(5) \lim\limits_{s\to\infty} m(X_s^{i,j}) = 0.

Por outro lado, utilizamos o fato de x(t) ser Lipschitz para estimar m(X_s^{i,j}) quando j é grande: mais precisamente, sempre que |j|>M:=2n\sup\limits_{0\leq t\leq p}|x'(t)|, o conjunto X_s^{i,j} é a pré-imagem de um intervalo de tamanho 1/s por uma aplicação com derivada da ordem de j/n. Logo,

(6) m(X_s^{i,j})=O(1/s|j|) para todo |j|>M.

Além disso, notamos que

(7) Y_s^{i,j}=\emptyset quando |j|\geq J_s:= n (s\varepsilon+ \sup\limits_{0\leq t\leq p}|y(t)|)

e

( 8 ) X_s^{i,j}=\emptyset quando |i|\geq I_s(j):= n(\frac{r}{s}+ |\frac{j}{n}|+ \sup\limits_{0\leq t\leq p}|x(t)|).

Finalmente, observamos que

(9) J_s = O(s\varepsilon) e I_s(j) = O(|j|+1) para s grande.

Com estes fatos em mãos, podemos estimar m(T_s) assim: por (7) e ( 8 ) segue que

(10) m(T_s)\leq \sum\limits_{|j|<J_s}\sum\limits_{|i|<I_s(j)} m(X_s^{i,j}).

Agora dividimos a soma do lado direito em duas partes:

\sum\limits_{|j|<J_s}\sum\limits_{|i|<I_s(j)} m(X_s^{i,j})\leq \sum\limits_{M<|j|<J_s}\sum\limits_{|i|<I_s(j)} m(X_s^{i,j}) + \sum\limits_{|j|\leq M}\sum\limits_{|i|<I_s(j)} m(X_s^{i,j})

Em seguida, notamos que a primeira soma é O(|J_s|\varepsilon/s)=O(\varepsilon^2) (porque (9) diz que |I_s| = O(|j|+1) e |J_s|=O(s\varepsilon)) e a segunda soma ocorre sobre um conjunto finito de indices i,j de maneira que (5) diz que esta soma tende a zero (quando s cresce). Portanto, juntando estas duas estimativas com (10) vemos que quando s é grande vale

m(T_s)=O(\varepsilon),

o que prova a estimativa (4) desejada.

Finalmente, lembramos que m_s(U) = m(T_s)/p, de modo que a estimativa (4) implica \mu(H(r,\varepsilon)\cdot E[n])=O(\varepsilon) para todo r,\varepsilon>0. Fazendo \varepsilon\to 0 e depois r\to\infty, segue que \mu(H(\mathbb{R})\cdot E[n])=0, o que finaliza a prova do teorema. \square

Com o teorema 5 ja provado, a tarefa de concluir a demonstração do teorema 2 (ou equivalentemente do teorema 1) fica facil. Com efeito esse é o conteudo da (curta) seção final abaixo.

Fim da prova do teorema 2

Dado \sigma um horociclo não-linear, consideramos um ponto de acu- mulação qualquer \mu de m(A_s\cdot\sigma) quando s\to\infty. Pelo teorema 5, \mu da massa zero para as translações horizontais dos pontos de torção \bigcup\limits_{n\geq 1} E[n] de E. Logo, o teorema 4 (de classificação) implica que \mu=\mu_E. Em outras palavras, temos que \mu_E é o unico ponto de acumulação da sequência m(A_s\cdot\sigma). Isto mostra que

m(A_s\cdot\sigma)\to\mu_E

o que encerra a prova do teorema 2.

Com isso, nossa apresentação da prova do teorema de Elkies e McMullen chega ao fim! Para fechar este post, fazemos a seguinte observação:

Observação 9. O teorema 2 de equidistribuição é optimal, i.e., ele nunca vale quando \sigma é linear: se x(t) = \frac{i}{n}+\frac{j}{n}t para um conjunto de medida positiva de t então \mu(E[n])>0 de modo que m(A_s\cdot\sigma) não pode convergir para \mu_E.

Read Full Post »

Continuando as discussões do post anterior, pretendemos utilizar a teoria ergodica de fluxos homogeneos (em particular os teoremas de Ratner) para entender os valores da função L ao longo dos latti- ces \Lambda_{s^2}(t) (na notação do post anterior). O resultado de teoria er- godica a ser invocado diz que a familia \{\Lambda_{s^2}(t): t\in [0,1]\} de circu- los de lattices fica equidistribuida no espaço de lattices E quando s\to\infty:

Teorema 1. Para toda f\in C_0(E) temos

\int_0^1 f(\Lambda_{s^2}(t)) dt\to \int_E f d\mu_E quando s\to\infty.

Por enquanto, assumiremos este teorema e veremos como deter- minar a distribuição assintotica F de \{\sqrt{n}\}.

Calculo de F assumindo o teorema 1

Relembre que o ultimo resultado provado no post anterior foi a proposição 1 segundo a qual o tamanho do conjunto de t\in [0,1] tais que L(\Lambda_{s^2}(t))\leq x é |\widetilde{I}_{s^2}(x)|+O(1/s). Juntando este fato com o teorema 1 acima, temos a seguinte consequência:

Proposição 1. Para x\in [0,\infty) temos

|\widetilde{I}_{s^2}(x)|\to \mu_E(\{\Lambda\in E: L(\Lambda)\leq x\} quando s\to\infty.

Prova. Considere E_x:=\{\Lambda\in E: L(\Lambda)\leq x\}. Com essa notação, o fato do tamanho do conjunto dos t\in [0,1] com L(\Lambda_{s^2}(t))\leq x verificar |\widetilde{I}_{s^2}(x)|+O(1/s) pode ser reescrito como:

\int_0^1\chi_{E_x}(\Lambda_{s^2}(t)) dt = |\widetilde{I}_{s^2}(x)|+O(1/s)

Isso reduz nossa tarefa a mostrar que \int_0^1\chi_{E_x}(\Lambda_{s^2}(t)) dt converge para \mu_E(E_x). Para isso, a idéia natural seria aplicar o teorema 1. Entretanto uma utilização direta desse teorema não é possivel porque a função caracteristica \chi_{E_x} não é continua. Um remédio simples para esse contra-tempo é aproximar (em L^1) \chi_{E_x} e 1-\chi_{E_x} por funções continuas em C_0(E) e aplicar o teorema 1. Com isso, a unica coisa que nos resta fazer é ver que tais aproximações exis- tem. Conforme sabemos dos cursos de analise, as funções \chi_{E_x} e \chi_{E-E_x} podem ser aproximadas por funções em C_0(E) sempre que \mu_E(\partial E_x)=0.

Resumindo, a prova da proposição terminara quando mostrarmos que \mu_E(\partial E_x)=0. Nesse sentido, começamos por convidar o leitor a verificar que L:E\to [0,\infty] é uma submersão para quase todos os pontos de E: mais precisamente, L deixa de ser submersão apenas nos lattices \Lambda contendo a origem (0,0) ou um ponto do lado horizontal w_2=1 do seu triângulo maximal \Delta_{c_-,c_+}. Em particular, para cada x, os pontos de E_x nos quais L deixa de ser submersão formam um fechado de \mu_E-medida zero. Logo, pelo teorema (de forma local) das submersões vemos que os conjuntos de nivel de L possuem \mu_E-medida zero e, a fortiori, segue que \mu_E(\partial E_x)=0, como afirmamos. Isto termina a prova. \square

Um corolario direto dessa proposição (e dos resultados obtidos no post anterior) é:

Proposição 2. Suponha que a distribuição assintotica F(\xi) de \{\sqrt{n}\} é continua. Então,

\lim\limits_{N\to\infty}|I_N(x)| = \lim\limits_{N\to\infty}|\widetilde{I}_N(x)| = \mu_E(\{\Lambda\in E: L(\Lambda)\leq x\})

para x\in [0,\infty). Mais ainda, esta convergência é uniforme em x.

Prova. Supondo F continua, podemos combinar o lema 1, o teore- ma 3 do post anterior e a proposição 1 acima para obter o resulta- do desejado. \square

Apesar do enunciado da proposição 2 ser animador (porque escre- vemos I_N assintoticamente em termos da medida \mu_E do conjunto L^{-1}([0,x])), ainda não estamos em condições de computar a distri- buição F pela seguinte razão: do post anterior sabemos apenas I_N(x)\to\int_0^x \xi F(\xi) d\xi, de modo que para obter F em termos de \mu_E(L^{-1}([0,x])) devemos derivar em x duas vezes esta função. Entretanto, neste ponto não esta claro nem que a derivada de \mu_E(L^{-1}([0,x])) existe!

Para isso, vamos ter que trabalhar um pouco com os conjuntos L^{-1}([0,x]). Com esse intuito, introduzimos o subconjunto S_{c_-,c_+} de E formado pelos lattices \Lambda com algum ponto no triângulo \Delta_{c_-,c_+}, onde c_-<0<c_+. Observe que \mu_E(S_{c_-,c_+}) depende apenas da area c_+-c_- do triângulo \Delta_{c_-,c_+} porque todos os triângulos com area fixada são equivalentes por uma transformação em ASL_2(\mathbb{R}) e a medida \mu_E é ASL_2(\mathbb{R})-invariante. Em particular, podemos definir a função p:[0,\infty]\to [0,1] por

p(c_+-c_-):=\mu_E(S_{c_-,c_+})

com as convenções p(0)=0 e p(\infty)=\infty.

Como ja comentamos, para encontrar uma formula para F eventualmente teremos que derivar duas vezes p:

Lema 1. Suponha que p\in C^2 (i.e., p é duas vezes diferenciavel e p'' é continua). Então,

F(x) = -p''(x).

Prova. Escrevemos \mu_E(\{\Lambda\in E: L(\Lambda)<x\}) em “soma telescopica” assim:

\mu_E(S_{0,x}) - \lim\limits_{M\to\infty} \sum\limits_{j=0}^{M-1} [\mu_E(S_{\frac{(j+1)x}{M}-x, \frac{jx}{M}})-\mu_E(S_{\frac{jx}{M}-x,\frac{jx}{M}})].

Colocando isto em termos da função p, obtemos

\mu_E(\{\Lambda\in E: L(\Lambda)<x\}) = p(x) - \lim\limits_{M\to\infty} M\left(p(x)-p(x-\frac{x}{M})\right).

Sendo p diferenciavel, segue que

\mu_E(\{\Lambda\in E: L(\Lambda)<x\}) = p(x) - xp'(x).

Por outro lado, supondo p duas vezes diferenciavel, sabemos que \frac{d}{dx}(p(x)-xp'(x))=-xp''(x). Mais ainda, como p(0)=0, vemos que p(x)-xp'(x)=0 em x=0. Combinando esses dois fatos, obtemos que p(x)-xp'(x)=\int_0^x -\xi p''(\xi) d\xi.

Juntando as identidades acima, obtemos

\mu_E(\{\Lambda\in E: L(\Lambda)<x\}) = \int_0^x -\xi p''(\xi) d\xi.

Isto termina a prova do lema tendo em vista a proposição 2 e o fato (discutido no post anterior) de |I_N(x)|\to \int_0^x\xi F(\xi) d\xi. \square

Observação 1. Ainda supondo que p\in C^2, vemos que a definição de p e o lema 1 implicam

F(x)=-p''(x)=-\frac{\partial^2}{\partial c_- \partial c_+}\mu_E(S_{c_-,c_+})

para quaisquer c_-<0<c_+ com c_+-c_-=x. Isto fornece a se- guinte interpretação geométrica para F(x) em termos de \mu_E: o va- lor F(c_+-c_-) dc_- dc_+ é a medida do conjunto de lattices \Lambda\in E intersectando \Delta_{c_-,c_+} em exatamente dois pontos – um deles com coordenadas (w_1,w_2) verificando w_1/2w_2\in (c_-, c_-+dc_-) e o outro com coordenadas (w_1,w_2) verificando w_1/2w_2\in (c_+-dc_+,c_+).

Do lema 1, o calculo da distribuição F de \{\sqrt{n}\} fica reduzido a computar explicitamente a função p e verificar que p\in C^2. Para isso, vamos recapitular alguns fatos conhecidos sobre a teoria de redes unimodulares.

Denotamos por B o espaço de redes unimodulares de \mathbb{R}^2 (i.e., subgrupos discretos \Lambda^0 isomorfos a \mathbb{Z}^2 com covolume 1) e \mu_B a medida de Haar de B. Um vetor w\in \Lambda^0 de uma rede \Lambda^0\in B é dito primitivo sempre que existir w'\in\Lambda^0 tal que \{w,w'\} é uma \mathbb{Z}^2-base de \Lambda^0. Equivalentemente, w\in\Lambda^0 é primitivo quando w/k\in\Lambda^0 para todo k>1. No que se segue iremos utilizar os seguintes fatos:

  • o subconjunto Z_w\subset B de redes possuindo w como um vetor primitivo forma um circulo (na verdade um horociclo fechado);
  • dado K\subset\mathbb{R}^2 um compacto convexo, a area de K é \zeta(2)\times\int_B f_K(\Lambda^0) d\mu_B onde f_K(\Lambda^0) é a quantidade de vetores primitivos de \Lambda^0 em K;
  • em particular, tomando K suficientemente pequeno de modo que f_K(\Lambda^0)\leq 1 para todo \Lambda^0\in B, vemos que o conjunto de lattices com vetor primitivo em K tem \mu_B-medida igual a 1/\zeta(2) vezes a area de K;
  • mais ainda, podemos desintegrar a medida \mu_B de um subconjunto mensuravel \widetilde{B}\subset B assim: \mu_B(\widetilde{B}) = \frac{1}{\zeta(2)}\int_{w\in K}\mu_w(\widetilde{B}\cap Z_w), onde \mu_w é a medida (normalizada) de Lebesgue do circulo Z_w.

Neste ponto, nosso objetivo sera usar a observação 1 com a des- integração de \mu_B para expressar F como uma integral dupla. Nesse sentido, em vista da interpretação geométrica de F (na observação 1), olhamos para os lattices \Lambda\in E intersectando o triângulo \Delta_{c_-,c_+} em dois pontos com coordenadas (w_1,w_2) satisfa- zendo w_1/2w_2\in (c_-,c_-+dc_-) e w_1/2w_2\in (c_+-dc_+,c_+). Note que a diferença entre esses dois pontos de \Lambda é um vetor primitivo: caso contrario, \Lambda iria conter um terceiro ponto no segmento de reta determinado por esses dois pontos; sendo \Delta_{c_-,c_+} convexo (porque ele é um triângulo) seguiria que \Lambda intersectaria \Delta_{c_-,c_+} em três pontos, uma contradição com nossa hipotese. Usando esse vetor primitivo, aplicamos a desintegração de \mu_B para exprimir F como uma integral nas w_2 coordenadas v_-,v_+ dos vetores de \Lambda na fronteira de \Delta_{c_-,c_+}: para v_-,v_+\in (0,1), escrevemos w=(2c_+v_+,v_+)-(2c_-v_-,v_-) e lembramos que Z_w parametriza os lattices contendo w; em seguida, denotamos por q_x(v_-,v_+)\in [0,1] a (\mu_w)-medida do subconjunto de Z_w formado por lattices disjuntos do interior de \Delta_{c_-,c_+}. Observe que escrevemos q_x ao invés de q_{c_-,c_+} porque essa quantidade depende apenas de x=c_+-c_-. Com essa notação, a formula de F em integral dupla é:

Proposição 3. A função (x,v_-,v_+)\mapsto q_x(v_-,v_+) é continua exceto num subconjunto de \{v_-=v_+\}. Mais ainda, para x\in [0,\infty), temos

-p''(x)=F(x)=\frac{1}{\zeta(2)}\int_0^1\int_0^1 4v_-v_+ q_x(v_-,v_+) dv_- dv_+.

Em particular, segue que F é continua.

Prova. O fato de q_x(v_-,v_+) ser continuo é imediato exceto quando o vetor w é horizontal (em particular ele fica paralelo ao terceiro lado de \Delta_{c_-,c_+}). Isto prova a primeira afirmação da proposição porque w horizontal implica v_-=v_+. No mais, como 0\leq q_x(v_-,v_+)\leq 1, a integral dupla acima existe e varia continuamente com x. Finalmente, para ver que esta integral coincide com -p''(x) e F(x), usamos a interpretação geométrica de F (discutida no paragrafo anterior ao enunciado da proposição) combinado com o fato de 4v_-v_+ ser o produto dos comprimentos dos segmentos de reta

\{(w_1,v_-): 2c_-v_-<w_1<2(c_-+dc_-)v_-\}

e

\{(w_1,v_-): 2c_-v_-<w_1<2(c_-+dc_-)v_-\}

onde os vetores do lattice variam (além do fato de que estamos utilizando os fatores q_x(v_-,v_+)/\zeta(2) na formula de desintegração de \mu_B). \square

Para tornar a proposição 3 um pouco mais util, precisamos computar q_x(v_-,v_+). A idéia para fazer isso consiste em fazer considerações geométricas apos uma mudança afim de coordenadas de (w_1,w_2) para (z,z') levando o triângulo \Delta_{c_-,c_+} no triângulo isosceles

\Delta_0:=\{(z,z')\in\mathbb{R}^2: z,z'>0, z+z'<1\}

de area 1/2. Como o triângulo \Delta_{c_-,c_+} tem area c_+-c_-, esta transformação multiplica a area pelo fator

r:=1/2x.

Apesar do argumento não ser muito complicado, deixaremos para o leitor curioso ver a prova do lemma 3.12 para os detalhes da demonstração do seguinte fato:

Lema 2. Para quaisquer 0<v,v'\leq 1 e x>0 vale q_x(v,v')= q_x(v',v). Além disso, para v\geq v', temos

q_x(v,v'):=\max\left\{0, \min\left(1,\frac{r}{vv'}\right) - \max\left(0,\frac{v(1-v')-r}{v(v-v')}\right)\right\}

com r=1/2x. Aqui estamos interpretando

\max\left(0,\frac{v(1-v')-r}{v(v-v')}\right) = \begin{cases} \infty & \textrm{ se }  v=v' \textrm{ e } r<v(1-v') \\ 0 & \textrm{ se } v=v' \textrm{ e } r\geq v(1-v') \end{cases}

Com este fato em mãos, achar uma formula explicita para F (a distribuição assintotica das lacunas de \{\sqrt{n}\}) vira um exercicio de Calculo I. Com efeito, seguindo combinando a proposição 3 com o lema 2 e calculando algumas integrais (como na prova do teorema 3.14 de Elkies e McMullen), o leitor eventualmente acabara demonstrando o seguinte resultado:

Teorema 2. Temos

F(t):=\begin{cases}6/\pi^2, \quad t\in [0,1/2], \\ F_2(t), \quad t\in[1/2,2], \\ F_3(t), \quad t\in [2,\infty), \end{cases}

onde F_2(t) e F_3(t) são

F_2(x)=\frac{6}{\pi^2}(\frac{2}{3}(4r-1)^{\frac{3}{2}}\psi(r) + (1-6r)\log r + 2r - 1)

e

F_3(x)=\frac{6}{\pi^2} (f(\alpha)-g(\alpha)-h(\alpha) .

Aqui r:=1/2x e \psi(r) = \tan^{-1}[(2r-1)/\sqrt{4r-1}] - \tan^{-1}[1/\sqrt{4r-1}], \alpha = (1-\sqrt{1-4r})/2, f(\alpha)=4(1-4\alpha)(1-\alpha)^2\log(1-\alpha), g(\alpha)=2(1-2\alpha)^3\log(1-2\alpha) e h(\alpha)=2\alpha^2.

Dito de outro modo, acabamos de completar a prova do teorema de Elkies e McMullen (conforme enunciado no primeiro post introdu- torio) modulo o teorema 1 (o qual assumimos durante toda esta seção)!

Com isso, encerramos essa seção e passamos para a questão de relacionar o teorema 1 com a teoria ergodica de fluxos homo- gêneos.

Relação entre o teorema 1 e fluxos homogêneos

Lembramos que o teorema 1 fala sobre a equidistribuição da fa- milia de circulos de lattices \{\Lambda_{s^2}(t): t\in [0,1]\} quando s\to\infty. Para reformular o teorema 1 numa linguagem apropriada, obser- vamos que toda a ação ocorre no grupo especial afim ASL_2(\mathbb{R}) o qual iremos re-escrever como

G(\mathbb{R}):=\left\{\left(\begin{array}{ccc}a &b&x \\ c&d&y \\ 0&0&1\end{array}\right) : ad-bc=1\right\} \subset SL_3(\mathbb{R}).

Note que este grupo atua em \mathbb{R}^2 através das transformações afins conservativas

\left(\begin{array}{c}X \\ Y\end{array}\right)\mapsto \left(\begin{array}{cc}a&b \\ c&d\end{array}\right)\left(\begin{array}{c}X \\ Y\end{array}\right) + \left(\begin{array}{c}x \\ y\end{array}\right).

Denotamos por G(\mathbb{Z})\subset G(\mathbb{R}) o subgrupo formado pelas matrizes com entradas inteiras e observamos que o espaço de lattices (uni- modulares) E é naturalmente identificado com G(\mathbb{R})/G(\mathbb{Z}): tomamos o lattice inteiro \mathbb{Z}^2 como ponto base e para cada g\in G(\mathbb{R}) associamos o lattice

\Lambda(g) := \left\{ (w_1,w_2)\in\mathbb{R}^2: \left(\begin{array}{c}w_1 \\ w_2 \\ 1\end{array}\right)\in g \left(\begin{array}{c}\mathbb{Z} \\ \mathbb{Z} \\ 1\end{array}\right)\right\}.

Esta aplicação é sobrejetiva e \Lambda(g)=\Lambda(h) se e so se h\in g\cdot G(\mathbb{Z}) (como o leitor pode verificar), de maneira que isto é um isomor- fismo entre E e G(\mathbb{R})/G(\mathbb{Z}).

No caso particular dos lattices \Lambda_{s^2}(t), os elementos de G(\mathbb{R})/G(\mathbb{Z}) associados por esse isomorfismo podem ser calculados explicita- mente do seguinto jeito: relembramos do post anterior que

\Lambda_{s^2}(t):=\{(s(b-2ta-t^2),(a+t)/s)\},

donde os pontos (w_1,w_2)\in\Lambda_{s^2}(t) em notação matricial ficam:

\left(\begin{array}{c}w_1 \\ w_2 \\ 1\end{array}\right) = \left(\begin{array}{ccc}s&-2st&-st^2 \\ 0&1/s&t/s \\ 0&0&1\end{array}\right)\left(\begin{array}{c}b\\a\\1\end{array}\right) = A_sU(t) \left(\begin{array}{c}b\\a\\1\end{array}\right),

onde A_s = diag(s,1/s,1) é a matriz diagonal

A_s:=\left(\begin{array}{ccc}s&0&0 \\ 0&1/s&0 \\ 0&0&1\end{array}\right)

e

U(t):= \left(\begin{array}{ccc}1&-2t&-t^2 \\ 0&1&t \\ 0&0&1\end{array}\right).

Logo, \Lambda_{s^2}(t) é o lattice

\Lambda_{s^2}(t) = \left\{(w_1,w_2)\in\mathbb{R}^2 : \left(\begin{array}{c}w_1 \\ w_2 \\ 1\end{array}\right)\in A_sU(t) \left(\begin{array}{c}\mathbb{Z} \\ \mathbb{Z} \\ 1\end{array}\right)\right\}.

Em outras palavras, \Lambda_{s^2}(t) é identificado com A_s U(t). Resumindo, vemos que o teorema 1 é equivalente ao seguinte enunciado:

Teorema 3. Os circulos \{A_sU(t):t\in [0,1]\} ficam e- quidistribuidos em G(\mathbb{R})/G(\mathbb{Z}) quando s\to\infty, i.e., para toda f\in C_0(E) vale

\lim\limits_{s\to\infty}\int_0^1 f(A_sU(t))dt = \int_E f d\mu_E.

Uma vez que o teorema 1 foi “traduzido” para o teorema 3, nosso plano sera utilizar a teoria ergodica do fluxo homogêneo A_s no es- paço E = G(\mathbb{R})/G(\mathbb{Z}): mais precisamente, iremos explorar o fato do circulo \{U(t):t\in[0,1]\} ser um horociclo não-linear (um con- ceito a ser discutido depois) para derivar o teorema 3 de um re- sultado mais geral sobre a equidistribuição de horociclos não-li- neares pelo fluxo de A_s. Porém, como uma explicação detalhada disso leva um certo tempo, deixaremos para o proximo post esta discussão.

Read Full Post »

Começaremos a discussão de hoje esclarecendo um pouco mais o esquema da prova do teorema de Elkies e McMullen (sobre a distribuição das lacunas de \sqrt{n} (mod 1) exposto no penultimo paragrafo do post passado. Conforme ja tinhamos adiantado, a idéia consiste em relacionar a distribuição de \sqrt{n} (mod 1) com a teoria ergodica de lattices aleatorios. Antes de entrarmos nos pormenores, vamos introduzir algumas notações. Lembramos que \Lambda_0\subset\mathbb{R}^2 é uma rede se \Lambda_0 é um subgrupo discreto isomorfo à \mathbb{Z}^2. Dizemos que uma rede \Lambda_0 é unimodular se o toro \mathbb{R}^2/\Lambda_0 tem area 1. Além disso, um lattice \Lambda\subset\mathbb{R}^2 é um subconjunto da forma \Lambda = \Lambda_0+v onde v\in\mathbb{R}^2 e \Lambda_0 é uma rede.

Observação 0. Normalmente, o que chamamos acima de “rede” usualmente corresponde a um lattice na literatura, sendo que o que chamamos de “lattice” é denotado por “lattice translate” no artigo de Elkies e McMullen. Entretanto, suponho que não teremos problemas com a notação (pelo contrario, como estaremos apenas interessados nas translações das redes, essa notação sera benéfica).

Denotaremos por E o espaço de lattices unimodulares. Como o leitor pode verificar, este espaço é naturalmente identificado com

E = ASL(2,\mathbb{R})/ASL(2,\mathbb{Z}),

onde ASL(2,\mathbb{R}) é o grupo de transformações afins g:\mathbb{R}^2\to\mathbb{R}^2 da forma g(v) = Av+b com \det A=1 e ASL(2,\mathbb{Z}) é o subgrupo discreto de ASL(2,\mathbb{R}) cujos elementos g(v)=Av+b satisfazem A\in SL(2,\mathbb{Z}) e b\in\mathbb{Z}^2.

Uma consequência direta dessa identificação é o fato de E possuir uma unica probabilidade \mu_E invariante pela ação pela esquerda de ASL(2,\mathbb{R}) (sendo esta probabilidade dita a medida de Haar de E). Em particular, a noção de “lattice aleatorio” de E faz sentido: um lattice aleatorio sera um lattice com propriedades genéricas com relação a \mu_E, i.e., lattices satisfazendo propriedades definindo um conjunto de \mu_E probabilidade total).

Neste ponto, podemos fazer um esquema informal da prova do teorema de Elkies e McMullen.

Programa da prova do teorema de Elkies e McMullen

Fixemos N inteiro grande, t>0 e I=[x,x+t/N]\subset\mathbb{R}/\mathbb{Z}, onde x\in [0,1] é tomado aleatoriamente (com relação a medida de Lebesgue). Nesses termos, o programa da demonstração sera o seguinte:

  • determinar a distribuição de \sqrt{n} (mod 1) equivale a computar a probabilidade P_N(t) de I conter algum ponto \{\sqrt{n}\} com 0\leq n\leq N;
  • por outro lado, \{\sqrt{n}\}\in I \iff \sqrt{n}\in I+a para algum a\in\mathbb{Z} \iff n\in (I+a)^2 para algum a\in\mathbb{Z};
  • em seguida, mostra-se que, para efeitos do calculo da distribuição das lacunas de \{\sqrt{n}\}, podemos trocar (I+a)^2 por sua aproximação linear

(I+a)^2\sim (a+x)^2+ 2(a+x)(I-x) = a^2-x^2+2(a+x)I;

  • além disso, prova-se que podemos assumir que N é um quadrado;
  • com estes fatos em mãos, olhamos para a aproximação linear a^2-x^2+2(a+x)I de (I+a)^2 e notamos que

n\in a^2-x^2+2(a+x)I (para 0\leq n\leq N)

\Updownarrow

(\mathbb{Z}+x^2)\cap 2(a+x)I\neq\emptyset (para 0\leq a+x\leq\sqrt{N})

  • esta ultima condição pode ser escrita como T\cap\mathbb{Z}^2\neq\emptyset onde T\subset\mathbb{R}^2 é o triângulo de area t definido por

T:=\{(a,b): b+x^2\in 2(a+x)I \textrm{ e } a+x\in [0,\sqrt{N}]\}.

  • denotando por S_t o triângulo “padrão” de area t com vértices (0,0), (1,0), (0,2t) e considerando g\in ASL(2,\mathbb{R}) a unica transformação afim com g(T)=S_t e g(-x,-x^2)=(0,0), podemos reescrever a condição anterior como

g(\mathbb{Z}^2)\cap S_t\neq\emptyset;

  • resumindo, toda a discussão acima permite traduzirmos o calculo da probabilidade P_N(t) de I=[x,x+t/N] conter algum elemento \{\sqrt{n}\} com 0\leq n\leq N no problema de computar a probabilidade do lattice \Lambda_N(x):=g(\mathbb{Z}^2) intersectar o triângulo padrão S_t.
  • entretanto, para N\gg 1 grande espera-se que \Lambda_N(x)\in E se comporte como um lattice aleatorio: de fato, assim como todo bom lattice aleatorio, temos que a sequência \Lambda_N(x) é uniformemente distribuida – para toda f função continua de suporte compacto de E vale

\int_0^1 f(\Lambda_N(x)) dx\to\int_E f(\Lambda) d\mu_E(\Lambda) quando N\to\infty

  • usando o resultado de distribuição uniforme anterior, veremos que P_N(t)\to p(t) quando N\to\infty, onde p(t) é a probabilidade de um lattice aleatorio intersectar o triângulo padrão S_t;
  • finalmente, revertendo as traduções, mostra-se que p''(t)=-F(t), onde F(t) é a distribuição de lacunas de \{\sqrt{n}\}, o que acaba a demonstração porque p''(t) pode ser calculado explicitamente através de formulas naturais para a medida \mu_E.

Apos esta descrição informal do programa de Elkies e McMullen, passaremos a discutir com certo nivel de detalhes todos os pontos acima.

Algumas reduções preliminares

Para cada N\geq 1 inteiro, definimos a função \lambda_N:[0,\infty)\to [0,1] assim. Consideramos os N pontos \{\sqrt{n}\}, n=1,\dots,N, do circulo \mathbb{R}/\mathbb{Z}. Isso fornece uma partição do circulo em N intervalos J_1,\dots, J_N dos quais \lfloor N\rfloor-1 tem tamanho zero (estes intervalos são as lacunas de \{n\}, 1\leq n\leq N). Nessa notação,

\lambda_N(x):=\frac{1}{N}\#\{1\leq i\leq N: |J_i|<x/N\}.

Deixamos para o leitor verificar as seguintes propriedades elementares de \lambda_N(x):

  • \lambda_N é não-decrescente e continua pela esquerda (de fato, \lambda_N é constante exceto por quantidade finita de saltos); além disso, \lambda_N(0)=0 e \lambda_N(\infty)=1;
  • \int_0^{\infty}(1-\lambda_N(x))dx = \int_0^{\infty} x d\lambda_N(x) = 1 (porque \int_0^{\infty} x d\lambda_N(x) é a soma dos comprimentos das lacunas);

Nesses termos, o resultado de Elkies e McMullen se converte no seguinte teorema:

Teorema 1. Existe uma função continua \lambda_{\infty}:[0,\infty)\to [0,1] tal que \lambda_N\to \lambda_\infty uniformemente em compactos quando N\to\infty. Mais ainda,

\lambda_\infty(x) = \int_0^x F(\xi)d\xi,

onde F é uma função explicita a ser calculada mais tarde.

Note que a função F acima é a distribuição das lacunas de \{\sqrt{n}\} procurada: com efeito, para todo 0\leq x_1<x_2<\infty, a quantidade de lacunas de \{\sqrt{n}\} (1\leq n\leq N) com tamanho entre x_1/N e x_2/N é assintotico à \int_{x_1}^{x_2}F(\xi)d\xi.

Para estudar \lambda_N, introduzimos L_N:\mathbb{R}/\mathbb{Z}\to [0,\infty) dada por

L_N(t) =\begin{cases}0, \quad \quad \quad \quad \quad \quad \quad\textrm{se } t=\{\sqrt{n}\} \textrm{ para algum } 0\leq n\leq N \\ N\times \textrm{tamanho da lacuna contendo } t, \quad \textrm{caso contrario.}\end{cases}

Usando L_N podemos escrever a união das lacunas de tamanho <x/N como

I_N(x):=\{t\in\mathbb{R}/\mathbb{Z}: L_N(t)<x\}.

Em particular, |I_N(x)| = \int_0^x \xi d\lambda_N(\xi), de maneira que o teorema 1 equivale à:

Teorema 2. |I_N(x)|\to\int_0^x \xi F(\xi) d\xi uniformemente para x variando em compactos quando N\to\infty.

Agora vamos falar um pouco das reduções do(s) teorema(s) acima. A primeira simplificação do teorema 1 foi anunciada no quarto ponto do programa discutido anteriormente: no enunciado deste teorema podemos assumir que N é um quadrado perfeito, i.e., N=s^2 com s\in\mathbb{Z}. Mais precisamente, temos o seguinte enunciado:

Lema 1 (lemma 3.1 de Elkies e McMullen). Suponha que \lambda_{s^2} converge unif. em compactos para uma função continua \lambda_{\infty} quando s\to\infty. Então, \lambda_N também converge (unif. em compactos) para \lambda_\infty quando N\to\infty.

Prova. Observe que todo inteiro N esta a uma distância de O(\sqrt{N}) de um quadrado perfeito s^2. Por outro lado, a troca de N por s^2 muda 3|N-s^2|\lesssim\sqrt{N} dos tamanhos das lacunas (ao maximo) e multiplica o fator normalizante 1/N por N/s^2 = 1+O(\sqrt{1/N}). Em particular, segue que \lambda_{s^2}\to\lambda_{\infty} unif. em compactos implica \lambda_N\to\lambda_{\infty} unif. em compactos. \square

A segunda simplificação foi descrita no segundo e terceiro pontos do programa de Elkies e McMullen: no estudo de \lambda_N(x) podemos trocar as expressões quadraticas por suas aproximações lineares sem afetar as assintoticas. Para descrever detalhadamente isso, precisaremos introduzir mais alguma notação. Lembre que cada inteiro n pode ser escrito de maneira unica como a^2+b onde a = \lfloor n\rfloor = \sqrt{n} - \{\sqrt{n}\}. Utilizando o lema 1, podemos assumir que N é um quadrado perfeito, digamos N = s^2. Nessa situação, vemos que

L_N(t)=N(t_2-t_1)

onde t_2 é o menor numero real \geq t com (a_2+t_2)^2\in\mathbb{Z} para algum a_2<s inteiro e t_1 é o maior numero real \leq t com (a_1+t_1)^2\in\mathbb{Z} para algum a_1<s inteiro. Para entender melhor a função L_N fazemos a seguinte observação aritmética:

Observação 1. Para a_j\in\mathbb{Z} (j=1,2), temos que (a_j+t_j)^2 = a_j^2+2a_jt_j+t_j^2\in\mathbb{Z} se e so se b_j:=2a_jt_j+t_j^2\in\mathbb{Z}. Além disso, temos 0\leq b_j\leq (a_j+1)^2-a_j^2=2a_j+1 quando 0\leq t\leq 1.

Usando esta pequena observação, podemos re-escrever a identidade L_N(t) = N(t_2-t_1) como

L_N(t)=N((t_2-t)-(t_1-t))= N(\min\limits_{r_t(a,b)\geq 0} r_t(a,b) - \max\limits_{r_t(a,b)\leq 0} r_t(a,b)) onde a, b variam sobre os inteiros satisfazendo

0<a<s e 0\leq b\leq 2a+1.

Observação 2. De fato, esta ultima condição sobre b é superflua: por um lado, 0\leq b\leq 2a+1 equivale a 0\leq r_t(a,b)+t\leq 1 e por outro lado \min\limits_{r_t(a,b)\geq 0} r_t(a,b)+t e \max\limits_{r_t(a,b)\leq 0} r_t(a,b) estão entre 0 e 1 ja que r_t(1,0)+t=0 e r_t(1,3)+t=1.

Continuando o estudo de L_N, iremos aplicar a idéia discutida no terceiro ponto do programa de Elkies e McMullen: na definição de b_j (feita na obs. 1), trocamos t_j^2 pela sua aproximação linear t^2+2t(t_j-t) = 2t_jt-t^2 em torno de t. Com essa troca, b_j é substituido por 2a_j t_j + (2t_jt-t^2) = 2(a+t)t_j-t^2. Por esse motivo, vamos considerar \tau_j = (b_j+t^2)/2(a+t) a solução da equação

2(a+t)\tau_j-t^2=b_j

e vamos trocar t_j por \tau_j na definição de L_N, de modo que obtemos a função

\widetilde{L}_N(t):=N(\min\limits_{\rho_t(a,b)\geq 0} r_t(a,b) - \max\limits_{\rho_t(a,b)\leq 0} r_t(a,b))

onde \rho_t(a,b) := \frac{b+t^2}{2(a+t)} - t = \frac{a^2+b-(a+t)^2}{2(a+t)} e a, b variam sobre os inteiros satisfazendo

0<a<s e 0\leq b\leq 2a+1.

Observação 2′. Assim como na observação 2, a condição acima sobre b é superflua.

Analogamente ao conjunto I_N(x), definimos

\widetilde{I}_N(x):=\{t\in\mathbb{R}/\mathbb{Z}: \widetilde{L}_N(t)<x\}.

Como antecipamos no terceiro ponto do programa de Elkies e McMullen, a troca de t_j^2 por sua aproximação linear (ou equiva- lentemente a troca de t_j por \tau_j) na definição de L_N não altera as assintoticas. Mais precisamente, temos o seguinte teorema:

Teorema 3 (proposition 3.2 de Elkies e McMullen). Suponha que |\widetilde{I}_N(x)| converge unif. em compactos para \int_0^x \xi F(\xi)d\xi com F continua. Então o mesmo ocorre com I_N:

|I_N(x)|\to \int_0^x \xi F(\xi) d\xi

quando N\to\infty (unif. em compactos).

A explicação “conceitual” para a validade desse teorema é: tipicamente espera-se que t_j=t+O(1/N), de modo que |t_j-\tau_j|=O(1/a_jN^2) (ja que \tau_j é a solução da equação 2(a_j+t)\tau_j-t^2=b_j=2a_jt_j+t_j^2). Mais ainda, dado \varepsilon>0, temos 1/a_j<\varepsilon para a “maioria” dos pares (a_j,b_j). Portanto, a expectativa é que a troca de t_j por \tau_j muda o tamanho da maioria das lacunas de O(\varepsilon/N^2), o que não altera o comportamento assintotico de |I_N|.

Para formalizar a explicação anterior, consideramos o quociente

\frac{\rho_t(a,b)}{r_t(a,b)} = \frac{\sqrt{a^2+b}+a+t}{2(a+t)}\in [\frac{2a+1}{2a+2}, \frac{2a+1}{2a}].

Manipulando essa informação (veja o lemma 3.3 do artigo de Elkies e McMullen), segue que

Lema 2. Para todo t\in [0,1] vale \frac{3}{4}L_N(t)\leq \widetilde{L}_N(t)\leq \frac{3}{2} L_N(t). Além disso, para todo A\in\mathbb{N}, temos que a estimativa

\frac{2A+1}{2A+2}\widetilde{L}_N(t)\leq\frac{2A+1}{2A}L_N(t)

para todo t\in[0,1] exceto para um conjunto de tamanho \leq (A+2)(A-1)/(s-1).

Como o leitor pode verificar, este lema implica facilmente nas seguintes estimativas

|\widetilde{I}_N(3x/4)|\leq |I_N(x)|\leq |\widetilde{I}_N(3x/2)|

e

|\widetilde{I}_N(\frac{2A+1}{2A+2}x)|-O(A^2/s)\leq |I_N(x)|\leq |\widetilde{I}_N(\frac{2A+1}{2A}x)|+ O(A^2/s)

para todo x\in [0,\infty) e A=1,2,\dots. Usando essas estimativas com A=1+\lfloor s^{1/3}\rfloor (ou qualquer outra função crescente de s com A^2/s\to 0), obtemos o teorema 3.

Uma vez que temos o teorema 3 em mãos, nosso objetivo fica reduzido ao estudo assintotico de \widetilde{L_N}. Para isso, faremos na proxima seção a interpretação dessa quantidade em termos de lattices conforme proposto os pontos 5, 6, 7 e 8 do programa de Elkies e McMullen.

Interpretação geométrica de \widetilde{L}_N

Como dissemos no ponto 6 do programa, vamos usar um triângulo T conveniente (cuja forma ja explicitamos). Com nossa notação atual, T é o triângulo no plano (a,b) cujo interior é determinado pelas desigualdades

0<a+t<s, \, \, 2c_-(a+t)/s^2 < b-2ta-t^2 < 2c_+ (a+t)/s^2,

para c_-<0<c_+. Fazendo as traduções diretas das notações, o leitor pode checar facilmente que \widetilde{L}_N é interpretado em termos de T como no seguinte lema:

Lema 3. Para cada N=s^2 e t\in [0,1], temos as seguintes possibilidades:

  • se \widetilde{L}_N(t)\neq 0, então \widetilde{L}_N(t) é a area c_+-c_- do maior triângulo T (definido acima) cujo interior não intersecta \mathbb{Z}^2-\{(0,0),(0,1)\};
  • se \widetilde{L}_N(t)=0, então todos triângulos T como acima contém o ponto (a,b) cujas coordenadas satisfazem b-2ta-t^2=0 com 0<a<s.

Em seguida, fazemos uma “limpeza” no enunciado do lema acima observando que as possibilidades (a,b)= (0,0), (0,1) não afetam \widetilde{L}_N(t) exceto para t\in [0,1] num subconjunto de tamanho O(1/s):

Lema 4. A caracterização da quantidade \widetilde{L}_N(t) feita no lema 3 não é alterada pela inclusão dos casos (a,b)=(0,0), (0,1) exceto se 0\leq t < 1/(s-1) ou t^{-1}-t < 1/(s-1).

A prova desse lema é uma simples analise de caso: para os de- talhes veja o lemma 3.7 de Elkies e McMullen. Usando este lema, segue que a inclusão dos casos (a,b)=(0,0), (0,1) não afeta a assintotica de |\widetilde{I}_N(t)| (ja que esta modificação altera os valores de \widetilde{L}_N(t) apenas num subconjunto de tamanho O(1/s)).

Agora aplicaremos a idéia discutida no ponto 7 do programa: consideramos a transformação afim g de \mathbb{R}^2 definida por

g(a,b) = (w_1,w_2)=(s(b-2ta-t^2),(a+t)/s).

Observe que g leva o vértice (-t,-t^2) na origem (0,0), o triângulo T no triângulo

\Delta_{c_-,c_+}:=\{(w_1,w_2)\in\mathbb{R}^2: 0<w_2<1, \, 2c_- w_2<w_1<2c_+ w_2\}

e o lattice \mathbb{Z}^2 no lattice \Lambda_{s^2}(t)=g(\mathbb{Z}^2) dado por

\Lambda_{s^2}(t):=\{(s(b-2ta-t^2),(a+t)/s): (a,b)\in\mathbb{Z}^2)\}.

Note que o triângulo “padrão” \Delta_{c_-,c_+} depende de c_-,c_+ mas não de s,t (para efeitos de comparação, esse triângulo corresponde ao triângulo S_t do ponto 7 do programa de Elkies e McMullen).

Para finalizar nossas interpretações, introduzimos a seguinte definição:

Definição 1. Dado um lattice \Lambda no plano (w_1,w_2), denotamos por L(\Lambda) a area c_+-c_- do maior triângulo da forma \Delta_{c_-,c_+} disjunto de \Lambda com as convenções L(\Lambda)=0 quando não existir um tal triângulo e L(\Lambda)=\infty quando todos estes triângulos forem disjuntos de \Lambda.

Com essa notação, podemos aplicar o lema 4 para resumir toda essa discussão no seguinte fato:

Proposição 1 (proposition 3.8 de Elkies e McMullen). Para todo s\in\mathbb{N}, x\in\mathbb{R}, o conjunto dos t\in [0,1] com L(\Lambda_{s^2}(t))\leq x tem tamanho

|\widetilde{I}_{s^2}(x)|+O(1/s).

Em outras palavras, a proposição 1 diz que a questão de estudar a assintotica de \widetilde{I}_{s^2} fica reduzida ao estudo do comportamento da função L na familia de lattices \Lambda_{s^2}(t).

Nesse ponto, fica faltando “apenas” detalhar os pontos restantes (9, 10, 11) do programa. Moralmente, esses pontos essencialmente falam que o estudo de L nos lattices \Lambda_{s^2}(t) pode ser feito usando-se a teoria ergodica de lattices aleatorios (em particular, os teoremas de Ratner são bem uteis nessa tarefa).

Entretanto, deixaremos a discussão da parte “ergodica” da prova do teorema de Elkies e McMullen para os proximos posts. Até la!

Read Full Post »

Um problema basico em teoria dos numeros consiste em entender a distribuição de certas sequências de numeros ao redor do circulo.

Mais precisamente, dado um numero real x\in\mathbb{R}, denotamos por

\{x\} = x (\textrm{mod } 1)\in S^1:=\mathbb{R}/\mathbb{Z}

a parte fracionaria de x. Nesta linguagem, o problema citado acima seria: dada uma sequência de numeros reais x_n, n=1,2,\dots, descrever como o comportamento da sequência \{x_n\} no circulo S^1.

A historia do problema de distribuição de sequências (mod 1) é antiga, de modo que faremos somente alguns comentarios. Um resultado classico de Kronecker afirma que a sequência \{n\theta\} é densa no circulo S^1 para todo \theta\in\mathbb{R} irracional. Outro resultado classico de Weyl diz que a mesma sequência \{n\theta\} (para \theta irracional) é equidistribuida, i.e., para todo intervalo I\subset S^1,

\frac{\#\{1\leq n\leq N: \{n\theta\}\in I\}}{N}\to \frac{|I|}{|S^1|} quando N\to\infty,

onde |J| denota o comprimento de J. Além disso, sabe-se que a sequência \{\kappa^n\} é equidistribuida para quase todo \kappa>1 (apesar de certos casos especificos tais como \{(3/2)^n\} ainda estarem em aberto). Em geral, temos o critério de Weyl segundo o qual uma sequência (mod 1) é equidistribuida se e somente se certas somas exponenciais tendem a zero.

Um exemplo particularmente interessante para o post de hoje é a sequência \{n^{\alpha}\} para 0<\alpha<1. Um primeiro resultado elementar sobre essa sequência é o fato dela ser equidistribuida:

Exercicio 1. Prove que \{n^{\alpha}\} é equidistribuida em S^1, onde 0<\alpha<1. (Sugestão: Interpretando o problema em \mathbb{R}, use que (n+1)^{\alpha} - n^{\alpha}\to 0 e n^{\alpha}\to\infty quando n\to\infty)

Uma maneira bem popular de aprofundar o estudo da distribuição de uma sequência x_n consiste em considerar as lacunas J_1,\dots, J_N deixadas por esses pontos em S^1, ou seja, \mathcal{J}(N):=\{J_1,\dots, J_N\} são as componentes conexas de S^1-\{x_1,\dots,x_N\}. Note que a soma dos comprimentos |J_i| das lacunas J_i é 1, de maneira que a média do tamanho das lacunas é:

\frac{1}{N}\sum\limits_{i=1}^N |J_i| = 1/N.

Em outras palavras, a “escala natural” para os tamanhos |J_i| das lacunas é 1/N. Considerando essa “escala natural”, introduzimos a seguinte definição:

Definição 1. Dizemos que uma sequência x_n é exponencialmente distribuida sempre que, para quaisquer 0\leq a\leq b, temos

\frac{1}{N}\#\{J\in\mathcal{J}(N): |J|\in [a/N, b/N]\}\to \int_a^b e^{-t} dt

quando N\to\infty.

Exemplo 1. Pela escolha aleatoria de pontos do circulo obtém-se uma sequência exponencialmente distribuida (para mais detalhes veja o livro de W. Feller).

Retornando para a sequência \{n^{\alpha}\} com 0<\alpha<1, alguns experimentos numéricos sugerem que esta sequência deve ser exponencialmente distribuida para todo \alpha\neq 1/2. Mais ainda, M. Boshernitzan observou numericamente em 1993 uma distribuição diferenciada para o caso \alpha=1/2. Entretanto, a confirmação rigorosa dessa observação numérica de Boshernitzan so foi obtida recentemente por Elkies e McMullen.

Mais precisamente, N. Elkies e C. McMullen mostraram o seguinte teorema acerca da distribuição das lacunas de \{\sqrt{n}\} (mod 1):

Teorema (Elkies e McMullen (2004)). A distribuição das lacunas de \{\sqrt{n}\} é dada pela função continua

F(t):=\begin{cases}6/\pi^2, \quad t\in [0,1/2], \\ F_2(t), \quad t\in[1/2,2], \\ F_3(t), \quad t\in [2,\infty), \end{cases}

onde F_2(t) e F_3(t) são funções analiticas reais explicitas. Mais ainda, a função F(t) não é analitica (e nem mesmo C^3) nos pontos t=1/2 e t=2. Ou seja, F(t) exibe uma transição de fase genuina em t=1/2 e t=2.

Para a conveniência do leitor, lembramos que G(t) é a distribuição de lacunas de uma sequência x_n sempre que, para quaisquer 0\leq a\leq b, temos

\frac{1}{N}\#\{J\in\mathcal{J}(N): |J|\in [a/N, b/N]\}\to \int_a^b G(t) dt quando N\to\infty.

No teorema de Elkies e McMullen acima, evitamos colocar as expressões explicitas das funções F_2(t) e F_3(t) para não sobrecarregar o enunciado, mas iremos apresentar agora as formulas dessas funções. Para isso, denote r:=1/2x e defina

F_2(x)=\frac{6}{\pi^2}(\frac{2}{3}(4r-1)^{\frac{3}{2}}\psi(r) + (1-6r)\log r + 2r - 1) se \frac{1}{2}\leq x\leq 2,

F_3(x)=\frac{6}{\pi^2} (f(\alpha)-g(\alpha)-h(\alpha) se x\geq 2.

Aqui \psi(r) = \tan^{-1}[(2r-1)/\sqrt{4r-1}] - \tan^{-1}[1/\sqrt{4r-1}], \alpha = (1-\sqrt{1-4r})/2, f(\alpha)=4(1-4\alpha)(1-\alpha)^2\log(1-\alpha), g(\alpha)=2(1-2\alpha)^3\log(1-2\alpha) e h(\alpha)=2\alpha^2.

Em particular, vemos que F(t) é continua em t=1/2 e t=2 (com valores F(1/2)=6/\pi^2 e F(2)=6(\log 2 - 1/2)/\pi^2). Mais ainda, F(t) é C^1 mas F(t) não é C^2 em t=2 e F(t) não é C^3 em t=1/2 (como uma expansão em série de Taylor perto desses pontos mostra). Outra consequência direta das formulas explicitas para F(t) é que a “cauda” da distribuição de \sqrt{n} (mod 1) não é exponencial: F(t)\sim 3t^{-3}/\pi^2 quando t\to\infty. Comparando isso com o exemplo 1, temos que o aparecimento de lacunas grandes é mais provavel para a sequência \sqrt{n} (mod 1) do que para uma sequência aleatoria de pontos.

Dito isto, iremos concentrar nossos esforços na discussão da bela prova do teorema de Elkies e McMullen. Como a demonstração deste belo resultado envolve bastante detalhes técnicos, iremos fazer o seguinte: no proximo paragrafo, daremos um esquema bastante vago do argumento, deixando todos os pormenores para posts futuros.

Grosso modo, a ideia de Elkies e McMullen consiste em traduzir o problema do calculo da distribuição F(t) das lacunas de \sqrt{n} (mod 1) para a questão de computar a probabilidade de um lattice “aleatorio” de \mathbb{R}^2 intersectar um certo triângulo fixado. A vantagem desse procedimento aparentemente artificial consiste no fato de que a teoria ergodica de lattices aleatorios esta bem desenvolvida gracas a poderosos resultados do calibre dos teoremas de Ratner, o que nos permite saber precisamente a probabilidade desejada (de um lattice encontrar um triângulo fixo).

Com esse esquema muito superficial, encerramos este post “introdutorio”. Até mais!

Read Full Post »