Как читать файлы в Java

Существует пять распространённых способов прочитать текстовый файл в Java, и правильный выбор почти полностью зависит от размера файла и того, что вы хотите сделать с содержимым. В этой главе рассматриваются все пять — от простейшего до наиболее гибкого:

Files.readString(path) — весь файл в виде одной String.
Files.readAllLines(path) — весь файл в виде List<String>.
Files.readAllBytes(path) — весь файл в виде byte[].
Files.lines(path) — файл в виде ленивого Stream<String>.
BufferedReader / Scanner — классические декораторы с полным контролем.

Выбирайте наименьший инструмент, подходящий для задачи. Чтение 4 ГБ лога с помощью Files.readString приводит к OutOfMemoryError; чтение 12-строчного конфигурационного файла через BufferedReader с циклом while — это шесть строк кода там, где хватило бы одной.

`Files.readString(path)` — весь файл за один вызов

String text = Files.readString(Path.of("config.json"), StandardCharsets.UTF_8);

Добавлен в Java 11. Возвращает весь файл в виде String. По умолчанию использует UTF-8 начиная с Java 18 (тем не менее Charset по-прежнему рекомендуется задавать явно, даже с новым значением по умолчанию). Выбрасывает IOException, если файл не существует или не может быть прочитан; выбрасывает OutOfMemoryError, если файл больше кучи.

Используйте когда: файл достаточно мал — конфигурационные файлы, JSON-данные, MDX-главы, всё, что можно прочитать в одном окне редактора. Неформальное правило: меньше нескольких мегабайт.

`Files.readAllLines(path)` — список строк

List<String> lines = Files.readAllLines(Path.of("hosts.txt"), StandardCharsets.UTF_8);

Возвращает неизменяемый List<String> строк файла с удалёнными разделителями строк. Профиль памяти аналогичен readString плюс накладные расходы List — также хранит весь файл в памяти.

Используйте когда: вам нужна индексация по номеру строки, сортировка файла или передача строк в цикл for (String line : lines) без настройки потоков.

`Files.readAllBytes(path)` — необработанные байты

byte[] raw = Files.readAllBytes(Path.of("photo.png"));

Байтовый эквивалент. Без Charset, так как декодирование не происходит. Используйте для бинарных файлов (изображений, архивов, исполняемых файлов) или когда нужно вычислить хэш или передать байты в ByteArrayInputStream.

`Files.lines(path)` — ленивый поток

try (Stream<String> lines = Files.lines(Path.of("app.log"), StandardCharsets.UTF_8)) {
  long errors = lines.filter(l -> l.contains("ERROR")).count();
}

Это единственный встроенный инструмент чтения, масштабируемый для файлов произвольного размера. Stream<String> является ленивым — строки читаются по требованию, а не все сразу — и напрямую сочетается с лексикой потоковых конвейеров (filter, map, count, toList).

Два обязательных требования:

try-with-resources обязателен. Поток владеет открытым дескриптором файла; без try-with-resources файл остаётся открытым до сборки мусора, и вы исчерпаете файловые дескрипторы на нагруженном сервере.
Не переиспользуйте поток после терминальной операции. Потоки одноразовые.

Используйте когда: файл слишком велик для readAllLines, или вы хотите, чтобы построчное преобразование сочеталось с остальным потоковым конвейером.

`BufferedReader.readLine()` — классический подход

BufferedReader — это рабочая лошадка, которую оборачивают современные вспомогательные методы. Он буферизует базовые операции чтения в блок фиксированного размера в памяти, так что readLine() не производит один системный вызов на каждый символ.

try (BufferedReader in = Files.newBufferedReader(Path.of("hosts.txt"), StandardCharsets.UTF_8)) {
  String line;
  while ((line = in.readLine()) != null) {
    System.out.println(line);
  }
}

Files.newBufferedReader(path) — это современная фабрика; классический вариант — new BufferedReader(new FileReader("hosts.txt")) (который использует кодировку платформы на JDK старше 18 — задавайте UTF-8 с помощью трёхаргументной перегрузки). Контракт readLine():

Возвращает следующую строку без разделителя (\n, \r или \r\n).
Возвращает null в конце файла. Условие цикла (line = readLine()) != null — устоявшаяся идиома.

BufferedReader также является производителем Stream<String>: reader.lines() возвращает Stream<String>, основанный на ридере. Именно так реализован Files.lines под капотом.

`Scanner` — посимвольный разбор

Scanner читает текст токенами — словами, целыми числами, числами с плавающей точкой, строками, даже совпадениями регулярных выражений — и является правильным инструментом для чтения структурированного ввода, где единицы не являются целыми строками.

try (Scanner sc = new Scanner(Files.newBufferedReader(Path.of("nums.txt")))) {
  while (sc.hasNextInt()) {
    int n = sc.nextInt();
    System.out.println(n * n);
  }
}

Scanner медленнее BufferedReader, так как выполняет разбор; он выделяет короткие строки и запускает регулярные выражения. Для построчной обработки предпочтите BufferedReader. Для типизированных токенов из небольшого файла (числа, слова, CSV-подобный ввод) Scanner избавляет от слоя разбора.

Полная глава о Scanner находится далее в этой части — здесь рассмотрен вариант чтения файла.

`FileReader` — необработанный символьный ридер

try (FileReader in = new FileReader("notes.txt", StandardCharsets.UTF_8)) {
  int c;
  while ((c = in.read()) != -1) {
    System.out.print((char) c);
  }
}

FileReader читает символы непосредственно из файла — без буферизации, без учёта строк, без сделанных за вас выборов декодирования (вы передаёте Charset или принимаете умолчание платформы на JDK до версии 18). Это слой, поверх которого построены остальные инструменты. В прикладном коде его почти никогда не используют напрямую — его оборачивают в BufferedReader.

Тем не менее он полезен, когда нужно прочитать несколько сотен символов и остановиться — небольшие поиски, где стоимость настройки буфера перевешивает стоимость вызова.

Что выбрать

Сценарий	Выбор
Небольшой файл нужен как единая `String`	`Files.readString`
Небольшой файл нужен как `List<String>`	`Files.readAllLines`
Бинарный файл (изображение, архив)	`Files.readAllBytes`
Любой файл с потоковым преобразованием	`Files.lines` (внутри `try`-with-resources)
Построчный цикл с полным контролем	`Files.newBufferedReader` + `readLine`
Типизированные токены (числа, слова, совпадения regex)	`Scanner`
По одному символу, крошечный файл	`FileReader`

Правильный вариант по умолчанию для случая «просто хочу загрузить этот небольшой текстовый файл» — Files.readString. Правильный вариант по умолчанию для «обработать этот огромный лог без переполнения памяти» — Files.lines.

Практический пример: один файл, пять ридеров

Программа ниже записывает небольшой текстовый файл, а затем читает его пятью разными способами — readString, readAllLines, Files.lines с фильтрацией через Predicate<String> из словаря части 12, BufferedReader.readLine и Scanner для токенизированных целых чисел. Каждый блок выводит то, что получил, чтобы вы могли видеть формы рядом.

java— editable, runs on the server

import java.io.*;
import java.nio.charset.StandardCharsets;
import java.nio.file.*;
import java.util.List;
import java.util.Scanner;
import java.util.function.Predicate;
import java.util.stream.Stream;

public class ReadFilesDemo {
  public static void main(String[] args) throws IOException {
    // Prepare a small file for the demo
    Path file = Files.createTempFile("read-demo-", ".txt");
    file.toFile().deleteOnExit();
    Files.writeString(file,
        """
        # log: a small file for the demo
        INFO  started
        DEBUG init complete
        ERROR connection refused
        INFO  retrying
        ERROR timeout
        INFO  ok
        42 81 17 99 8
        """,
        StandardCharsets.UTF_8);

// --- 1. Whole file as one String ---
    String all = Files.readString(file, StandardCharsets.UTF_8);
    System.out.println("--- Files.readString (" + all.length() + " chars) ---");
    System.out.print(all);

// --- 2. Whole file as List<String> ---
    List<String> lines = Files.readAllLines(file, StandardCharsets.UTF_8);
    System.out.println("\n--- Files.readAllLines (" + lines.size() + " lines) ---");
    System.out.println("line[0] = \"" + lines.get(0) + "\"");
    System.out.println("line[3] = \"" + lines.get(3) + "\"");

// --- 3. Files.lines + Stream pipeline (Part 12 vocab) ---
    Predicate<String> isError = l -> l.startsWith("ERROR");
    long errorCount;
    try (Stream<String> s = Files.lines(file, StandardCharsets.UTF_8)) {
      errorCount = s.filter(isError).count();
    }
    System.out.println("\n--- Files.lines + Stream ---");
    System.out.println("ERROR lines: " + errorCount);

// --- 4. BufferedReader.readLine loop ---
    System.out.println("\n--- BufferedReader.readLine (first 3 lines) ---");
    try (BufferedReader in = Files.newBufferedReader(file, StandardCharsets.UTF_8)) {
      for (int i = 0; i < 3; i++) {
        String line = in.readLine();
        if (line == null) break;
        System.out.println("  " + line);
      }
    }

// --- 5. Scanner for tokens (the last line is integers) ---
    System.out.println("\n--- Scanner: last line as integers ---");
    try (Scanner sc = new Scanner(file, StandardCharsets.UTF_8)) {
      // Skip the text part until we hit the integers line
      while (sc.hasNextLine() && !sc.hasNextInt()) sc.nextLine();
      int sum = 0;
      while (sc.hasNextInt()) sum += sc.nextInt();
      System.out.println("  sum = " + sum);
    }
  }
}

Что вынести из этого примера:

Files.readString вернул весь файл в виде одной String — просто и именно то, что нужно для небольших конфигов и шаблонов. Для 4 ГБ лога это привело бы к OutOfMemoryError.
Files.readAllLines вернул индексируемый List<String> со срезанными разделителями. lines.get(0) сработал, потому что список материализован в памяти; с потоком так сделать не получится.
Files.lines(file) был открыт внутри try-with-resources, так как поток владеет дескриптором файла. Конвейер .filter(isError).count() имеет ту же форму, что и в части 12 — изменился только источник.
BufferedReader.readLine() вернул null в конце файла. Цикл for здесь остановился на трёх намеренно, но в продакшн-коде идиома — while ((line = in.readLine()) != null).
Scanner пропустил строки, не начинающиеся с целого числа, затем читал токены с помощью nextInt(), пока они не закончились. Тот же Scanner мог бы читать числа с плавающей точкой (nextDouble), совпадения регулярных выражений (findInLine) или BigInteger — вот почему он стоит дороже на токен, чем BufferedReader на строку.

Что дальше

Следующая глава, Запись файлов в Java, охватывает сторону записи тех же API — Files.writeString, Files.write, BufferedWriter, PrintWriter и флаги StandardOpenOption (APPEND, CREATE_NEW, TRUNCATE_EXISTING), которые определяют, как обрабатывается существующий файл.

Практика

Вам нужно обработать 5 ГБ серверного лога построчно, считая строки, содержащие слово `ERROR`. Какой ридер подходит для этой задачи?

`Files.lines(path)` внутри `try`-with-resources, затем `.filter(...).count()` — он ленивый и не загружает файл в память`Files.readAllLines(path)`, затем итерация по `List<String>` — просто и быстро`Files.readString(path)`, затем `text.split("\n")` и подсчёт — одна строка кода`new Scanner(path).useDelimiter("ERROR")` и подсчёт получившихся токенов

Files.readString(path) — весь файл за один вызов

Files.readAllLines(path) — список строк

Files.readAllBytes(path) — необработанные байты

Files.lines(path) — ленивый поток

BufferedReader.readLine() — классический подход

Scanner — посимвольный разбор

FileReader — необработанный символьный ридер